Tencent Hunyuan Open-Sources Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B: Современные Многоязычные Модели Перевода
Команда Tencent Hunyuan представила два новаторских решения в области машинного перевода — Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B. Эти модели открывают новые горизонты в многоязычном переводе, что делает их особенно актуальными для бизнеса, работающего на международном уровне.
Обзор моделей
Hunyuan-MT-7B
Эта модель содержит 7 миллиардов параметров и поддерживает взаимный перевод на 33 языках, включая языки китайских этнических меньшинств, такие как тибетский, монгольский, уйгурский и казахский. Hunyuan-MT-7B оптимизирована как для задач с большим объемом данных, так и для низкоресурсных языков, обеспечивая результаты на уровне лучших современных решений.
Hunyuan-MT-Chimera-7B
Эта модель предлагает уникальный подход к интеграции переводов, комбинируя множественные выходные данные в процессе обработки. Используя методы обучения с подкреплением и агрегации, Hunyuan-MT-Chimera-7B демонстрирует качество перевода, превосходя результаты, полученные от отдельных систем.
Обучение моделей
Модели были обучены с использованием пятиступенчатой структуры, определяющей качество перевода:
- Общее предобучение: Использовано 1,3 триллиона токенов на 112 языках и диалектах, что обеспечивает разнообразие данных.
- Предобучение для MT: Использованы монолингвальные корпуса из mC4 и OSCAR, отфильтрованные по качеству.
- Супервизированная дообучение: Включает два этапа с примерно 3 миллионами пар переводов, проверенных вручную.
- Обучение с подкреплением: Применяются алгоритмы для повышения качества перевода.
- Обучение с использованием слабого и сильного RL: Генерирует несколько кандидатных выходов, агрегируемых на основе оценки.
Результаты тестирования
Автоматическая оценка
На оценке WMT24pp модель Hunyuan-MT-7B получила 0.8585 (XCOMET-XXL), обойдя более крупные модели, такие как Gemini-2.5-Pro (0.8250) и Claude-Sonnet-4 (0.8120). В тестировании FLORES-200 модель показала 0.8758, превзойдя открытые эталоны, например Qwen3-32B (0.7933).
Сравнительные результаты
Hunyuan-MT-7B обошла Google Translator на 15–65% в различных категориях, а также специализированные модели, такие как Tower-Plus-9B и Seed-X-PPO-7B, несмотря на меньшее количество параметров. Модель Chimera-7B добавила 2.3% улучшения на FLORES-200.
Человеческая оценка
Специально созданный набор для оценки показал, что Hunyuan-MT-7B достигла средней оценки 3.189, близкой к качеству более крупных проприетарных моделей.
Практические примеры использования
Некоторые реальные случаи применения моделей демонстрируют их возможности:
- Культурные ссылки: Корректный перевод термина “小红薯” как платформы “REDnote”.
- Идиомы: Интерпретация фразы “You are killing me” как “你真要把我笑死了”, избегая дословного перевода.
- Медицинские термины: Точный перевод “камни в почках мочевой кислоты”.
- Языки меньшинств: Создание связных переводов для казахского и тибетского языков.
- Улучшения Chimera: Повышение качества перевода в области сленга видеоигр и спортивной терминологии.
Заключение
Запуск Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B от Tencent устанавливает новый стандарт для открытого перевода. Сочетая продуманную структуру обучения с акцентом на перевод низкоресурсных языков, эти модели предлагают качество, сопоставимое с более крупными закрытыми системами. Это открывает доступ к высокопроизводительным инструментам для многоязычного перевода как для исследовательского сообщества, так и для бизнеса.
Не забудьте ознакомиться с научной работой, страницей на GitHub и моделью на Hugging Face. Все заслуги за это исследование принадлежат исследователям проекта. Также приглашаем вас посетить нашу страницу на GitHub для получения учебных материалов, кода и блокнотов. Подписывайтесь на наш Twitter и присоединяйтесь к нашему сообществу на ML SubReddit с более чем 100 тысячами участников, а также подписывайтесь на нашу рассылку новостей.














