Alibaba Qwen Team Releases Qwen3-ASR: Новая модель распознавания речи
Команда Alibaba Qwen представила Qwen3-ASR Flash, универсальную модель автоматического распознавания речи, доступную как API-сервис. Эта модель использует интеллектуальные возможности Qwen3-Omni для упрощения многозначного, шумного и специфического транскрибирования без необходимости в нескольких системах.
Ключевые возможности Qwen3-ASR
- Многоязычное распознавание: Поддержка автоматического определения и транскрибирования на 11 языках, включая английский, китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский, португальский, русский и упрощенный китайский. Эта функция открывает Qwen3-ASR для глобального использования без необходимости в отдельных моделях.
- Механизм внедрения контекста: Пользователи могут вставлять произвольные тексты, такие как имена, профессиональная терминология или даже бессмысленные строки, для корректировки транскрипции. Это особенно полезно в сценариях, богатых идиомами и собственными именами.
- Надежная обработка аудио: Сохраняет свою эффективность в шумной обстановке, низкокачественных записях и при дальнем вводе (например, с расстояния через микрофоны). Уровень ошибок слов (WER) остаётся ниже 8%, что весьма впечатляюще при различных входных данных.
- Упрощение с помощью единой модели: Устраняет сложности, связанные с поддержкой разных моделей для различных языков или аудиоконтекстов. Одна модель с API-сервисом управляет всем.
Практическое применение Qwen3-ASR
Применение Qwen3-ASR охватывает множество отраслей, включая:
- Образовательные платформы: Захват лекций, многоязычное обучение и создание автоматизированных материалов.
- Медиа: Субтитры, озвучивание и создание контента на разных языках.
- Клиентская поддержка: Многоязычные системы IVR и транскрибирование поддержки.
Техническая оценка
Эта модель действительно выделяется на фоне аналогов благодаря уникальным техническим возможностям:
- Автоматическое обнаружение языка: Важный фактор для смешанных языковых сред или пассивного захвата аудио. Упрощает использование, сводя к минимуму необходимость в ручном выборе языка.
- Внедрение контекстуальных токенов: Пользователи могут вставлять текст в качестве контекста, чтобы настроить распознавание на ожидаемую лексику.
- WER < 8% в сложных сценариях: Поддержание показателя WER ниже 8% при обработке музыки, рэпа и фонового шума позволяет квалифицировать Qwen3-ASR среди лучших систем открытого распознавания. Для сравнения, надежные модели для чистого речевого прочтения, как правило, нацелены на WER в 3-5%, но производительность часто значительно снижается в шумных или музыкальных контекстах.
- Многоязычное покрытие: Поддержка 11 языков указывает на значительные объемы многоязычных тренировочных данных и способности межъязыкового моделирования.
- Архитектура одной модели: Оперативно эффективная, позволяющая развертывание одной модели для всех задач. Это сводит к минимуму операционные затраты и трудности.
Развертывание и демо
Платформа Hugging Face для Qwen3-ASR предлагает живой интерфейс, где пользователи могут загружать аудио, по желанию вводить контекст и выбирать язык или использовать автоопределение. Она доступна как API-сервис.
Заключение
Qwen3-ASR Flash, доступная как API-сервис, представляет собой привлекательно настроенное и легко развертываемое решение ASR. Оно сочетает в себе многоязычную поддержку, транскрипцию с учетом контекста и надежное распознавание в условиях шума — все в рамках одной модели.
Для получения дополнительной информации ознакомьтесь с API-сервисом, техническими деталями и демо на Hugging Face. Вы также можете посетить нашу страницу на GitHub для получения руководств, кода и блокнотов. Подписывайтесь на наш Twitter, присоединяйтесь к нашему сообществу на ML SubReddit с более чем 100 тыс. участников и подписывайтесь на нашу рассылку новостей.













