Itinai.com ai compare futuristic offices of it companies imag 4a5cb5c8 72fd 4257 b1c1 d3aa2dcb17a6 1

Запуск Qwen3-ASR: Новый Модель Автоматического Распознавания Речи от Alibaba

Itinai.com ai compare futuristic offices of it companies imag 4a5cb5c8 72fd 4257 b1c1 d3aa2dcb17a6 1

Alibaba Qwen Team Releases Qwen3-ASR: Новая модель распознавания речи

Команда Alibaba Qwen представила Qwen3-ASR Flash, универсальную модель автоматического распознавания речи, доступную как API-сервис. Эта модель использует интеллектуальные возможности Qwen3-Omni для упрощения многозначного, шумного и специфического транскрибирования без необходимости в нескольких системах.

Ключевые возможности Qwen3-ASR

  • Многоязычное распознавание: Поддержка автоматического определения и транскрибирования на 11 языках, включая английский, китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский, португальский, русский и упрощенный китайский. Эта функция открывает Qwen3-ASR для глобального использования без необходимости в отдельных моделях.
  • Механизм внедрения контекста: Пользователи могут вставлять произвольные тексты, такие как имена, профессиональная терминология или даже бессмысленные строки, для корректировки транскрипции. Это особенно полезно в сценариях, богатых идиомами и собственными именами.
  • Надежная обработка аудио: Сохраняет свою эффективность в шумной обстановке, низкокачественных записях и при дальнем вводе (например, с расстояния через микрофоны). Уровень ошибок слов (WER) остаётся ниже 8%, что весьма впечатляюще при различных входных данных.
  • Упрощение с помощью единой модели: Устраняет сложности, связанные с поддержкой разных моделей для различных языков или аудиоконтекстов. Одна модель с API-сервисом управляет всем.

Практическое применение Qwen3-ASR

Применение Qwen3-ASR охватывает множество отраслей, включая:

  • Образовательные платформы: Захват лекций, многоязычное обучение и создание автоматизированных материалов.
  • Медиа: Субтитры, озвучивание и создание контента на разных языках.
  • Клиентская поддержка: Многоязычные системы IVR и транскрибирование поддержки.

Техническая оценка

Эта модель действительно выделяется на фоне аналогов благодаря уникальным техническим возможностям:

  • Автоматическое обнаружение языка: Важный фактор для смешанных языковых сред или пассивного захвата аудио. Упрощает использование, сводя к минимуму необходимость в ручном выборе языка.
  • Внедрение контекстуальных токенов: Пользователи могут вставлять текст в качестве контекста, чтобы настроить распознавание на ожидаемую лексику.
  • WER < 8% в сложных сценариях: Поддержание показателя WER ниже 8% при обработке музыки, рэпа и фонового шума позволяет квалифицировать Qwen3-ASR среди лучших систем открытого распознавания. Для сравнения, надежные модели для чистого речевого прочтения, как правило, нацелены на WER в 3-5%, но производительность часто значительно снижается в шумных или музыкальных контекстах.
  • Многоязычное покрытие: Поддержка 11 языков указывает на значительные объемы многоязычных тренировочных данных и способности межъязыкового моделирования.
  • Архитектура одной модели: Оперативно эффективная, позволяющая развертывание одной модели для всех задач. Это сводит к минимуму операционные затраты и трудности.

Развертывание и демо

Платформа Hugging Face для Qwen3-ASR предлагает живой интерфейс, где пользователи могут загружать аудио, по желанию вводить контекст и выбирать язык или использовать автоопределение. Она доступна как API-сервис.

Заключение

Qwen3-ASR Flash, доступная как API-сервис, представляет собой привлекательно настроенное и легко развертываемое решение ASR. Оно сочетает в себе многоязычную поддержку, транскрипцию с учетом контекста и надежное распознавание в условиях шума — все в рамках одной модели.

Для получения дополнительной информации ознакомьтесь с API-сервисом, техническими деталями и демо на Hugging Face. Вы также можете посетить нашу страницу на GitHub для получения руководств, кода и блокнотов. Подписывайтесь на наш Twitter, присоединяйтесь к нашему сообществу на ML SubReddit с более чем 100 тыс. участников и подписывайтесь на нашу рассылку новостей.

Новости в сфере искусственного интеллекта