NVIDIA представила Audio Flamingo 3: Открытая модель, продвигающая аудио-общую интеллигенцию
Недавно NVIDIA выпустила Audio Flamingo 3 (AF3), ставшую настоящим прорывом в области аудиопонимания для ИИ. Эта открытая модель не просто распознает речь или классифицирует звуки, а вносит революцию в то, как машины могут «слышать» и понимать звук на более глубоком уровне. Но что именно делает AF3 уникальным и для кого она может стать настоящей находкой?
Основные инновации Audio Flamingo 3
AF-Whisper: Унифицированный аудио-энкодер
AF3 использует новый AF-Whisper — энкодер, который работает с речью, фоновыми звуками и музыкой в одной архитектуре. Ранее отдельные энкодеры приводили к несоответствиям в интерпретации. AF-Whisper значительно улучшает точность благодаря использованию аудио-картированных наборов данных и многослойного 1280-мерного встраивания, что позволяет лучше соотносить звуки с текстом.
Мыслительные возможности: На-demand reasoning
AF3 обладает способностью к «мысли», предоставляя возможность проводить цепочку рассуждений. Модель может объяснить свои шаги, прежде чем прийти к ответу, что создает прозрачность в работе ИИ. Эта возможность меняет правила игры для аудио-ИИ, открывая новые горизонты.
Многоэтапные разговоры с множеством аудиофайлов
Благодаря набору данных AF-Chat, модель способна вести беседы, учитывающие несколько аудиозаписей одновременно. Это приближает взаимодействие с ИИ к реальным человеческим общением.
Долгое аудио-р reasoning
AF3 впервые становится полностью открытой моделью, способной рассуждать над аудио-входами до 10 минут. Она поддерживает задачи, такие как резюмирование встреч и понимание подкастов, что значительно увеличивает ее практическое применение в бизнесе и образовании.
Промышленные достижения и реальная применимость
NVIDIA провела обширные тесты, которые показали, что AF3 превосходит существующие и закрытые модели на более чем 20 бенчмарках. Результаты говорят сами за себя:
- MMAU (среднее): 73.14% — на 2.14% выше Qwen2.5-O
- LongAudioBench: 68.6 — лучше, чем Gemini 2.5 Pro
- LibriSpeech (ASR): 1.57% WER — превосходит Phi-4-mm
- ClothoAQA: 91.1% — против 89.2% от Qwen2.5-O
Эти достижения значительно меняют представления о возможностях аудио-языковых систем, открывая путь к новым приложениям в разных сферах.
Данные, которые обучают аудио-рассуждениям
NVIDIA не только увеличила вычислительные мощности, но и кардинально пересмотрела подход к данным. Некоторые ключевые наборы данных включают:
- AudioSkills-XL: 8 миллионов примеров, объединяющих рассуждения о звуках, музыке и речи.
- LongAudio-XL: охватывает длинные аудиозаписи из подкастов и встреч.
- AF-Think: фокусируется на кратких примерах рассуждений.
- AF-Chat: создан для многоуровневых разговоров с несколькими аудио-входами.
Открытый код: Доступность и исследование
Одним из ключевых аспектов AF3 является ее открытость. NVIDIA выпустила:
- Вес модели
- Рецепты обучения
- Код вывода
- Четыре открытых набора данных
Эта прозрачность делает AF3 самым доступным аудио-языковым моделем на рынке, открывая новые исследовательские направления в области аудио-рассуждений и многомодальных взаимодействий.
Заключение: К общей аудио-интеллигенции
Audio Flamingo 3 демонстрирует, что глубокое понимание звука не только возможно, но и доступно для дальнейших исследований и практического применения. Объединив масштаб, новые стратегии обучения и разнообразные данные, NVIDIA предоставляет модель, которая слушает, понимает и рассуждает так, как ранее не могла ни одна другая.
Готовы ли вы познакомиться с новыми возможностями в аудио-ИИ? Загляните на Hugging Face и узнайте больше о модели, ее коде и исследованиях, связанных с проектом.