Audio Flamingo 3: Новый шаг к аудиогенеральному интеллекту

NVIDIA представила Audio Flamingo 3: Открытая модель, продвигающая аудио-общую интеллигенцию

Недавно NVIDIA выпустила Audio Flamingo 3 (AF3), ставшую настоящим прорывом в области аудиопонимания для ИИ. Эта открытая модель не просто распознает речь или классифицирует звуки, а вносит революцию в то, как машины могут «слышать» и понимать звук на более глубоком уровне. Но что именно делает AF3 уникальным и для кого она может стать настоящей находкой?

Основные инновации Audio Flamingo 3

AF-Whisper: Унифицированный аудио-энкодер

AF3 использует новый AF-Whisper — энкодер, который работает с речью, фоновыми звуками и музыкой в одной архитектуре. Ранее отдельные энкодеры приводили к несоответствиям в интерпретации. AF-Whisper значительно улучшает точность благодаря использованию аудио-картированных наборов данных и многослойного 1280-мерного встраивания, что позволяет лучше соотносить звуки с текстом.

Мыслительные возможности: На-demand reasoning

AF3 обладает способностью к «мысли», предоставляя возможность проводить цепочку рассуждений. Модель может объяснить свои шаги, прежде чем прийти к ответу, что создает прозрачность в работе ИИ. Эта возможность меняет правила игры для аудио-ИИ, открывая новые горизонты.

Многоэтапные разговоры с множеством аудиофайлов

Благодаря набору данных AF-Chat, модель способна вести беседы, учитывающие несколько аудиозаписей одновременно. Это приближает взаимодействие с ИИ к реальным человеческим общением.

Долгое аудио-р reasoning

AF3 впервые становится полностью открытой моделью, способной рассуждать над аудио-входами до 10 минут. Она поддерживает задачи, такие как резюмирование встреч и понимание подкастов, что значительно увеличивает ее практическое применение в бизнесе и образовании.

Промышленные достижения и реальная применимость

NVIDIA провела обширные тесты, которые показали, что AF3 превосходит существующие и закрытые модели на более чем 20 бенчмарках. Результаты говорят сами за себя:

MMAU (среднее): 73.14% — на 2.14% выше Qwen2.5-O
LongAudioBench: 68.6 — лучше, чем Gemini 2.5 Pro
LibriSpeech (ASR): 1.57% WER — превосходит Phi-4-mm
ClothoAQA: 91.1% — против 89.2% от Qwen2.5-O

Эти достижения значительно меняют представления о возможностях аудио-языковых систем, открывая путь к новым приложениям в разных сферах.

Данные, которые обучают аудио-рассуждениям

NVIDIA не только увеличила вычислительные мощности, но и кардинально пересмотрела подход к данным. Некоторые ключевые наборы данных включают:

AudioSkills-XL: 8 миллионов примеров, объединяющих рассуждения о звуках, музыке и речи.
LongAudio-XL: охватывает длинные аудиозаписи из подкастов и встреч.
AF-Think: фокусируется на кратких примерах рассуждений.
AF-Chat: создан для многоуровневых разговоров с несколькими аудио-входами.

Открытый код: Доступность и исследование

Одним из ключевых аспектов AF3 является ее открытость. NVIDIA выпустила:

Вес модели
Рецепты обучения
Код вывода
Четыре открытых набора данных

Эта прозрачность делает AF3 самым доступным аудио-языковым моделем на рынке, открывая новые исследовательские направления в области аудио-рассуждений и многомодальных взаимодействий.

Заключение: К общей аудио-интеллигенции

Audio Flamingo 3 демонстрирует, что глубокое понимание звука не только возможно, но и доступно для дальнейших исследований и практического применения. Объединив масштаб, новые стратегии обучения и разнообразные данные, NVIDIA предоставляет модель, которая слушает, понимает и рассуждает так, как ранее не могла ни одна другая.

Готовы ли вы познакомиться с новыми возможностями в аудио-ИИ? Загляните на Hugging Face и узнайте больше о модели, ее коде и исследованиях, связанных с проектом.