Эффективное и адаптивное улучшение речи с использованием предобученных генеративных аудиоэнкодеров и вокодеров

Эффективное и Адаптируемое Улучшение Речи с Помощью Предобученных Генеративных Аудиоэнкодеров и Вокодеров

В последние годы технологии улучшения речи (SE) стремительно развиваются. Мы наблюдаем сдвиг от традиционных методов, таких как предсказание маски или сигнала, к использованию предобученных аудиомоделей. Эти модели, такие как WavLM, извлекают значимые аудиоэмбеддинги, что значительно улучшает качество SE. Некоторые подходы используют эти эмбеддинги для предсказания масок, в то время как другие комбинируют их со спектральными данными для большей точности. Однако многие из этих методов требуют замораживания предобученных моделей или обширной донастройки, что ограничивает их адаптивность и увеличивает вычислительные затраты.

Новая Методика от MiLM Plus и Xiaomi Inc.

Исследователи из MiLM Plus, Xiaomi Inc., представили легкий и гибкий метод SE, который использует предобученные модели. В этом методе аудиоэмбеддинги извлекаются из зашумленной речи с помощью замороженного аудиоэнкодера. Затем эти эмбеддинги уточняются с помощью небольшого денойз-энкодера перед передачей в вокодер для генерации чистой речи. В отличие от моделей, специфичных для задач, как аудиоэнкодер, так и вокодер обучаются отдельно, что делает систему адаптируемой для таких задач, как устранение реверберации или разделение звуковых источников.

Компоненты Системы

Предложенная система улучшения речи состоит из трех основных компонентов:

Извлечение эмбеддингов: Зашумленная речь обрабатывается через предобученный аудиоэнкодер, который генерирует зашумленные аудиоэмбеддинги.
Уточнение эмбеддингов: Денойз-энкодер уточняет эти эмбеддинги, создавая более чистые версии.
Генерация речи: Вокодер преобразует очищенные эмбеддинги обратно в речь.

Оба компонента, денойз-энкодер и вокодер, обучаются независимо, опираясь на один и тот же замороженный предобученный аудиоэнкодер. Во время обучения денойз-энкодер минимизирует разницу между зашумленными и чистыми эмбеддингами, используя метод наименьших квадратов. Архитектура энкодера основана на ViT с использованием стандартных слоев активации и нормализации.

Результаты Оценки

Результаты оценки показывают, что генеративные аудиоэнкодеры, такие как Dasheng, последовательно превосходят дискриминационные модели. На наборе данных DNS1 Dasheng достиг показателя схожести говорящего 0.881, в то время как WavLM и Whisper получили 0.486 и 0.489 соответственно. Что касается качества речи, неинвазивные метрики, такие как DNSMOS и NISQAv2, показали значительные улучшения, даже с меньшими денойз-энкодерами. Например, ViT3 достиг DNSMOS 4.03 и NISQAv2 4.41. Субъективные прослушивания с участием 17 человек показали, что Dasheng получил среднюю оценку мнения (MOS) 3.87, что значительно превышает показатели других моделей.

Практическое Применение и Выгоды

Такое улучшение речи находит широкое применение в различных сферах: от телекоммуникаций до медицины. Например, в условиях плохой слышимости, таких как шумные офисы или во время видеозвонков, эта технология может значительно улучшить качество звука. Кроме того, она может быть полезна для людей с нарушениями слуха, позволяя им лучше воспринимать речь.

С точки зрения затрат, внедрение этой системы может оказаться более экономически эффективным, чем традиционные методы, так как она требует меньших вычислительных ресурсов и времени на обучение. Это позволяет компаниям снизить затраты на оборудование и обучение персонала, что делает технологию доступной для более широкого круга пользователей.

Заключение

В данной статье представлена практическая и адаптируемая система улучшения речи, основанная на предобученных генеративных аудиоэнкодерах и вокодерах. Эта система исключает необходимость полной донастройки моделей, что делает её более доступной и эффективной. Оценки показывают, что генеративные аудиоэнкодеры значительно превосходят дискриминационные модели по качеству речи и схожести говорящего. Компактный денойз-энкодер сохраняет высокое качество восприятия даже с меньшим количеством параметров, а субъективные тесты подтверждают, что этот метод обеспечивает превосходную четкость по сравнению с существующими передовыми моделями.