Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

Сокращение данных для обучения LLM с помощью ИИ Google: от 100,000 до 500 меток

Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

От 100,000 до менее 500 меток: Как ИИ Google сокращает объем данных для обучения LLM в десятки раз

Недавние исследования Google показали, что существует способ тонкой настройки больших языковых моделей (LLM), который позволяет сократить объем необходимых данных для обучения до 10,000 раз, сохраняя или даже улучшая качество модели. Этот подход основывается на активном обучении и направляет усилия экспертов по аннотированию на самые информативные примеры — «пограничные случаи», где неопределенность модели достигает пика.

Традиционные узкие места

Тонкая настройка LLM для задач, требующих глубокого контекстуального и культурного понимания, таких как безопасность рекламного контента или модерация, обычно требует огромных объемов качественно аннотированных данных. Большинство данных являются безобидными, что означает, что для обнаружения нарушений политики только небольшая часть примеров имеет критическое значение, что увеличивает затраты и сложность кураторства данных. Стандартные методы также сталкиваются с трудностями при изменении политик или выявлении проблемных паттернов, что требует дорогостоящей повторной настройки.

Прорыв в активном обучении Google

Как это работает:

  • LLM как разведчик: Модель сканирует огромный корпус данных (сотни миллиардов примеров), чтобы определить случаи, в которых она наименее уверена.
  • Целенаправленное аннотирование экспертами: Человеческие эксперты аннотируют только те пограничные, запутанные элементы, вместо того чтобы помечать тысячи случайных примеров.
  • Итеративное кураторство: Этот процесс повторяется, с новыми «проблемными» примерами, основанными на последних точках неопределенности модели.
  • Быстрая сходимость: Модели настраиваются в несколько раундов, пока их вывод не будет близок к экспертной оценке, измеряемой по коэффициенту Каппа Коэна, который сравнивает согласие между аннотаторами выше случайного.

Влияние

В экспериментах с моделями Gemini Nano-1 и Nano-2 согласие с человеческими экспертами достигло паритета или даже лучше, используя 250–450 хорошо выбранных примеров вместо ~100,000 случайных меток от толпы — сокращение в три-четыре порядка величины. Для более сложных задач и больших моделей улучшения производительности достигали 55–65% по сравнению с базовым уровнем, что демонстрирует более надежное согласие с экспертами по политике. Высокое качество меток было постоянно необходимо для надежного прироста с использованием небольших наборов данных (Каппа Коэна > 0.8).

Почему это важно

Этот подход трансформирует традиционную парадигму. Вместо того чтобы заваливать модели огромными объемами шумных, избыточных данных, он использует способность LLM выявлять неоднозначные случаи и экспертное мнение аннотаторов там, где их вклад наиболее ценен. Преимущества включают:

  • Снижение затрат: Меньшее количество примеров для аннотирования значительно снижает трудозатраты и капитальные расходы.
  • Быстрые обновления: Возможность повторной настройки моделей на основе небольшого количества примеров позволяет быстро адаптироваться к новым паттернам злоупотреблений, изменениям в политике или сдвигам в области.
  • Социальное воздействие: Улучшенная способность к контекстуальному и культурному пониманию увеличивает безопасность и надежность автоматизированных систем, обрабатывающих чувствительный контент.

В заключение

Новая методология Google позволяет тонко настраивать LLM для сложных, развивающихся задач всего на основе сотен (а не сотен тысяч) целевых, высококачественных меток — открывая более гибкий и экономически эффективный процесс разработки моделей.

Дополнительную информацию можно найти в технической статье на блоге Google. Не забудьте посетить нашу страницу на GitHub для учебных материалов, кода и ноутбуков. Также следите за нами в Twitter и присоединяйтесь к нашему сообществу на Reddit с более чем 100,000 участников, а также подписывайтесь на нашу рассылку.

Новости в сфере искусственного интеллекта