Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

Энергетические Трансформеры: Новый Уровень Машинного Обучения

Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

Unsupervised System 2 Thinking: Следующий шаг в машинном обучении с Energy-Based Transformers

Исследования в области искусственного интеллекта стремительно развиваются, переходя от простого распознавания шаблонов к системам, способным к сложному, человеческому мышлению. Последний прорыв в этом направлении стал возможен благодаря введению Energy-Based Transformers (EBT) — семейства нейронных архитектур, специально разработанных для реализации «System 2 Thinking» в машинах без необходимости в специфическом надзоре или ограничительных сигналах обучения.

От распознавания шаблонов к осознанному рассуждению

Человеческое мышление часто описывается через две системы: Система 1 (быстрая, интуитивная, автоматическая) и Система 2 (медленная, аналитическая, требующая усилий). Современные модели ИИ прекрасно справляются с задачами Системы 1 — они быстро делают прогнозы на основе опыта, но зачастую не могут выполнить сложные, многоступенчатые рассуждения, необходимые для решения трудных задач. Текущие усилия, такие как обучение с подкреплением, ограничены областями, где правильность легко проверить, и испытывают трудности с обобщением.

Energy-Based Transformers: Основы Unsupervised System 2 Thinking

Ключевое новшество EBT заключается в их архитектурном дизайне и процедуре обучения. Вместо того чтобы напрямую генерировать выходные данные за один проход, EBT учат функцию энергии, которая назначает скалярное значение каждой паре вход-выход, представляя их совместимость или «ненормализованную вероятность». Рассуждение становится процессом оптимизации: начиная с случайной начальной догадки, модель итеративно уточняет свой прогноз через минимизацию энергии — аналогично тому, как люди исследуют и проверяют решения, прежде чем принять решение.

Этот подход позволяет EBT демонстрировать три критически важных способности для продвинутого рассуждения, которых не хватает большинству современных моделей:

  • Динамическое распределение вычислительных ресурсов: EBT могут уделять больше вычислительных усилий — больше «шагов мышления» — для сложных задач или неопределенных предсказаний, вместо того чтобы равномерно относиться ко всем задачам.
  • Естественное моделирование неопределенности: Отслеживая уровни энергии на протяжении всего процесса мышления, EBT могут моделировать свою уверенность (или её отсутствие), особенно в сложных, непрерывных областях, таких как зрение.
  • Явная верификация: Каждое предложенное предсказание сопровождается энергетическим баллом, указывающим, насколько хорошо оно соответствует контексту, позволяя модели самопроверяться и отдавать предпочтение тем ответам, которые она «знает» правдоподобными.

Преимущества по сравнению с существующими подходами

В отличие от обучения с подкреплением или внешнего надзора, EBT не требуют ручной настройки вознаграждений или дополнительного надзора; их способности Системы 2 возникают непосредственно из целей ненадзорного обучения. Более того, EBT по своей природе являются модально-агностичными — они масштабируются как для дискретных областей (таких как текст и язык), так и для непрерывных (таких как изображения или видео), что недоступно для большинства специализированных архитектур.

Экспериментальные данные показывают, что EBT не только улучшают производительность в задачах языка и зрения, когда им предоставляется возможность «долго думать», но и более эффективно масштабируются в процессе обучения — как по данным, так и по вычислительным ресурсам, и размеру модели — по сравнению с современными базовыми моделями Transformer. Примечательно, что их способность обобщать улучшается по мере усложнения задачи, что отражает выводы когнитивной науки о человеческом рассуждении в условиях неопределенности.

Платформа для масштабируемого мышления и обобщения

Парадигма Energy-Based Transformer сигнализирует о пути к более мощным и гибким системам ИИ, способным адаптировать глубину своего рассуждения к требованиям задачи. Поскольку данные становятся узким местом для дальнейшего масштабирования, эффективность и надежное обобщение EBT могут открыть двери к достижениям в моделировании, планировании и принятии решений в широком спектре областей.

Хотя текущие ограничения остаются — такие как увеличенные вычислительные затраты во время обучения и трудности с высоко многомодальным распределением данных — будущие исследования готовы построить на основе, заложенной EBT. Потенциальные направления включают комбинирование EBT с другими нейронными парадигмами, разработку более эффективных стратегий оптимизации и расширение их применения к новым многомодальным и последовательным задачам рассуждения.

Резюме

Energy-Based Transformers представляют собой значительный шаг к созданию машин, которые могут «думать» больше как люди — не просто реагируя рефлексивно, но останавливаясь, чтобы анализировать, проверять и адаптировать свои рассуждения для открытых, сложных задач в любой модальности.

Изучите статью и страницу на GitHub. Все заслуги за это исследование принадлежат исследователям этого проекта.

Новости в сфере искусственного интеллекта