Itinai.com user using ui app iphone 15 closeup hands photo ca 5ac70db5 4cad 4262 b7f4 ede543ce98bb 2

Искусственный интеллект и восприятие: как модели DINOv3 раскрывают тайны человеческой визуальной обработки

Itinai.com user using ui app iphone 15 closeup hands photo ca 5ac70db5 4cad 4262 b7f4 ede543ce98bb 2

AI and the Brain: Как Модели DINOv3 Раскрывают Секреты Человеческой Визуальной Обработки

Понимание того, как мозг строит внутренние представления визуального мира, представляет собой серьезную задачу в нейробиологии. За последние десятилетия глубокое обучение преобразило компьютерное зрение, создавая нейронные сети, которые достигают уровня точности, сопоставимого с человеческим, и демонстрируют методы обработки, напоминающие работу нашего мозга. Это порождает любопытный вопрос: может ли изучение моделей ИИ повысить наши знания о том, как мозг учится воспринимать визуальные стимулы?

Исследование DINOv3

Команда исследователей из Meta AI и École Normale Supérieure изучила этот вопрос, рассматривая DINOv3 – самонастраивающийся трансформер, обученный на миллиардах естественных изображений. Они сопоставили внутренние активации DINOv3 с ответами человеческого мозга на те же изображения, используя две взаимодополняющие нейровизуализационные техники: функциональная МРТ и магнитно-энцефалография. Это сочетание данных предоставило полное представление о процессах обработки визуальной информации в мозге.

Технические подробности

Исследователи изучили три фактора, которые могут влиять на сходство мозг-модель: размер модели, объем обучающих данных и тип изображений, используемых для обучения. Они обучили несколько версий DINOv3, изменяя эти параметры независимо друг от друга.

Сходство между мозгом и моделью

Исследование показывало весомые доказательства конвергенции между DINOv3 и ответами человеческого мозга. Активации модели предсказывали сигналы fMRI как в ранних зрительных областях, так и в более сложных корковых зонах, достигая пиковых корреляций R = 0.45. Результаты MEG указывали на то, что согласование начиналось уже через 70 миллисекунд после появления изображения и сохранялось до трех секунд. Особенно примечательно, что ранние слои DINOv3 совпадали с областями, такими как V1 и V2, в то время как более глубокие слои коррелировали с активностью в высокоуровневых областях, включая префронтальную кору.

Траектории обучения

Отслеживание этих сходств на протяжении обучения выявило определенную траекторию развития. Сходства на высоком уровне стали появляться только после обработки миллиардов изображений. Это перекликается с развитием человеческого мозга, где сенсорные области созревают раньше, чем ассоциативные кортикальные зоны. Исследование показало, что временное согласование проявляется быстрее, а пространственное – медленнее, подчеркивая многоуровневую природу формирования представлений.

Роль факторов модели

Также важно отметить, что размер модели играл значительную роль. Более крупные модели стабильно показывали более высокие показатели сходства, особенно в высокоуровневых корковых зонах. Удлиненное обучение улучшало согласование во всех случаях, причем высокоуровневые представления извлекали максимальную выгоду от длительного обучения. Тип изображений, использованных для обучения, оказался ключевым: модели, обученные на человекоцентрированных изображениях, имели наиболее выраженное сходство, в то время как те, что обучались на спутниковых изображениях, показывали лишь частичное сходство в ранних зрительных областях.

Связь с корковыми свойствами

Интересно, что время появления представлений DINOv3 соотносилось со структурными и функциональными характеристиками коры. Области с более выраженным развитием и толстыми корковыми слоями демонстрировали согласование позже в процессе обучения, в то время как слабомоелинизированные участки показывали раннее согласование, что отражает их роль в быстрой обработке информации. Эти корреляции указывают на то, что модели ИИ могут предоставить полезные insights о биологических принципах, лежащих в основе организации коры.

Нативизм против эмпиризма

Это исследование подчеркивает баланс между врожденной структурой и обучением. Архитектура DINOv3 включает иерархический процессинг, однако полное схожество с мозгом проявилось только после длительной подготовки на эколого-валидных данных. Это взаимодействие между архитектурными предрассудками и опытом перекликается с текущими дискуссиями в когнитивных науках о нативизме и эмпиризме.

Развитие параллелей

Параллели с развитием человека поразительны. Аналогично тому, как сенсорные кортики мозга быстро созревают, а ассоциативные зоны развиваются медленнее, DINOv3 также демонстрировал согласование с сенсорными областями на ранних стадиях обучения и с префронтальными областями гораздо позже. Это указывает на то, что траектории обучения в масштабных моделях ИИ могут использоваться как вычислительные аналоги этапной зрелости функций человеческого мозга.

За пределами визуального пути

Результаты исследования выходят за пределы традиционных визуальных путей. DINOv3 демонстрировал согласование в префронтальных и мультизадачных областях, поднимая вопросы о том, могут ли такие модели захватывать высокоуровневые особенности, имеющие значение для рассуждений и принятия решений. Несмотря на то, что это исследование фокусируется исключительно на DINOv3, оно указывает на захватывающие возможности использования ИИ как инструмента для проверки гипотез о организации и развитии мозга.

Заключение

Это исследование указывает на то, что самонастраивающиеся визуальные модели, такие как DINOv3, являются не только мощными системами компьютерного зрения, но и приближают множество аспектов человеческой визуальной обработки. Изучая, как модели учатся воспринимать, мы получаем ценные insights о том, как человеческий мозг развивает способность интерпретировать мир.

Чтобы получить более детальные insights, ознакомьтесь с исследованием.

Новости в сфере искусственного интеллекта