Itinai.com it company office background blured photography by 783785eb 8fa3 46e6 bc84 19f52afaa824 1

Критика Apple по поводу рассуждений ИИ: преждевременные выводы

Itinai.com it company office background blured photography by 783785eb 8fa3 46e6 bc84 19f52afaa824 1

«`html

Почему критика Apple по поводу логики ИИ преждевременна

Дискуссия о возможностях логического мышления больших моделей (LRMs) вновь разгорелась благодаря двум противоречивым исследованиям: статье Apple «Иллюзия мышления» и ответу Anthropic под названием «Иллюзия иллюзии мышления». В то время как Apple утверждает, что у LRMs есть фундаментальные ограничения в их логических способностях, Anthropic настаивает на том, что эти выводы связаны с недостатками в оценке, а не с неудачами моделей.

Выводы Apple

Исследование Apple систематически тестировало LRMs в контролируемых условиях, наблюдая за «коллапсом точности» при увеличении сложности задач. Модели, такие как Claude-3.7 Sonnet и DeepSeek-R1, не смогли решить такие головоломки, как «Башня Ханоя» и «Переправа через реку», когда сложность возросла. Apple выделила три различных режима сложности: стандартные LLMs превосходят LRMs при низкой сложности, LRMs показывают лучшие результаты при средней сложности, а оба типа моделей терпят неудачу при высокой сложности. Критически важно, что оценки Apple пришли к выводу о том, что ограничения LRMs связаны с их неспособностью применять точные вычисления и последовательное алгоритмическое мышление.

Ответ Anthropic

Anthropic резко оспаривает выводы Apple, указывая на критические недостатки в экспериментальном дизайне, а не в самих моделях. Они выделяют три основных проблемы:

  • Ограничения токенов против логических неудач: Anthropic подчеркивает, что неудачи, наблюдаемые в экспериментах Apple с «Башней Ханоя», были в первую очередь вызваны ограничениями на количество токенов, а не недостатками в логике. Модели явно указывали на свои ограничения, намеренно сокращая свои выводы.
  • Неправильная классификация сбоев в логике: Anthropic указывает, что автоматическая оценка Apple неправильно интерпретировала намеренные сокращения как сбои в логике. Этот жесткий метод оценки не учитывал осознание моделей и их принятие решений относительно длины вывода.
  • Неразрешимые задачи неправильно интерпретированы: Anthropic демонстрирует, что некоторые из контрольных задач Apple были математически невозможны для решения. Оценка этих нерешаемых случаев как неудач значительно искажала результаты, заставляя модели казаться неспособными решать по сути нерешаемые головоломки.

Альтернативные методы тестирования

Anthropic также протестировала альтернативный метод представления, попросив модели предоставить краткие решения (например, функции на Lua), и обнаружила высокую точность даже по сложным головоломкам, ранее отмеченным как неудачи. Этот результат ясно указывает на то, что проблема заключалась в методах оценки, а не в логических способностях.

Метрики сложности

Еще один ключевой момент, поднятый Anthropic, касается метрики сложности, используемой Apple — композиционной глубины (количество необходимых ходов). Они утверждают, что эта метрика смешивает механическое выполнение с истинной когнитивной сложностью. Например, хотя головоломки «Башня Ханоя» требуют экспоненциально большего количества ходов, каждый шаг принятия решения является тривиальным, в то время как головоломки «Переправа через реку» требуют меньшего количества шагов, но значительно более высокой когнитивной сложности из-за требований к удовлетворению ограничений и поиску.

Заключение

Обе статьи вносят значительный вклад в понимание LRMs, но напряжение между их выводами подчеркивает критический разрыв в современных практиках оценки ИИ. Заключение Apple о том, что LRMs по своей сути не обладают надежным, обобщаемым мышлением, существенно ослаблено критикой Anthropic. Вместо этого выводы Anthropic предполагают, что LRMs ограничены своими тестовыми средами и оценочными рамками, а не их внутренними логическими способностями.

Направления будущих исследований

Учитывая эти выводы, будущие исследования и практические оценки LRMs должны:

  • Четко различать между логикой и практическими ограничениями: Тесты должны учитывать практические реалии ограничений токенов и принятия решений моделями.
  • Проверять разрешимость задач: Обеспечение того, чтобы тестируемые головоломки или задачи были разрешимыми, имеет важное значение для справедливой оценки.
  • Уточнять метрики сложности: Метрики должны отражать истинные когнитивные вызовы, а не просто объем механического выполнения шагов.
  • Изучать различные форматы решений: Оценка возможностей LRMs по различным форматам решений может лучше выявить их основные логические силы.

В конечном итоге утверждение Apple о том, что LRMs «не могут действительно мыслить», кажется преждевременным. Ответ Anthropic демонстрирует, что LRMs действительно обладают сложными логическими способностями, которые могут справляться с существенными когнитивными задачами, когда они правильно оцениваются. Однако это также подчеркивает важность тщательных и нюансированных методов оценки, чтобы по-настоящему понять возможности и ограничения новых моделей ИИ.

«`

Новости в сфере искусственного интеллекта