Biomni-R0: Новый уровень интеллекта в биомедицинских исследованиях
В последние годы искусственный интеллект (ИИ) стал неотъемлемой частью биомедицинских исследований. С каждым днем растет потребность в агентах, способных выполнять сложные задачи в области геномики, клинической диагностики и молекулярной биологии. Эти агенты должны не только обрабатывать большие объемы данных, но и интерпретировать их, извлекая ценные инсайты из обширных биомедицинских баз данных.
Проблема: Как достичь экспертного уровня рассуждений
Достичь экспертного уровня в биомедицинских задачах — задача не из легких. Большинство существующих языковых моделей не способны справляться с глубиной и нюансами биомедицинского мышления. Они часто ограничиваются поверхностным анализом данных и не могут выполнять многоступенчатые рассуждения, такие как диагностика редких заболеваний или приоритизация генов. Это подчеркивает необходимость в обучении ИИ-агентов, которые могут мыслить и действовать как настоящие эксперты.
Почему традиционные подходы не работают
Некоторые решения используют контролируемое обучение на специализированных биомедицинских наборах данных, однако такие методы имеют свои недостатки. Они зависят от статических запросов и предопределенных действий, что делает их неэффективными в динамичных условиях. Многие агенты не могут эффективно взаимодействовать с внешними инструментами, и их цепочки рассуждений часто разрушаются при столкновении с новыми биомедицинскими структурами.
Biomni-R0: Новый подход с использованием обучения с подкреплением
Исследователи из Стэнфордского университета и Университета Калифорнии в Беркли представили новую семью моделей под названием Biomni-R0. Эти модели, Biomni-R0-8B и Biomni-R0-32B, были обучены в среде, специально разработанной для биомедицинского мышления, с использованием как экспертно аннотированных задач, так и новой структуры вознаграждений. Целью этого сотрудничества является создание биомедицинских агентов, которые превзойдут человеческие способности.
Стратегия обучения и проектирование системы
В исследовании была предложена двухфазная стратегия обучения. Сначала использовалось контролируемое дообучение на высококачественных траекториях, что позволило агенту освоить структурированные форматы рассуждений. Затем модели дообучались с использованием обучения с подкреплением, оптимизируя два типа вознаграждений: за правильность (например, выбор правильного гена или диагноза) и за форматирование ответов.
Для повышения вычислительной эффективности команда разработала асинхронное планирование, что позволило минимизировать задержки, вызванные внешними инструментами. Также была увеличена длина контекста до 64k токенов, что дало возможность агенту эффективно управлять длинными многоступенчатыми рассуждениями.
Результаты, превышающие ожидания
Результаты оказались впечатляющими. Biomni-R0-32B достигла оценки 0.669, что является значительным улучшением по сравнению с базовой моделью, которая показала 0.346. Biomni-R0-8B также продемонстрировала высокие результаты, превзойдя общие модели, такие как Claude 4 Sonnet и GPT-5. В частности, в диагностике редких заболеваний Biomni-R0-32B достигла 0.67, в то время как Qwen-32B показала всего 0.03, что свидетельствует о более чем 20-кратном улучшении.
Проектирование для масштабируемости и точности
Обучение крупных биомедицинских агентов требует значительных ресурсов, включая выполнение внешних инструментов и запросы к базам данных. Для управления этим процессом система отделила выполнение среды от вывода модели, что позволило гибко масштабировать и сократить время простоя GPU. Более длинные последовательности рассуждений также оказались полезными, так как модели, обученные с использованием RL, последовательно генерировали более длинные и структурированные ответы, что является ключевым признаком экспертного понимания в биомедицине.
Ключевые выводы из исследования
- Биомедицинские агенты должны выполнять глубокие рассуждения, а не просто извлечение информации.
- Основная проблема заключается в достижении экспертного уровня выполнения задач в сложных областях.
- Традиционные методы часто оказываются недостаточно надежными и адаптивными.
- Biomni-R0 использует обучение с подкреплением с экспертными вознаграждениями и структурированным форматированием выходных данных.
- Двухфазная стратегия обучения показала высокую эффективность в оптимизации производительности.
- Biomni-R0-8B демонстрирует сильные результаты с меньшей архитектурой, в то время как Biomni-R0-32B устанавливает новые стандарты.
- Обучение с подкреплением позволяет агенту генерировать более длинные и последовательные рассуждения.
Эта работа закладывает основу для создания суперэкспертных биомедицинских агентов, способных автоматизировать сложные исследовательские процессы с высокой точностью.














