«`html
SYNCOGEN: Машинное обучение для синтезируемого 3D-молекулярного генерации
Введение: Проблема генерации синтезируемых молекул
В современном открытии лекарств генеративные модели молекул значительно расширили химическое пространство для исследователей, позволяя быстро исследовать новые соединения. Однако остается серьезная проблема: многие молекулы, созданные ИИ, трудно или невозможно синтезировать в лаборатории, что ограничивает их практическую ценность в фармацевтическом и химическом развитии.
Объединение 3D-структуры и синтеза: необходимость единой структуры
Недавние достижения в 3D-генеративных моделях позволяют напрямую генерировать атомные координаты, что улучшает проектирование геометрии и предсказание свойств. Однако большинство методов не систематически интегрируют ограничения синтетической доступности: полученные молекулы могут обладать желаемыми формами или свойствами, но нет гарантии, что их можно собрать из существующих строительных блоков с использованием известных реакций.
SYNCOGEN: Новая структура для проектирования синтезируемых 3D-молекул
Исследователи из Университета Торонто, Университета Кембриджа, Университета Макгилла и других предложили SYNCOGEN (Synthesizable Co-Generation), который решает эту проблему с помощью новаторского подхода, совместно моделируя как реакционные пути, так и атомные координаты во время генерации молекул. Эта единая структура позволяет генерировать 3D-молекулярные структуры вместе с осуществимыми синтетическими маршрутами, гарантируя, что каждая предложенная молекула не только физически значима, но и практически синтезируема.
Ключевые инновации SYNCOGEN
- Мультимодальная генерация: Смешивание маскированной графовой диффузии (для реакционных графов) с соответствием потока (для атомных координат) позволяет SYNCOGEN выбирать из совместного распределения строительных блоков, химических реакций и 3D-структур.
- Комплексное представление входных данных: Каждая молекула представлена в виде тройки (X, E, C), где X кодирует идентичность строительного блока, E кодирует типы реакций и конкретные центры соединения, а C содержит все атомные координаты.
- Одновременное обучение: Оба модальности графа и координат моделируются вместе, используя потери, которые комбинируют перекрестную энтропию для графов, маскированную среднеквадратическую ошибку для координат и штрафы за расстояние, чтобы обеспечить геометрическую реалистичность.
Датасет SYNSPACE: Обучение на основе синтезируемости
Для обучения SYNCOGEN исследователи создали SYNSPACE, датасет, содержащий более 600,000 синтезируемых молекул, каждая из которых построена из 93 коммерческих строительных блоков и 19 надежных шаблонов реакций. Каждая молекула в SYNSPACE аннотирована несколькими энергетически минимизированными 3D-конформациями, предоставляя разнообразный и надежный ресурс для обучения.
Архитектура модели и обучение
SYNCOGEN использует модифицированный SEMLAFLOW, нейронную сеть, изначально предназначенную для 3D-генерации молекул. Архитектура включает:
- Специализированные входные и выходные головы для перевода между графами на уровне строительных блоков и атомными характеристиками.
- Функции потерь и схемы шумоподавления, которые тщательно балансируют точность графа и 3D-структурную достоверность.
- Инновации в обучении, такие как ограничения на количество ребер и маскировка совместимости, чтобы поддерживать генерацию молекул, валидных с точки зрения химии.
Результаты: Современные достижения в генерации синтезируемых молекул
SYNCOGEN демонстрирует выдающиеся результаты в задачах генерации 3D-молекул, превосходя ведущие модели на основе всех атомов и графов. Основные достижения включают:
- Высокая химическая валидность: Более 96% сгенерированных молекул являются химически валидными.
- Превосходная синтетическая доступность: Уровень решения программного обеспечения для ретросинтеза достигает 72%, что значительно превышает большинство конкурирующих методов.
- Отличная геометрическая и энергетическая реалистичность: Сгенерированные конформеры близки к экспериментальным данным по длине связи, углу и диэдральным распределениям.
Практическое применение: Связывание фрагментов и проектирование лекарств
SYNCOGEN также демонстрирует конкурентоспособные результаты в молекулярном инпейнтинге для связывания фрагментов, что является важной задачей в проектировании лекарств. Он может генерировать легко синтезируемые аналоги сложных лекарств, производя кандидатов с благоприятными оценками связывания и ретросинтетической осуществимостью.
Будущие направления и приложения
SYNCOGEN представляет собой основополагающее достижение для генерации молекул с учетом синтезируемости. Потенциальные расширения включают:
- Генерация с учетом свойств: Оптимизация для желаемых физико-химических или биологических свойств.
- Условие для карманов белков: Генерация лигандов, настроенных для конкретных мест связывания белков.
- Расширение пространства реакций: Включение более разнообразных строительных блоков и шаблонов реакций для увеличения доступного химического пространства.
- Автоматизация синтеза: Связывание генеративных моделей с лабораторной автоматизацией для замкнутого цикла открытия лекарств и материалов.
Заключение: Шаг к реализуемому вычислительному молекулярному дизайну
SYNCOGEN задает новую планку для совместной генерации молекул с учетом 3D-структуры и реакций, позволяя исследователям и фармацевтическим ученым проектировать молекулы, которые являются как структурно значимыми, так и экспериментально осуществимыми. Объединяя генеративные модели с строгими синтетическими ограничениями, SYNCOGEN приближает вычислительный дизайн к лабораторной реализации, открывая новые возможности в открытии лекарств, материаловедении и за его пределами.
«`