Возможности Google AI: DeepPolisher для улучшения точности сборки геномов
Google AI, в сотрудничестве с Институтом геномики UC Santa Cruz, представил DeepPolisher — инструмент глубокого обучения, который нацелен на улучшение точности сборки геномов, корректируя ошибки на уровне оснований. Этот инструмент продемонстрировал значительную эффективность, способствуя продвижению Справочника человеческого пангенома, что стало важным этапом в области геномных исследований.
Проблема точной сборки геномов
Справочный геном служит важной основой для понимания генетического разнообразия, механизмов наследования, заболеваний и эволюционной биологии. Несмотря на достижения в области технологий секвенирования от компаний, таких как Illumina и Pacific Biosciences, создание безошибочного человеческого генома, состоящего более чем из 3 миллиардов нуклеотидов, остается значительной задачей. Даже незначительная ошибка может приводить к тысячам неточностей, затмевая важные генетические вариации или вводя в заблуждение при последующих анализах.
Что такое DeepPolisher?
DeepPolisher — это инструмент коррекции секвенирования с открытым исходным кодом, основанный на трансформерах, который использует достижения DeepConsensus. Он применяет архитектуры глубокого обучения для снижения ошибок в сборке геномов, особенно сосредоточиваясь на ошибках вставки и удаления (indel), которые могут нарушить рамки считывания и привести к потере важных генов или регуляторных элементов.
Технология DeepPolisher
- Тип модели: Трансформер с кодировщиком, адаптированный от проверенных техник обработки естественного языка для геномных приложений.
- Данные для обучения: Использует клеточную линию человека, тщательно охарактеризованную NIST и NHGRI, достигая почти полной точности (около 99.99999%) с примерно 300–1000 ошибок на 6 миллиардах оснований.
Как это работает?
DeepPolisher функционирует по следующим шагам:
- Ввод выравнивания: Принимает выровненные прочтения PacBio HiFi против сборки генома с разрешением по гаплотипам в качестве входных данных.
- Обнаружение мест ошибок: Сканы сборки в окнах по 25 кб для выявления кандидатов на ошибки, где данные чтения отклоняются от сборки.
- Кодирование данных: Для каждого окна с потенциальными ошибками (<100 пб) создается многоканальное тензорное представление особенностей выравнивания прочтений.
- Инференция модели: Эти тензоры подаются в трансформер, который предсказывает исправленные последовательности для выявленных областей.
- Коррекция выходных данных: Выходные различия в формате VCF, которые затем применяются к сборке для получения полированной, высокоточной последовательности.
Эффективность и воздействие
DeepPolisher демонстрирует значительные улучшения в точности сборки геномов:
- Снижение общего количества ошибок: около 50%.
- Снижение ошибок indel: более 70%.
- Уровень ошибок: достигает всего одной ошибки на 500,000 собранных оснований в реальных условиях с использованием Справочника человеческого пангенома.
Каждый протестированный образец показал измеримое улучшение. Эти достижения повышают надежность и точность производных справочников, таких как Справочник человеческого пангенома, который испытал пятерное увеличение данных и значительное снижение ошибок благодаря DeepPolisher.
Применение и развертывание
DeepPolisher был интегрирован в крупные геномные проекты, включая вторую публикацию данных HPRC, которая предоставляет высокоточные справочные сборки для 232 индивидуумов, обеспечивая широкое наследственное разнообразие в геномных справочниках. Инструмент доступен с открытым исходным кодом через GitHub, с кейсами и Docker-рабочими процессами для использования на сборках, созданных с помощью таких инструментов, как HiFiasm и секвенированных с помощью PacBio HiFi прочтений.
Хотя первоначально он был ориентирован на человеческие геномы, методология и подход DeepPolisher адаптируемы для других организмов и платформ секвенирования, способствуя точности в сообществе геномики.
Пример рабочего процесса
Типичный рабочий процесс с использованием DeepPolisher может включать:
- Ввод: Сборка диплоидов HiFiasm и прочтения PacBio HiFi, выровненные с использованием конвейера PHARAOH.
- Запуск: Docker-команды для создания образа, инференции и применения коррекции.
- Вывод: Отдельные файлы VCF для материнских и отцовских сборок, полированные FASTA после этапа консенсуса bcftools.
- Оценка: Использование инструментов бенчмаркинга для количественной оценки улучшений в уровнях ошибок и точности вариантов.
Заключение и будущее
DeepPolisher представляет собой значительный шаг вперед в технологии полировки геномов, значительно снижая уровни ошибок и открывая более высокое разрешение для функциональной геномики, открытия редких вариантов и клинических приложений. Решая оставшиеся проблемы в достижении идеальных сборок геномов, он позволяет более точную диагностику, исследования генетики на уровне популяций и закладывает основу для будущих справочных проектов, которые будут полезны биомедицинским исследованиям и медицине.
Изучите технические детали, посетите нашу страницу на GitHub для руководств, кодов и ноутбуков и следите за нами в Twitter. Не забудьте присоединиться к нашему сообществу на 100k+ ML SubReddit и подписаться на нашу рассылку.