Itinai.com ui app calendar iphone chaos 100 stylize 1000 e76c54f7 a0b7 4407 a6c0 13c5bd2c4906 1

Запуск DeepPolisher: Новый инструмент ИИ от Google для повышения точности сборки генома

Itinai.com ui app calendar iphone chaos 100 stylize 1000 e76c54f7 a0b7 4407 a6c0 13c5bd2c4906 1


Возможности Google AI: DeepPolisher для улучшения точности сборки геномов

Google AI, в сотрудничестве с Институтом геномики UC Santa Cruz, представил DeepPolisher — инструмент глубокого обучения, который нацелен на улучшение точности сборки геномов, корректируя ошибки на уровне оснований. Этот инструмент продемонстрировал значительную эффективность, способствуя продвижению Справочника человеческого пангенома, что стало важным этапом в области геномных исследований.

Проблема точной сборки геномов

Справочный геном служит важной основой для понимания генетического разнообразия, механизмов наследования, заболеваний и эволюционной биологии. Несмотря на достижения в области технологий секвенирования от компаний, таких как Illumina и Pacific Biosciences, создание безошибочного человеческого генома, состоящего более чем из 3 миллиардов нуклеотидов, остается значительной задачей. Даже незначительная ошибка может приводить к тысячам неточностей, затмевая важные генетические вариации или вводя в заблуждение при последующих анализах.

Что такое DeepPolisher?

DeepPolisher — это инструмент коррекции секвенирования с открытым исходным кодом, основанный на трансформерах, который использует достижения DeepConsensus. Он применяет архитектуры глубокого обучения для снижения ошибок в сборке геномов, особенно сосредоточиваясь на ошибках вставки и удаления (indel), которые могут нарушить рамки считывания и привести к потере важных генов или регуляторных элементов.

Технология DeepPolisher

  • Тип модели: Трансформер с кодировщиком, адаптированный от проверенных техник обработки естественного языка для геномных приложений.
  • Данные для обучения: Использует клеточную линию человека, тщательно охарактеризованную NIST и NHGRI, достигая почти полной точности (около 99.99999%) с примерно 300–1000 ошибок на 6 миллиардах оснований.

Как это работает?

DeepPolisher функционирует по следующим шагам:

  1. Ввод выравнивания: Принимает выровненные прочтения PacBio HiFi против сборки генома с разрешением по гаплотипам в качестве входных данных.
  2. Обнаружение мест ошибок: Сканы сборки в окнах по 25 кб для выявления кандидатов на ошибки, где данные чтения отклоняются от сборки.
  3. Кодирование данных: Для каждого окна с потенциальными ошибками (<100 пб) создается многоканальное тензорное представление особенностей выравнивания прочтений.
  4. Инференция модели: Эти тензоры подаются в трансформер, который предсказывает исправленные последовательности для выявленных областей.
  5. Коррекция выходных данных: Выходные различия в формате VCF, которые затем применяются к сборке для получения полированной, высокоточной последовательности.

Эффективность и воздействие

DeepPolisher демонстрирует значительные улучшения в точности сборки геномов:

  • Снижение общего количества ошибок: около 50%.
  • Снижение ошибок indel: более 70%.
  • Уровень ошибок: достигает всего одной ошибки на 500,000 собранных оснований в реальных условиях с использованием Справочника человеческого пангенома.

Каждый протестированный образец показал измеримое улучшение. Эти достижения повышают надежность и точность производных справочников, таких как Справочник человеческого пангенома, который испытал пятерное увеличение данных и значительное снижение ошибок благодаря DeepPolisher.

Применение и развертывание

DeepPolisher был интегрирован в крупные геномные проекты, включая вторую публикацию данных HPRC, которая предоставляет высокоточные справочные сборки для 232 индивидуумов, обеспечивая широкое наследственное разнообразие в геномных справочниках. Инструмент доступен с открытым исходным кодом через GitHub, с кейсами и Docker-рабочими процессами для использования на сборках, созданных с помощью таких инструментов, как HiFiasm и секвенированных с помощью PacBio HiFi прочтений.

Хотя первоначально он был ориентирован на человеческие геномы, методология и подход DeepPolisher адаптируемы для других организмов и платформ секвенирования, способствуя точности в сообществе геномики.

Пример рабочего процесса

Типичный рабочий процесс с использованием DeepPolisher может включать:

  • Ввод: Сборка диплоидов HiFiasm и прочтения PacBio HiFi, выровненные с использованием конвейера PHARAOH.
  • Запуск: Docker-команды для создания образа, инференции и применения коррекции.
  • Вывод: Отдельные файлы VCF для материнских и отцовских сборок, полированные FASTA после этапа консенсуса bcftools.
  • Оценка: Использование инструментов бенчмаркинга для количественной оценки улучшений в уровнях ошибок и точности вариантов.

Заключение и будущее

DeepPolisher представляет собой значительный шаг вперед в технологии полировки геномов, значительно снижая уровни ошибок и открывая более высокое разрешение для функциональной геномики, открытия редких вариантов и клинических приложений. Решая оставшиеся проблемы в достижении идеальных сборок геномов, он позволяет более точную диагностику, исследования генетики на уровне популяций и закладывает основу для будущих справочных проектов, которые будут полезны биомедицинским исследованиям и медицине.

Изучите технические детали, посетите нашу страницу на GitHub для руководств, кодов и ноутбуков и следите за нами в Twitter. Не забудьте присоединиться к нашему сообществу на 100k+ ML SubReddit и подписаться на нашу рассылку.


Новости в сфере искусственного интеллекта