ИИ, обученный на 300 миллиардах нуклеотидов, может собрать с нуля геном бактерии

Модель ИИ на основе ChatGPT, обученная на ДНК бактерий и вирусов, может собрать новые инструменты для редактирования геномов и даже новые геномы бактерий, но пока эти геномы содержат ошибки.
ИИ, обученный на 300 миллиардах нуклеотидов, может собрать с нуля геном бактерии
Vitalii Gulenok/istockphoto
ChatGPT, знаменитый чатбот с искусственным интеллектом может кратко изложить «Войну и мир», написать компьютерный код и предложить рецепт курицы, запеченной с фруктами, потому что большая часть письменной информации в Интернете находится у него под рукой. А что, если бы он мог делать то же самое с ДНК? Оказывается, если такую информацию ему предоставить, то он вполне справится и с такой задачей.

В новой работе, опубликованной в журнале Science, исследователи описывают модель искусственного интеллекта, созданную на основе миллионов генетических последовательностей. Модель может определить, как работают бактериальные и вирусные геномы, и использовать эту информацию для проектирования новых белков и даже целых микробных геномов. Модель, получившая название Evo, может помочь ученым изучать эволюционные процессы, исследовать болезни, разработать новые методы лечения и, возможно, ответит на многие биомедицинских вопросов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Эта работа чрезвычайно важна», — говорит специалист по вычислительной биологии Арвинд Раманатан из Аргоннской национальной лаборатории, не имеющий отношения к исследованию. По его словам, тесты, на которых авторы проверяли Evo, дают отличную возможность убедиться в полезности применения искусственного интеллекта для геномного проектирования и разработки инструментов для работы с ДНК.

Обучение Evo

Исследователи уже разработали специализированные модели ИИ, которые выполняют конкретные задачи, связанные с определенными типами молекул. Самым известным примером такого рода является AlphaFold, который предсказывает структуру белков по их аминокислотным последовательностям. Но это специализированные модели.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

ChatGPT и многие другие ИИ — это программы общего назначения, которые некоторые исследователи называют базовыми моделями. Их универсальность выгодна тем, что ученым не нужно создавать и обучать разные модели для каждой задачи, а это экономит время и деньги.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

ChatGPT известна как большая языковая модель (LLM), потому что она работает практически с любыми текстовыми последовательностями, будь то правительственный отчет или рецепт. В молекулярной биологии нет ничего более фундаментального, чем ДНК, и ученые разработали несколько базовых моделей, которые анализируют последовательности ДНК, как если бы они были словами в LLM. Однако эти ИИ могут интерпретировать и предсказывать только относительно короткие участки ДНК.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Разработанный для преодоления этих ограничений Evo — детище биолога Брайана Хие из Стэнфордского университета и его коллег. Одно из усовершенствований команды заключалось в увеличении так называемой длины контекстного окна — последовательности, которую модель использует, пытаясь найти закономерности в ДНК. Увеличение длины контекстного окна повышает способность модели выявлять связи между генами или другими фрагментами ДНК. Эта модель позволила команде увеличить разрешение Evo до уровня отдельных нуклеотидов — строительных блоков ДНК, в то время как предыдущие модели могли работать только с группами нуклеотидов.

Создав Evo, исследователи дали ей 4 недели на обучение, в течение которых модель изучила 80 000 геномов микробов, а также миллионы последовательностей вирусов-бактериофагов и кольцевых независимых ДНК, известных как плазмиды. По словам Хие, теоретически злоумышленники могут использовать такую модель, как Evo, для создания биологического оружия, поэтому исследователи исключили из обучающего набора ИИ последовательности любых вирусов, атакующих людей или других эукариот — организмов, клетки которых имеют ядра. В целом Evo изучила 300 миллиардов нуклеотидов во всех обучающих фрагментах и полных ДНК.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Тестирование Evo

Evo, модель сборки генома с 7 миллиардами параметров, изучает биологическую сложность от отдельных нуклеотидов до целых геномов. Обученная на 2,7 миллионах необработанных последовательностей геномов прокариот и фагов, Evo может кодировать молекулы ДНК, РНК и белков. Evo является мультимасштабным по своей природе, позволяя решать задачи предсказания и генерации на уровне молекул, систем и геномов.
Evo, модель сборки генома с 7 миллиардами параметров, изучает биологическую сложность от отдельных нуклеотидов до целых геномов. Обученная на 2,7 миллионах необработанных последовательностей геномов прокариот и фагов, Evo может кодировать молекулы ДНК, РНК и белков. Evo является мультимасштабным по своей природе, позволяя решать задачи предсказания и генерации на уровне молекул, систем и геномов.
https://www.science.org/doi/10.1126/science.ado9336
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Чтобы протестировать ИИ, исследователи попросили ее предсказать влияние мутаций на работу белков. Эти знания важны для понимания того, как сбои в ДНК приводят к заболеваниям, и для разработки новых лекарств.

Команда проверила предсказания Evo, сравнив их с опубликованными экспериментами, в которых другие ученые вызывали те же мутации в бактериальных клетках. Evo превзошла предыдущие модели ИИ, которые делали выводы о влиянии мутаций на основе данных о последовательности ДНК; она работала примерно так же хорошо, как и другие модели ИИ, которые опирались на последовательности белков.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Одна из причин, по которой модели ИИ, подобные ChatGPT, так полезны, заключается в том, что они могут создавать новый контент. «Мы хотели показать, что наша модель обладает такой способностью», — говорит Хие. Поэтому он и его коллеги попросили Evo разработать новые версии геномного редактора CRISPR. Это задание непростое, поскольку CRISPR включает в себя два типа компонентов, которые должны работать вместе: белки Cas, разрезающие ДНК, и молекулы РНК, которые направляют эти белки к местам генома, подлежащим редактированию.

Сначала Evo изучила более 70 000 бактериальных последовательностей ДНК, которые кодируют белки Cas и их партнерские РНК. Затем модель разработала миллионы потенциальных вариантов этих молекул. Исследователи выбрали 11 наиболее перспективных вариантов Cas9 и синтезировали белки в лаборатории.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Однако, как и многие другие LLM, Evo тоже «галлюцинировала», предлагая Cas9, которые не имели ни малейшего шанса начать работать. По словам Хие, несмотря на галлюцинации, ИИ все же лучше находит новые варианты молекул, чем «грубый отбор или случайное угадывание».

Новый геном

В части исследования, которую Хиэ называет «самой футуристической и безумной», ученые попросили Evo сгенерировать последовательности ДНК, достаточно длинные, чтобы служить геномами для бактерий. Ученые обнаружили, что эти макеты геномов содержат многие гены, необходимые клеткам, но некоторых генов явно не хватает. Тем не менее, Хие считает, что полученные результаты могут стать шагом к созданию синтетических геномов, разработанных искусственным интеллектом.

Большая часть работы над ИИ ведется в компаниях в тайне. Но исследователи выпустили Evo в открытый доступ, чтобы другие ученые могли использовать ее, и Хие говорит, что команда не планирует коммерциализировать свое творение. Ученый говорит: «Пока я рассматриваю Evo как чисто исследовательский проект».