DeepMind решил полувековую проблему сворачивания белков
Конформации — пространственные структуры — белков определяют их химические и физические свойства, а также способность выполнять различные функции. Исследователи до сих пор не могли предсказать, в какую структуру сложится белок с определенной последовательностью аминокислот. Чтобы проникнуть в детали такого процесса, требуется или огромный набор данных для обучения нейросети, или точное знание величины множества факторов, влияющих на сворачивание аминокислотных цепочек.
Чтобы узнать, как складываются белки, исследователи из DeepMind обучили свой алгоритм на общедоступной базе данных, содержащей около 170 000 последовательностей белков и их формы, которые ранее получили исследователи со всего мира с помощью методом анализа структуры. Чтобы обучить алгоритм на всей этой базе данных, ученым потребовалось несколько недель.
Вычислительная мощность, которая позволила осуществить такой процесс, аналогична совместной работе от 100 до 200 графических процессоров. В результате работы авторы показали, что AlphaFold не только превосходит по своей точности другие компьютерные программы, но и лабораторные измерения.
В среднем за все проанализированные белки AlphaFold получил 92,5 баллов из 100 по шкале точности распознавания третичной структуры. Для сравнения, 90 баллов получали самые лучшие экспериментальные методы. Для тяжелых белков, структура которых намного сложнее, AlphaFold смог подобрать конформацию, которая оказалась точной на 87 баллов из 100. Это очень высокий результат. Теперь создатели алгоритма хотят предоставить доступ к нему для всех исследователей, так или иначе работающих с белками.
Предсказать объемную структуру белка по последовательности аминокислот в нем очень сложно. 50 лет исследователи со всего мира пытались сделать это с помощью различных вычислительных методов. Ученые из DeepMind смогли решить эту проблему