2020-12-08 19:01:52
AlphaFoldПрогнозирование сворачивания белков (protein folding) - сложная задача, решение которой может помочь лучше понимать и лечить болезни. Последние 50 лет решение почти никак не продвигалось, но одна, возникшая из ниоткуда, команда исследователей возможно решила проблему.
Белки состоят из аминокислот. Получить аминокислотную последовательность белка в наши дни довольно просто. Но перейти от этой последовательности к трехмерной форме белка крайне сложно.
На протяжении десятилетий исследователи разрабатывали белковые структуры, используя медленные и дорогостоящие методы, такие как рентгеновская кристаллография. Пока что с помощью этих подходов мы решили только около 170 тысяч белков. При этом, всего более 200 миллионов белков были обнаружены в земных формах жизни.
Возможность предсказать форму белка на основе его аминокислотной последовательности навсегда изменит правила игры. Человечество могло бы быстрее разрабатывать лекарства, но компьютерные методики прогнозирования до сих пор были недостаточно точными, чтобы на них можно было полагаться.
Команда DeepMind создала “конвейер глубокого обучения“ (deep learning pipeline) для прогнозирования формы белка по его аминокислотной последовательности и участвовали с ним в конкурсе «Критическая оценка прогнозирования структуры белка» (CASP). В конкурсе командам дают последовательности аминокислот для ~100 белков с неизвестной структурой и просят предсказать форму. Предсказаниям присваивается оценка от 0 до 100. Медленные методы (например, рентгеновская кристаллография) обычно оцениваются не выше 90.
Первая версия модели (AlphaFold) работает следующим образом:
- во-первых, она ищет фрагменты последовательности, похожие на интересующий белок, в большой базе данных последовательностей белков. Это помогает определить искомые особенности белка. Автоэнкодер предсказывает, какую форму белка наиболее вероятно представляет фрагмент последовательности;
- затем эти особенности передаются в конволютную нейронную сеть, которая предсказывает расстояния между различными частями белковой последовательности. Прогнозирование расстояний позволяет также прогнозировать точки контакта;
- далее, используя предсказанные расстояния и точки контакта, модель рассматривает все возможные формы белка и определяет наиболее вероятную.
В обновленной модели (AlphaFold-2) были внесены изменения. Команда еще не опубликовала полноценную научную статью (пока только реферат), но, насколько можно судить, исследователи использовали глубокое обучение на основе внимания (attention-based), чтобы учитывать всю форму белка разом, а не фрагментальную последовательность.
С начала конкурса в 1994 и до 2016 года баллы CASP в среднем были около 40. Первый DeepMind набрал около 60. В этом году AlphaFold набрал в среднем 92,4 балла, преодолев порог в 90 баллов!
Забавно то что, организаторы конкурса подумали, что DeepMind жульничает и поставили перед ним особую задачу - мембранный белок из древних видов архей. В течение последних 10 лет группы исследователей безуспешно перепробовали все возможные уловки, чтобы получить кристаллическую структуру белка методом рентгеновской кристаллографии. AlphaFold не испытывая проблем генерировал изображение трехчастного белка с двумя спиральными ветвями. Оглядываясь назад, легко увидеть, что эта структура идеально соответствовала данным рентгеновской кристаллографии.
Кажется, что острая проблема, над которой исследователи и фармацевтические компании работают более 50 лет на грани решения. Это может значительно ускорить разработку широкого спектра лекарств: от противораковых, которые лучше воздействуют на белки для репликации клеток, до антибиотиков, нацеленных на поверхностные рецепторы микробов. Более того, обучение этой модели значительно дешевле любой современной технологии - всего несколько недель на небольшом кластере серверов.
Очень возможно, что в течение следующих 10 лет мы с вами увидим не только высадку на Марс, но и лекарства от многих видов рака.
3.0K views16:01