Получи случайную криптовалюту за регистрацию!

MoLeR — новая нейронка от Microsoft Research для drug design | DLStories | Нейронные сети и ИИ

MoLeR — новая нейронка от Microsoft Research для drug design

Drug design — задача поиска новых химических соединений, которые могут быть использованы для создания новых лекарств. Задача сложная, биологи тратят годы и огромное количество денег на поиск одной такой молекулы. MoLeR — новая модель, которая должна помочь биологам в их работе.

Для разработки MoLeR исследователи из Microsoft сотрудничали с учеными из Novartis — компании, которая занимается поиском новых лекарств. И идея работы MoLeR основана на том, каким способом ученые в реальности пытаются искать новые соединения.

Вот как ищут новые молекулы в лобораториях:
Часто это делает так: сначала медики находят "hit" молекулы — такие, которые обладают хотя бы какими-то свойствами, полезными для создания лекарства против болезни. Как правило, такие молекулы также обладают и рядом плохих свойств, и сразу взять и сделать из них лекарство нельзя. Поэтому медики берут такую hit молекулу и начинают ее testing. Они пытаются вносить в ее структуру небольшие изменения, стараясь найти такие, которые привели бы к увеличению количества положительных свойств молекулы и уменьшению количества отрицательных. Такой процесс может длиться годы и очень сильно зависит от удачи, интуиции и экспертности.

Модель MoLeR основана на этой же идее: на постепенном улучшении базовой структуры известной молекулы, чтобы получить молекулу с желаемыми свойствами.

Вот как устроена модель:
MoLeR — это VAE. Его энкодер и декодер — графовые нейросети (и молекулы, как обычно это делается в таких моделях, представляются в виде графов). Энкодер сжимает входную молекулу в латентное представление, а декодер учится получать молекулу из латентного представления обратно. Обученный декодер, собственно, и будет использоваться для генерации новых молекул. При обучении автоэнкодер учится кодировать в латентном представлении свойства молекулы. Это достигается добавлением еще одной нейросети в тренировочный процесс: она принимает на вход латентный вектор и учится предсказывать по нему свойства молекулы.

Самое интересное — это устройство декодера MoLeR. Чтобы разобраться в его идее, давайте заметим вот что:

Молекулы — это не просто случайные наборы атомов, связанных случайными связями. В молекулах есть структура, и каждая молекула состоит из нескольких связанных между собой структурных единиц. Это примерно как предложения в языке: предложения — это не случайные наборы букв, а наборы более сложных единиц — слов. При этом слова в предложении связываются тоже не случайно, а согласно правилам, структуре.

Так вот, декодер MoLeR — это нейросеть, которая принимает на вход часть молекулы и учится дополнять эту часть новой структурной единицей. Такой, чтобы через несколько этапов генерации получилась молекула с желаемыми свойствами.
Получается, полную молекулу из латентного представления декодер MoLeR генерирует последовательно: сначала генерирует одну структурную единицу, затем, на следующем шаге, дополняет ее второй структурной единицей и так далее. Это похоже на то, как нейросети для машинного перевода генерируют перевод — шаг за шагом, слово за словом.

Почему это круто: такое устройство декодера MoLeR позволяет не только генерировать молекулу с нуля из латентного вектора. Оно еще позволяет подавать декодеру на вход любую часть молекулы и получать на выходе модели дополненную версию. Это значит, что ученые могут взять hit молекулу, выделить из нее ее базовую структуру и подать на вход модели. И на выходе MoLeR получится молекула, имеющая ту же базовую составляющую, что и hit молекула, но с нужными свойствами.

Это свойство модели MoLeR отличает эту нейросеть от тех, что были предложены для решения задачи drug design ранее. Надеемся, это поможет ученым в их работе =)

Подробнее:
Блог Microsoft Research
Статья о Moler