2022-05-09 12:26:45
MoLeR — новая нейронка от Microsoft Research для drug design
Drug design — задача поиска новых химических соединений, которые могут быть использованы для создания новых лекарств. Задача сложная, биологи тратят годы и огромное количество денег на поиск одной такой молекулы. MoLeR — новая модель, которая должна помочь биологам в их работе.
Для разработки MoLeR исследователи из Microsoft сотрудничали с учеными из Novartis — компании, которая занимается поиском новых лекарств. И идея работы MoLeR основана на том, каким способом ученые в реальности пытаются искать новые соединения.
Вот как ищут новые молекулы в лобораториях:
Часто это делает так: сначала медики находят "hit" молекулы — такие, которые обладают хотя бы какими-то свойствами, полезными для создания лекарства против болезни. Как правило, такие молекулы также обладают и рядом плохих свойств, и сразу взять и сделать из них лекарство нельзя. Поэтому медики берут такую hit молекулу и начинают ее testing. Они пытаются вносить в ее структуру небольшие изменения, стараясь найти такие, которые привели бы к увеличению количества положительных свойств молекулы и уменьшению количества отрицательных. Такой процесс может длиться годы и очень сильно зависит от удачи, интуиции и экспертности.
Модель MoLeR основана на этой же идее: на постепенном улучшении базовой структуры известной молекулы, чтобы получить молекулу с желаемыми свойствами.
Вот как устроена модель:
MoLeR — это VAE. Его энкодер и декодер — графовые нейросети (и молекулы, как обычно это делается в таких моделях, представляются в виде графов). Энкодер сжимает входную молекулу в латентное представление, а декодер учится получать молекулу из латентного представления обратно. Обученный декодер, собственно, и будет использоваться для генерации новых молекул. При обучении автоэнкодер учится кодировать в латентном представлении свойства молекулы. Это достигается добавлением еще одной нейросети в тренировочный процесс: она принимает на вход латентный вектор и учится предсказывать по нему свойства молекулы.
Самое интересное — это устройство декодера MoLeR. Чтобы разобраться в его идее, давайте заметим вот что:
Молекулы — это не просто случайные наборы атомов, связанных случайными связями. В молекулах есть структура, и каждая молекула состоит из нескольких связанных между собой структурных единиц. Это примерно как предложения в языке: предложения — это не случайные наборы букв, а наборы более сложных единиц — слов. При этом слова в предложении связываются тоже не случайно, а согласно правилам, структуре.
Так вот, декодер MoLeR — это нейросеть, которая принимает на вход часть молекулы и учится дополнять эту часть новой структурной единицей. Такой, чтобы через несколько этапов генерации получилась молекула с желаемыми свойствами.
Получается, полную молекулу из латентного представления декодер MoLeR генерирует последовательно: сначала генерирует одну структурную единицу, затем, на следующем шаге, дополняет ее второй структурной единицей и так далее. Это похоже на то, как нейросети для машинного перевода генерируют перевод — шаг за шагом, слово за словом.
Почему это круто: такое устройство декодера MoLeR позволяет не только генерировать молекулу с нуля из латентного вектора. Оно еще позволяет подавать декодеру на вход любую часть молекулы и получать на выходе модели дополненную версию. Это значит, что ученые могут взять hit молекулу, выделить из нее ее базовую структуру и подать на вход модели. И на выходе MoLeR получится молекула, имеющая ту же базовую составляющую, что и hit молекула, но с нужными свойствами.
Это свойство модели MoLeR отличает эту нейросеть от тех, что были предложены для решения задачи drug design ранее. Надеемся, это поможет ученым в их работе =)
Подробнее:
Блог Microsoft Research
Статья о Moler
4.2K views09:26