Получи случайную криптовалюту за регистрацию!

Исследователи AIRI обучили нейросетевую модель на самой полной | НИИ Антропогенеза (ARI)

Исследователи AIRI обучили нейросетевую модель на самой полной на сегодняшний день сборке генома человека

Модель GENA_LM, выложена в open source и доступна биологам по всему миру
В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT

GENA_LM – первая в мире языковая модель ДНК, обученная на самой полной версии генома человека (T2T-CHM13), которая была опубликована в конце марта 2022 года
Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT

Опубликованная модель – это первый шаг исследования
Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз

Репозитории с моделью GENA_LM:
Hugging Face
GitHub