Исследователи AIRI обучили нейросетевую модель на самой полной | НИИ Антропогенеза (ARI)
Исследователи AIRI обучили нейросетевую модель на самой полной на сегодняшний день сборке генома человека
Модель GENA_LM, выложена в open source и доступна биологам по всему миру
В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT
GENA_LM – первая в мире языковая модель ДНК, обученная на самой полной версии генома человека (T2T-CHM13), которая была опубликована в конце марта 2022 года
Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT
Опубликованная модель – это первый шаг исследования
Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз
Репозитории с моделью GENA_LM:
Hugging Face
GitHub