2021-12-06 01:48:41
Воскресный трёп.
Машинное обучение и онкология.
What is about ? О стандартном примере анализа данных балк РНК секвенирования на примере рака груди (breast cancer , METABRIC датасет), и некоторые байки о пока еще не вполне сбывшихся надеждах. А еще, знаете ли вы что такое "ген/мутация Анджелины Джоли" ?
Предисловие. Данный пост, тесно связан с прошедшим докладом Никиты Котлова (где обсуждался другой тип рака - лимфомы - но задачи такие же). А также, с недавними постами Софии Меньшиковой на ее канале @OncologyFellow. У Софии и ее соавтора Алексея - лучшие каналы по онкологии - @OncologyFellow и @medonco - подписывайтесь !
Что хотим ? Все знают, что типов рака очень много, но хуже того у каждого типа рака, еще много подтипов, и лечение/прогноз часто сильно зависит от подтипа рака. Поэтому ученые пытаются выделить эти подтипы и понять, как с каждым из них лучше бороться. Доклад Никиты был посвящен этой проблеме для лимфомы, а данный пост о раки груди. Яркий пример пользы подтипов - трастузумаб (моноклональное антитело) успешно применяется к одному из подтипов рака груди, и понятен механизм - у этого подтипа на поверхности раковых клеток торчат белки рецепторы продуцированные геном HER2 и трастузумаб прицельно бьёт по ним. Но, к сожалению, не у всех подтипов есть такие белки на поверхности - у подтипа "трипл-негатив", например, нет.
Как делали раньше/сейчас и как хотят определять подтипы в будущем ? Мини операция - вырезают кусочек опухоли, и относительно дешевыми и простыми методами смотрят подтип. С точки зрения дата-сайнс, тут поинт в том, что у нас есть очень мало (2-3) признака ("фичи") и по ним всё определяюeтся. Можно ожидать, что если бы было больше "фичей" (признаков), то мы получили бы больше информации. Примерно 15 лет назад технологии позволили это делать - научились относительно недорого измерять ТЫСЯЧИ/ДЕСЯТКИ ТЫСЯЧ признаков - экспрессий генов - показателей насколько активно гены работают в данных клетках. (Настоящих "пацанских" (белок кодирующих) генов у человека порядка 20 000, а еще кучи псевдогенов, lncRNA, и тд), каждый ген - фича , генов десятки тысяч - значит десятки тысяч фичей.
В чем облом и надежда ? Оказалось, что фичей стало в тысячи раз больше, а толку стало не сильно больше. Но, все же, технологии развиваются и удешевляются, и многие полны надежд, что удастся спасти жизни людей, если еще поднапрячься в этом направлении.
Что за данные и что на картинке ? Данные - матрица: (пациенты
х гены). Скажем порядка 2000 пациентов, и 20 000 генов. Такие датасеты собираются долгими годами. И есть еще один дополнительный столбец - сколько месяцев пациент прожил (после диагноза). Дальше, одна из наших целей по этим (и, вообще говоря, другим тоже) данным понять можем ли мы предсказать сколько пациент проживет, по возможности понять реакцию на лечение (тут нужно больше данных) и так далее.
Достаточно давно была предложена классификация ПАМ50 - то есть выделены примерно 50 генов и по ним данные разбиты на несколько кластеров. Рисунок справа показывает графики кривых выживаемости для каждого из кластеров - чем выше график тем лучше прогноз - и мы видим, что есть два кластера - ЛюминалА и кластер клауден-лоу, где выживаемость получше. Подтип клаудиан-лоу, кстати, относительно новый - дополнение к старому ПАМ50, и видно, что выделен по делу - раньше он был частью трипл негатива, а видно что выживаемость другая. Картинка слева - взят датасет, сделан ПСА, покрашен по кластерам - ну как обычно. То есть каждая точка - соответствует одному семплу, в данному случае человеку.
А что за граф там нарисован - а это наша работа, потом как-нибудь расскажу. Код можно тут взять: КАГГЛ.
А что там про Анджелину Джоли ? Известная история, но я устал писать, так, что читайте у Софии.
1.3K viewsAlexander C, edited 22:48