Получи случайную криптовалюту за регистрацию!

Статистика и R

Логотип телеграм канала @stats_for_science — Статистика и R С
Логотип телеграм канала @stats_for_science — Статистика и R
Адрес канала: @stats_for_science
Категории: Технологии
Язык: Русский
Количество подписчиков: 1.53K
Описание канала:

Привествую всех! Мой канал посвящен разбору статистических методов и языку программирования R. Пишу сама.
По вопросам - @lena_astr
Подборка источников по статистике: t.me/stats_for_science/28
Подборка источников по R: t.me/stats_for_science/25

Рейтинги и Отзывы

3.00

3 отзыва

Оценить канал stats_for_science и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

2

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения

2022-12-02 10:23:32 Как задать хороший вопрос в R чате?

Для русскоязычного R-комьюнити есть два больших чата: R (язык программирования) и Горячая линия R. Вообще правила прописаны в закрепленных постах чатов, но я бы хотела поделиться своим опытом задавания вопросов и создания воспроизводимых примеров (reprex, репрекс).
Reprex (reproducible example) - это минимальный пример кода, воспроизводящий ошибку или описывающий, что требуется сделать.
Такой пример кода удобно копируется в чат с соответствующим форматированием, его легко читать и можно сразу же скопировать себе, чтобы попробовать помочь.

У меня не поместилось все в лимит символов в телеграме, поэтому как всегда ссылка на гитхаб:
https://ubogoeva.github.io/R_question_how_to_ask.html

Надеюсь, будет полезно и повысит культуру общения в чатах)
#R #help
504 viewsedited  07:23
Открыть/Комментировать
2022-11-16 18:53:43
Пределы погрешностей: что это, зачем использовать и как интерпретировать?

Продолжаем тему базовой статистики (кстати базовой не значит простой). Рада представить разбор видов error bar, их различий и правильной интерпретации:

https://ubogoeva.github.io/types_of_error_bars.html

Тема оказалась сложнее, чем я рассчитывала, например, я сама не знала что пределы погрешностей существуют двух принципиально разных типов. Но думаю получилось интересно, по крайней мере мне точно было интересно писать. В этот раз сверстала в Rmd файл, с quarto пока не разобралась, почему на github pages размещается некрасиво.
Бонусом альтернативные способы визуализации данных. Прикрепляю еще небольшой тизер к посту, очень нравится получившаяся картинка.

Пишите комментарии, какие виды error bar используете для представления своих данных, сталкивались ли с их неправильной интерпретацией и понравились ли предложенные способы визуализации?

#base_stat #R #ggplot2 #data_vis
908 views15:53
Открыть/Комментировать
2022-10-26 09:02:34 Супер крутая инструкция по освоению библиотеки purrr для замены циклов

Немного контекста: в R принято обходиться не то чтоб без вложенных циклов, а без циклов вообще. Как это реализуется? Большинство функций в R векторизованы, что означает, что функция будет работать со всеми элементами вектора без необходимости проходить цикл и обрабатывать каждый элемент по одному.
Простейший пример векторизации - возвести числа от 1 до 10 в квадрат. Классическим подходом было бы написать цикл от 1 до 10 и возвести в квадрат каждый элемент. Однако в R это можно сделать гораздо проще!
(1:10)**2
[1] 1 4 9 16 25 36 49 64 81 100
Мы просто взяли вектор чисел от 1 до 10 и возвели в квадрат одной строчкой без всяких циклов. Это самый простой прием, для более сложных пригодятся функции семейства apply или их более продвинутый аналог функции семейства map_*, map2_* из библиотеки purrr. Именно последним посвящен туториал, скачать который можно по ссылке.

Пример из жизни применения map функции. У меня много однотипных датасетов в определенной директории с одним расширением (например csv). Задача считать все датасеты в один лист для последующих манипуляций с ними. Чтобы не писать цикл, используем purrr::map
library(tidyverse)
csv_file_names <- dir(pattern = 'csv')
list_csv <- map(csv_file_names, ~read_csv(.x))
ИЛИ
list_csv <- map(csv_file_names, function(x) read_csv(x)), если без синтаксического сахара, а использовать более привычный apply-способ

Вообще на тему функционального программирования в R, векторизации и сравнения *apply и map_* функций можно довольно много что расписать, если есть интерес к этой теме, ставьте реакцию с китом (потому что с котом еще нет реакций, а символ purrr - котик).

#R #tidyverse #purrr
1.2K viewsedited  06:02
Открыть/Комментировать
2022-10-19 17:12:03 Квартет Энскомба (Anscombe's) или важность визуализации данных перед началом анализа

Подготовила небольшую статью о таком любопытном наборе данных, который показывает что нужно опираться не только на средние-стандартные отклонения, но и точно знать, что происходит в данных, опираясь на визуализацию.
https://rpubs.com/lena_astr/958484

Бонусом список ссылок на книги и статьи по качественному представлению данных.
Попробовала сделать свой первый документ на quarto, пока полет нормальный, но почему-то на github pages слетело форматирование, поэтому пока залила на rpubs.
Конечно, не всегда можно так легко отразить на одном или нескольких графиках, что происходит в данных. Так что о способах визуализировать многомерные данные, например данные экспрессии генов, поговорим в следующий раз.

#R #base_stat
1.2K viewsedited  14:12
Открыть/Комментировать
2022-10-18 13:35:57 Всем привет!

Кто хочет подтянуть знания по статистике и научиться круче анализировать данные в R, рекомендую 9-дневный курс-интенсив "Статистика R и анализ данных" от бластима, начнется 31 октября. Участвовать можно очно (в Москве) или онлайн, оба формата оказались достаточно эффективными.
Но сразу скажу, что если вы будете участвовать онлайн, то готовьтесь, что курсу нужно будет посвящать целый рабочий день, параллельно работать скорее всего не получится. Однако если что-то не успеете посмотреть сразу, организаторы предоставляют неограниченный доступ к видеозаписям курса, так что можно будет пройти в удобное время. Хотя конечно одним из преимуществ таких курсов является возможность задать вопросы лектору, поэтому рекомендую все-таки найти время на полноценное прохождение курса.

По промокоду ELENASTATR15 можно получить 15% скидку!

Я сама участвовала как технический ассистент в прошлый раз и могу гарантировать, что каждому участнику уделяется достаточно много внимания и помощи в решении конкретно ваших задач. Лектор Иван Поздняков очень крутой, объясняет все максимально понятными словами, с кучей примеров + используя реальные датасеты.

В программе R разбирается с нуля, что подойдет для совсем новичков в программировании, но лектор также рассказывает тонкости и фишки языка R, примерно на уровне Advanced R, что будет интересно и тем, кто более-менее разбирается в R (знаю по своему опыту).
Мне еще нравится в курсе, что почти сразу происходит погружение в tidyverse, как я уже упоминала, это набор пакетов для анализа данных, объединенных общей философией и подходом. Ну и в целом, считается, что в R без тайдиверса сейчас особо делать нечего.

В части по статистике делается акцент на понимании основ статистического вывода и связи методов друг с другом, а также различных тонких моментах применения различных методов. Кто уже пробовал применять статистические тесты в R, наверняка знает, что запускаются они обычно в одну строчку, но сложность заключается в правильной подготовке данных и интерпретации результатов.
Разбор статистики начинается с основ статистического вывода и самых простых тестов (тест Стьюдента например), а заканчивается линейными моделями, методами понижения размерности и другими достаточно серьезными методами. Так что если вы уже не совсем новичок в статистике, но хотите продвинуться в освоении более сложных методов, добро пожаловать на курс!

В этот раз я тоже буду участвовать как технический ассистент онлайн, буду помогать с установкой пакетов, запуском функций и вообще)
Если есть вопросы, пишите в личку

P.S. Основываясь на результатах опроса, я уже готовлю пост по базовой статистике, выйдет в ближайшие несколько дней.
P.P.S. Если не хватает времени на курс, то можно записаться ко мне на индивидуальные занятия, подробности тут.
1.1K views10:35
Открыть/Комментировать
2022-10-13 20:23:07
Всем добрый вечер! Материалов на какую тему хотелось бы видеть больше на канале?
Опрос мультивариантный
Anonymous Poll
59%
Базовая статистика (что такое p-value, описательные статистики, статистический вывод)
55%
Продвинутая статистика (ановы, поправки на множественное тестирование, линейные модели)
31%
Базовый R, история языка, особенности
32%
Построение графиков, ggplot2
29%
tidyverse как набор пакетов для анализа данных, с акцентом на dplyr и purrr
0%
Другое (пишите в комментарии)
285 voters1.1K views17:23
Открыть/Комментировать
2022-10-10 18:47:39 Приветствую подписчиков, особенно новоприбывших!
Я подготовила инструкцию, как установить и настроить R и RStudio для разных операционных систем.

https://ubogoeva.github.io/how_to_install_R.html

Инструкция будет полезна для тех, кто только начинает знакомство с этим языком программирования, а также для того чтобы скидывать студентам на курсах)
По своему преподавательскому опыту знаю, что нередко возникают проблемы с установкой библиотек на Ubuntu и с кириллическими путями в Windows, разобрала, что нужно сделать, чтобы это исправить.
Пишите, сталкивались ли вы с подобными или другими сложностями в начале освоения R.

P.S. А еще я научилась наконец-то делать странички на гитхабе и вообще интегрировать Git + R в RStudio

#R #install
1.3K viewsElena, 15:47
Открыть/Комментировать
2022-09-14 16:27:56 Рада представить обновленную программу репетиторства по статистике, R и обработке данных RNA-seq для студентов, научных сотрудников и любых желающих

Цена: 1500 рублей в час (астрономический)
Формат: в основном онлайн, однако для местных желающих можно подумать об организации очных занятий
Студентам скидка 10%

Возможно как изучение интересующих вас тем, так и занятия по программе, приведенной ниже.
В любом случае гарантируется индивидуальный подход к каждому ученику, с учетом бэкграунда и необходимых к изучению тем

Обо мне:
Я закончила бакалавриат и магистратуру факультета естественных наук НГУ, работаю младшим научным сотрудником в институте цитологии и генетики в секторе системной биологии морфогенеза растений. Сейчас на третьем курсе аспирантуры по направлению биоинформатики.
Опыт работы в R: с ~2017 года, тогда же начала изучать статистику, однако скажу честно, что действительно продвинулась в изучении в последние два-три года.
Вообще я конечно очень люблю R, как многие могли заметить, и стремлюсь передать это остальным.

Преподавательский опыт:
* Преподаю семинары по компьютерной транскриптомике (обработке данных RNA-seq) для магистрантов НГУ (ссылочка на программу здесь)
* Работала техническим ассистентом на курсе бластим "Статистика, R и анализ данных", впечатления можно почитать здесь
* В течение последних двух лет консультирую коллег и друзей по вопросам статистики, уже проводила индивидуальные занятия, в основном статистику для медиков, также консультировала по обработке RNA-seq, за отзывами можно к Тане
* Вела кураторские занятия по дифференциальным уравнениям для студентов 2 курса
* Преподавала в летней физматшколе биологию для учеников 10 класса

Приблизительные темы занятий:
* базовый R, считывание данных, препроцессинг, проведение статистических тестов (параметрических, непараметрических), построение графиков (ggplot2)
* tidyverse, а именно использование dplyr, пайпов, stringr для работы со строками, а также purrr для замены циклов и функций семейства apply
* базовая статистика: теория, лежащая в основе статистических тестов, понимание области применения тестов и их ограничения (например у параметрических)
* продвинутая статистика: применение перестановочных тестов как альтернатива классическим
* пайплайн обработки данных RNA-seq: от сырых данных с прибора до списка дифференциально экспрессирующихся генов и дальнейший анализ этих списков
В рамках этих тем почти все на ваш выбор, кроме пожалуй data.table и shiny по R (еще сама изучаю), а также линейных моделей со смешанными эффектами (пока не чувствую компетенции это преподавать).

Обратите внимание! В этот раз НЕ подразумевается формат решения за вас учебных/рабочих задач, я теперь только за обучение, а не за решение вместо.
Пишите по вопросам лично или в комментарии к этому посту, записываться на занятия в личные сообщения.
Еще буду благодарна, если раскидаете по чатам тем, кому это может быть интересно

#R #stat #RNA-seq
2.1K viewsE V, edited  13:27
Открыть/Комментировать
2022-08-31 05:46:36 Вчера был день рождения у автора канала - Лены. Лена выбрала крутую тему и интересно её раскрывает, особенно классно смотреть не только на авторские тексты, но и рисунки :D А ещё с Леной круто играть в Нечто. И ездить куда-нибудь с рюкзаком. У Лены вообще много интересного можно узнать и это прикольно!
Лена, удачи тебе с реализацией твоих таких разных проектов! И успехов в эффективном донесении своих идей до любой аудитории:)
1.6K viewsБикчурина Татьяна, 02:46
Открыть/Комментировать
2022-08-18 08:28:02 Советы для эффективной организации работы в R

Опрос показал, что очень малый процент подписчиков использует проекты в RStudio (19%), это меньше чем процент людей, не пользующихся R (23%).

Поэтому я написала небольшой пост с набором рекомендаций о работе в R.

https://telegra.ph/R-how-to-organize-work-08-08

Об этом к сожалению не всегда рассказывают на курсах, например ар-проекты я начала применять спустя 5 лет после начала работы с R (стыдно признать).
Также собрала лайфхаки для удобной работы и ссылки, чтобы двигаться в правильном направлении.
Бонусом презентация о правильном наименовании файлов, которая будет полезна вообще всем, не только пользователям R.


И еще я обновила рекомендуемую литературу по R классной книгой Ивана, которая к тому же на русском языке. Очень радует, что русскоязычное R-сообщество развивается и появляются книги, посвященные языку!

#R #lifehack #literature
1.7K views05:28
Открыть/Комментировать