Получи случайную криптовалюту за регистрацию!

R4marketing | канал Алексея Селезнёва | Язык R

Логотип телеграм канала @r4marketing — R4marketing | канал Алексея Селезнёва | Язык R R
Логотип телеграм канала @r4marketing — R4marketing | канал Алексея Селезнёва | Язык R
Адрес канала: @r4marketing
Категории: Технологии
Язык: Русский
Количество подписчиков: 4.45K
Описание канала:

Автор канала Алексей Селезнёв, украинский аналитик, автор ряда курсов по языку R и пакетов расширяющих его возможности.
В канале публикуются статьи, доклады, новости, заметки по языку R.
Для связи: @AlexeySeleznev
Реклама: http://bit.ly/39MwJCY

Рейтинги и Отзывы

2.33

3 отзыва

Оценить канал r4marketing и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

1

3 звезд

0

2 звезд

1

1 звезд

1


Последние сообщения 4

2022-06-17 11:00:04 ​​Визуализация в ggplot2

Автор: Иван Поздняков (@pozdniakovivan)

Очередная отличная лекция от Ивана, посвящена визуализации данных в R с помощью ggplot2.

#видео_уроки_по_R
531 viewsAlexey Seleznev, 08:00
Открыть/Комментировать
2022-06-16 11:00:04 ​​Валидация данных с помощью пакета assertr

Пакет assertr так же предназначен для валидации данных, перед их анализом.

В качестве примера проверим встроенный набор данных mtcars на удовлетворение следующим условиям:

● что у него есть столбцы mpg, vs и am;
● что набор данных содержит более 10 наблюдений;
● что столбец mpg (миль на галлон) состоит только из положительных чисел;
● что столбец mpg (миль на галлон) не содержит данных, выходящих за пределы 4 стандартных отклонений от его среднего значения, и
● что столбцы am и vs (автоматический/ручной и v/прямой двигатель соответственно) содержат только 0 и 1;
● каждая строка содержит не более 2 NA;
● каждая строка уникальна совместно между столбцами mpg, am и wt;
● расстояние Махаланобиса каждой строки находится в пределах 10 медианных абсолютных отклонений всех расстояний (для обнаружения выбросов).

Пример кода реализующий эту проверку:

library(assertr)

mtcars %>%
verify(has_all_names("mpg", "vs", "am", "wt")) %>%
verify(nrow(.) > 10) %>%
verify(mpg > 0) %>%
insist(within_n_sds(4), mpg) %>%
assert(in_set(0,1), am, vs) %>%
assert_rows(num_row_NAs, within_bounds(0,2), everything()) %>%
assert_rows(col_concat, is_uniq, mpg, am, wt) %>%
insist_rows(maha_dist, within_n_mads(10), everything()) %>%
group_by(cyl) %>%
summarise(avg.mpg=mean(mpg))


Функционал пакета assertr:

● verify() - Принимает дата фрейм и логическое выражение. Если указанное логическое выражение возвращает FALSE, функция останавливается с ошибкой.
● assert() - Принимает дата фрейм, функцию реализующую валидацию, и список столбцов, к которым будет применяться функция.
● insist() - Принимает дата фрейм, функцию генерации предикатов и произвольное количество столбцов. Данный приём рекомендуется использовать в случаях, когда границы предельных значений заранее неизвестны, и генерируются динамически.
● assert_rows()- Принимает дата фрейм, функцию расчёта значение в рамках текущей строки, и функцию предиката, ограничивающую диапазон допустимых значений, и список столбцов, на основе которых будут проходить вычисления и проверка.
● insist_rows() - Принимает дата фрейм, функцию расчёта значения для каждой строки, функцию предиката, генерирующую динамически допустимые пределы диапазона проверки (например функция maha_dist(), которая определяет наличие явных выбросов), и список столбцов.

Далее в связке с перечисленными выше функциями используются функции - предикаты:

В связке с assert() и assert_rows():
● not_na()- проверяет, не является ли элемент NA;
● within_bounds()- возвращает функцию предиката, которая проверяет, попадает ли числовое значение в предоставленные границы;
● in_set() - возвращает функцию предиката, которая проверяет, является ли элемент членом предоставленного набора. (также допускает инверсию для «не в наборе»);
● is_uniq() - проверяет уникальность элементов.

В связке с insist() и insist_rows():
● within_n_sds() - используется для динамического создания границ для проверки векторных элементов на основе стандартных z-показателей;
● within_n_mads() - лучший метод динамического создания границ для проверки векторных элементов на основе «надежных» z-показателей (с использованием медианного абсолютного отклонения).

В связке с assert_rows() и insist_rows():
● num_row_NAs() - подсчитывает количество пропущенных значений в каждой строке;
● maha_dist() - вычисляет расстояние Махаланобиса для каждой строки (для обнаружения выбросов). При необходимости он преобразует категориальные переменные в числовые;
● col_concat() - склеивает значение всех строк в одну строку;
● duplicated_across_cols() - проверяет, содержит ли строка дубликаты в рамках указанных столбцов.

В связке с verify():
● has_all_names() - проверьте, есть ли в таблице или списке все предоставленные имена;
● has_only_names() - проверьте, что таблица или список имеют только запрошенные имена;
● has_class() - проверяет, имеют ли переданные данные определенный класс.

#заметки_по_R
636 viewsAlexey Seleznev, 08:00
Открыть/Комментировать
2022-06-15 15:00:04 ​​Запускаем RStudio и R 4.2.0 в браузере без смс и регистрации

Перейдя по ссылке, подождите несколько минут, и в браузере откроется полноценная серверная RStudio с установленным R 4.2.0.

Зачем это надо?
В основном это будет полезно тем, кто только хочет начать учить R, и ему лень устанавливать локально RStudio и R, тут вам ничего делать не надо, перешли по ссылке и выполняете задания из курса, который проходите - удобно.

Параметры сессии:

sessionInfo()

R version 4.2.0 (2022-04-22)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04.4 LTS

#заметки_по_R
890 viewsAlexey Seleznev, edited  12:00
Открыть/Комментировать
2022-06-15 11:00:03
Аналитика данных - блог ведущего Дата саентиста, работающего в Uber, одного из авторов Machine Learning ru. Материал канала поможет реально вырасти до профессионала по работе с данными.

1 канал вместо тысячи учебников и курсов, подписывайтесь:

@data_analysis_ml
909 viewsAlexey Seleznev, 08:00
Открыть/Комментировать
2022-06-14 11:00:03 ​​Кто за всех решил, что python удобен для «гражданской» аналитики?

Автор: Илья Шутов (@iMissile)

Описание:
Вся аргументация «за питон» строится исключительно по принципу «не думать», «рука рынка, «ну у нас же уже есть в проде 10 строк кода на питоне, что же делать?». Хотя элементарные технологические тесты и оценка экономической эффективности частенько дают неопровержимые доказательства, что DS питон является безответным поглотителем доли ИТ бюджета компаний. Взглянем ниже более пристально на отдельные моменты.

#статьи_по_R
666 viewsAlexey Seleznev, 08:00
Открыть/Комментировать
2022-06-13 11:02:29
Средняя зарплата Бизнес-Аналитика составляет 1500$-2500$. Тем не менее на рынке сейчас большая нехватка крутых специалистов! Присоединяйся к нам чтобы узнать все про бизнес-анализ!

Здесь вы найдете:
— Переведенные статьи;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Полезности с канала:
— Шпаргалка по SQL
— Инструменты для бизнес-анализа
— Визуализация данных


Успей залететь в бизнес-анализ, пока это не стало мейнстримом и стань крутым специалистом вместе с нами!
Подписаться: @ba_wiki
939 viewsAlexey Seleznev, edited  08:02
Открыть/Комментировать
2022-06-12 14:00:02 поддержать канал
536 viewsAlexey Seleznev, 11:00
Открыть/Комментировать
2022-06-11 11:00:03 ​​Обновления пакетов rgoogleads и rfacebookstat

Друзья, подъехали небольшие обновления пакетов для работы с Google Ads API и Facebook Marketing API. Для пользователей данные обновления пройдут практически незаметно, тем не менее рекомендую пакеты обновить, т.к. они были переведены на актуальные версии API.

● rgoogleads переведён на работу с Google Ads API v 10.1.0 (не самая последняя версия, но более актуальная, чем та которая была в предыдущей версии пакета)
● rfacebookstat переведён на работу с Facebook Marketing API v14.0

Обновление пакетов:

install.packages('rgoogleads')
install.packages('rfacebookstat')

Полезные ссылки:
- Плейлист с уроками по работе с rgoogleads
- Плейлист с уроками по работе с rfacebookstat

#новости_и_релизы_R
548 viewsAlexey Seleznev, 08:00
Открыть/Комментировать
2022-06-10 11:00:03 ​​R + Spotify: изучаем свою активность

Автор: Юрий Тукачев (@psych2016)

Хороший пример построения тепловой карты. Скачать данные по истории прослушивания можно в аккаунте Spotify, в разделе "Privacy settings" > "Download your data". Среди наборов данных будет "Streaming history for the past year".

streamHistory <- fromJSON("MyData/StreamingHistory0.json", flatten = TRUE)

#Форматируем дату и добовляем время, день недели
mySpotify <- streamHistory %>%
as_tibble() %>%
mutate_at("endTime", ymd_hm) %>%
mutate_at("endTime", format, tz = "Asia/Yekaterinburg") %>%
mutate_at("endTime", as_datetime) %>%
mutate(date = floor_date(endTime, "day") %>% as_date,
seconds = msPlayed / 1000,
minutes = seconds / 60,
weekday = weekdays(date, abbreviate = TRUE),
hour = hour(endTime))

mySpotify %>%
mutate(weekday = factor(weekday, levels = rev(c("Пн","Вт","Ср","Чт","Пт","Сб","Вс")))) %>%
group_by(weekday, hour) %>%
summarize(minutesListened = sum(minutes)) %>%
ggplot(aes(x = hour, weekday, fill = minutesListened)) +
geom_tile(color = "white", width = 0.98, height = 0.98) +
scale_y_discrete(expand = c(0,0)) +
scale_x_continuous(breaks = seq(0,24,1), expand = c(0,0)) +
scale_fill_gradient("Минут прослушивания", low = "yellow", high = "red") +
labs(x = "Время дня", y = "", caption = "Данные: Spotify Визуализация: Юрий Тукачев") +
ggtitle("Когда я чаще всего слушал музыку на Spotify за последний год?",
"Еженедельная активность прослушивания по часам дня недели") +
guides(fill = guide_colorbar(title.position = 'top', title.hjust = .5,
barwidth = unit(15, 'lines'), barheight = unit(.5, 'lines'))) +
theme(plot.title.position = "plot", text = element_text(size = 14, family = "Roboto Mono"),
plot.caption.position = "plot",
plot.caption = element_text(color = "gray"),
plot.subtitle = element_text(color = "gray"),
legend.position = "top",
panel.background = element_blank(),
plot.margin = margin(25, 25, 10, 25),
axis.ticks = element_blank())

#заметки_по_R
694 viewsAlexey Seleznev, 08:00
Открыть/Комментировать
2022-06-09 11:00:02 ​​Курс Основы языка программирования R

Автор: Артём Голубничий

1. Знакомство со средой разработки RStudio
2. Основы работы с языком R
3. Базовые типы данных и структуры
4. Векторы
5. Сортировка векторов
6. Арифметика векторов
7. Индекирование векторов
8. Базовая графика
9. Условные выражения
10. Определение функций. Область видимости.
11. Циклы
12. Функционалы
13. Tidyverse. Концепция tidy данных
14. Грамматика данных. Пакет dplyr
15. Tibble
16. Операторы . и do
17. Условные выражения в tydiverse

#курсы_по_R
411 viewsAlexey Seleznev, 08:00
Открыть/Комментировать