Получи случайную криптовалюту за регистрацию!

ПДС

Логотип телеграм канала @politicalds — ПДС П
Логотип телеграм канала @politicalds — ПДС
Адрес канала: @politicalds
Категории: Политика
Язык: Русский
Количество подписчиков: 293
Описание канала:

Political Data Science - ПДС.
Датасеты, методы, хэндбуки и авторская дата-аналитика от субколлектива МГИМО-ИМИшников
Обратная связь: @politicalds_feedback_bot
Data Science
♥️
Political Science and International Relations

Рейтинги и Отзывы

4.50

2 отзыва

Оценить канал politicalds и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

1

3 звезд

0

2 звезд

0

1 звезд

0


Последние сообщения

2023-01-07 10:28:01 Что вы выберете для табличных данных: бустинг или MLP?

Большой пласт задач машинного обучения на практике - задачи на табличных данных, которые чаще всего решаются при помощи градиентного бустинга. Стандартная для табличных данных MLP-архитектура обычно имеет хуже качество и требует больше ресурсов для обучения и тюнинга.
Можно ли применять глубокое обучение более эффективно?

Yandex Research активно занимается исследованиями в этой области. ИМХО, лучшие статьи на эту тему, прошедшие на NeurIPS c 90+ цитированиями:
[1] - Revisiting Deep Learning Models for Tabular Data, 2021
[2] - On Embeddings for Numerical Features in Tabular Deep Learning, 2022

Сетки рвут бустинг несмотря на то, что работы фокусируются на изначально сложных для глубокого обучения задачах, на которых доминируют бустинги традиционно доминируют. Более того, в статье идет сравнение с хорошо натюненными бустингами.
Взляните на ключевые результаты из статьи. В списке ниже указаны модели и их среднее места по задачам в бенчмарке (меньше - лучше).
- Классический MLP - 8.5
- XGBoost - 4.6
- Transformer и кусочно-линейные эмбеддинги - 3.7
- CatBoost - 3.6
- MLP и эмбеддинги с периодическими активациями - 3.0

Рассмотрим основные идеи и техники, помогающие улучшить качество ваших нейронок:
Архитектурные модификации. Простая модификация MLP c добавлением BatchNorm и пробросных связей подобно ResNet уже показывает существенные улучшения по сравнению с базовым вариантом и является хорошим бейзлайном. Однако, системные приросты показывает предложенная в [1] трансформер-архитектура, изначально использующая эмбеддинги фичей и механизм внимания.

Эмбеддинги для числовых фичей. Обычно числовые фичи передаются в MLP напрямую, но можно добиться буста качества за счет расширения их размерность, применяя для этого эмбеддинги. Любые варианты эмбеддингов числовых фичей существенно бустят табличные модели и снижают разницу между архитектурными конфигурациями. Для максимального улучшения в работе [2] выделяются две более сложные схемы организации эмбеддингов - с использованием кусочно-линейных функций и периодических активаций.

В практике Лаборатории табличные данные появляются в разных форматах: как в виде структурированных фичей, так и в виде сырых последовательностей. Наибольший интерес вызывает применение глубокое обучение там, где оно изначально имеет преимущества - это могут быть чисто неструктурированные данные, или же объединение их с табличными фичами для получения одной сильной модели.

Отметим следующий интересный факт - чем больше данных имеется, тем менее сильно влияют различные архитектурные модификации и другие техники. Это особенно относятся к табличным данным - зачастую задачи на них и общая структура самих данных куда более простые, чем на неструктурированных доменах вроде картинок или текстов, и возможность полностью описать задачу большим числом данных становится абсолютно реальной на практике.

Потестить различные техники из статей можно в песочнице нашего соревнования на Boosters, причем как на чисто табличных агрегатах, так и на последовательных данных. У двух статей есть открытый исходный код, так что с реализациями мучиться не придется.

Слово "бустинг" в этом посте оказалось популярнее множества слов {"mlp", "сетка"}.

Автор поста @oasidorshin ответит на ваши вопросы про сравнение сеток с бустингами в комментариях.
75 views07:28
Открыть/Комментировать
2023-01-06 11:59:15
Онлайн-книга по дизайну дашбордов: определение, создание прототипа, построение и развертывание информационных панелей

https://bit.ly/3Z6kQ3n
97 views08:59
Открыть/Комментировать
2023-01-05 12:39:01 ​​Проблема 37-го хода военного ИИ.
Люди могут просто не понять, что это их спасение или конец.

Автономное летальное оружие (АЛО): 1) уже существует и 2) скоро станет штатным элементом всех систем ведения военных действий.
Т.е. ящик Пандоры открыт, его уже не закрыть и нужно срочно решать, как предотвратить худшие из последствий.
А эти последствия: а) весьма разнообразны и б) что самое ужасное, предотвратить многие из них известными людям способами просто невозможно.
АЛО невозможно запретить (как химическое и бактериологическое оружие), ибо не существует средств контроля за разработками ИИ алгоритмов.
Невозможно ограничить автономизацию обычного (неавтономного) оружия, превращающую его в АЛО (превратить обычную бомбу в ядерную - сверхзадача, а для автономизации боевого дрона достаточно за 5 сек сменить его прошивку)
Попытки описать правила применения АЛО, оставляющие смертельные решение за людьми, столь же наивны, как надежды оставить за водителем решения по управлению авто, когда на принятие таких решений остается куда меньше 100 миллисекунд.


Но самым непреодолимым видится невозможность понять почему алгоритм принимает то или иное решение. И дело здесь не только в проблеме «черного ящика» (как сделать решения ИИ доступными для осмысления людьми).
Даже если такое осмысление в принципе возможно (как например это было со знаменитым нечеловечески хитрым и дальновидным 37-м ходом AlphaGo во 2-й игре против Lee Sedol), в реальных военных ситуациях на это не будет времени.
Если оставить окончательное решение за человеком, то он может просто не успеть понять спасительность и единственность решения, предложенного АЛО. Или вообще не понять, подобно экспертам по игре в Го, что единодушно сочли 37-й ход AlphaGo ошибкой.
А если и поймет, то скорее всего, к тому времени уже будет поздно.

• Почитайте про это в новом совместном отчете BAE Systems и WIRED Consulting «Robotic Weapons Are Coming – What Should We Do About It?»
• Мою презентацию и выступление на эту тему в ходе организованной МККК дискуссии «Цифровые технологии в вооруженных конфликтах: смягчение гуманитарных последствий» можно посмотреть здесь (22 мин).
#Война #ИИ #БПЛА #AWS
119 views09:39
Открыть/Комментировать
2023-01-04 15:47:01 Regression Analysis with Time Series Data In: Introductory Econometrics A Modern Approach / Jeffrey M. Wooldridge. Mason, Ohio: South-Western Cengage Learning, 2009.

В трех главах можно прочитать о том, какие регресионные модели можно применять к временным рядам данных, и каким условиям эти данные должны удовлетворять. Кода нет, но довольно много математических формул. Впрочем, найти готовые решения для упоминаемых автором моделей на R или Python не составит труда.

#пдс_библиотека #регрессия #timeseries
127 views12:47
Открыть/Комментировать
2023-01-04 12:56:23
Неолиберальные реформы наглядно
124 views09:56
Открыть/Комментировать
2023-01-03 15:01:10 В политнауках не сложилось какой-то доморощенной классификации данных, но политологи активно пользуются наработками эконометристов, о которых полезно иметь базовое представление. В эконометрике обычно выделяют 4 типа данных:

Временные ряды (time series). Временными рядами называется набор наблюдений за одним объектом в разные (обычно равные) промежутки времени. Пример: число протестных мероприятий за год в Перу с 1980 по 2020 год.

Перекрёстные данные (cross-sectional data). Под этим типом данных понимают набор наблюдений за разными однородными объектами (людьми, странами, фирмами, диадами или чем-то ещё) в конкретный промежуток времени. Пример: ВВП отдельных стран Евросоюза в 2018 году.

Объединённые перекрёстные данные (pooled cross-sectional data). Такой тип данных используется для описания наблюдений за множеством объектов за несколько периодов времени. В отличие от следующего типа данных, информация об одном объекте фиксируется в рамках одного наблюдения. Пример: база данных крупных спортивных событий с 1980 по 2018 гг. В каком-то году будет N наблюдений для N событий, в следующем будут уже новые события и новые наблюдения, но структура информация сохранится.

Панельные данные (panel data/longitudinal data). Самый подробный тип данных, соединяющий временные ряды и перекрёстные данные. Панельные данные содержат наблюдения за всеми объектами за все промежутки времени. Пример: база данных международной торговли с 1990 по 2020 год.

Зачем это нужно? К сожалению, к каждому исследовательскому вопросу нужно подбирать подходящий набор данных. Чтобы изучить влияние наличия выхода к морю на объем экспорта нефти не подойдут временные ряды, а оценить эффекты глобализации на психологическое здоровье будет проблематично на перекрёстных данных. Что ещё хуже, для каждого типа данных зачастую требуется подобрать специфические методы анализа, и всё это нужно учитывать и исследователю, и аналитику.

P.S. А еще наборы данных могут быть с геопривязкой или без, её наличие иногда открывает новые горизонты для анализа.

#пдс_образовательный
148 views12:01
Открыть/Комментировать
2022-12-31 21:50:30
ПДС ещё слишком молод, чтобы подводить итоги года, да и от аналоговой оливьешки отвлекать не гоже.

Спасибо всем, кто с нами! Обещаем, что в следующем будет интересней. С Новым Годом!
174 viewsedited  18:50
Открыть/Комментировать
2022-12-30 11:02:00
Интерактивная тренажер с подсказками, который поможет освоить работу с git

https://bit.ly/3C98jCJ
192 views08:02
Открыть/Комментировать
2022-12-29 15:31:01 Седашов Е.А. Методы каузального анализа в современной политической науке // Политическая наука. – 2021 – № 1 – С. 98–115.

Что социальные науки могут делать в условиях фактической невозможности проводить эксперименты? Ставить квазиэксперименты, конечно же.

В статье на русском языке рассмотрены условия и техники применения методов, которые позволяют изучать каузальность в политической науке. Внутри можно почитать про разрывную регрессию, метод difference-in-difference и метод инструментальных пременных.

#пдс_библиотека
182 views12:31
Открыть/Комментировать
2022-12-29 11:25:54 Уникальная база опросов промышленных предприятий теперь доступна на сайте ИМЭМО. 30 лет назад в ИМЭМО стартовал амбициозный проект проведения опросов руководителей российских предприятий в условиях формирующейся новой экономики. Так, появился Российский Экономический Барометр - бюллетень, в котром к настоящему времени опубликованы реузльтаты более 360 опросов. Фактически была сформиована база независимой экономической статистики, позволявшей все эти годы оценивать динамику российской экономики и промышленных предприятий по почти двум сотням показателям. Исследователи, стоявшие у истоков этого проекта и продолжающие его активно развивать, регулярно деялятся своим анализом полученных данных в научной литературе. Журнал МЭиМО в этом году опубликовал большую статью об опыте исследования рыночных реформ в России. В журнале "Экономический анализ: теория и практика" опубликовано сравнительное исследование практки опросов промышленных предприятий в России и Германии. До последнего времени со всеми данными, полученными в процессе опросов, можно было лишь ознакомиться в издаваемом ограниченным тиражом бюллетене. Теперь база данных РЭБ открыта для самого широкого круга исследователей, экспертов и просто интересующихся экономикой России людей. На сайте ИМЭМО размещена элетронная версия базы данных РЭБ за 30 лет, содержащая 195 годовых показателей, 127 квартальных и 36 ежемесячных. Электронная база позволяет выбирать показатели, сравнивать их, строить графики за необходимый период времени, начиная с конца 1991 года, а также скачивать данные в формате excel.
177 views08:25
Открыть/Комментировать