Получи случайную криптовалюту за регистрацию!

Parsing Conf

Логотип телеграм канала @parsing_conf — Parsing Conf P
Логотип телеграм канала @parsing_conf — Parsing Conf
Адрес канала: @parsing_conf
Категории: Технологии
Язык: Русский
Количество подписчиков: 679
Описание канала:

Data collection conference/meetup
Митап о сборе данных
Тематические объявления и посты бесплатно размещаем
По всем вопросам можно обращаться в чат
https://t.me/joinchat/HvuCPzwpPJHrrDfC
или в личку @cuda23

Рейтинги и Отзывы

3.00

3 отзыва

Оценить канал parsing_conf и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

2

1 звезд

0


Последние сообщения 4

2021-06-13 12:00:18 Микрооптимизации парсинга в промышленных масштабах
Алексей Меркулов

Парсинг нужно делить на разные итерации задач: краулинг, временное хранение данных (очереди), обработка данных, запись данных, прокси, контейнеры. Я расскажу о причинах такого разделения и как это все между собой связывать, как подбирать инструменты и языки под исполнения каждой задачи.

Видео
221 viewsЕгор, 09:00
Открыть/Комментировать
2021-06-13 11:13:20 В 11:30 по Москве начнутся выступления спикеров трека Data Collection:

11:30-12:30 Scrapy workshop, Михаил Синегубов
12:30-13:00 Автоматические регистрации на веб-порталах, Ярослав Меньшиков, ГисАвто
13:00-13:30 Как добывать данные когда их не хотят отдавать, Евгений Слайковский, Scrapinghub
13:30-14:00 Путь новичка в веб-парсинге, Игорь Смирнов, Data scientist, Crayon

Ждём вас!
201 viewsЕгор, 08:13
Открыть/Комментировать
2021-06-12 21:15:13 #анонс

Data Fest. Data Collection

Завтра, 13 июня

11-30
. Scrapy workshop, Михаил Синегубов
12-30. Автоматические регистрации на веб-порталах, Yaroslav Menshikov, ГисАвто
13-00. Как добывать данные когда их не хотят отдавать, Евгений Слайковский, Scrapinghub
13-30. Путь новичка в веб-парсинге, Igor Smirnov, Data scientist, Crayon

Регистрация
189 viewsЕгор, edited  18:15
Открыть/Комментировать
2021-06-11 19:04:03 Data platform for startups

Даниил Охлопков – Data lead, Runa Capital

Я расскажу, как устроена сейчас Runa Data Platform, которую я разрабатываю для Runa Capital. Эта платформа собирает открытые данные и дает интерфейс для взаимодействия с данными, которыми пользуются сотрудники нашего венчурного фонда и их друзья.

Видео
Презентация
313 viewsЕгор, 16:04
Открыть/Комментировать
2021-06-09 19:03:29 #запись
Парсинг через Tor: Как скачать 1.5 млн патентов за 2 недели, а не за 40 лет
Елена Никитина — руководитель проектов, "Аналитические программные решения"

В 2018 году в России наблюдался неподдельный интерес государства к цифровой экономике. Одной из самых популярных тем были "сквозные технологии" - ключевые технологии, которые охватывают сразу несколько отраслей и серьезно влияют на развитие всех технологических рынков. Мне довелось поработать в команде в структуре Росатома, которая как раз и занималась их исследованием, результатом которого стал почти 400-страничный "Атлас сквозных технологий России". Одна маленькая проблема: что собой представляют эти "сквозные технологии" и главное, кто такие "лидирующие исследовательские центры", которые ими занимаются в России, не знал никто. Это нам и предстояло выяснить. Вторая маленькая проблема: на исследование, включая сбор данных, у нас была всего пара месяцев.

На старте удалось определить несколько перспективных источников данных, объединив которые, можно было получить косвенную информацию. Разумеется, все их было необходимо парсить: базу НИОКРов, резюме и вакансии с хедхантера, ЕГРЮЛ и базу Роспатента. База патентов выглядела легкой добычей: открытый ресурс, понятная структура и всего лишь 1.5 млн патентов из 2.6 млн (нам нужны были только новые). По расчетам, вместе с написанием и отладкой парсера данные были бы у нас примерно через 2 недели. А впереди ждал сюрприз от Роспатента: ограничение на скачивание 100 патентов в сутки...

Почему все закончилось хорошо, как мы не потратили 40 лет и все успели, маленький лайфхак по использованию Tor и исходный код ждут вас в докладе.

Видео
472 viewsЕгор, 16:03
Открыть/Комментировать
2021-06-07 15:03:26 #запись
Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней
Маликов Роман – Леруа Мерлен

- Какой может быть архитектура для ежедневного мониторинга цен на множестве сайтов.
- Как мы используем библиотеку Ferret в этой архитектуре.
- Плюсы и минусы архитектуры.

Видео
Презентация
214 viewsЕгор, 12:03
Открыть/Комментировать
2021-06-05 11:56:19 #запись

Россети и Mail.ru в поисках чёрных майнеров

Александр Мамаев (@Chessgevara) – Mail.ru

Доклад о программном комплексе для поиска потерь электроэнергии: построение модели, a/b тестирование, архитектура ПО, мониторинг стабильности модели.

Видео
251 viewsЕгор, edited  08:56
Открыть/Комментировать
2021-06-05 10:03:05 #работа

Контакты: @ordanax
292 viewsЕгор, 07:03
Открыть/Комментировать
2021-06-04 18:48:55 #анонс

Data Fest. Data Collection

Завтра, 5 июня

11-00
. “Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней” – Маликов Роман, Леруа Мерлен
11-30. "Парсинг через Tor: Как скачать 1.5 млн патентов за 2 недели, а не за 40 лет" – Елена Никитина, руководитель проектов, "Аналитические программные решения"
12-00. "Микрооптимизации парсинга в промышленных масштабах" – Алекс
12-30. "Data platform for startups" – Даниил Охлопков, Data lead, Runa Capital

Регистрация
619 viewsЕгор, edited  15:48
Открыть/Комментировать
2021-06-04 10:03:13 #запись

XtremeAugment: Getting the Most from Your Data by Combining Image Collection with Image Augmentation

Сергей Нестерук (@NesterukS) – PhD student, Skoltech CDISE

Презентация
Видео
340 viewsЕгор, edited  07:03
Открыть/Комментировать