2021-05-06 02:02:00
#анонс
Parsing Conf
Митап про сбор данных
————————————
Дата:
7 мая (пятинца)
Время:
20-00 по Москве
————————————
@fobscraft. "Микрооптимизации парсинга в промышленных масштабах"Парсинг нужно делить на разные итерации задач, а именно, краулинг, временное хранение данных (очереди, кафка), обработка данных, запись данных, прокси, контейнеры. Объясню, почему я считаю важным разделение каждой задачи на отдельные этапы и как это все между собой связывать, как подбирать инструменты и языки под исполнения каждой задачи.
@Verz1Lka. "Как добывать данные когда их не хотят отдавать"1. Почему так происходит? Сервис хочет отдавать данные только реальным пользователям. Что нам делать? Пытаться выглядеть как реальный пользователь.
2. Уровни симуляции пользователя: заголовки, IP, Сессии, Javascript, Сложные отпечатки (js fingerprint, network fingerprint).
3. Заголовки: порядок важен, регистр важен. Пробелы важны.
4. IP. Адреса Тора, плохие прокси, дата центр прокси, всё это можно проверить.
5. Сессии
6. Javascript. Простые челенджи. Использование JS эмуляторов и браузеры.
7. Js fingerprints. Canvas, webGL, webRTC leak. Автоматизация браузеров. (Splash, Puppeteer, Playwright)
8. Network fingerprint, http/2, tls fingerprinting.
9. Каптчи. Recaptcha v2, v3, hcaptcha, geetest captcha.
10. Обзор антибот систем и кейсы
11. Cloudflare
12. PerimeterX
13. Akamai
14. Datadome
15. А почему только десктоп?
16. Мобильная версия
17. Мобильное приложение.
18. Будущее антибот систем.
- Мероприятие бесплатное
- Онлайн
- Ссылка на ZOOM будет опубликована в канале за несколько минут до начала мероприятия
714 views23:02