Получи случайную криптовалюту за регистрацию!

Parsing Conf

Логотип телеграм канала @parsing_conf — Parsing Conf P
Логотип телеграм канала @parsing_conf — Parsing Conf
Адрес канала: @parsing_conf
Категории: Технологии
Язык: Русский
Количество подписчиков: 679
Описание канала:

Data collection conference/meetup
Митап о сборе данных
Тематические объявления и посты бесплатно размещаем
По всем вопросам можно обращаться в чат
https://t.me/joinchat/HvuCPzwpPJHrrDfC
или в личку @cuda23

Рейтинги и Отзывы

3.00

3 отзыва

Оценить канал parsing_conf и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

2

1 звезд

0


Последние сообщения 3

2021-06-29 19:00:18 #запись
Как добывать данные когда их не хотят отдавать

Евгений Слайковский, инженер, Scrapinghub (Zyte)

1. Почему так происходит? Сервис хочет отдавать данные только реальным пользователям. Что нам делать? Пытаться выглядеть как реальный пользователь.
2. Уровни симуляции пользователя: заголовки, IP, Сессии, Javascript, Сложные отпечатки (js fingerprint, network fingerprint).
3. Заголовки: порядок важен, регистр важен. Пробелы важны.
4. IP. Адреса Тора, плохие прокси, дата центр прокси, всё это можно проверить.
5. Сессии
6. Javascript. Простые челенджи. Использование JS эмуляторов и браузеры.
7. Js fingerprints. Canvas, webGL, webRTC leak. Автоматизация браузеров. (Splash, Puppeteer, Playwright)
8. Network fingerprint, http/2, tls fingerprinting.
9. Каптчи. Recaptcha v2, v3, hcaptcha, geetest captcha.
10. Обзор антибот систем и кейсы
11. Cloudflare
12. PerimeterX
13. Akamai
14. Datadome
15. А почему только десктоп?
16. Мобильная версия
17. Мобильное приложение.
18. Будущее антибот систем.

Видео
235 viewsЕгор, 16:00
Открыть/Комментировать
2021-06-29 18:22:46 Собрал через Толоку 500 GB изображений людей в медицинских масках.

250 000 изображений, 28 000 уникальных лиц, 4 способа ношения масок.
Для каждого человека указан его пол, возраст, способ ношения маски. 
Выложил первую часть данных на kaggle: 
https://www.kaggle.com/tapakah68/medical-masks-part1

Также записал 6-и минутное видео, в котором рассказываю о построении пайплайна по сбору датасета: 


Если остались вопросы, пишите в комментарии!)
235 viewsЕгор, 15:22
Открыть/Комментировать
2021-06-27 19:03:18 #запись

Путь новичка в веб-парсинге

Игорь Смирнов – Data scientist, Crayon

В данном докладе мы поговорим о кривой обучения в мире парсинга, разберем несколько практических примеров, а также обсудим завышенные ожидания и типичные ошибки.

Видео
395 viewsЕгор, 16:03
Открыть/Комментировать
2021-06-25 19:03:21 #запись
Scrapy workshop

Михаил Синегубов

Видео
292 viewsЕгор, 16:03
Открыть/Комментировать
2021-06-23 10:03:12 #работа
Нужен парсер постов из телеграм каналов (в них размещаются объявления о кастингах), и структурирование полученной инфы по категориям:
требования заказчика;
контакты заказчика;
Цена: договорная
Контакты: @crankocial
208 viewsЕгор, edited  07:03
Открыть/Комментировать
2021-06-21 22:06:53 #работа
Скачать информацию из различных источников. Информация определённых категорий.

Источники:
- Соц. сети
- Агрегаторы
- Форумы
- Новостные ленты
- Телеграм, Viber, WhatsApp

Группировки:
- Разбивка по городам
- По ресурсам
- По характеру объекта

Больше деталей в личке: @cuda23
Цена в личке
Работа под ключ
362 viewsЕгор, edited  19:06
Открыть/Комментировать
2021-06-21 14:18:27 #запись

Автоматические регистрации на веб-порталах

Ярослав Меньшиков, Ведущий программист .Net, компания ГисАвто

Что такое автоматические регистрации, для чего нужны, как сделать регистрацию на портале из приложения C#, как использовать fiddler, как защититься от автоматических регистраций.

Видео
381 viewsЕгор, 11:18
Открыть/Комментировать
2021-06-19 10:03:02 #анонс
У нас появился ещё один канал с событиями Meta-events. Здесь мы публикуем то, что происходит сегодня

Список всех каналов тут
114 viewsЕгор, 07:03
Открыть/Комментировать
2021-06-17 10:04:15 #работа
Ведущий Python разработчик (Lead)

Мы - команда проекта ODDSCORP, небольшая группа full-stack разработчиков. 4.5 года назад мы начали автоматизировать ставки на спорт. За это время мы сделали более 8 млн. ставок своими ботами, и продолжаем делать от 10 до 40 тыс. ставок ежедневно. (Да-да, мы действительно переигрываем букмекеров, и ты сможешь в этом напрямую поучаствовать).

Задачи:
- Разрабатывать парсеры новых источников данных;
- Оптимизировать скорость и качество работы уже работающих парсеров, разработанных на Python (95%) и Node.js (5%);
- Проводить ревью кода и управлять своей командой разработки (7 человек).

Технические навыки:
- Необходимо уверенное владение:
- Python (в т.ч. знания ООП, декораторов, перегрузки операторов и прочих основных особенностей языка);
- JavaScript - чтобы без труда уметь разобраться в js-движке на любом крупном сайте;
Работа с Git;
- SQL / NoSQL базы данных;
- Linux.

Глубокое понимание:
- Механизмов парсинга данных (Знание различных паттернов проектирования, в частности: стратегии, прокси и д.р. Умение применять их и оптимизировать);
- Работы с TCP-протоколом на низком уровне;
http и websocket протокола;
- Распараллеливания задач (threading, multiprocessing, subprocess, asyncio, aiohhtp) и работы с очередями.

Будет плюсом:
- Опыт разработки парсеров на Node.js;
- Знания С++ и PHP (для работы с нашей базой данных)
- Опыт использования React;
- Покрытие своего кода тестами;
- Опыт оптимизации времени исполнения кода;
- Опыт взаимодействия с Chrome Extensions API.

А также для нас крайне важно:
- Умение работать в команде;
- Умение самостоятельно организовывать свой рабочий процесс;
- Дисциплина и порядок (в коде, в рабочих чатах, в голове);
- Умение брать на себя ответственность и инициативность.

Условия:
- Рабочее место на Маяковской (сначала удаленка 2 месяца);
- Комфортный офис с поваром и массажистом;
- Свободный график;
- Испытательный срок 2 месяца;
- ЗП от 200 000 ₽ до 350 000 ₽ на руки + бонусы по результатам работы.
#Python, #JavaScript, #SQL, #NoSQL, #Linux #Москва #Офис
Для отклика писать по следующим контактам:
https://t.me/AliyaAkimova, aliya@oddscorp.com
944 viewsЕгор, 07:04
Открыть/Комментировать
2021-06-15 19:03:29 #работа
Python разработчик middle/senior

от 120 000 до 200 000 руб. на руки
Требуемый опыт работы: 3–6 лет
Полная занятость, удаленная работа

Мы - команда проекта ODDSCORP, небольшая группа full-stack разработчиков. 4.5 года назад мы начали автоматизировать ставки на спорт. За это время мы сделали более 8 млн. ставок своими ботами, и продолжаем делать от 10 до 40 тыс. ставок ежедневно. (Да-да, мы действительно переигрываем букмекеров, и ты сможешь в этом напрямую поучаствовать)

Задачи:
Разрабатывать парсеры новых источников данных;
Оптимизировать скорость и качество работы уже работающих парсеров, разработанных на Python
Технические навыки:

Необходимо уверенное владение:
Python (в т.ч. знания ООП, декораторов, перегрузки операторов и прочих основных особенностей языка);
JavaScript - чтобы без труда уметь разобраться в js-движке на любом крупном сайте;
Работа с Git;
SQL / NoSQL базы данных;
Linux.

Глубокое понимание:
Механизмов парсинга данных (Знание различных паттернов проектирования, в частности: стратегии, прокси и д.р. Умение применять их и оптимизировать);
Работы с TCP-протоколом на низком уровне;
http и websocket протокола;
Распараллеливания задач (threading, multiprocessing, subprocess, asyncio, aiohhtp) и работы с очередями.

Будет плюсом (не обязательно):
Опыт разработки парсеров на Node.js;
Знания С++ и PHP (для работы с нашей базой данных)
Опыт использования React;
Покрытие своего кода тестами;
Опыт оптимизации времени исполнения кода;
Опыт взаимодействия с Chrome Extensions API.

А также для нас крайне важно:
Умение работать в команде;
Умение самостоятельно организовывать свой рабочий процесс;
Дисциплина и порядок (в коде, в рабочих чатах, в голове);
Умение брать на себя ответственность и инициативность.

Условия:
Удаленная работа;
Свободный график;
Испытательный срок 2 месяца;
ЗП от 120 000 ₽ до 200 000 ₽ на руки + бонусы по результатам работы.
Для отклика писать по следующим контактам: https://t.me/AliyaAkimova, aliya@oddscorp.com
316 viewsЕгор, 16:03
Открыть/Комментировать