2021-06-09 19:03:29
#запись
Парсинг через Tor: Как скачать 1.5 млн патентов за 2 недели, а не за 40 лет
Елена Никитина — руководитель проектов, "Аналитические программные решения"
В 2018 году в России наблюдался неподдельный интерес государства к цифровой экономике. Одной из самых популярных тем были "сквозные технологии" - ключевые технологии, которые охватывают сразу несколько отраслей и серьезно влияют на развитие всех технологических рынков. Мне довелось поработать в команде в структуре Росатома, которая как раз и занималась их исследованием, результатом которого стал почти 400-страничный "Атлас сквозных технологий России". Одна маленькая проблема: что собой представляют эти "сквозные технологии" и главное, кто такие "лидирующие исследовательские центры", которые ими занимаются в России, не знал никто. Это нам и предстояло выяснить. Вторая маленькая проблема: на исследование, включая сбор данных, у нас была всего пара месяцев.
На старте удалось определить несколько перспективных источников данных, объединив которые, можно было получить косвенную информацию. Разумеется, все их было необходимо парсить: базу НИОКРов, резюме и вакансии с хедхантера, ЕГРЮЛ и базу Роспатента. База патентов выглядела легкой добычей: открытый ресурс, понятная структура и всего лишь 1.5 млн патентов из 2.6 млн (нам нужны были только новые). По расчетам, вместе с написанием и отладкой парсера данные были бы у нас примерно через 2 недели. А впереди ждал сюрприз от Роспатента: ограничение на скачивание 100 патентов в сутки...
Почему все закончилось хорошо, как мы не потратили 40 лет и все успели, маленький лайфхак по использованию Tor и исходный код ждут вас в докладе.
Видео
472 viewsЕгор, 16:03