Получи случайную криптовалюту за регистрацию!

Как спарсить 10 млн страниц с помощью Screaming Frog SEO Spide | Hey, moneymaker!

Как спарсить 10 млн страниц с помощью Screaming Frog SEO Spider

Давно ищу пределы возможностей для лучшего SEO краулера и новая планка (почти) взята - 10 млн страниц за неделю бесперерывного парсинга ( скриншоты в комментариях).

Настройки не изменились, за исключением одной галочки - Configuration - Spider - Page links (отключить Store напротив Internal Hyperlinks).

Эта настройка отвечает за сбор всех входящих и исходящих на страницу ссылок.
С помощью неё удобно находить местоположение битых ссылок (301/404) и рассчитывать ссылочный вес, но проблемы начинаются после первого миллиона страниц:
- Скорость парсинга начинает стремительно падать (все больше параметров надо обновлять в базе у старых ссылок);
- Размер проекта растёт в космос, каждый следующий миллион страниц начинает весить 100+ гб. Хранить и обрабатывать такое становится больно.
Мы лишаемся этих функций, однако огромный плюс в том, что текущий размер проекта составляет всего 30 гб и дальнейший поиск проблем будет осуществляться выборочно на основе итогового анализа (перезапуск для конкретных разделов).

Обновление по железу:
- При попытке парсить на HDD скорость не поднималась больше 7 URL/сек, при переключении на SSD - 30-40 URL/сек;
- 32 гб оперативной памяти маловато, для комфортной работы с такими объёмами лучше иметь не меньше 64 гб.

Почти все уже написали про обновление программы до 17 версии.
Из основного:
- Появилась вкладка, которая сообщает о "критичности" найденных проблем, удобно для новичков;
- Можно ограничить глубину парсинга отдельных разделов, а не только всего сайта.

Из личных наблюдений:
- Увеличилась скорость работы, заметно как намного быстрее происходит фильтрация и переключение табов для больших проектов;
- Оптимизировали размер базы (примерно на 10%).