Получи случайную криптовалюту за регистрацию!

Продвижение больших сайтов. Часть 2. Для тех, кто пропустил, | Hey, moneymaker!

Продвижение больших сайтов. Часть 2.

Для тех, кто пропустил, недавно на продвижение пришёл большой проект.
Как и обещал, по шагам буду расписывать что делается и какой результат это даёт.

Запрос от клиента - начать как можно скорее и сделать что-то, чтобы остановить сильное падение. Вариантов не много, к ним относятся:
- Прописать шаблоны метатегов. На сайте в данный момент 800 тыс. дублирующихся метатегов Title и порядка миллиона страниц без Description.
- Удалить мусорные страницы. На старых сайтах абсолютно нормальная ситуация, когда незначительное действие приводит к генерации кучи страниц о которых никто не знает.

Если с метатегами все не так просто (разные типы страниц требуют очень вдумчивой проработки, даже одно лишнее слово может ухудшить ситуацию, ведь добавляется оно сразу к паре млн страниц), то с мусорными страницами куда понятнее и быстрее.

Для выявления мусора сайт необходимо просканировать, причём полностью (ну или значительную часть). Вариант с экстраполяцией здесь не работает (почти).
Для примера, чтобы оценить количество звезд на небе, достаточно посчитать количество звезд на маленьком участке и затем умножить на количество участков.
Здесь же так не работает, краулер идёт по веткам сайта и до проблемных разделов может просто не дойти, отсюда получаются неверные выводы.

Сканировать сайт можно через JetOctopus, либо самому. Ценник на работу с сервисом космический (и я в целом понимаю почему), для сканирования 5 млн страниц нужно отдать 500 евро в месяц, если туда добавить анализ логов - еще 750 евро. Решил сканировать сам через Screaming Frog, поскольку:
1) есть сервер достаточной производительности (2хE5 2689, суммарно 16 физических/32 логических ядра) и 48 gb RAM;
2) разработчики уверяют, что сканирование в 5 млн страниц лягушка потянет, нужно только настроить.
Как обычно всё получилось не без подводных.

Итак, отключаем всё лишнее, переводим скан в режим DataBase, выделяем 24 гб оперативки, ставим 10 потоков и полетели.
Первое с чем я столкнулся - падение скорости, если вначале было 20 урлов в секунду, то к полутора миллионам страниц скорость упала до 3-4 урлов в секунду.
С чем связано падение скорости понять не смог, программе хватает ресурсов, процессоры загружены на 30%, оперативки свободная есть.

Второе - дикое потребление места. В среднем получилось 100 гб на 1 млн страниц. Если с местом вопрос решаемый, то что делать с падающей скоростью не понял.
Просканировав за трое суток 1.5 млн страниц, решил изучить что там происходит. Каково было мое удивление, когда 1.2 млн из них страницы, генерируемые 4 разделами за счет комбинации фильтров.
Более того, все 4 раздел дублировали друг друга.

Анализ Яндекс.Метрики показал, что трафик на эти разделы генерируется всего 9 страницами в них. Решение здесь простое, шагаем в robots.txt
Disallow: {4 раздела}
Allow: {нужная_страница}

Какие страниц выпиливать будем решать позже, скан перезапустил, можно уходить на выходные.