Получи случайную криптовалюту за регистрацию!

#Ответы на вопросы! Вопрос 1630 Есть ли какие-то бесплатные | Дежурный SEO-доктор

#Ответы на вопросы!

Вопрос 1630

Есть ли какие-то бесплатные решения для анализа и поиска thin контента (НКС для Яндекса), т.е. парсинга сайта на предмет похожих страниц, но не одинаковых? Например, если на одних и тех же страницах может использоваться плюс минус одинаковый текст или изображения.

Ответ

Screaming Frog может находить не только дубли страниц, но и похожие (неявные дубли). Происходит это следующим образом.

— Шаг 1. Переходим в настройки «Configuration» - «Content» - «Duplicates» и настраиваем процент пороговой схожести контента.

— Шаг 2. Далее в настройках «Configuration» - «Content» - «Duplicates» задаем исключения и правила для анализа контента, задавая теги, классы и идентификаторы.

— Шаг 3. Парсим сайт. После окончания парса настраиваем данные для анализа парса «Crawl Analysis» - «Configure».

— Шаг 4. Выполняем анализ: «Crawl Analysis» - «Start».

— Шаг 5. После чего во вкладке «Content», выбрав из списка «Near Duplicates» можно увидеть страницы с похожим контентом.

Итого:

Для каждой страницы будет указан процент схожести, а также количество URL с похожим контентом.
Во вкладке «Duplicate Details» уже можно увидеть список похожих URL для каждой из страниц: http://joxi.ru/DrleNvRiyp4WLm
Выделив URL в столбце «Near Duplicates Address» можно увидеть исходный контент, в котором будет выделены отличающиеся фрагменты: http://joxi.ru/V2VXaDETk90pPr

Но необходимо понимать, что таким образом мы сможем выявить лишь похожие страницы по текстовом содержимом, но не по смыслу.

Более подробно о смысловых дублях можно узнать из нашей статьи: Как выявить смысловые дубли и избавиться от них.

Какие ещё способы выявления неявных дублей Вы знаете? Делитесь лайфхаками в комментариях!

via @siteclinic_doctor