Получи случайную криптовалюту за регистрацию!

Jet Octopus

Логотип телеграм канала @jetoctopus — Jet Octopus J
Логотип телеграм канала @jetoctopus — Jet Octopus
Адрес канала: @jetoctopus
Категории: Маркетинг, PR, реклама
Язык: Русский
Страна: Россия
Количество подписчиков: 5
Описание канала:

Канал об техническом SEO в его самом занудном проявлении, только цифры и факты. Никаких ссылок.
Автор канала: Сергей Безбородов
CTO SaaS краулера https://jetoctopus.com/
@sergebezborodov

Рейтинги и Отзывы

2.00

2 отзыва

Оценить канал jetoctopus и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

0

3 звезд

0

2 звезд

2

1 звезд

0


Последние сообщения

2021-07-01 10:12:34
336 views07:12
Открыть/Комментировать
2021-07-01 10:12:27 Подтупливает вебсайт?
Возможно, что вас очень любят боты популярных инструментов для анализ внешних ссылок, контента.
В примере у клиента гуглбот занимает 12%, а эти боты 56% от всего бот трафика.
Понять сколько у вас их на сайте можно через серверные логи.

Легкий способ сделать своему серверу легче - заблочить их.
340 views07:12
Открыть/Комментировать
2021-06-24 09:18:36 привет всем,

Наконец-то запостил статью про анализ доменов в Интернете.
Статья сугубо техническая и скорее будет больше интересна вашим программистам.

https://habr.com/ru/post/564320/

Чуть позже будет материал про анализ с SEO уклоном, там редиректы, ссылочки, в общем все, что вы любите.
Stay tuned
252 views06:18
Открыть/Комментировать
2021-04-22 11:29:36 Сколько сайтов закрыто от Ahrefs и других инструментов?
Периодически мы сканируем весь интернет и собираем кучу интересной информации.
Один из самых главных вопросов глядя в тулзы на количество ссылок (особенно в "высококонкурентных" нишах) - а все ли я вижу?

Заблокировать сайт от сканирования тулзами элементарно - просто добавьте директивы в robots.txt, сторонников теорий про игнор ботами сразу расстрою, правила robots.txt реально соблюдаются. Если вы вдруг когда-нибудь захотите сделать свой краулер, узнаете почему их надо соблюдать.


Сухие цифры:
Всего доменов, которые отдают код 200 (т.е. рабочие сайты) по одной из версии http://, http://www, https://, https://www - примерно 150 млн
Январь 2020 - заблокировано от ахрефс 1.2 млн доменов, семраш 0.6 млн
Январь 2021 - заблокировано от ахрефс 1 млн доменов, семраш 0.8 млн
Отлично, можете подумать вы, не так уж и много - меньше одного процента!

Но есть еще один способ блокировки:
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Январь 2020 - заблокировано 6 млн доменов
Январь 2021 - заблокировано 34 млн доменов

Таким образом, (34 + 1) / 150 = 23% доменов закрыты от ахрефса и чуть меньше от других инструментов.

У нас есть side проект, который показывает такие сайты, ссылки с морд, редиректы, соседей по IP (по всем сайтам) и кучу других занимательных вещей, кому интесен early access, пришлите запрос на serge@jetoctopus.com
348 views08:29
Открыть/Комментировать
2021-02-01 13:02:32
515 views10:02
Открыть/Комментировать
2021-02-01 13:02:27 привет всем,
любителям блокировать ботов посвящается:

Fake bots, scrapers - что это и что с этим нужно делать?

Fake bots - это боты которые используют user-agent Googlebot или других search bots, при этом не проходят проверку по reverse DNS запросу, как описано в мануале https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot

Scrapers (парсеры) - это боты со своими user-agent, которые краулят ваш сайт, как и fake bots, для разных целей, как анализ страниц, цен, воровство контента и т.п.

Что делать с такими ботами? Все зависит от вашей ситуации - если запросов от таких ботов не много, то просто забейте и не блочьте ничего.
Часто такие боты дают существенную нагрузку, например в ecommerce мы видели ситуации, когда 50% трафика - это scrapers.
В таком случае можно блокировать их по IP/subnet. Из практики, нужно очень и очень внимательно это делать, и смотреть на whois по каждому IP.

Мы видели случаи, когда блокировка подсети вроде бы какого то хостинга отключила доступ к сайту для района города.
Также недавно клиент нам сообщил, что он заблокировал IP не связанные с google по whois, но при этом получил сообщения от GSC, что страницы сайта не доступны. Мы анализируем этот кейс и сообщим о результатах.

Помните, что все не заблокируешь и скрейперы все равно будут. Контролируйте нагрузку на сайт.
550 views10:02
Открыть/Комментировать
2020-11-18 11:45:40
878 views08:45
Открыть/Комментировать