Получи случайную криптовалюту за регистрацию!

Мой ответ на субботнюю задачу по SEO Под постом получилось от | Hey, moneymaker!

Мой ответ на субботнюю задачу по SEO

Под постом получилось отличное обсуждение с различными вариантами поиска сайта, вплоть до соц. инженерии, на которую я бы полагаться точно не стал, но звучит интересно.
А входных данных было немного - финансовая тематика, 3000 уников в сутки (100к в месяц) и скриншот партнёрки.
Некоторые зацепились за копипаст, но определять у большой выборки сайтов копипаст весьма проблематично, это был отвлекающий фактор.

Для начала хочу прояснить, где может пригодиться опыт поиска сайтов:
* Понравился кейс на конференции/в портфолио/в статьей, но адрес сайта под NDA;
* Увидели скриншоты трафика/доходов в пабликах или чатах, но URL никто и не собирался показывать;
* Скрытый URL на Telderi и вы не понравились владельцу лота.

Во всех перечисленных случаях чаще всего мы как раз и имеем два обязательных параметра:
- Тематика (без уточнения);
- Посещаемость;

И от того, спалят ли третий параметр зависит успех в поиске.
Третьим параметром, который укажет на сайт, может быть: ИКС, партнёрка (чаще скриншот), фрагмент текста, кол-во страниц в индексе, счётчик, дата регистрации домена.
Чем их больше, тем выше вероятность найти сайт.

Общий ход мысли в обсуждении получился верным, нам нужна выборка сайтов, из которой мы и будем доставать нужный URL, но решения имеют недостатки, разбираемся.

1) Собирать выборку на основе парсинга выдачи для маркерных поисковых запросов.
Во-первых, можем промахнуться в запросах и, в условной стройке, так и не найти проект, 3000 уников - капля в море. Увеличивая число запросов - увеличиваем выборку, как следствие, найти становится всё сложнее.
Во-вторых, в задаче не было речи о том, что трафик поисковый. Ровно на этом моменте всё может и закончится, но уверен таким способом найдёте кучу других интересных проектов и, как правильно сказали в комментариях, на Ибрагима уже будет по*уй.

2) Повысить точность можно с помощью с сервиса PublicWWW. Зная партнёрку и её код, сделать выгрузку по сайтам. Хорошо, если ПП малоизвестная, а что если это Google Adsense с миллионами сайтов в выдаче?
Дополнительным ограничением вижу скорость обновления базы PublicWWW, по моим наблюдениям, далеко не всегда туда попадают сайты с возрастом до полугода.
И, разумеется, применение крайне нишевое, когда у нас есть точный код для ПП, зная ИКС вместо ПП метод уже работать не будет.

3) Третий способ был завязан на том, что зная URL от ПП можно через SimilarWeb найти все сайты, которые на эту ПП льют. В случае с Ибрагимом это решение рабочее, но если ПП снова Google Adsense сайт мы не найдём.

Как я находил сайты
1) Первое что нам потребуется - выгрузка рейтинга сайтов из SimilarWeb по заданной тематике. Не многие знают, но сделать это можно через Kwork. Здесь же кроется и минус, каждый запрос выборки будет для нас платным.
В отчёте получаем 10 000 сайтов по любой тематике с нужным регионом. Осталось выбрать диапазон в 300-500 сайтов с требуемой посещаемостью и с учетом погрешности. Плюс подхода - мы не зависим от типа трафика, пусть хоть закладки, хоть социальные сети.

2) Зная скриншот партнёрки, находим её и узнаем код размещения. Большинство ПП имеют уникальный дизайн, найти не составит труда.

3) Ищем код ПП в небольшой выборке с помощью Screaming Frog SEO Spider (Configuration - Custom - Search) по списку сайтов (Mode - List).

Если отойти от задачи из прошлого поста, то работаем мы всё с той же выборкой сайтов, но нужные параметры ищем другими инструментами, например, ИКС, индексацию и Whois можно массово проверить через FastTrust.

Вот и всё, сайт с очень большой вероятностью будет найден. Успешных расследований