2024-03-01 18:16:15
Robots.txt — это файл, который есть в корневом каталоге почти каждого сайта. Он определяет правила, по которым роботы поисковых систем могут сканировать этот сайт. Владелец сайта может настроить правила по своему усмотрению. Например, указать, какие страницы нельзя индексировать, или совсем запретить ботам доступ.
Зачем это нужно?Боты, индексирующие сайты, появились в 1990-х. Их использовали для каталогизации интернета, чтобы облегчить поиск нужных данных. Такое сканирование нравилось не всем, так как замедляло работу сайта.
Тогда программист Мартин Костер придумал протокол исключения роботов. Он представлял собой обычный текстовый файл, описывающий правила работы поисковых алгоритмов для конкретного сайта. Протокол не накладывал никаких юридических обязательств, но стал неким подобием общественного договора между владельцами сайтов и поисковиков.
Как это работает?Сканирование роботами позволяет добавлять сайты в поисковую выдачу, поэтому большинство владельцев разрешает индексацию, чтобы привлечь трафик. Это выгодно всем: поисковики получают информацию, а сайты — новых посетителей. При этом у владельцев остаётся возможность спрятать от поисковых систем любую информацию на сайте.
Что изменилось сейчас?С появлением нейросетей роботы стали собирать в интернете информацию для обучения алгоритмов. В конце 2023 года New York Times подала в суд на OpenAI, заявив, что для обучения языковых моделей были использованы миллионы защищённых авторским правом материалов. OpenAI в ответ заявила, что New York Times «взломала» ChatGPT и потратила десятки тысяч попыток, чтобы получить нужные результаты.
С этим можно что-то сделать?В файле robots.txt можно прописать запрет на сбор информации роботами нейросетевых компаний, но их с каждым днём становится всё больше, и запретить всё очень сложно. Кроме того, правила индексации — это неформальная договорённость, а значит, их можно игнорировать, если компания не дорожит своей репутацией.
Подписывайтесь @techno_yandex
Не пропускайте новости Яндекса тут @yandex
15.8K views15:16