robots.txt

Файл в корне сайта, который сообщает поисковым ботам и AI-краулерам, какие разделы сайта можно индексировать, а какие — нет.

robots.txt — стандарт Robots Exclusion Protocol, появился в 1994 году. Каждый бот, заходя на сайт, первым делом проверяет /robots.txt и читает правила для своего user-agent.

User-agents современных AI-краулеров

User-agentКому принадлежитЗачем
GPTBotOpenAIОбучение моделей
OAI-SearchBotOpenAIChatGPT Search в реальном времени
ChatGPT-UserOpenAIBrowse-the-web и плагины
ClaudeBot / anthropic-aiAnthropicОбучение и поиск Claude
Google-ExtendedGoogleAI Overviews, Gemini, Bard
PerplexityBotPerplexityПоисковая выдача и обучение
YandexAdditionalЯндексАлиса, Нейро
CCBotCommon CrawlОткрытый датасет для обучения LLM
Applebot-ExtendedAppleApple Intelligence
Meta-ExternalAgentMetaLlama
Главное правило

Если хотите попадать в ответы нейросетей — НЕ блокируйте AI-ботов в robots.txt. Многие сайты по умолчанию ставят Disallow: / для всех неизвестных user-agent — и автоматически становятся невидимыми для LLM.

Связанные термины

llms.txt

Стандартизированный файл в корне сайта, который структурированно описывает контент сайта для AI-моделей. Аналог robots.txt, но для языковых моделей.

GEO-оптимизация

Оптимизация сайта и контента под ответы нейросетей — ChatGPT, Claude, Gemini, Perplexity, Алиса, Яндекс.Нейро.