robots.txt — стандарт Robots Exclusion Protocol, появился в 1994 году. Каждый бот, заходя на сайт, первым делом проверяет /robots.txt и читает правила для своего user-agent.
User-agents современных AI-краулеров
| User-agent | Кому принадлежит | Зачем |
|---|---|---|
| GPTBot | OpenAI | Обучение моделей |
| OAI-SearchBot | OpenAI | ChatGPT Search в реальном времени |
| ChatGPT-User | OpenAI | Browse-the-web и плагины |
| ClaudeBot / anthropic-ai | Anthropic | Обучение и поиск Claude |
| Google-Extended | AI Overviews, Gemini, Bard | |
| PerplexityBot | Perplexity | Поисковая выдача и обучение |
| YandexAdditional | Яндекс | Алиса, Нейро |
| CCBot | Common Crawl | Открытый датасет для обучения LLM |
| Applebot-Extended | Apple | Apple Intelligence |
| Meta-ExternalAgent | Meta | Llama |
Если хотите попадать в ответы нейросетей — НЕ блокируйте AI-ботов в robots.txt. Многие сайты по умолчанию ставят Disallow: / для всех неизвестных user-agent — и автоматически становятся невидимыми для LLM.