robots.txt AI çağında daha kritik. AI ajanları yeni User-Agent aileleri ile geliyor; çoğu klasik * joker bloğunu yok sayıyor ve kendi adını arıyor. Bu rehber robots.txt'i doğru yapılandırma rehberidir.
Spec Hatırlatması
robots.txt Google'ın orijinal Robots Exclusion Protocol'üne[^1] dayanır. Tüm modern ajanlar bu sözdizimine uyar:
User-agent: <bot-adı>
Allow: <path>
Disallow: <path>
Sitemap: <url>
Birden fazla User-agent bloğu yan yana çalışır. Birinin diğerini ezmesi yok; en spesifik blok kazanır.
Karşılaşacağınız Bot Aileleri
- GPTBot (OpenAI eğitim toplama)
- ChatGPT-User (kullanıcı tetiklemeli tarama)
- ClaudeBot (Anthropic genel)
- Claude-User (kullanıcı tetiklemeli)
- Claude-SearchBot (search & summary)
- PerplexityBot (genel)
- Perplexity-User (kullanıcı tetikli)
- Google-Extended (Bard / Gemini training)
Detaylı liste: [AI botları kapsamlı listesi][/learn/ai-botlari-listesi-2026].
Önerilen Açık Politika
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://siteniz.com/sitemap.xml
Bu politika hem klasik tarayıcılara hem AI ailelerine izin verir.
Eğitime Kapatıp Aramaya Açma
Bazı yayıncılar içeriğini eğitime kapatmak ama kullanıcı tetiklemeli taramaya açık tutmak ister:
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-User
Allow: /
Bu yaklaşım editoryal içerikleri model parametrelerine girmesin ama gerçek-zamanlı kullanıcı sorularına yanıt verilebilsin diye uygulanır. The New York Times benzeri büyük yayıncılar bu varyantı kullanıyor.
Tamamen Kapatma
Önerilmez ama bilmek gerekir:
User-agent: *
Disallow: /
Bu satırın sonucunda sitenizin AI ajan ekosisteminden silinmesidir. AIDE skorunuz sıfıra yaklaşır.
Sık Yapılan Hatalar
- 404 dönen
robots.txt - Trailing newline eksik (RFC 9309 gerektirir)
- BOM karakteri (UTF-8 BOM bazı parser'ları kırar)
- Path normalization farkı (
/blogvs/blog/) Sitemap:direktifinin eksik olması
AIDE Bunu Nasıl Kontrol Eder?
DISC-001:robots.txt200 mi, RFC 9309 uyumlu mu?BOT-001: AI bot ailelerine spesifik blok var mı?BOT-002:Sitemapdirektifi mevcut mu?
Sık Sorulan Sorular
Allow/Disallow sırası önemli mi?
Evet. Aynı User-agent altında en spesifik path kazanır. Daha kısa Disallow + uzun Allow kombinasyonu sıkça yanlış sonuç verir.
Wildcard nasıl kullanılır?
* karakteri herhangi bir karakter dizisini, $ satırın sonunu temsil eder. Özellikle Disallow: /*?utm_* gibi parametre filtrelerinde işe yarar.
Cloudflare Bot Management'ı nasıl etkiler?
Cloudflare'in 'AI Bot Block' kuralı robots.txt'i bypass eder; ek bir katmandır. İkisini birden ayarlamak en güvenli yöntemdir.
Sonraki Adım
[GPTBot'a erişim verilmeli mi?][/learn/gptbot-erisim-izni] sayfasında stratejik perspektifi okuyabilirsiniz. AIDE skorunuzu hemen ölçmek için AIDE ile ücretsiz tarama yapın.
Özet
- AI ajanları kendi
User-Agentadlarıyla ayrırobots.txtblokları arar. - Önerilen başlangıç: tüm bilinen ailelere
Allow: /. - Eğitim'i kapatıp arama'yı açma seçeneği yayıncılar için makul.
Sitemap:satırını unutmayın.
[^1]: Robots Exclusion Protocol — RFC 9309