robots.txt ile AI Botlarını Yönetmek

robots.txt AI çağında daha kritik. AI ajanları yeni User-Agent aileleri ile geliyor; çoğu klasik * joker bloğunu yok sayıyor ve kendi adını arıyor. Bu rehber robots.txt'i doğru yapılandırma rehberidir.

Spec Hatırlatması

robots.txt Google'ın orijinal Robots Exclusion Protocol'üne[^1] dayanır. Tüm modern ajanlar bu sözdizimine uyar:

User-agent: <bot-adı>
Allow: <path>
Disallow: <path>
Sitemap: <url>

Birden fazla User-agent bloğu yan yana çalışır. Birinin diğerini ezmesi yok; en spesifik blok kazanır.

Karşılaşacağınız Bot Aileleri

GPTBot (OpenAI eğitim toplama)
ChatGPT-User (kullanıcı tetiklemeli tarama)
ClaudeBot (Anthropic genel)
Claude-User (kullanıcı tetiklemeli)
Claude-SearchBot (search & summary)
PerplexityBot (genel)
Perplexity-User (kullanıcı tetikli)
Google-Extended (Bard / Gemini training)

Detaylı liste: [AI botları kapsamlı listesi][/learn/ai-botlari-listesi-2026].

Önerilen Açık Politika

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://siteniz.com/sitemap.xml

Bu politika hem klasik tarayıcılara hem AI ailelerine izin verir.

Eğitime Kapatıp Aramaya Açma

Bazı yayıncılar içeriğini eğitime kapatmak ama kullanıcı tetiklemeli taramaya açık tutmak ister:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Allow: /

Bu yaklaşım editoryal içerikleri model parametrelerine girmesin ama gerçek-zamanlı kullanıcı sorularına yanıt verilebilsin diye uygulanır. The New York Times benzeri büyük yayıncılar bu varyantı kullanıyor.

Tamamen Kapatma

Önerilmez ama bilmek gerekir:

User-agent: *
Disallow: /

Bu satırın sonucunda sitenizin AI ajan ekosisteminden silinmesidir. AIDE skorunuz sıfıra yaklaşır.

Sık Yapılan Hatalar

404 dönen robots.txt
Trailing newline eksik (RFC 9309 gerektirir)
BOM karakteri (UTF-8 BOM bazı parser'ları kırar)
Path normalization farkı (/blog vs /blog/)
Sitemap: direktifinin eksik olması

AIDE Bunu Nasıl Kontrol Eder?

DISC-001: robots.txt 200 mi, RFC 9309 uyumlu mu?
BOT-001: AI bot ailelerine spesifik blok var mı?
BOT-002: Sitemap direktifi mevcut mu?

Sık Sorulan Sorular

Allow/Disallow sırası önemli mi?

Evet. Aynı User-agent altında en spesifik path kazanır. Daha kısa Disallow + uzun Allow kombinasyonu sıkça yanlış sonuç verir.

Wildcard nasıl kullanılır?

* karakteri herhangi bir karakter dizisini, $ satırın sonunu temsil eder. Özellikle Disallow: /*?utm_* gibi parametre filtrelerinde işe yarar.

Cloudflare Bot Management'ı nasıl etkiler?

Cloudflare'in 'AI Bot Block' kuralı robots.txt'i bypass eder; ek bir katmandır. İkisini birden ayarlamak en güvenli yöntemdir.

Sonraki Adım

[GPTBot'a erişim verilmeli mi?][/learn/gptbot-erisim-izni] sayfasında stratejik perspektifi okuyabilirsiniz. AIDE skorunuzu hemen ölçmek için AIDE ile ücretsiz tarama yapın.

Özet

AI ajanları kendi User-Agent adlarıyla ayrı robots.txt blokları arar.
Önerilen başlangıç: tüm bilinen ailelere Allow: /.
Eğitim'i kapatıp arama'yı açma seçeneği yayıncılar için makul.
Sitemap: satırını unutmayın.

[^1]: Robots Exclusion Protocol — RFC 9309