Disattiva il blocco AI-Bot di Cloudflare e lascia scorrere il traffico geo-targetizzato

(In questo contesto, “traffico GEO” = traffico Generative-Engine-Optimised proveniente da assistenti IA come ChatGPT, Claude, Perplexity e Gemini.)
Apri i log del server questa settimana e noterai un pattern ricorrente: GPTBot, ClaudeBot, PerplexityBot, Google-Extended—tentano l’accesso, vengono rifiutati e poi rimpiazzati da riassunti di terze parti del tuo stesso contenuto.
Se usi Cloudflare è probabile che tu non li abbia bloccati di proposito. Un singolo toggle—“Block AI Scrapers”—viene attivato di default in Bot Fight Mode. Sulla carta riduce la banda consumata e protegge i contenuti, ma in pratica soffoca quello che chiameremo traffico GEO (Generative-Engine-Optimised): citazioni e clic di riferimento dagli assistenti IA che oggi rispondono a miliardi di query al giorno.
Quando Cloudflare restituisce un 403, ChatGPT ripiega su ciò che riesce a indicizzare altrove: descrizioni di Product Hunt, recensioni datate o articoli dei competitor. Perdi controllo sulla narrazione e—più doloroso ancora—sul link che avrebbe portato visitatori qualificati direttamente sul tuo sito.
Questo articolo è una correzione da due minuti con un potenziale a sei cifre. Vedremo nel dettaglio come funziona l’impostazione di Cloudflare, perché consentire l’accesso ai crawler IA affidabili è la vittoria SEO più semplice del 2025 e come invertire l’interruttore affinché il tuo contenuto diventi la citazione, non la nota in calce. La corsa all’oro dell’IA è in pieno svolgimento: non presidiare i cancelli così rigidamente da lasciare passare l’opportunità.
Cosa Significa Davvero “Traffico GEO”
Traffico Generative-Engine-Optimised (GEO) è il flusso di visitatori che arrivano dopo che il tuo contenuto viene citato dagli assistenti IA—ChatGPT “Browse”, snapshot di Gemini, risposte di Perplexity, sidebar di Microsoft Copilot, persino risposte degli smart speaker. Quando GPTBot o ClaudeBot scansiona una pagina, testo e link confluiscono in un vector store che alimenta queste risposte. Ogni volta che il modello mostra il tuo paragrafo con un link attivo, una parte degli utenti fa clic.
Perché conta nel 2025: analisi dei log indicano che i crawler IA affidabili ora rappresentano dal 20 al 30 % del volume di Googlebot classico su siti tech e SaaS. Questa quota cresce di circa il 5 % al mese, mentre i clic organici tradizionali aumentano solo dell’1-2 %. Ignorare il traffico GEO oggi significa rinunciare al canale di discovery di domani, mentre i modelli consolidano gli snapshot di training.
Tipico percorso di citazione:
-
GPTBot recupera la tua pagina di show-note o blog →
-
Il testo viene embeddato e archiviato →
-
Un utente pone una domanda →
-
Il modello recupera il tuo snippet, cita l’URL →
-
L’utente clicca → ottieni un visitatore ad alta intenzione.
Blocca il passo 1 e la catena non parte mai.
Come Cloudflare Ostacola Involontariamente la Scoperta da Parte dell’IA
Il Bot Fight Mode di Cloudflare include un toggle dall’aspetto innocuo: “Block AI Scrapers”. Una volta attivato, qualsiasi richiesta che corrisponda a GPTBot, ClaudeBot, PerplexityBot o Google-Extended viene messa alla prova o riceve un 403 diretto. Poiché il blocco avviene all’edge, i log del tuo origin potrebbero non registrarlo mai—solo le analytics di Cloudflare mostrano un picco di risposte 4xx agli user-agent IA.
Perché esiste il toggle: Cloudflare sta testando un marketplace pay-per-crawl in cui i grandi vendor di LLM acquistano token di accesso e Cloudflare trattiene un 30-40 % di commissione—simile alla “tassa” dell’App Store di Apple. Nel frattempo l’impostazione di default protegge i contenuti negando i bot IA non paganti. Ottimo per i loro margini; catastrofico per la tua visibilità.
Sintomi che noterai
Sintomo | Dove Osservarlo | Significato |
---|---|---|
Picco di 403 per GPTBot nei log Cloudflare | Security ▸ Events | Bot IA bloccati all’edge |
ChatGPT Browse cita riassunti di terzi invece del tuo dominio | Test manuale con prompt | Il modello non ha potuto scansionare il tuo sito |
La sezione “Sources” di Perplexity omette il tuo dominio nonostante la pertinenza | Pannello di risposta Perplexity | L’indice non include la tua pagina |
Prova tecnica
curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403
Esegui lo stesso curl con un normale user-agent da browser; otterrai 200 OK
. La differenza è il blocco AI di Cloudflare.
In sintesi: lasciare il toggle attivo equivale a impostare Disallow: /
per ogni crawler IA di cui il web fa affidamento. Disattivalo, o crea una regola di Allow esplicita per gli user-agent affidabili, e il traffico GEO potrà arrivare in 24-48 ore—prima che i competitor capiscano perché il tuo sito compare nelle risposte in chat mentre il loro svanisce.
Crawler IA Che Vuoi Far Entrare
Bot | Vendor | Perché Ti Serve | User-Agent Ufficiale* |
---|---|---|---|
GPTBot | OpenAI | Alimenta le risposte e le citazioni linkate di ChatGPT. | Mozilla/5.0 … GPTBot/1.0 |
ClaudeBot | Anthropic | Genera citazioni e fetch in tempo reale per Claude AI. | Mozilla/5.0 … ClaudeBot/1.0 |
PerplexityBot | Perplexity.ai | Costruisce l’indice di risposta di Perplexity (pannello fonti che genera clic). | Mozilla/5.0 … PerplexityBot/1.0 |
Google-Extended | Fornisce contenuti al LLM Gemini; distinto dal Googlebot classico. | Mozilla/5.0 (compatible; Google-Extended/1.0…) |
|
BingBot (Copilot) | Microsoft | Scansiona sia per la ricerca Bing che per le risposte Copilot. | Mozilla/5.0 … bingbot/2.0 |
*I puntini (…) indicano le stringhe browser standard che precedono il token del bot.
Guida Passo-Passo — Disattivare il Blocco dei Bot IA in Cloudflare
-
Accedi alla Dashboard Cloudflare
Scegli il dominio da modificare. -
Naviga su:
Security ▸ Bots
-
Trova il Toggle “Block AI Scrapers”
Si trova sotto Bot Fight Mode. Disattivalo. -
(Facoltativo ma consigliato) Aggiungi una Regola di Allow Esplicita
-
Security ▸ WAF ▸ Custom Rules ▸ Create
-
Espressione:
(http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
-
Azione: Skip → Bot Fight Mode, Managed Challenge
-
-
Pulisci la Cache
Caching ▸ Configuration ▸ Purge Everything
così i bot ricevono risposte 200 fresche. -
Verifica
curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"
Dovresti vedere
HTTP/2 200
, non403
.
Tempo totale: ~2 minuti. Risultato: i crawler IA possono finalmente leggere e citare le tue pagine.
Robots.txt per un’Impaginazione SEO “AI-First”
User-agent: * Allow: /
Fine. Un allow globale garantisce che tutti i bot affidabili—di ricerca e IA—possano accedere a ogni URL pubblico. Linee di Disallow:
parziali o ereditate compromettono l’indicizzazione moderna perché:
-
I bot IA spesso non gestiscono regole specifiche per sottodirectory; un
Disallow: /api
isolato può propagarsi in un blocco completo. -
I crawler futuri erediteranno le stesse regole; il tuo blocco “temporaneo” diventa un’esclusione permanente dai dati di training.
Se devi limitare la banda, usa il rate-limiting o il WAF di Cloudflare, non robots.txt, così mantieni la visibilità di scansione controllando il carico.
Apri i cancelli, verifica i 200 e lascia fluire il traffico GEO.
FAQ — Cloudflare, Bot IA e Blocchi
D 1. “Bot Fight Mode” è attivo ma non vedo errori nei log del server—perché?
Cloudflare blocca GPTBot e soci all’edge, quindi le risposte 403 non raggiungono l’origine. Controlla Cloudflare Dashboard → Security → Events o esegui un test curl
con lo user-agent del bot; è lì che emergono i blocchi nascosti.
D 2. Consentire GPTBot farà esplodere il mio consumo di banda?
Una scansione completa di GPTBot è leggera—solo HTML, niente immagini, CSS o JS. Per un sito di 500 pagine parliamo di < 30 MB al mese, ben sotto la soglia di 100 MB di egress gratuita di Cloudflare.
D 3. Sbloccare i crawler IA potrebbe esporre contenuti privati o a pagamento?
Solo se gli URL sono pubblicamente raggiungibili. Tieni PDF premium o video membri dietro header di autenticazione; GPTBot rispetta i codici HTTP 401/403 proprio come Googlebot. Robots.txt non è una misura di sicurezza.
D 4. La lista “Verified Bot” di Cloudflare include i crawler IA?
No. GPTBot, ClaudeBot e PerplexityBot non sono ancora nella lista verificata di Cloudflare, quindi rientrano nella categoria generica “AI Scraper” che viene bloccata quando il toggle è attivo.
D 5. Come gestire scraper IA sospetti che consumano banda?
Crea una regola WAF per consentire solo gli user-agent affidabili (GPTBot
, ClaudeBot
, PerplexityBot
, Google-Extended
, bingbot
) e applica rate-limiting a tutto il resto. Rimani aperto alle citazioni ma protetto dagli harvester sconosciuti.
D 6. Se sblocco oggi, quanto velocemente gli assistenti IA inizieranno a citarmi?
GPTBot rivisita le pagine popolari o aggiornate di recente in 24-72 ore. ChatGPT Browse può mostrare nuove citazioni un giorno o due dopo. Le pagine meno trafficate possono richiedere una settimana o più.