Desactiva el bloqueo de bots de IA de Cloudflare y deja fluir el tráfico geolocalizado

Vadim Kravcenko
Vadim Kravcenko
4 min read

(«tráfico GEO» aquí = tráfico Generative-Engine-Optimised procedente de asistentes de IA como ChatGPT, Claude, Perplexity y Gemini.)

Abre los registros de tu servidor esta semana y verás un patrón: GPTBot, ClaudeBot, PerplexityBot, Google-Extended—llamando a la puerta, siendo rechazados y, acto seguido, sustituidos por resúmenes de terceros de tu propio contenido.
Si utilizas Cloudflare, lo más probable es que no los hayas bloqueado a propósito. Un único interruptor—“Block AI Scrapers”—viene activado en Bot Fight Mode. Promete ahorrar ancho de banda y proteger tu contenido, pero en la práctica estrangula lo que llamaremos tráfico GEO (Generative-Engine-Optimised): citas y clics de referencia de asistentes de IA que hoy responden a mil millones de consultas diarias.

Cuando Cloudflare devuelve un 403, ChatGPT recurre a lo que pueda indexar en otra parte: reseñas desactualizadas de Product Hunt, análisis antiguos o artículos de la competencia. Pierdes el control de la narración y—más doloroso aún—el enlace que habría dirigido visitantes cualificados directamente a tu sitio.

Este artículo es una solución de dos minutos con un potencial de seis cifras. Te mostraremos cómo funciona el ajuste de Cloudflare, por qué permitir la entrada a rastreadores de IA de confianza es el triunfo de SEO más sencillo de 2025 y cómo cambiar el interruptor para que tu contenido sea la cita, no la nota al pie. La fiebre del oro de la IA ya empezó; no cierres tanto las puertas que la oportunidad pase de largo.

Qué Significa Realmente el “Tráfico GEO”

Tráfico GEO (Generative-Engine-Optimised) es la corriente de visitantes que llega después de que tu contenido sea citado dentro de asistentes de IA—ChatGPT “Browse”, instantáneas de Gemini, respuestas de Perplexity, paneles laterales de Microsoft Copilot, e incluso contestaciones en altavoces inteligentes. Cuando GPTBot o ClaudeBot rastrea una página, el texto y los enlaces se almacenan en un vector store que impulsa esas respuestas. Cada vez que el modelo muestra tu párrafo con un enlace activo, un porcentaje de usuarios hace clic.

Por qué importa en 2025: estudios de registros de servidor muestran que los rastreadores de IA de confianza ya representan entre el 20 % y el 30 % del volumen clásico de Googlebot en sitios de tecnología y SaaS. Ese porcentaje crece ~5 % mes a mes, mientras que los clics orgánicos tradicionales solo suben 1-2 %. Si hoy pierdes el tráfico GEO, renuncias al canal de descubrimiento de mañana cuando los modelos consoliden sus instantáneas de entrenamiento.

Ruta típica de la cita:

  1. GPTBot recupera tu página de notas o blog →

  2. El texto se convierte en embedding y se almacena →

  3. Un usuario hace una pregunta →

  4. El modelo recupera tu fragmento, cita la URL →

  5. El usuario hace clic → ganas un visitante de alta intención.

Si bloqueas el paso 1, la cadena nunca empieza.

Cómo Cloudflare Asfixia Accidentalmente el Descubrimiento por IA

El Bot Fight Mode de Cloudflare incluye un interruptor con nombre inocente: “Block AI Scrapers”. Cuando está activado, cualquier solicitud que coincida con GPTBot, ClaudeBot, PerplexityBot o Google-Extended recibe un challenge o un 403 directo. Como el bloqueo ocurre en el edge, es posible que tus registros de origen nunca lo reflejen—solo las analíticas de Cloudflare mostrarán un pico de respuestas 4xx a user-agents de IA.

Por qué existe el interruptor: Cloudflare está pilotando un mercado pay-per-crawl en el que los grandes proveedores de LLM compran tokens de acceso y Cloudflare se queda un 30-40 %—igual que la comisión de la App Store de Apple. Mientras tanto, el ajuste por defecto “protege” el contenido denegando a los bots de IA que no pagan. Genial para su margen; catastrófico para tu visibilidad.

Síntomas que verás

Síntoma Dónde Detectarlo Qué Significa
Pico de 403 para GPTBot en los registros de Cloudflare Security ▸ Events Bots de IA bloqueados en el edge
ChatGPT Browse cita resúmenes de terceros en lugar de tu dominio Prueba manual de prompt El modelo no pudo rastrear tu contenido
La lista de “Sources” de Perplexity omite tu sitio pese a su relevancia Panel de respuesta de Perplexity El índice no incluyó tu página

Prueba técnica

curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Ejecuta el mismo curl con un user-agent de navegador normal: obtendrás 200 OK. La diferencia es el bloqueo de bots de IA de Cloudflare.

En resumen: si dejas el interruptor activado, es como establecer Disallow: / para cada rastreador de IA del que depende la web. Desactívalo o crea una regla explícita de Allow para user-agents de confianza y el tráfico GEO empezará a fluir en 24-48 horas—antes de que la competencia entienda por qué tu sitio aparece en las respuestas de chat mientras el suyo se convierte en polvo de citas.

Rastreadores de IA Que Quieres Dentro de la Puerta

Bot Proveedor Por Qué Conviene User-Agent Oficial*
GPTBot OpenAI Alimenta las respuestas y citas de ChatGPT. Mozilla/5.0 … GPTBot/1.0
ClaudeBot Anthropic Impulsa las citas y fetches en tiempo real de Claude AI. Mozilla/5.0 … ClaudeBot/1.0
PerplexityBot Perplexity.ai Construye el índice de respuestas de Perplexity (panel de fuentes que genera clics). Mozilla/5.0 … PerplexityBot/1.0
Google-Extended Google Alimenta el LLM de Gemini; separado de Googlebot clásico. Mozilla/5.0 (compatible; Google-Extended/1.0…)
BingBot (Copilot) Microsoft Rastrea tanto para la búsqueda de Bing como para las respuestas de Copilot AI. Mozilla/5.0 … bingbot/2.0

*Los puntos suspensivos (…) indican cadenas estándar de navegador que preceden al token del bot.

Paso a Paso — Desactivar el Bloqueo de Bots de IA en Cloudflare

  1. Inicia sesión en Cloudflare Dashboard
    Selecciona el dominio que quieras corregir.

  2. Navega a: Security ▸ Bots

  3. Localiza el interruptor “Block AI Scrapers”
    Está bajo Bot Fight Mode. Desactívalo.

  4. (Opcional, pero más seguro) Crea una regla de Allow explícita

    • Security ▸ WAF ▸ Custom Rules ▸ Create

    • Expresión: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")

    • Acción: Skip → Bot Fight Mode, Managed Challenge

  5. Purge Cache
    Caching ▸ Configuration ▸ Purge Everything para que los bots obtengan respuestas 200 frescas.

  6. Verifica

    curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

    Deberías ver HTTP/2 200, no 403.

Tiempo total: ~2 minutos. Resultado: los rastreadores de IA por fin pueden leer y citar tus páginas.

Robots.txt para una Postura SEO AI-First

User-agent: * Allow: /

Eso es todo. Un allow global garantiza que todos los bots de confianza—de búsqueda y de IA—puedan acceder a cada URL pública. Líneas parciales o heredadas de Disallow: rompen la indexación moderna porque:

  • Los bots de IA suelen carecer de reglas especiales para subdirectorios; un Disallow: /api puede convertirse en una denegación total.

  • Los futuros rastreadores heredarán las mismas reglas; tu bloqueo “temporal” se convierte en exclusión permanente de los datos de entrenamiento.

Si necesitas limitar ancho de banda, usa rate limiting o WAF de Cloudflare, no robots.txt, mantendrás visibilidad de rastreo mientras controlas la carga.

Abre la puerta, verifica los 200 y deja fluir el tráfico GEO.

FAQ — Cloudflare, Bots de IA y Bloqueos

P 1. Bot Fight Mode de Cloudflare está activado pero no veo errores en mis registros de servidor—¿por qué?
Cloudflare bloquea a GPTBot y compañía en el edge, por lo que las respuestas 403 nunca llegan a tu origen. Revisa Cloudflare Dashboard → Security → Events o haz un test con curl usando el user-agent del bot; ahí aparecerán los bloqueos ocultos.

P 2. ¿Permitir GPTBot disparará mi factura de ancho de banda?
Un rastreo completo de GPTBot es ligero—solo HTML, sin imágenes, CSS ni JS. En un sitio de 500 páginas suele ser < 30 MB al mes, muy por debajo de los 100 MB de egress del plan gratuito de Cloudflare.

P 3. ¿Desbloquear rastreadores de IA puede exponer contenido privado o de pago?
Solo si las URL son públicamente accesibles. Mantén PDFs premium o vídeos para miembros tras autenticación; GPTBot obedece los códigos 401/403 igual que Googlebot. Robots.txt no es una medida de seguridad.

P 4. ¿La lista “Verified Bot” de Cloudflare incluye rastreadores de IA?
No. GPTBot, ClaudeBot y PerplexityBot no están aún en la lista verificada, así que caen en la categoría genérica “AI Scraper” que se bloquea cuando el interruptor está activado.

P 5. ¿Qué hago con scrapers de IA dudosos que consumen ancho de banda?
Crea una regla WAF para permitir solo user-agents de confianza (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) y limita por tasa todo lo demás. Así sigues abierto a citas pero protegido frente a recolectores desconocidos.

P 6. Si desbloqueo hoy, ¿cuándo empezarán los asistentes de IA a citarme?
GPTBot revisita páginas populares o recientemente actualizadas en 24-72 horas. ChatGPT Browse puede mostrar nuevas citas uno o dos días después. Las páginas con menos tráfico pueden tardar una semana o más.

All-in-One AI SEO Platform
Boost your sales and traffic
with our automated optimizations.
Get set up in just 3 minutes.Sign up for SEOJuice
free to start, 7 day trial

Free SEO Tools

🤖 AI FAQ Generator

Generate FAQs for your content

🖼️ Image Alt Text Suggester

Get AI-generated alt text for images

🤖 Robots.txt Generator

Create a robots.txt file for your website

🖼️ AI Image Caption Generator

Generate captions for your images using AI

🛒 E-commerce Audit Tool

Analyze and improve your e-commerce pages

🔍 Keyword Research Tool

Get keyword suggestions and search insights

🔍 Free SEO Audit

Get a comprehensive SEO audit for your website

🔐 GDPR Compliance Checker

Check your website's GDPR compliance

🔗 Broken Link Checker

Find and fix broken links on your site

🔍 Keyword Density Analyzer

Analyze keyword usage in your content