Robots.txt para crawlers de IA: cómo permitir GPTBot, ClaudeBot y PerplexityBot

El archivo robots.txt es uno de los componentes menos glamorosos de una web, pero en 2026 se convirtió en una decisión estratégica de primer orden. La razón es directa: ChatGPT, Perplexity, Gemini y Claude necesitan crawlers especializados para leer tu contenido. Si tu robots.txt bloquea esos crawlers —por error o por configuración heredada—, tu empresa queda invisible para los motores de IA generativa, por bien que esté hecho el resto de tu sitio.

Este artículo es una guía concreta sobre cómo configurar tu robots.txt GPTBot, ClaudeBot, PerplexityBot y los otros crawlers de IA relevantes, qué decisiones tienes que tomar y cómo verificar que todo está realmente funcionando.

¿Qué es robots.txt y por qué importa más que nunca?

robots.txt es un archivo de texto plano que vive en la raíz de tu dominio (siempre en tudominio.cl/robots.txt) y le dice a los bots qué partes de tu sitio pueden o no pueden visitar. Cada motor de búsqueda y cada modelo de IA tiene un "user-agent" propio que se identifica al hacer el request, y tu robots.txt puede dar instrucciones específicas a cada uno.

Hasta hace dos o tres años, configurar robots.txt era una tarea técnica menor: básicamente bloquear el panel de administración y poco más. Hoy es una palanca de visibilidad: una sola línea mal puesta puede prevenir que tu empresa aparezca en respuestas de ChatGPT durante meses. Aparecer en ChatGPT cuando alguien busca tu servicio requiere, antes que nada, que ChatGPT pueda leer tu sitio.

Los crawlers de IA que existen hoy

No hay un solo "bot de IA": hay decenas. Y conviene entender la diferencia entre los principales, porque cada empresa puede operar varios crawlers distintos con propósitos diferentes (entrenar modelos vs traer respuestas en tiempo real).

OpenAI: GPTBot, OAI-SearchBot, ChatGPT-User

GPTBot es el crawler que OpenAI usa para entrenar futuros modelos. Si lo bloqueás, tu contenido no entra en las próximas generaciones de GPT. Está documentado oficialmente por OpenAI en su sitio para desarrolladores.

OAI-SearchBot es distinto: es el crawler que ChatGPT usa cuando hace búsqueda en vivo dentro de ChatGPT Search. Si lo bloqueás, tu sitio no es citable por ChatGPT Search hoy mismo, sin importar si entrenó con tú o no.

ChatGPT-User es el agente que se activa cuando un usuario manualmente le pide a ChatGPT que visite tu URL. Bloquearlo previene que usuarios humanos puedan "compartir tu página con ChatGPT" desde dentro del producto.

Anthropic: ClaudeBot, Claude-Web

ClaudeBot es el crawler general de Anthropic para entrenamiento y recuperación. Claude-Web aparece en navegaciones iniciadas por usuarios de Claude. Anthropic documenta ambos en sus páginas oficiales de soporte.

Perplexity: PerplexityBot, Perplexity-User

PerplexityBot es el crawler base de Perplexity (indexación general) y Perplexity-User es el agente que recupera URLs específicas cuando un usuario pregunta algo que requiere lectura en vivo. Si tu objetivo es ser citado por Perplexity —que cita fuentes explícitamente en cada respuesta—, los dos importan.

Google: Googlebot y Google-Extended

Googlebot es el crawler clásico para rankings de Google. Google-Extended es el flag específico para opt-out de entrenamiento de Bard/Gemini sin perder ranking en Google. Es importante entender la diferencia: bloquear Googlebot te saca de Google; bloquear solo Google-Extended te mantiene en Google pero te saca del entrenamiento de Gemini.

Common Crawl: CCBot

CCBot no pertenece a una IA específica, pero su dataset es la base de entrenamiento de muchísimos modelos de lenguaje, incluyendo versiones de varias familias de modelos comerciales y open source. Bloquearlo te saca preventivamente de un canal masivo de propagación.

La estructura básica de un robots.txt GPTBot-friendly

Para una empresa que quiere maximizar su visibilidad en IA generativa, la configuración base es: permitir todos los crawlers de IA y bloquear solo rutas técnicas internas (APIs, dashboards, paneles administrativos). Un ejemplo concreto:

User-agent: Googlebot
Allow: /
Disallow: /api/

User-agent: GoogleOther
Allow: /
Disallow: /api/

User-agent: Bingbot
Allow: /
Disallow: /api/

User-agent: GPTBot
Allow: /
Disallow: /api/

User-agent: OAI-SearchBot
Allow: /
Disallow: /api/

User-agent: ChatGPT-User
Allow: /
Disallow: /api/

User-agent: ClaudeBot
Allow: /
Disallow: /api/

User-agent: PerplexityBot
Allow: /
Disallow: /api/

User-agent: *
Allow: /
Disallow: /api/

Sitemap: https://tudominio.cl/sitemap.xml

Esta configuración explícita le da permiso a cada bot relevante. La línea User-agent: * al final es el comodín que cubre cualquier bot no listado. Y la línea Sitemap: ayuda a todos los crawlers a encontrar la lista completa de páginas que quieres que indexen.

Decisión estratégica: ¿permitir o bloquear el entrenamiento?

Acá hay un debate real, y conviene tener una posición consciente:

Permitir entrenamiento (GPTBot, ClaudeBot, CCBot): tu contenido alimenta futuros modelos. Beneficio: mayor probabilidad de ser citado por las próximas generaciones de GPT, Claude, etc. Costo: cero control sobre cómo se reutiliza tu contenido en outputs futuros.
Bloquear entrenamiento pero permitir recuperación en vivo (OAI-SearchBot, Perplexity-User, ChatGPT-User): mantenés visibilidad en respuestas actuales pero no contribuís al training. Es el equilibrio que eligen muchos medios y empresas con contenido editorial premium.
Bloquear todo: no apareces en respuestas IA. Solo tiene sentido si tu modelo de negocio depende fuertemente de evitar que se use tu contenido (paywalls, datos privados, propiedad intelectual estricta).

Para una empresa B2B chilena que recién empieza a construir visibilidad en IA, la recomendación es permitir todo. La ventaja de aparecer en ChatGPT, Gemini, Perplexity y Claude en esta etapa supera ampliamente cualquier preocupación abstracta de copyright. Cuando ya tengas tracción y autoridad, puedes reconsiderar la postura.

Errores comunes con robots.txt GPTBot y otros crawlers de IA

Confiar en el "User-agent: *" para cubrir crawlers de IA: técnicamente funciona, pero algunos crawlers solo respetan reglas que mencionan su user-agent específico. Mejor explícito.
Bloquear Googlebot por error al bloquear Google-Extended: son user-agents distintos. Si ponés User-agent: Google estás afectando ambos. Tienes que usar los nombres exactos sin abreviar.
robots.txt en la subdomain pero no en el dominio raíz: robots.txt es per-host. blog.tudominio.cl/robots.txt es distinto a tudominio.cl/robots.txt. Cada subdominio necesita su propio archivo.
Heredar configuración antigua sin saberlo: muchos sitios montados en plataformas como Wix, Squarespace o WordPress con plugins SEO tienen robots.txt generado automáticamente. Si nunca lo revisaste, probablemente esté bloqueando algo que no quieres bloquear.
Olvidar la línea Sitemap: sin ella, cada crawler tiene que descubrir tu sitio página por página. Con ella, encuentra todas tus URLs en un solo request.
Bloqueo a nivel de firewall: a veces el robots.txt está perfecto, pero Cloudflare, AWS WAF o el firewall del hosting está rechazando los user-agents de IA antes de que lleguen al sitio.

Cómo validar tu robots.txt

Tres pasos simples:

Visitá tudominio.cl/robots.txt en el navegador. Tiene que cargar como texto plano, sin redirects ni 404.
Prueba el Robots Testing Tool de Google Search Console. Te dice si Googlebot puede acceder a cualquier URL específica de tu sitio.
Verificá en logs del servidor que los user-agents de IA (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot) están haciendo requests reales. Si nunca aparecen, hay algo bloqueándolos antes del robots.txt.

El tercer paso es el más subestimado. Es perfectamente posible tener un robots.txt GPTBot-friendly impecable y aun así estar bloqueado por una regla de firewall que rechaza los user-agents de IA antes de que lleguen al sitio. Pedile a tu equipo de hosting que confirme que esos user-agents están en la lista de permitidos a nivel de WAF.

El robots.txt es la base, pero no alcanza

Configurar bien tu robots.txt es condición necesaria para que las IAs puedan leer tu sitio, pero no es condición suficiente para que te citen. Una vez que los crawlers entran, lo que encuentran tiene que ser citable: contenido estructurado tipo FAQ que las IAs citen, schema markup correcto, autoridad externa verificable y consistencia de marca a través de canales.

Si solo abrís la puerta pero la casa adentro está vacía, los modelos crawlean y se van sin material que citar. El AIO Score de OMETRIA mide las 6 dimensiones en simultáneo —incluyendo indexabilidad técnica para IA— y te dice exactamente qué señales te faltan para ser recomendado por ChatGPT, Gemini, Perplexity y Claude.

¿Quieres saber si tu robots.txt actual está bien configurado y qué otros elementos técnicos te faltan para ser visible en motores de IA? Haz el diagnóstico AIO gratuito de OMETRIA en menos de 3 minutos y recibe tu informe con brechas concretas y plan de mejora.