¿Qué es un archivo llms.txt? Guía completa para 2026
llms.txt es un archivo Markdown que colocas en la raíz de tu dominio (https://yoursite.com/llms.txt) para darles a los modelos de lenguaje grandes un mapa curado de tu contenido más importante. Fue propuesto por Jeremy Howard (cofundador de fast.ai y Answer.AI) en septiembre de 2024 y está documentado en llmstxt.org. Piénsalo como un README escrito para agentes de AI: conciso, curado a mano, apuntando a las páginas que más importan.
Este artículo responde las preguntas que nos hacen con más frecuencia: qué es llms.txt, en qué se diferencia de robots.txt y sitemap.xml, si los motores de AI realmente lo leen, qué incluir en él y cómo publicarlo en 30 minutos. También hay una sección sobre el archivo complementario opcional llms-full.txt y un ejemplo del mundo real que puedes copiar.
El resumen en un párrafo
llms.txt es un único archivo Markdown en /llms.txt de tu dominio que lista tus páginas más importantes con una descripción de una línea por cada una. Está diseñado para ayudar a los agentes de AI y a los LLM a entender tu sitio rápidamente sin necesidad de rastrear todo. El formato es sencillo: un encabezado # de nivel superior con tu nombre, un resumen en blockquote > opcional, y luego secciones ## con enlaces estilo Markdown con descripciones. La adopción es voluntaria —no existe mecanismo de aplicación obligatoria— pero el archivo es barato de publicar y no tiene ninguna desventaja, por lo que la mayoría de los equipos que optimizan para visibilidad en búsqueda de AI ya incluyen uno.
Por qué existe llms.txt
Todo empieza con el problema que enfrentan los agentes de AI cuando llegan a un sitio web. Tu sitio probablemente tiene decenas o cientos de páginas, cada una renderizada con JavaScript, rodeadas de barras de navegación, widgets de marketing, banners de cookies y enlaces del pie de página. Un agente que quiere responder una pregunta sobre tu producto tiene tres opciones malas:
- Rastrear cada página. Lento, costoso, y la mayoría de las páginas no son relevantes para la pregunta del agente. Los tokens gastados en el texto del banner de cookies son tokens que no se usan en la respuesta real.
- Leer sitemap.xml. Proporciona una lista de URLs pero no indica cuáles importan, no tiene descripciones ni narrativa curada por humanos. Un sitemap con 1.200 URLs ayuda a un motor de búsqueda; no ayuda a un agente a decidir qué vale la pena consultar.
- Renderizar la página de inicio con un navegador. Captura el texto de marketing pero omite tus documentos, detalles de precios y páginas de políticas. También es costoso: los renders completos de páginas con JavaScript cuestan dinero real a escala de agentes.
llms.txt corta este nudo gordiano. El propietario del sitio —que sabe qué páginas importan— escribe un breve índice Markdown que apunta al agente directamente al contenido relevante. El agente descarga un archivo (unos pocos KB), obtiene un mapa curado y decide qué leer a continuación con indicaciones claras. El ancho de banda, la latencia y los costos de tokens se reducen.
llms.txt vs robots.txt vs sitemap.xml
Estos tres archivos suelen confundirse. En realidad son complementarios: cada uno responde una pregunta distinta:
- robots.txt responde «¿a qué puedes acceder?» — un archivo de permisos que le indica a los rastreadores qué rutas están permitidas y cuáles están fuera de límites. Es una instrucción para bots, no una descripción de contenido.
- sitemap.xml responde «¿qué URLs existen?» — una lista legible por máquinas de cada URL indexable con metadatos (última modificación, frecuencia de cambio, prioridad). Creado para el descubrimiento por motores de búsqueda; largo, exhaustivo, sin juicio editorial.
- llms.txt responde «¿dónde debo mirar primero?» — un índice Markdown curado por humanos y amigable con la narrativa, que apunta a las páginas más importantes con descripciones. Creado para agentes de AI; breve, con criterio editorial, editado a mano.
No eliges uno. Un sitio serio tiene los tres. Sirven a diferentes consumidores: robots.txt para rastreadores tradicionales, sitemap.xml para motores de búsqueda, llms.txt para agentes de AI.
El formato, en detalle
llms.txt es Markdown plano. Según la especificación en llmstxt.org, la estructura es:
- Un encabezado H1 con el nombre del sitio o producto. Obligatorio, y debe haber exactamente uno.
- Un blockquote opcional (>) con un resumen de un párrafo sobre de qué trata el sitio. Muy recomendado: esta es la primera lectura del agente.
- Párrafos de texto plano opcionales para dar más contexto. Que sean breves.
- Secciones H2 que agrupan los enlaces por propósito — los nombres de sección más comunes son ## Documentation, ## Product, ## Trust & policies y ## Optional.
- Enlaces Markdown dentro de cada sección, opcionalmente seguidos de dos puntos y una descripción. Formato: - texto del enlace: descripción.
Un nombre de sección especial importa: ## Optional está reservado para páginas que un agente puede omitir si el contexto es limitado. Según la especificación, los agentes deben tratar la sección Optional como lectura de baja prioridad — una manera de marcar páginas transaccionales o con poca información (formularios de registro, páginas de contacto) sin eliminarlas del archivo por completo.
Un ejemplo real
Aquí está el llms.txt que publicamos en agentceres.com (ligeramente resumido):
# Ceres > Ceres is your AI Growth Officer — the first AI agent that > runs marketing 24/7 for indie founders and small SaaS teams. > Specialist agents deliver evidence-cited briefings in > Slack; outbound content ships as drafts for your review. ## Product - [Landing page](https://agentceres.com/): Meet Ceres — the AI Growth Officer for indie SaaS - [How it works](https://agentceres.com/how-it-works): The evidence chain, memory system, and human-review posture - [Pricing](https://agentceres.com/pricing): Four flat-price plans from $19/mo ## Documentation - [Documentation](https://agentceres.com/docs): Operator and customer-facing setup docs ## Trust & policies - [Security](https://agentceres.com/security): Tenant-isolation, evidence requirements, approval boundary - [Privacy](https://agentceres.com/privacy): Privacy policy - [Terms](https://agentceres.com/terms): Terms of service ## Optional - [Sign up](https://agentceres.com/signup): Free trial signup — transactional page, not informational reading - [Contact](https://agentceres.com/contact): Contact form — transactional page, not informational reading
Puedes leer el archivo completo en agentceres.com/llms.txt. Observa la estructura: H1 para la marca, resumen en blockquote, secciones agrupadas por propósito, una línea descriptiva por enlace, y páginas transaccionales separadas bajo ## Optional.
llms.txt vs llms-full.txt
La especificación define un archivo complementario opcional: llms-full.txt. Los dos cumplen funciones distintas:
- llms.txt — el índice. Breve (típicamente entre 500 y 2.000 palabras), curado, con enlaces a tus páginas importantes; se consulta primero.
- llms-full.txt — el corpus completo, aplanado. El contenido real de tus páginas indexadas concatenado en un único documento Markdown, opcionalmente minificado para eficiencia de tokens. Permite que un agente obtenga toda tu base de conocimiento en una sola solicitud en lugar de rastrear página por página.
Los sitios pequeños generalmente solo necesitan llms.txt. Si tu sitio tiene documentación sustancial (un portal de docs, un centro de ayuda, un extenso archivo de blog), publicar también llms-full.txt permite a los agentes obtener todo el contenido sin múltiples solicitudes de ida y vuelta. Mantenlo por debajo del límite de tamaño de respuesta de tu proveedor de hosting (Cloudflare y Vercel suelen ser generosos; algunos CDN tienen un límite de 10–25 MB).
Cómo crear tu propio llms.txt — versión de 30 minutos
El camino rápido:
- Abre un archivo en blanco. Nómbralo llms.txt. Colócalo en el directorio público/estático de tu sitio (Next.js: public/llms.txt; Vite: public/llms.txt; generadores de sitios estáticos: la raíz del output de compilación).
- Escribe el H1 y el blockquote. El nombre de tu producto o sitio como # Encabezado; un párrafo en un > blockquote que responda «¿qué es esto?» en 2–3 oraciones.
- Agrega las secciones. Comienza con tres: ## Product, ## Documentation, ## Trust & policies. Agrega ## Optional para páginas transaccionales (registro, contacto, inicio de sesión).
- Elige los enlaces a mano. Resiste la tentación de incluir cada URL. El objetivo precisamente es la curaduría. Entre 8 y 15 enlaces es suficiente para un sitio típico de SaaS; un sitio con mucha documentación podría justificar entre 25 y 40.
- Escribe una descripción por enlace. Una oración concreta sobre lo que cubre la página. Evita el lenguaje de marketing («el mejor X» no aporta nada); escribe lo que un agente aprendería al leer la página.
- Verifica que se sirva en la raíz. Despliega y luego ejecuta curl https://yoursite.com/llms.txt para confirmar que obtienes el archivo, no un 404 ni el shell de tu SPA. Error común: los fallbacks de SPA redirigen todas las rutas a index.html; puede que necesites un ajuste de configuración para que /llms.txt sirva el archivo estático.
- Agrégalo a tu sitemap (opcional). Algunos equipos referencian llms.txt desde sitemap.xml para facilitar el descubrimiento; no es estrictamente necesario, pero no tiene ninguna desventaja.
Errores comunes
- Tratarlo como un sitemap. 1.200 enlaces sin descripciones anulan el propósito. llms.txt es un índice curado, no un volcado de URLs.
- Texto de marketing en las descripciones. «La plataforma de customer success más poderosa del mundo impulsada por AI» no le dice nada útil a un agente. Escribe lo que la página contiene, no cómo te gustaría que la perciban.
- Olvidar ## Optional. Sin separar las páginas transaccionales, un agente gasta tokens intentando extraer información de tu formulario de registro o página de contacto.
- Contenido desactualizado. Si publicas llms.txt y nunca lo actualizas, el archivo se desincroniza de tu sitio real. Trátalo como documentación: revísalo cada trimestre cuando cambies la navegación o agregues funcionalidades importantes.
- Enlazar a páginas protegidas por inicio de sesión. Los agentes no pueden autenticarse en tu dashboard. Omite las rutas autenticadas; enlaza solo páginas públicas.
¿Realmente hace alguna diferencia?
La respuesta honesta en 2026 es: probablemente sí, con matices. La adopción de llms.txt es real, pero parcial. Anthropic, Mistral y varios runtimes de agentes han señalado su compatibilidad. Perplexity y AI Overviews de Google no han hecho compromisos formales en ningún sentido. Hemos visto datos anecdóticos de atribución de tráfico que sugieren que los agentes de AI consultan llms.txt cuando está disponible y lo usan para fundamentar sus respuestas, pero la investigación pública todavía es escasa.
Dicho esto, el análisis de costo-beneficio es unidireccional. Publicar llms.txt toma 30 minutos y ocupa ~2 KB en tu CDN. La desventaja es cero: los agentes que no lo leen lo ignoran silenciosamente, no hay penalización SEO ni carga de mantenimiento una vez que existe. La ventaja, si llms.txt se convierte en una señal de posicionamiento más fuerte en los motores de AI, es una visibilidad significativa de citación en AI por una de las intervenciones más económicas del kit de herramientas GEO. Nosotros lo publicamos. La mayoría de los equipos que optimizan para visibilidad en búsqueda de AI también lo publican.
El lugar de llms.txt en el kit de herramientas GEO
La Optimización para Motores Generativos (GEO) es la disciplina de optimizar tu contenido para que los motores de AI (Perplexity, ChatGPT, Claude, Google AI Overviews) te citen cuando alguien hace una consulta en tu categoría. llms.txt es uno de varios artefactos en el kit de herramientas GEO:
- llms.txt — le da a los agentes un mapa curado de tu sitio (este artículo).
- Datos estructurados (Schema.org JSON-LD) — incorpora hechos legibles por máquinas en tu HTML para que los motores puedan extraer directamente el marcado de Article, FAQPage, HowTo y Organization.
- Schema de FAQPage / HowTo / Article — los tipos de schema más útiles para la extracción por motores de AI. El de FAQ en particular se adapta perfectamente a la forma de pregunta/respuesta que los motores sintetizan.
- Contenido propicio para la citación — cifras concretas, fuentes primarias, tablas comparativas, entidades con nombre. Los motores prefieren páginas que citan fuentes a páginas que solo hacen afirmaciones vagas.
- Auditoría de citaciones — medir qué consultas te citan a ti versus a la competencia en los distintos motores, de forma recurrente, para que las revisiones de contenido estén basadas en evidencia y no en suposiciones.
El último punto es lo que nuestro Estratega en Optimización para Motores Generativos hace semanalmente: auditar citaciones en Perplexity, ChatGPT, Claude y AI Overviews para la lista de consultas que monitoreas, diagnosticar por qué los motores citan a competidores cuando lo hacen, y entregar borradores de revisión al rol de Experto en SEO. llms.txt es una configuración inicial única; la auditoría de citaciones es el ciclo de medición continuo.
Publícalo hoy
llms.txt es esa optimización poco frecuente donde el costo es trivial y la desventaja es cero. Si no tienes uno, escríbelo ahora. Usa el ejemplo anterior como plantilla. Que sea breve, curado a mano y descriptivo. Revísalo cada trimestre cuando tu sitio cambie.
Si quieres ver resultados en citaciones —medir realmente si los motores de AI empiezan a citarte después del cambio— ahí es donde entra el rol de Estratega GEO de Ceres: auditorías semanales de citaciones, borradores de revisión y comparaciones antes/después. Puedes comenzar la prueba gratuita si quieres el equipo completo, o simplemente guarda esta página como tu referencia de llms.txt.
FAQ
- ¿Qué es un archivo llms.txt?
- Un archivo llms.txt es un documento Markdown en la raíz de tu dominio (https://yoursite.com/llms.txt) que le da a los modelos de lenguaje grandes un mapa curado de tu contenido más importante. Es una propuesta de Jeremy Howard (fast.ai) introducida en septiembre de 2024: un índice de un solo archivo que los agentes de AI pueden leer para entender tu sitio sin rastrear cada página ni pagar por renders completos de páginas con JavaScript.
- ¿Es llms.txt lo mismo que robots.txt o sitemap.xml?
- No. robots.txt le indica a los rastreadores qué pueden y qué no pueden acceder (un archivo de permisos). sitemap.xml lista cada URL de tu sitio con metadatos para la indexación de motores de búsqueda (un archivo de descubrimiento). llms.txt es un índice curado y escrito por humanos que apunta a los agentes de AI hacia las páginas más importantes — más parecido a un README que a cualquiera de los otros dos archivos. Los tres son complementarios, no sustitutos entre sí.
- ¿Los motores de AI realmente leen llms.txt hoy en día?
- La adopción es parcial a partir de 2026. Anthropic, Mistral y varios runtimes de agentes han señalado su compatibilidad. Perplexity y AI Overviews de Google no se han comprometido directamente, pero varios artículos de investigación lo citan como una señal útil. La respuesta pragmática: llms.txt es barato de publicar (un archivo Markdown, sin infraestructura) y el riesgo de desventaja es cero, por lo que la mayoría de los equipos que optimizan para visibilidad en búsqueda de AI lo agregan independientemente de qué motores lo hayan respaldado oficialmente.
- ¿Cuál es la diferencia entre llms.txt y llms-full.txt?
- llms.txt es el índice: conciso, de unas 1–2 páginas, legible por humanos, con enlaces curados. llms-full.txt es el complemento opcional: el contenido real de las páginas indexadas aplanado en un único documento Markdown, de modo que un agente que necesite tu corpus completo pueda obtenerlo en una sola solicitud en lugar de rastrear. Ambos son parte de la misma especificación de llmstxt.org; los sitios pequeños generalmente solo necesitan llms.txt, mientras que los sitios con mucho contenido se benefician de ambos.
- ¿Dónde coloco el archivo llms.txt?
- En la raíz de tu dominio: https://yoursite.com/llms.txt. La especificación es explícita al respecto: los agentes buscan /llms.txt en la raíz base, de la misma manera que buscan /robots.txt. La ubicación en un subdirectorio (por ejemplo, /docs/llms.txt) no está reconocida por la especificación.
- ¿Qué tan largo debe ser un archivo llms.txt?
- Conciso. La especificación recomienda una sola página de Markdown, típicamente entre 500 y 2.000 palabras. Cualquier cosa más extensa debería ir en llms-full.txt o en las propias páginas enlazadas. Piensa en llms.txt como un README, no como una base de conocimiento. Si necesitas darle más contexto al agente, enlázalo; no lo pegues directamente en el archivo.