Guia · 9 min de leitura

O que é um arquivo llms.txt? Um guia completo para 2026

Published April 30, 2026 · By Ceres

llms.txt é um arquivo Markdown que você coloca na raiz do seu domínio (https://yoursite.com/llms.txt) para oferecer aos grandes modelos de linguagem um mapa selecionado do seu conteúdo mais importante. Foi proposto por Jeremy Howard (cofundador do fast.ai e Answer.AI) em setembro de 2024 e está documentado em llmstxt.org. Pense nele como um README escrito para agentes de IA — conciso, selecionado à mão, apontando para as páginas que realmente importam.

Este artigo responde às perguntas que recebemos com mais frequência: o que é llms.txt, como ele difere de robots.txt e sitemap.xml, se os motores de IA realmente o leem, o que colocar nele e como publicar um em 30 minutos. Há também uma seção sobre o arquivo complementar opcional llms-full.txt e um exemplo real que você pode copiar.

O resumo em um parágrafo

llms.txt é um único arquivo Markdown em /llms.txt no seu domínio que lista as suas páginas mais importantes com uma descrição de uma linha para cada uma. Ele foi criado para ajudar agentes de IA e LLMs a entenderem o seu site rapidamente, sem precisar rastrear tudo. O formato é simples: um título # de nível superior com o seu nome, um blockquote > opcional de resumo e seções ## com links no estilo Markdown acompanhados de descrições. A adoção é voluntária — não há nenhum mecanismo de imposição — mas o arquivo é fácil de publicar e não tem nenhuma desvantagem, por isso a maioria das equipes que otimiza para visibilidade em buscas com IA já inclui um.

Por que o llms.txt existe

A história começa com o problema que os agentes de IA enfrentam ao acessar um site. O seu site provavelmente tem dezenas ou centenas de páginas, cada uma renderizada com JavaScript, cercada de menus de navegação, widgets de marketing, banners de cookies e links de rodapé. Um agente que quer responder a uma pergunta sobre o seu produto tem três opções ruins:

  • Rastrear todas as páginas. Lento, caro e a maioria das páginas não é relevante para a pergunta do agente. Tokens gastos com texto de banner de cookies são tokens não gastos com a resposta em si.
  • Ler o sitemap.xml. Fornece uma lista de URLs, mas sem indicação de quais são relevantes, sem descrições e sem nenhuma narrativa selecionada por humanos. Um sitemap com 1.200 URLs ajuda um motor de busca; mas não ajuda um agente a decidir o que vale a pena buscar.
  • Renderizar a página inicial com um navegador. Captura o conteúdo de marketing, mas perde os seus docs, detalhes de preços e páginas de políticas. Também é caro — renderizações completas de páginas com JS têm um custo real na escala de agentes.

O llms.txt corta esse nó górdio. O dono do site — que sabe quais páginas importam — escreve um índice Markdown resumido apontando o agente diretamente para o conteúdo relevante. O agente busca um único arquivo (alguns KB), obtém um mapa selecionado e decide o que ler a seguir com base em dicas claras. Largura de banda, latência e custos com tokens caem significativamente.

llms.txt vs robots.txt vs sitemap.xml

Esses três arquivos são frequentemente confundidos. Na verdade, eles são complementares, cada um respondendo a uma pergunta diferente:

  • robots.txt responde "o que você pode acessar?" — um arquivo de permissão que diz aos rastreadores quais caminhos são permitidos e quais estão fora dos limites. É uma instrução para bots, não uma descrição do conteúdo.
  • sitemap.xml responde "quais URLs existem?" — uma lista legível por máquina de todas as URLs indexáveis com metadados (última modificação, frequência de alteração, prioridade). Feito para descoberta por motores de busca; longo, exaustivo, sem julgamento editorial.
  • llms.txt responde "por onde devo começar?" — um índice Markdown selecionado por humanos, amigável para narrativas, apontando para as páginas mais importantes com descrições. Feito para agentes de IA; curto, opinativo, editado à mão.

Você não escolhe apenas um. Um site sério tem os três. Eles servem a consumidores diferentes: robots.txt para rastreadores tradicionais, sitemap.xml para motores de busca e llms.txt para agentes de IA.

O formato, em detalhes

llms.txt é Markdown puro. De acordo com a especificação em llmstxt.org, a estrutura é:

  1. Um título H1 com o nome do site ou produto. Obrigatório, e deve haver exatamente um.
  2. Um blockquote opcional (>) com um resumo de um parágrafo sobre o que o site trata. Altamente recomendado — essa é a primeira leitura do agente.
  3. Parágrafos de texto simples opcionais fornecendo mais contexto. Mantenha-o curto.
  4. Seções H2 agrupando links por finalidade — nomes de seção comuns são ## Documentation, ## Product, ## Trust & policies e ## Optional.
  5. Links Markdown dentro de cada seção, opcionalmente seguidos de dois pontos e uma descrição. Formato: - texto do link: descrição.

Um nome de seção especial importa: ## Optional é reservado para páginas que um agente pode pular se o contexto estiver limitado. De acordo com a especificação, os agentes devem tratar a seção Optional como leitura de menor prioridade — uma forma de marcar páginas transacionais ou de baixa informação (formulários de cadastro, páginas de contato) sem removê-las completamente do arquivo.

Um exemplo real

Aqui está o llms.txt que publicamos em agentceres.com (levemente resumido):

# Ceres

> Ceres is your AI Growth Officer — the first AI agent that
> runs marketing 24/7 for indie founders and small SaaS teams.
> Specialist agents deliver evidence-cited briefings in
> Slack; outbound content ships as drafts for your review.

## Product

- [Landing page](https://agentceres.com/): Meet Ceres — the
  AI Growth Officer for indie SaaS
- [How it works](https://agentceres.com/how-it-works): The
  evidence chain, memory system, and human-review posture
- [Pricing](https://agentceres.com/pricing): Four flat-price
  plans from $19/mo

## Documentation

- [Documentation](https://agentceres.com/docs): Operator
  and customer-facing setup docs

## Trust & policies

- [Security](https://agentceres.com/security): Tenant-isolation,
  evidence requirements, approval boundary
- [Privacy](https://agentceres.com/privacy): Privacy policy
- [Terms](https://agentceres.com/terms): Terms of service

## Optional

- [Sign up](https://agentceres.com/signup): Free trial signup —
  transactional page, not informational reading
- [Contact](https://agentceres.com/contact): Contact form —
  transactional page, not informational reading

Você pode ler o arquivo completo em agentceres.com/llms.txt. Observe a estrutura: H1 para a marca, resumo em blockquote, seções agrupadas por finalidade, linha descritiva por link e páginas transacionais separadas sob ## Optional.

llms.txt vs llms-full.txt

A especificação define um arquivo complementar opcional: llms-full.txt. Os dois têm funções diferentes:

  • llms.txt — o índice. Curto (tipicamente 500–2.000 palavras), selecionado, com links para as suas páginas importantes, buscado primeiro.
  • llms-full.txt — o corpus completo, achatado. O conteúdo real das suas páginas indexadas concatenado em um único documento Markdown, opcionalmente minificado para eficiência de tokens. Permite que um agente busque toda a sua base de conhecimento em uma única requisição, em vez de rastrear página por página.

Sites pequenos geralmente só precisam do llms.txt. Se o seu site tem documentação substancial (um portal de docs, uma central de ajuda, um longo arquivo de blog), publicar também o llms-full.txt permite que os agentes obtenham tudo de uma vez, sem N idas e vindas. Mantenha-o abaixo do limite de tamanho de resposta do seu provedor de hospedagem (Cloudflare e Vercel costumam ser generosos; alguns CDNs limitam a 10–25 MB).

Como criar o seu próprio llms.txt — versão de 30 minutos

O caminho rápido:

  1. Abra um arquivo em branco. Nomeie-o llms.txt. Coloque-o no diretório public/static do seu site (Next.js: public/llms.txt; Vite: public/llms.txt; geradores de sites estáticos: a raiz da saída do build).
  2. Escreva o H1 e o blockquote. O nome do seu produto ou site como # Título; um parágrafo em um > blockquote respondendo "o que é isso?" em 2–3 frases.
  3. Adicione as seções. Comece com três: ## Product, ## Documentation, ## Trust & policies. Adicione ## Optional para páginas transacionais (cadastro, contato, login).
  4. Selecione os links à mão. Resista à tentação de despejar todas as URLs. O ponto central é a curadoria. 8–15 links é suficiente para um site SaaS típico; um site com muita documentação pode justificar 25–40.
  5. Escreva uma descrição por link. Uma frase concreta sobre o que a página contém. Evite linguagem de marketing vazia ("o melhor X" é ruído); escreva o que um agente aprenderia ao ler a página.
  6. Verifique se está sendo servido na raiz. Faça o deploy e execute curl https://yoursite.com/llms.txt para confirmar que você recebe o arquivo de volta, não um 404 ou o shell do seu SPA. Problema comum: fallbacks de SPA reescrevem todos os caminhos para index.html; talvez você precise de um ajuste de configuração para que /llms.txt sirva o arquivo estático.
  7. Adicione-o ao seu sitemap (opcional). Algumas equipes referenciam llms.txt no sitemap.xml para facilitar a descoberta; não é estritamente necessário, mas também não tem desvantagem.

Erros comuns

  • Tratá-lo como um sitemap. 1.200 links sem descrições derrota o propósito. llms.txt é um índice selecionado, não um dump de URLs.
  • Texto de marketing nas descrições. "A melhor plataforma de sucesso do cliente com IA do mundo" não diz nada útil a um agente. Escreva o que a página contém, não como você gostaria que ela fosse percebida.
  • Esquecer o ## Optional. Sem separar as páginas transacionais, um agente gasta tokens tentando extrair informações do seu formulário de cadastro ou página de contato.
  • Conteúdo desatualizado. Se você publica o llms.txt e nunca o atualiza, o arquivo se distancia do seu site real. Trate-o como documentação — revise-o trimestralmente quando você alterar a navegação ou adicionar recursos importantes.
  • Adicionar links para páginas protegidas por login. Agentes não conseguem se autenticar no seu dashboard. Ignore rotas autenticadas; vincule apenas páginas públicas.

Isso realmente faz diferença?

A resposta honesta em 2026 é: provavelmente sim, com ressalvas. A adoção do llms.txt é real, mas parcial. Anthropic, Mistral e vários runtimes de agentes sinalizaram suporte. Perplexity e os AI Overviews do Google não assumiram compromissos formais nem em um sentido nem no outro. Vimos dados anedóticos de atribuição de tráfego sugerindo que agentes de IA buscam o llms.txt quando ele está presente e o usam para embasar suas respostas, mas a pesquisa pública ainda é escassa.

Dito isso, a matemática de custo-benefício pende claramente para um lado. Publicar o llms.txt leva 30 minutos e cerca de 2 KB no seu CDN. A desvantagem é zero — agentes que não o leem simplesmente o ignoram em silêncio, sem penalidade de SEO e sem carga de manutenção uma vez que ele existe. A vantagem, caso o llms.txt se torne um sinal de ranqueamento mais forte em motores de IA, é uma visibilidade significativa de citação por IA com uma das intervenções mais baratas do kit de ferramentas GEO. Nós publicamos o nosso. A maioria das equipes que otimiza para visibilidade em buscas com IA também publica o seu.

Onde o llms.txt se encaixa no kit de ferramentas GEO

Generative Engine Optimization (GEO) é a disciplina de otimizar o seu conteúdo para que motores de IA (Perplexity, ChatGPT, Claude, Google AI Overviews) o citem quando consultados na sua categoria. llms.txt é um dos vários artefatos no kit de ferramentas GEO:

  • llms.txt — oferece aos agentes um mapa selecionado à mão do seu site (este artigo).
  • Dados estruturados (Schema.org JSON-LD) — incorpora fatos legíveis por máquina no seu HTML para que os motores possam extrair marcações de Article, FAQPage, HowTo e Organization diretamente.
  • Schema de FAQPage / HowTo / Article — os tipos de schema mais úteis para extração por motores de IA. FAQ em particular mapeia perfeitamente para o formato de pergunta/resposta que os motores sintetizam.
  • Conteúdo favorável a citações — números concretos, fontes primárias, tabelas comparativas, entidades nomeadas. Os motores preferem páginas que citam fontes a páginas que apenas fazem afirmações vagas.
  • Auditoria de citações — medir quais consultas citam você versus concorrentes em diferentes motores, em uma cadência recorrente, para que as reescritas sejam baseadas em evidências, não em suposições.

O último item é o que o nosso Estrategista de Generative Engine Optimization faz semanalmente — auditando citações no Perplexity, ChatGPT, Claude e AI Overviews na sua lista de consultas rastreadas, diagnosticando por que os motores citam concorrentes quando o fazem e repassando briefings de reescrita para o papel de Especialista em SEO. llms.txt é uma configuração única; a auditoria de citações é o loop de medição contínuo.

Publique o seu hoje

llms.txt é aquela otimização rara em que o custo é trivial e a desvantagem é zero. Se você ainda não tem um, escreva agora. Use o exemplo acima como modelo. Mantenha-o curto, selecionado à mão e descritivo. Revise-o trimestralmente quando o seu site mudar.

Se você quer ver os resultados de citação — medir de verdade se os motores de IA passam a citar você após a mudança — é aí que o papel de Estrategista GEO da Ceres entra: auditorias de citação semanais, briefings de reescrita e comparações antes/depois. Você pode iniciar o teste gratuito se quiser a equipe completa, ou apenas salvar esta página como referência para o seu llms.txt.

FAQ

O que é um arquivo llms.txt?
Um arquivo llms.txt é um documento Markdown na raiz do seu domínio (https://yoursite.com/llms.txt) que oferece aos grandes modelos de linguagem um mapa selecionado do seu conteúdo mais importante. É uma proposta de Jeremy Howard (fast.ai) introduzida em setembro de 2024 — um índice em arquivo único que agentes de IA podem ler para entender o seu site sem rastrear todas as páginas ou pagar por renderizações completas de JavaScript.
llms.txt é a mesma coisa que robots.txt ou sitemap.xml?
Não. robots.txt diz aos rastreadores o que eles podem ou não acessar (um arquivo de permissão). sitemap.xml lista todas as URLs do seu site com metadados para indexação por motores de busca (um arquivo de descoberta). llms.txt é um índice narrativo selecionado e escrito por humanos que aponta agentes de IA para as páginas mais relevantes — mais próximo de um README do que de qualquer um dos dois arquivos existentes. Os três são complementares, não substitutos.
Os motores de IA realmente leem o llms.txt hoje?
A adoção é parcial a partir de 2026. Anthropic, Mistral e vários runtimes de agentes sinalizaram suporte. Perplexity e os AI Overviews do Google não se comprometeram diretamente com isso, mas vários artigos de pesquisa o citam como um sinal útil. A resposta pragmática: llms.txt é barato de publicar (um único arquivo Markdown, sem infraestrutura) e o risco de desvantagem é zero, então a maioria das equipes que otimiza para visibilidade em buscas com IA adiciona um, independentemente de quais motores o endossaram oficialmente.
Qual é a diferença entre llms.txt e llms-full.txt?
llms.txt é o índice — conciso, ~1–2 páginas, legível por humanos, com links selecionados. llms-full.txt é o complemento opcional: o conteúdo real das páginas indexadas achatado em um único documento Markdown, para que um agente que precise do seu corpus completo possa buscá-lo em uma única requisição em vez de rastrear. Ambos fazem parte da mesma especificação em llmstxt.org; sites pequenos geralmente só precisam do llms.txt; sites com muito conteúdo se beneficiam dos dois.
Onde devo colocar o arquivo llms.txt?
Na raiz do seu domínio — https://yoursite.com/llms.txt. A especificação é explícita sobre isso: os agentes procuram por /llms.txt na raiz base, da mesma forma que procuram por /robots.txt. A colocação em subdiretórios (por exemplo, /docs/llms.txt) não é reconhecida pela especificação.
Qual deve ser o tamanho de um arquivo llms.txt?
Conciso. A especificação recomenda uma única página de Markdown — tipicamente 500–2.000 palavras. Qualquer coisa mais longa deve ir para o llms-full.txt ou para as próprias páginas vinculadas. Pense no llms.txt como um README, não como uma base de conhecimento. Se você precisar fornecer mais contexto ao agente, crie um link para ele; não cole tudo inline.
O que é um arquivo llms.txt? Um guia completo para 2026 · Ceres