Qu'est-ce qu'un fichier llms.txt ? Guide complet pour 2026
llms.txt est un fichier Markdown que vous placez à la racine de votre domaine (https://yoursite.com/llms.txt) pour fournir aux grands modèles de langage une carte structurée de vos contenus les plus importants. Il a été proposé par Jeremy Howard (cofondateur de fast.ai et Answer.AI) en septembre 2024 et est documenté sur llmstxt.org. Considérez-le comme un README rédigé pour des agents IA — concis, sélectionné à la main, pointant vers les pages qui comptent vraiment.
Cet article répond aux questions qui nous sont le plus souvent posées : ce qu'est llms.txt, en quoi il diffère de robots.txt et sitemap.xml, si les moteurs IA le lisent réellement, ce qu'il faut y mettre, et comment le publier en 30 minutes. Vous trouverez également une section sur le fichier compagnon optionnel llms-full.txt et un exemple concret que vous pouvez réutiliser.
Le résumé en un paragraphe
llms.txt est un fichier Markdown unique, situé à /llms.txt sur votre domaine, qui liste vos pages les plus importantes avec une description d'une ligne pour chacune. Il est conçu pour aider les agents IA et les LLM à comprendre votre site rapidement, sans avoir à tout explorer. Le format est simple : un titre # de niveau 1 avec votre nom, un résumé optionnel en > blockquote, puis des sections ## contenant des liens au format Markdown avec leurs descriptions. L'adoption est volontaire — il n'existe aucun mécanisme d'application — mais le fichier est rapide à mettre en place et ne présente aucun inconvénient, si bien que la plupart des équipes qui optimisent pour la visibilité dans les moteurs IA en publient désormais un.
Pourquoi llms.txt existe
Tout commence par le problème que rencontrent les agents IA lorsqu'ils accèdent à un site web. Votre site comporte probablement des dizaines, voire des centaines de pages, chacune rendue en JavaScript et entourée de menus de navigation, de widgets marketing, de bannières de cookies et de liens en pied de page. Un agent qui cherche à répondre à une question sur votre produit se retrouve face à trois mauvaises options :
- Explorer chaque page. Lent, coûteux, et la plupart des pages ne sont pas pertinentes pour la question de l'agent. Les tokens dépensés sur le texte d'une bannière de cookies sont autant de tokens qui ne servent pas à formuler la réponse réelle.
- Lire sitemap.xml. Fournit une liste d'URL mais aucune indication sur leur importance, sans descriptions ni récit structuré. Un sitemap de 1 200 URL est utile pour un moteur de recherche ; il n'aide pas un agent à décider quelles pages valent la peine d'être récupérées.
- Afficher la page d'accueil dans un navigateur. Capture le texte marketing mais passe à côté de la documentation, des tarifs et des pages légales. C'est également coûteux — le rendu JavaScript d'une page complète représente un coût réel à l'échelle d'un agent.
llms.txt tranche ce nœud gordien. Le propriétaire du site — qui sait quelles pages comptent — rédige un court index Markdown qui dirige l'agent directement vers le contenu pertinent. L'agent récupère un seul fichier (quelques Ko), obtient une carte structurée et décide quoi lire ensuite grâce à des indications claires. La bande passante, la latence et les coûts en tokens diminuent tous.
llms.txt vs robots.txt vs sitemap.xml
Ces trois fichiers sont souvent confondus. Ils sont en réalité complémentaires, chacun répondant à une question différente :
- robots.txt répond à « qu'êtes-vous autorisé à accéder ? » — un fichier de permissions indiquant aux robots d'exploration quels chemins sont autorisés et lesquels ne le sont pas. C'est une instruction destinée aux bots, pas une description de contenu.
- sitemap.xml répond à « quelles URL existent ? » — une liste lisible par machine de toutes les URL indexables avec leurs métadonnées (dernière modification, fréquence de changement, priorité). Conçu pour la découverte par les moteurs de recherche ; exhaustif, sans jugement éditorial.
- llms.txt répond à « par où commencer ? » — un index Markdown structuré, rédigé par un humain, pointant vers les pages les plus importantes avec leurs descriptions. Conçu pour les agents IA ; court, opinioné, édité à la main.
Il ne s'agit pas de choisir l'un ou l'autre. Un site sérieux dispose des trois. Ils servent des audiences différentes : robots.txt pour les robots d'exploration traditionnels, sitemap.xml pour les moteurs de recherche, llms.txt pour les agents IA.
Le format, en détail
llms.txt est du Markdown pur. Selon la spécification sur llmstxt.org, la structure est la suivante :
- Un titre H1 avec le nom du site ou du produit. Obligatoire, et il ne doit en exister qu'un seul.
- Un blockquote optionnel (>) contenant un résumé d'un paragraphe sur l'objet du site. Fortement recommandé — c'est la première chose que l'agent lira.
- Des paragraphes de texte libre optionnels apportant davantage de contexte. Restez concis.
- Des sections H2 regroupant les liens par thème — les noms de sections courants sont ## Documentation, ## Product, ## Trust & policies et ## Optional.
- Des liens Markdown dans chaque section, éventuellement suivis d'un signe deux-points et d'une description. Format : - texte du lien: description.
Un nom de section particulier a une signification spéciale : ## Optional est réservé aux pages qu'un agent peut ignorer si le contexte est limité. Selon la spécification, les agents doivent traiter la section Optional comme une lecture déprioritisée — une façon de signaler les pages transactionnelles ou peu informatives (formulaires d'inscription, pages de contact) sans les retirer entièrement du fichier.
Un exemple concret
Voici le llms.txt que nous publions sur agentceres.com (légèrement simplifié) :
# Ceres > Ceres is your AI Growth Officer — the first AI agent that > runs marketing 24/7 for indie founders and small SaaS teams. > Specialist agents deliver evidence-cited briefings in > Slack; outbound content ships as drafts for your review. ## Product - [Landing page](https://agentceres.com/): Meet Ceres — the AI Growth Officer for indie SaaS - [How it works](https://agentceres.com/how-it-works): The evidence chain, memory system, and human-review posture - [Pricing](https://agentceres.com/pricing): Four flat-price plans from $19/mo ## Documentation - [Documentation](https://agentceres.com/docs): Operator and customer-facing setup docs ## Trust & policies - [Security](https://agentceres.com/security): Tenant-isolation, evidence requirements, approval boundary - [Privacy](https://agentceres.com/privacy): Privacy policy - [Terms](https://agentceres.com/terms): Terms of service ## Optional - [Sign up](https://agentceres.com/signup): Free trial signup — transactional page, not informational reading - [Contact](https://agentceres.com/contact): Contact form — transactional page, not informational reading
Vous pouvez lire le fichier complet sur agentceres.com/llms.txt. Notez la structure : H1 pour la marque, résumé en blockquote, sections regroupées par thème, une ligne descriptive par lien, pages transactionnelles isolées sous ## Optional.
llms.txt vs llms-full.txt
La spécification définit un fichier compagnon optionnel : llms-full.txt. Les deux ont des rôles distincts :
- llms.txt — l'index. Court (généralement 500 à 2 000 mots), structuré, avec des liens vers vos pages importantes, récupéré en premier.
- llms-full.txt — le corpus complet, aplati. Le contenu réel de vos pages indexées, concaténé en un seul document Markdown, éventuellement minifié pour l'efficacité en tokens. Permet à un agent de récupérer l'ensemble de votre base de connaissances en une seule requête plutôt qu'en explorant page par page.
Les petits sites n'ont généralement besoin que de llms.txt. Si votre site dispose d'une documentation substantielle (un portail de documentation, un centre d'aide, une longue archive de blog), publier llms-full.txt en complément permet aux agents de tout récupérer sans N allers-retours. Gardez-le en dessous de la limite de taille de réponse de votre hébergeur (Cloudflare et Vercel sont généralement généreux ; certains CDN plafonnent à 10–25 Mo).
Comment créer votre propre llms.txt — version en 30 minutes
La méthode rapide :
- Ouvrez un fichier vide. Nommez-le llms.txt. Placez-le dans le répertoire public/statique de votre site (Next.js : public/llms.txt ; Vite : public/llms.txt ; générateurs de sites statiques : la racine du répertoire de build).
- Rédigez le H1 et le blockquote. Le nom de votre produit ou site en tant que # Titre ; un paragraphe en > blockquote répondant à la question « qu'est-ce que c'est ? » en 2 à 3 phrases.
- Ajoutez les sections. Commencez par trois : ## Product, ## Documentation, ## Trust & policies. Ajoutez ## Optional pour les pages transactionnelles (inscription, contact, connexion).
- Choisissez les liens avec soin. Résistez à l'envie de lister toutes les URL. L'intérêt réside précisément dans la sélection. 8 à 15 liens suffisent largement pour un site SaaS classique ; un site riche en documentation peut en justifier 25 à 40.
- Rédigez une description par lien. Une phrase concrète sur le contenu de la page. Évitez les formules marketing (« le meilleur X » ne dit rien à un agent) ; écrivez ce qu'un agent apprendra en lisant la page.
- Vérifiez que le fichier est accessible à la racine. Déployez, puis exécutez curl https://yoursite.com/llms.txt et confirmez que vous obtenez bien le fichier, et non une erreur 404 ou le shell de votre SPA. Écueil fréquent : les fallbacks SPA redirigent tous les chemins vers index.html ; vous devrez peut-être ajuster la configuration pour que /llms.txt serve le fichier statique.
- Ajoutez-le à votre sitemap (optionnel). Certaines équipes référencent llms.txt depuis sitemap.xml pour faciliter la découverte ; ce n'est pas strictement nécessaire, mais c'est sans inconvénient.
Erreurs fréquentes
- Le traiter comme un sitemap. 1 200 liens sans descriptions contrecarrent l'objectif. llms.txt est un index structuré, pas un dump d'URL.
- Du texte marketing dans les descriptions. « La meilleure plateforme de succès client propulsée par l'IA au monde » ne dit rien d'utile à un agent. Écrivez ce que la page contient, pas la perception que vous souhaitez en donner.
- Oublier ## Optional. Sans isoler les pages transactionnelles, un agent gaspille des tokens à tenter d'extraire des informations de votre formulaire d'inscription ou de votre page de contact.
- Contenu périmé. Si vous publiez llms.txt et ne le mettez jamais à jour, le fichier diverge peu à peu de votre vrai site. Traitez-le comme de la documentation — révisez-le chaque trimestre lorsque vous modifiez la navigation ou ajoutez des fonctionnalités importantes.
- Lier des pages protégées par authentification. Les agents ne peuvent pas se connecter à votre tableau de bord. Excluez les routes authentifiées ; ne liez que des pages publiques.
Est-ce que cela change vraiment quelque chose ?
La réponse honnête en 2026 est : probablement oui, avec des nuances. L'adoption de llms.txt est réelle mais partielle. Anthropic, Mistral et plusieurs runtimes d'agents ont signalé leur soutien. Perplexity et Google AI Overviews n'ont pris aucun engagement formel dans un sens ou dans l'autre. Des données anecdotiques d'attribution de trafic suggèrent que les agents IA récupèrent llms.txt lorsqu'il est présent et l'utilisent pour ancrer leurs réponses, mais les recherches publiques sur le sujet restent limitées.
Cela dit, le calcul coût-bénéfice penche clairement d'un côté. Publier llms.txt prend 30 minutes et représente environ 2 Ko sur votre CDN. Le risque est nul — les agents qui ne le lisent pas l'ignorent silencieusement, sans pénalité SEO ni charge de maintenance une fois en place. Le gain, si llms.txt devient un signal de classement plus fort dans les moteurs IA, représente une visibilité significative en termes de citations IA pour l'une des interventions les moins coûteuses de la boîte à outils GEO. Nous le publions. La plupart des équipes qui optimisent pour la visibilité dans les moteurs IA en font de même.
La place de llms.txt dans la boîte à outils GEO
La Generative Engine Optimization (GEO) est la discipline qui consiste à optimiser votre contenu afin que les moteurs IA (Perplexity, ChatGPT, Claude, Google AI Overviews) vous citent lorsqu'une requête est formulée dans votre catégorie. llms.txt est l'un des plusieurs artefacts de cette boîte à outils GEO :
- llms.txt — fournit aux agents une carte structurée de votre site (cet article).
- Données structurées (Schema.org JSON-LD) — intègre des faits lisibles par machine dans votre HTML afin que les moteurs puissent extraire directement les balises Article, FAQPage, HowTo et Organization.
- Schémas FAQPage / HowTo / Article — les types de schémas les plus utiles pour l'extraction par les moteurs IA. Le schéma FAQ en particulier correspond bien à la forme question/réponse que les moteurs synthétisent.
- Contenu propice aux citations — chiffres concrets, sources primaires, tableaux comparatifs, entités nommées. Les moteurs préfèrent les pages qui citent leurs sources à celles qui se contentent d'affirmer.
- Audit des citations — mesure des requêtes pour lesquelles vous êtes cité par rapport à vos concurrents sur différents moteurs, de façon récurrente, afin que les réécritures soient guidées par les données et non par des suppositions.
Ce dernier point est ce que fait chaque semaine notre Stratégiste en Optimisation des Moteurs Génératifs — auditer les citations sur Perplexity, ChatGPT, Claude et AI Overviews pour votre liste de requêtes suivies, analyser pourquoi les moteurs citent des concurrents le cas échéant, et transmettre des briefs de réécriture au rôle Expert SEO. llms.txt est une configuration ponctuelle ; l'audit des citations est la boucle de mesure continue.
Publiez le vôtre dès aujourd'hui
llms.txt est l'une de ces optimisations rares où le coût est négligeable et le risque est nul. Si vous n'en avez pas encore, rédigez-le maintenant. Utilisez l'exemple ci-dessus comme modèle. Restez concis, sélectif, descriptif. Révisez-le chaque trimestre lorsque votre site évolue.
Si vous souhaitez mesurer les résultats en termes de citations — vérifier concrètement si les moteurs IA commencent à vous citer après le changement — c'est là qu'intervient le rôle Stratégiste GEO de Ceres : audits de citations hebdomadaires, briefs de réécriture, comparaisons avant/après. Vous pouvez démarrer l'essai gratuit si vous souhaitez bénéficier de l'équipe complète, ou simplement garder cette page en favoris comme référence sur llms.txt.
FAQ
- Qu'est-ce qu'un fichier llms.txt ?
- Un fichier llms.txt est un document Markdown placé à la racine de votre domaine (https://yoursite.com/llms.txt) qui fournit aux grands modèles de langage une carte structurée de vos contenus les plus importants. Il s'agit d'une proposition de Jeremy Howard (fast.ai) introduite en septembre 2024 — un index en fichier unique que les agents IA peuvent lire pour comprendre votre site sans explorer chaque page ni payer le coût de rendu JavaScript d'une page complète.
- llms.txt est-il identique à robots.txt ou sitemap.xml ?
- Non. robots.txt indique aux robots d'exploration ce qu'ils peuvent ou ne peuvent pas accéder (un fichier de permissions). sitemap.xml liste toutes les URL de votre site avec leurs métadonnées pour l'indexation par les moteurs de recherche (un fichier de découverte). llms.txt est un index narratif, rédigé par un humain, qui dirige les agents IA vers les pages les plus importantes — plus proche d'un README que de l'un ou l'autre des deux fichiers existants. Les trois sont complémentaires, et non interchangeables.
- Les moteurs IA lisent-ils réellement llms.txt aujourd'hui ?
- L'adoption est partielle en 2026. Anthropic, Mistral et plusieurs runtimes d'agents ont signalé leur soutien. Perplexity et Google AI Overviews ne s'y sont pas encore engagés formellement, mais plusieurs articles de recherche le citent comme un signal utile. La réponse pragmatique : llms.txt est peu coûteux à publier (un fichier Markdown, aucune infrastructure) et le risque est nul, si bien que la plupart des équipes qui optimisent pour la visibilité dans les moteurs IA en ajoutent un, indépendamment des moteurs qui l'ont officiellement endorsé.
- Quelle est la différence entre llms.txt et llms-full.txt ?
- llms.txt est l'index — concis, environ 1 à 2 pages, lisible par un humain, avec des liens structurés. llms-full.txt est le fichier compagnon optionnel : le contenu réel des pages indexées, aplati en un seul document Markdown, de sorte qu'un agent ayant besoin de votre corpus complet puisse le récupérer en une seule requête sans explorer page par page. Les deux font partie de la même spécification llmstxt.org ; les petits sites n'ont généralement besoin que de llms.txt, tandis que les sites à forte densité de contenu bénéficient des deux.
- Où dois-je placer le fichier llms.txt ?
- À la racine de votre domaine — https://yoursite.com/llms.txt. La spécification est explicite sur ce point : les agents cherchent /llms.txt à la racine exacte, de la même façon qu'ils cherchent /robots.txt. Un placement dans un sous-répertoire (par exemple /docs/llms.txt) n'est pas reconnu par la spécification.
- Quelle doit être la longueur d'un fichier llms.txt ?
- Concise. La spécification recommande une seule page de Markdown — généralement 500 à 2 000 mots. Tout ce qui dépasse devrait figurer dans llms-full.txt ou dans les pages liées elles-mêmes. Considérez llms.txt comme un README, et non comme une base de connaissances. Si vous devez fournir davantage de contexte à l'agent, créez un lien vers ce contenu ; ne le collez pas directement dans le fichier.