Erklärt · 9 Min. Lesezeit

Was ist eine llms.txt-Datei? Der komplette Guide für 2026

Published April 30, 2026 · By Ceres

llms.txt ist eine Markdown-Datei, die du in den Root deiner Domain legst (https://yoursite.com/llms.txt), um Large Language Models eine kuratierte Karte deiner wichtigsten Inhalte zu geben. Vorgeschlagen wurde sie von Jeremy Howard (Mitgründer von fast.ai und Answer.AI) im September 2024, dokumentiert ist sie auf llmstxt.org. Stell sie dir wie ein README vor, das für AI-Agenten geschrieben ist – knapp, von Hand kuratiert, mit Verweisen auf die Seiten, die wirklich zählen.

Dieser Beitrag beantwortet die Fragen, die uns am häufigsten gestellt werden: Was llms.txt ist, wie sie sich von robots.txt und sitemap.xml unterscheidet, ob AI-Engines sie wirklich lesen, was hineingehört und wie du in 30 Minuten eine ausspielst. Es gibt außerdem einen Abschnitt zur optionalen Begleitdatei llms-full.txt und ein echtes Beispiel, das du kopieren kannst.

Die Zusammenfassung in einem Absatz

llms.txt ist eine einzelne Markdown-Datei unter /llms.txt auf deiner Domain, die deine wichtigsten Seiten mit jeweils einer einzeiligen Beschreibung auflistet. Sie ist dafür gemacht, AI-Agenten und LLMs zu helfen, deine Website schnell zu verstehen, ohne alles zu crawlen. Das Format ist simpel: eine oberste #-Überschrift mit deinem Namen, ein optionales >-Zitat als Zusammenfassung, dann ##-Abschnitte mit Markdown-Links und Beschreibungen. Die Nutzung ist freiwillig – es gibt keinen Durchsetzungsmechanismus –, aber die Datei ist billig auszuspielen und ohne Nachteil, deshalb bauen die meisten Teams, die auf AI-Sichtbarkeit optimieren, inzwischen eine ein.

Warum es llms.txt gibt

Die Geschichte beginnt mit dem Problem, das AI-Agenten haben, wenn sie auf eine Website treffen. Deine Website hat wahrscheinlich Dutzende oder Hunderte Seiten, jede mit JavaScript gerendert, umgeben von Navigations-Chrome, Marketing-Widgets, Cookie-Bannern und Footer-Links. Ein Agent, der eine Frage zu deinem Produkt beantworten will, hat drei schlechte Optionen:

  • Jede Seite crawlen. Langsam, teuer, und die meisten Seiten sind für die Frage des Agenten gar nicht relevant. Tokens, die für Cookie-Banner-Texte draufgehen, sind Tokens, die nicht in die eigentliche Antwort fließen.
  • sitemap.xml lesen. Liefert eine Liste von URLs, aber kein Signal, welche wichtig sind, keine Beschreibungen und kein von Menschen kuratiertes Narrativ. Eine Sitemap mit 1.200 URLs hilft einer Suchmaschine; einem Agenten hilft sie nicht zu entscheiden, was sich zu holen lohnt.
  • Die Startseite mit einem Browser rendern. Erfasst den Marketing-Text, verpasst aber deine Docs, Pricing-Details und Policy-Seiten. Außerdem teuer – vollständige JS-Renderings einer Seite kosten in Agenten-Größenordnung echtes Geld.

llms.txt durchschlägt diesen gordischen Knoten. Der Website-Betreiber – der weiß, welche Seiten wichtig sind – schreibt einen kurzen Markdown-Index, der den Agenten direkt zum relevanten Inhalt lenkt. Der Agent holt eine einzige Datei (ein paar KB), bekommt eine kuratierte Karte und entscheidet anhand klarer Hinweise, was er als Nächstes liest. Bandbreite, Latenz und Token-Kosten sinken alle.

llms.txt vs. robots.txt vs. sitemap.xml

Diese drei Dateien werden oft verwechselt. Tatsächlich ergänzen sie sich, jede beantwortet eine andere Frage:

  • robots.txt beantwortet „worauf darfst du zugreifen?“ – eine Berechtigungsdatei, die Crawlern sagt, welche Pfade erlaubt und welche tabu sind. Es ist eine Anweisung an Bots, keine Beschreibung von Inhalten.
  • sitemap.xml beantwortet „welche URLs existieren?“ – eine maschinenlesbare Liste jeder indexierbaren URL mit Metadaten (zuletzt geändert, Änderungshäufigkeit, Priorität). Gebaut für die Entdeckung durch Suchmaschinen; lang, erschöpfend, ohne redaktionelles Urteil.
  • llms.txt beantwortet „wo soll ich zuerst nachsehen?“ – ein von Menschen kuratierter, erzählfreundlicher Markdown-Index, der mit Beschreibungen auf die wichtigsten Seiten verweist. Gebaut für AI-Agenten; kurz, meinungsstark, von Hand bearbeitet.

Du wählst nicht eine davon. Eine ernsthafte Website hat alle drei. Sie bedienen unterschiedliche Konsumenten: robots.txt für klassische Crawler, sitemap.xml für Suchmaschinen, llms.txt für AI-Agenten.

Das Format im Detail

llms.txt ist reines Markdown. Laut Spec auf llmstxt.org ist die Struktur:

  1. Eine H1-Überschrift mit dem Namen der Website oder des Produkts. Pflicht, und es muss genau eine geben.
  2. Ein optionales Zitat (>) mit einer Ein-Absatz-Zusammenfassung dessen, worum es auf der Website geht. Dringend empfohlen – das liest der Agent zuerst.
  3. Optionale Klartext-Absätze die mehr Kontext geben. Halt es kurz.
  4. H2-Abschnitte die Links nach Zweck gruppieren – gängige Abschnittsnamen sind ## Documentation, ## Product, ## Trust & policies und ## Optional.
  5. Markdown-Links innerhalb jedes Abschnitts, optional gefolgt von einem Doppelpunkt und einer Beschreibung. Format: - Linktext: Beschreibung.

Ein besonderer Abschnittsname ist wichtig: ## Optional ist für Seiten reserviert, die ein Agent überspringen kann, wenn der Kontext knapp wird. Laut Spec sollten Agenten den Optional-Abschnitt als nachrangige Lektüre behandeln – eine Möglichkeit, transaktionale oder informationsarme Seiten (Anmeldeformulare, Kontaktseiten) zu markieren, ohne sie ganz aus der Datei zu werfen.

Ein echtes Beispiel

Hier ist die llms.txt, die wir auf agentceres.com ausspielen (leicht gekürzt):

# Ceres

> Ceres is your AI Growth Officer — the first AI agent that
> runs marketing 24/7 for indie founders and small SaaS teams.
> Specialist agents deliver evidence-cited briefings in
> Slack; outbound content ships as drafts for your review.

## Product

- [Landing page](https://agentceres.com/): Meet Ceres — the
  AI Growth Officer for indie SaaS
- [How it works](https://agentceres.com/how-it-works): The
  evidence chain, memory system, and human-review posture
- [Pricing](https://agentceres.com/pricing): Four flat-price
  plans from $19/mo

## Documentation

- [Documentation](https://agentceres.com/docs): Operator
  and customer-facing setup docs

## Trust & policies

- [Security](https://agentceres.com/security): Tenant-isolation,
  evidence requirements, approval boundary
- [Privacy](https://agentceres.com/privacy): Privacy policy
- [Terms](https://agentceres.com/terms): Terms of service

## Optional

- [Sign up](https://agentceres.com/signup): Free trial signup —
  transactional page, not informational reading
- [Contact](https://agentceres.com/contact): Contact form —
  transactional page, not informational reading

Die vollständige Datei kannst du unter agentceres.com/llms.txt lesen. Beachte die Struktur: H1 für die Marke, Zitat als Zusammenfassung, Abschnitte nach Zweck gruppiert, beschreibende Zeile pro Link, transaktionale Seiten getrennt unter ## Optional.

llms.txt vs. llms-full.txt

Die Spec definiert eine optionale Begleitdatei: llms-full.txt. Die beiden haben unterschiedliche Aufgaben:

  • llms.txt – der Index. Kurz (typischerweise 500–2000 Wörter), kuratiert, verlinkt auf deine wichtigen Seiten, wird zuerst geholt.
  • llms-full.txt – der vollständige, flachgelegte Korpus. Der eigentliche Inhalt deiner indexierten Seiten, in ein einziges Markdown-Dokument zusammengeführt, optional minifiziert für Token-Effizienz. Lässt einen Agenten deine gesamte Wissensbasis in einer Anfrage holen, statt zu crawlen.

Kleine Websites brauchen meist nur llms.txt. Wenn deine Website umfangreiche Dokumentation hat (ein Docs-Portal, ein Help-Center, ein langes Blog-Archiv), lässt das zusätzliche Ausspielen von llms-full.txt Agenten alles auf einmal greifen, ohne N Roundtrips. Halt sie unter dem Response-Size-Limit deines Hosting-Anbieters (Cloudflare und Vercel sind typischerweise großzügig; manche CDNs deckeln bei 10–25 MB).

So erstellst du deine eigene llms.txt – die 30-Minuten-Variante

Der schnelle Weg:

  1. Öffne eine leere Datei. Nenn sie llms.txt. Leg sie in das public/static-Verzeichnis deiner Website (Next.js: public/llms.txt; Vite: public/llms.txt; Static-Site-Generatoren: das Root des Build-Outputs).
  2. Schreib die H1 und das Zitat. Dein Produkt- oder Website-Name als # Überschrift; ein Absatz in einem >-Zitat, der in 2–3 Sätzen die Frage „was ist das?“ beantwortet.
  3. Füg die Abschnitte hinzu. Starte mit dreien: ## Product, ## Documentation, ## Trust & policies. Füg ## Optional für transaktionale Seiten hinzu (Anmeldung, Kontakt, Login).
  4. Wähl die Links von Hand aus. Widersteh dem Drang, jede URL reinzukippen. Genau die Kuratierung ist der Punkt. 8–15 Links sind für eine typische SaaS-Landingsite reichlich; eine docs-lastige Website rechtfertigt vielleicht 25–40.
  5. Schreib eine Beschreibung pro Link. Ein konkreter Satz darüber, was die Seite abdeckt. Lass Marketing-Geschwafel weg („das beste X“ ist Rauschen); schreib, was ein Agent durch das Lesen der Seite lernen würde.
  6. Prüf, dass sie im Root ausgeliefert wird. Deploy, dann curl https://yoursite.com/llms.txt und bestätige, dass du die Datei zurückbekommst, nicht einen 404 oder deine SPA-Shell. Häufige Falle: SPA-Fallbacks schreiben alle Pfade auf index.html um; vielleicht brauchst du eine Config-Anpassung, damit /llms.txt die statische Datei ausliefert.
  7. Füg sie deiner Sitemap hinzu (optional). Manche Teams referenzieren llms.txt zur Entdeckung aus der sitemap.xml; nicht zwingend nötig, aber harmlos.

Häufige Fehler

  • Sie wie eine Sitemap behandeln. 1.200 Links ohne Beschreibungen verfehlen den Zweck. llms.txt ist ein kuratierter Index, kein URL-Dump.
  • Marketing-Text in Beschreibungen. „Die weltbeste AI-gestützte Customer-Success-Plattform“ sagt einem Agenten nichts Nützliches. Schreib, was die Seite enthält, nicht wie du gern wahrgenommen würdest.
  • ## Optional vergessen. Ohne transaktionale Seiten abzutrennen, verbrennt ein Agent Tokens beim Versuch, Informationen aus deinem Anmeldeformular oder deiner Kontaktseite zu ziehen.
  • Veralteter Inhalt. Wenn du llms.txt ausspielst und nie aktualisierst, driftet die Datei von deiner echten Website weg. Behandle sie wie Docs – schau sie vierteljährlich erneut durch, wenn du die Navigation änderst oder große Features hinzufügst.
  • Auf login-geschützte Seiten verlinken. Agenten können sich nicht in dein Dashboard einloggen. Lass authentifizierte Routen weg; verlink nur öffentliche Seiten.

Bringt das alles wirklich etwas?

Die ehrliche Antwort im Jahr 2026 lautet: wahrscheinlich ja, mit Einschränkungen. Die Verbreitung von llms.txt ist real, aber partiell. Anthropic, Mistral und mehrere Agent-Runtimes haben Unterstützung signalisiert. Perplexity und Googles AI Overviews haben sich in keine Richtung formell festgelegt. Wir haben anekdotische Traffic-Attributionsdaten gesehen, die nahelegen, dass AI-Agenten llms.txt abrufen, wenn sie vorhanden ist, und sie nutzen, um ihre Antworten zu fundieren – aber die öffentliche Forschung ist noch dünn.

Dennoch ist die Kosten-Nutzen-Rechnung einseitig. llms.txt auszuspielen dauert 30 Minuten und kostet ~2 KB auf deinem CDN. Der Nachteil ist null – Agenten, die sie nicht lesen, ignorieren sie stillschweigend, kein SEO-Malus, kein Wartungsaufwand, sobald sie existiert. Der Vorteil, falls/wenn llms.txt zu einem stärkeren Ranking-Signal in AI-Engines wird, ist spürbare AI-Zitations-Sichtbarkeit für eine der billigsten Maßnahmen im GEO-Playbook. Wir spielen sie aus. Die meisten Teams, die auf AI-Sichtbarkeit optimieren, spielen sie aus.

Wo llms.txt in den GEO-Werkzeugkasten passt

Generative Engine Optimization (GEO) ist die Disziplin, deine Inhalte so zu optimieren, dass AI-Engines (Perplexity, ChatGPT, Claude, Google AI Overviews) dich zitieren, wenn sie in deiner Kategorie befragt werden. llms.txt ist eines von mehreren Artefakten im GEO-Werkzeugkasten:

  • llms.txt – gibt Agenten eine von Hand kuratierte Karte deiner Website (dieser Beitrag).
  • Strukturierte Daten (Schema.org JSON-LD) – bettet maschinenlesbare Fakten in dein HTML ein, sodass Engines Article-, FAQPage-, HowTo- und Organization-Markup direkt extrahieren können.
  • FAQPage- / HowTo- / Article-Schema – die spezifischen Schema-Typen, die für die Extraktion durch AI-Engines am nützlichsten sind. Besonders FAQ bildet sich sauber auf die Frage-/Antwort-Form ab, aus der Engines synthetisieren.
  • Zitationsfreundlicher Inhalt – konkrete Zahlen, Primärquellen, Vergleichstabellen, benannte Entitäten. Engines bevorzugen Seiten, die belegen, gegenüber Seiten, die nur andeuten.
  • Zitations-Audits – messen, welche Anfragen dich vs. Wettbewerber über die Engines hinweg zitieren, in wiederkehrendem Takt, damit Rewrites evidenzgetrieben statt geraten sind.

Der letzte Punkt ist das, was unser Generative Engine Optimization Strategist wöchentlich macht – Zitationen über Perplexity, ChatGPT, Claude und AI Overviews auf deiner getrackten Anfrageliste auditieren, diagnostizieren, warum Engines Wettbewerber zitieren, wenn sie es tun, und Rewrite-Briefings an die SEO-Expert-Rolle übergeben. llms.txt ist ein einmaliges Setup; Zitations-Audits sind die laufende Mess-Schleife.

Spiel heute eine aus

llms.txt ist die seltene Optimierung, bei der die Kosten trivial sind und der Nachteil null ist. Wenn du keine hast, schreib sie jetzt. Nimm das Beispiel oben als Vorlage. Halt sie kurz, von Hand kuratiert, beschreibend. Schau sie vierteljährlich erneut durch, wenn sich deine Website ändert.

Wenn du Zitations-Ergebnisse sehen willst – tatsächlich messen, ob AI-Engines dich nach der Änderung zu zitieren beginnen –, da setzt Ceres' GEO-Strategist-Rolle an: wöchentliche Zitations-Audits, Rewrite-Briefings, Vorher-Nachher-Vergleiche. Du kannst die kostenlose Testphase starten, wenn du das ganze Team willst, oder dir diese Seite einfach als llms.txt-Referenz speichern.

FAQ

Was ist eine llms.txt-Datei?
Eine llms.txt-Datei ist ein Markdown-Dokument im Root deiner Domain (https://yoursite.com/llms.txt), das Large Language Models eine kuratierte Karte deiner wichtigsten Inhalte gibt. Es ist ein Vorschlag von Jeremy Howard (fast.ai), eingeführt im September 2024 – ein Ein-Datei-Index, den AI-Agenten lesen können, um deine Website zu verstehen, ohne jede Seite zu crawlen oder für vollständige JavaScript-Renderings zu zahlen.
Ist llms.txt dasselbe wie robots.txt oder sitemap.xml?
Nein. robots.txt sagt Crawlern, worauf sie zugreifen dürfen und worauf nicht (eine Berechtigungsdatei). sitemap.xml listet jede URL deiner Website mit Metadaten für die Suchmaschinen-Indexierung (eine Entdeckungsdatei). llms.txt ist ein kuratiertes, von Menschen geschriebenes Narrativ, das AI-Agenten auf die wichtigsten Seiten verweist – näher an einem README als an einer der beiden bestehenden Dateien. Die drei ergänzen sich, sie ersetzen sich nicht.
Lesen AI-Engines llms.txt heute tatsächlich?
Die Verbreitung ist Stand 2026 partiell. Anthropic, Mistral und mehrere Agent-Runtimes haben Unterstützung signalisiert. Perplexity und Googles AI Overviews haben sich nicht direkt dazu bekannt, aber mehrere Forschungsarbeiten nennen sie als nützliches Signal. Die pragmatische Antwort: llms.txt ist billig auszuspielen (eine Markdown-Datei, keine Infrastruktur) und das Abwärtsrisiko ist null, deshalb fügen die meisten Teams, die auf AI-Sichtbarkeit optimieren, eine hinzu – unabhängig davon, welche Engines sie offiziell unterstützt haben.
Was ist der Unterschied zwischen llms.txt und llms-full.txt?
llms.txt ist der Index – knapp, ~1–2 Seiten, menschenlesbar, mit kuratierten Links. llms-full.txt ist die optionale Begleitung: der eigentliche Inhalt der indexierten Seiten, flachgelegt in ein einziges Markdown-Dokument, sodass ein Agent, der deinen vollständigen Korpus braucht, ihn in einer Anfrage holen kann, statt zu crawlen. Beide sind Teil derselben llmstxt.org-Spec; kleine Websites brauchen meist nur llms.txt, inhaltsschwere Websites profitieren von beiden.
Wohin lege ich die llms.txt-Datei?
In den Root deiner Domain – https://yoursite.com/llms.txt. Die Spec ist hier eindeutig: Agenten suchen /llms.txt im nackten Root, genauso wie sie nach /robots.txt suchen. Eine Platzierung in einem Unterverzeichnis (z. B. /docs/llms.txt) wird von der Spec nicht erkannt.
Wie lang sollte eine llms.txt-Datei sein?
Knapp. Die Spec empfiehlt eine einzige Seite Markdown – typischerweise 500–2000 Wörter. Alles Längere sollte in llms-full.txt oder in den verlinkten Seiten selbst leben. Stell dir llms.txt als README vor, nicht als Wissensbasis. Wenn du dem Agenten mehr Kontext geben musst, verlink darauf; füg ihn nicht inline ein.
Was ist eine llms.txt-Datei? Der komplette Guide für 2026 · Ceres