解析 · 9 分钟阅读

什么是 llms.txt 文件?2026 年完整指南

Published April 30, 2026 · By Ceres

llms.txt 是一份放在你域名根目录(https://yoursite.com/llms.txt)的 Markdown 文件,用来给大语言模型提供一份你最重要内容的精选导览图。它由 Jeremy Howard(fast.ai 与 Answer.AI 联合创始人)于 2024 年 9 月提出,规范文档见 llmstxt.org。可以把它理解为一份写给 AI 智能体的 README——简洁、人工精选,指向那些最重要的页面。

这篇文章回答我们最常被问到的几个问题:llms.txt 是什么,它与 robots.txt、sitemap.xml 有何区别,AI 引擎到底会不会读取它,里面该放些什么,以及如何在 30 分钟内发布一份。文中还有一节讲可选的伴生文件 llms-full.txt,并附了一个你可以直接照搬的真实示例。

一段话总结

llms.txt 是放在你域名 /llms.txt 路径下的单个 Markdown 文件,列出你最重要的页面,每个页面配一行描述。它的设计目标是帮助 AI 智能体和大语言模型快速理解你的网站,而无需爬取所有内容。格式很简单:一个顶级 # 标题写上你的名称,一段可选的 > 引用块摘要,然后是若干 ## 小节,里面包含带描述的 Markdown 风格链接。采用它完全是自愿的——没有任何强制机制——但这份文件发布成本很低、毫无坏处,所以如今大多数为 AI 搜索可见性做优化的团队都会放一份。

llms.txt 为什么存在

故事要从 AI 智能体访问网站时面临的难题说起。你的网站很可能有几十甚至几百个页面,每个都用 JavaScript 渲染,外面还裹着导航框架、营销组件、Cookie 横幅和页脚链接。一个想要回答关于你产品问题的智能体,面前只有三个糟糕的选择:

  • 爬取每一个页面。 又慢又费钱,而且大多数页面跟智能体的问题毫不相关。花在 Cookie 横幅文案上的 token,就是没花在真正答案上的 token。
  • 读取 sitemap.xml。 它给出一份 URL 列表,但没有任何信号表明哪些重要,没有描述,也没有人工精选的叙述。一份包含 1,200 个 URL 的站点地图对搜索引擎有帮助;它帮不了智能体判断什么值得抓取。
  • 用浏览器渲染首页。 能抓到营销文案,却会漏掉你的文档、定价细节和政策页面。而且也很贵——在智能体规模下,整页 JS 渲染是要真金白银花钱的。

llms.txt 一刀斩断了这个戈尔迪之结。最清楚哪些页面重要的网站所有者,写一份简短的 Markdown 索引,把智能体直接指向相关内容。智能体抓取这一个文件(只有几 KB),拿到一份精选导览图,再根据清晰的提示决定接下来读什么。带宽、延迟和 token 成本都随之下降。

llms.txt vs robots.txt vs sitemap.xml

这三个文件常被混淆。它们其实是互补的,各自回答一个不同的问题:

  • robots.txt 回答的是 “你可以访问什么?”——这是一份权限文件,告诉爬虫哪些路径允许访问、哪些禁止。它是给机器人的指令,而不是对内容的描述。
  • sitemap.xml 回答的是 “存在哪些 URL?”——这是一份机器可读的列表,列出每一个可索引的 URL 及其元数据(最后修改时间、变更频率、优先级)。它为搜索引擎发现而生;又长又详尽,没有任何编辑取舍。
  • llms.txt 回答的是 “我应该先看哪里?”——这是一份人工精选、便于叙述的 Markdown 索引,带描述地指向最重要的页面。它为 AI 智能体而生;简短、有主见、手工编辑。

你不用三选一。一个认真的网站三者都有。它们服务于不同的消费方:robots.txt 给传统爬虫,sitemap.xml 给搜索引擎,llms.txt 给 AI 智能体。

格式详解

llms.txt 是纯 Markdown。按照 llmstxt.org 上的规范,其结构为:

  1. 一个 H1 标题 写上网站或产品名称。这是必需的,而且必须有且仅有一个。
  2. 一段可选的引用块 (>),用一段话概括网站是关于什么的。强烈推荐——这是智能体读到的第一段内容。
  3. 可选的纯文本段落 提供更多背景。保持简短。
  4. H2 小节 按用途对链接进行分组——常见的小节名称有 ## Documentation、## Product、## Trust & policies 和 ## Optional。
  5. Markdown 链接 放在每个小节内,链接后面可以选择跟一个冒号和一段描述。格式为:- link text: description。

有一个特殊的小节名称很关键:## Optional 专门保留给那些在上下文紧张时智能体可以跳过的页面。按照规范,智能体应把 Optional 小节视为优先级较低的阅读内容——这是一种方式,既能标记交易型或信息量低的页面(注册表单、联系页面),又不必把它们从文件中彻底删除。

一个真实示例

下面是我们在 agentceres.com 上发布的 llms.txt(略作精简):

# Ceres

> Ceres is your AI Growth Officer — the first AI agent that
> runs marketing 24/7 for indie founders and small SaaS teams.
> Specialist agents deliver evidence-cited briefings in
> Slack; outbound content ships as drafts for your review.

## Product

- [Landing page](https://agentceres.com/): Meet Ceres — the
  AI Growth Officer for indie SaaS
- [How it works](https://agentceres.com/how-it-works): The
  evidence chain, memory system, and human-review posture
- [Pricing](https://agentceres.com/pricing): Four flat-price
  plans from $19/mo

## Documentation

- [Documentation](https://agentceres.com/docs): Operator
  and customer-facing setup docs

## Trust & policies

- [Security](https://agentceres.com/security): Tenant-isolation,
  evidence requirements, approval boundary
- [Privacy](https://agentceres.com/privacy): Privacy policy
- [Terms](https://agentceres.com/terms): Terms of service

## Optional

- [Sign up](https://agentceres.com/signup): Free trial signup —
  transactional page, not informational reading
- [Contact](https://agentceres.com/contact): Contact form —
  transactional page, not informational reading

你可以在 agentceres.com/llms.txt 读到完整文件。注意它的结构:H1 写品牌名,引用块写摘要,小节按用途分组,每个链接配一行描述,交易型页面单独归到 ## Optional 下。

llms.txt vs llms-full.txt

规范定义了一个可选的伴生文件:llms-full.txt。两者分工不同:

  • llms.txt ——索引。简短(通常 500–2000 词)、经过精选,链接到你的重要页面,被最先抓取。
  • llms-full.txt ——完整语料的扁平化版本。把你被索引页面的实际内容拼接成一份 Markdown 文档,可选择压缩以提升 token 效率。它让智能体能在一次请求中抓取你的整个知识库,而不必逐页爬取。

小网站通常只需要 llms.txt。如果你的网站有大量文档(一个文档门户、一个帮助中心、一份很长的博客归档),那么连带发布 llms-full.txt 能让智能体一次性拿到全部内容,省去 N 次往返。要把它控制在托管服务商的响应大小限制之内(Cloudflare 和 Vercel 通常比较宽裕;有些 CDN 上限在 10–25 MB)。

如何创建你自己的 llms.txt——30 分钟版

快速路径:

  1. 新建一个空白文件。 命名为 llms.txt。把它放进你网站的 public/静态目录(Next.js:public/llms.txt;Vite:public/llms.txt;静态站点生成器:构建产物的根目录)。
  2. 写好 H1 和引用块。 用 # Heading 写你的产品或网站名称;在一个 > 引用块里用 2–3 句话回答“这是什么?”。
  3. 添加小节。 先从三个开始:## Product、## Documentation、## Trust & policies。为交易型页面(注册、联系、登录)添加 ## Optional。
  4. 手工挑选链接。 克制住把每个 URL 都塞进去的冲动。整件事的意义就在于精选。对于一个典型的 SaaS 着陆站,8–15 个链接就足够了;文档密集的网站或许能撑到 25–40 个。
  5. 为每个链接写一段描述。 用一句具体的话说明该页面讲什么。跳过营销套话(“最好的 X”就是噪音);写智能体读完这个页面能学到什么。
  6. 确认它在根目录被正确提供。 部署后,用 curl https://yoursite.com/llms.txt 确认你拿回的是文件本身,而不是 404 或你的 SPA 外壳。常见坑:SPA 回退会把所有路径重写到 index.html;你可能需要改一处配置,让 /llms.txt 提供那个静态文件。
  7. 把它加进你的站点地图(可选)。 有些团队会从 sitemap.xml 里引用 llms.txt 以便被发现;并非严格必需,但无伤大雅。

常见错误

  • 把它当成站点地图。 1,200 个没有描述的链接,违背了它存在的初衷。llms.txt 是一份精选索引,不是 URL 倾倒场。
  • 描述里写营销文案。 “全球最佳的 AI 驱动客户成功平台”对智能体毫无用处。写这个页面包含什么,而不是你希望它被怎么看待。
  • 忘了 ## Optional。 不把交易型页面单独隔离出来,智能体就会浪费 token 去试图从你的注册表单或联系页面里提取信息。
  • 内容陈旧。 如果你发布了 llms.txt 却从不更新,这份文件就会和你真实的网站渐行渐远。把它当文档来对待——每个季度在你改动导航或新增重大功能时重新审一遍。
  • 链接到需要登录才能访问的页面。 智能体无法登入你的仪表盘。跳过需要鉴权的路由;只链接公开页面。

这一切真的能带来改变吗?

2026 年的诚实答案是:很可能能,但有前提。llms.txt 的采用是真实的,但只是部分。Anthropic、Mistral 以及若干智能体运行时已表态支持。Perplexity 和 Google 的 AI 概览则两边都没有正式承诺。我们看到一些轶事性的流量归因数据,显示 AI 智能体在存在 llms.txt 时会去抓取它,并用它来为答案提供依据,但公开研究仍然单薄。

话虽如此,成本收益的算账是一边倒的。发布 llms.txt 只需 30 分钟,在你的 CDN 上占约 2 KB。坏处为零——不读它的智能体会悄悄忽略它,没有 SEO 惩罚,文件存在之后也没有维护负担。而好处是:如果(或当)llms.txt 在 AI 引擎中成为更强的排名信号,那么对于 GEO 操作手册里最便宜的干预手段之一来说,它将带来可观的 AI 引用可见性。我们发布了它。大多数为 AI 搜索可见性做优化的团队都发布了它。

llms.txt 在 GEO 工具箱中的定位

生成式引擎优化(GEO)是这样一门学问:优化你的内容,使得 AI 引擎(Perplexity、ChatGPT、Claude、Google AI 概览)在你所在的品类被提问时引用你。llms.txt 是 GEO 工具箱里的几件工具之一:

  • llms.txt ——给智能体一份人工精选的网站导览图(就是本文)。
  • 结构化数据(Schema.org JSON-LD) ——在你的 HTML 中嵌入机器可读的事实,让引擎能直接提取 Article、FAQPage、HowTo、Organization 标记。
  • FAQPage / HowTo / Article schema ——对 AI 引擎提取最有用的几种具体 schema 类型。其中 FAQ 尤其能干净地对应到引擎据以合成答案的问答结构。
  • 便于引用的内容 ——具体的数字、一手来源、对比表格、具名实体。引擎更偏爱有出处的页面,而非含糊其辞的页面。
  • 引用审计 ——按固定节奏衡量在各引擎中哪些查询引用了你、哪些引用了竞品,让改写有证据可依,而不是靠猜。

最后这一项正是我们的生成式引擎优化策略师每周所做的事——在你追踪的查询清单上,跨 Perplexity、ChatGPT、Claude 和 AI 概览审计引用情况,诊断引擎在引用竞品时究竟为何如此,并把改写简报交给 SEO 专家角色。llms.txt 是一次性设置;引用审计才是持续进行的衡量循环。

今天就发布一份

llms.txt 是那种少见的优化:成本微不足道,坏处为零。如果你还没有,现在就写一份。把上面的示例当模板用。保持简短、人工精选、有描述。在你的网站发生变化时,每季度重新审一遍。

如果你想看到引用层面的结果——真正去衡量 AI 引擎是否在这次改动之后开始引用你——那就是 Ceres 的生成式引擎优化策略师角色接手的地方:每周引用审计、改写简报、前后对比。如果你想要完整的团队,可以开始免费试用,或者就把这个页面收藏起来,当作你的 llms.txt 参考。

FAQ

什么是 llms.txt 文件?
llms.txt 文件是放在你域名根目录(https://yoursite.com/llms.txt)的一份 Markdown 文档,为大语言模型提供一份你最重要内容的精选导览图。它源自 Jeremy Howard(fast.ai)于 2024 年 9 月提出的方案——一个单文件索引,AI 智能体读完它就能理解你的网站,而无需爬取每一个页面,也无需为整页 JavaScript 渲染付费。
llms.txt 和 robots.txt 或 sitemap.xml 是一回事吗?
不是。robots.txt 告诉爬虫它们可以访问什么、不可以访问什么(一份权限文件)。sitemap.xml 列出你网站上的每一个 URL 及其元数据,供搜索引擎索引(一份发现文件)。llms.txt 则是一份经过精选、由人工撰写的叙述,把 AI 智能体指向最重要的页面——它更接近一份 README,而不是上述两个既有文件中的任何一个。三者是互补的,而不是相互替代。
如今 AI 引擎真的会读取 llms.txt 吗?
截至 2026 年,采用情况是部分的。Anthropic、Mistral 以及若干智能体运行时已表态支持。Perplexity 和 Google 的 AI 概览没有直接承诺,但有若干研究论文将其列为一个有用的信号。务实的答案是:llms.txt 发布成本很低(一个 Markdown 文件,无需任何基础设施),而下行风险为零,所以大多数为 AI 搜索可见性做优化的团队,无论哪些引擎已正式背书,都会放一份。
llms.txt 和 llms-full.txt 有什么区别?
llms.txt 是索引——简洁、约 1–2 页、人类可读、配有精选链接。llms-full.txt 是可选的伴生文件:把被索引页面的实际内容扁平化成单个 Markdown 文档,这样一个需要你完整语料的智能体就能在一次请求中拿到它,而不必爬取。两者都属于同一份 llmstxt.org 规范;小网站通常只需要 llms.txt,内容密集的网站则两者都能受益。
我该把 llms.txt 文件放在哪里?
放在你域名的根目录——https://yoursite.com/llms.txt。规范对此说得很明确:智能体会在裸根目录下查找 /llms.txt,就像它们查找 /robots.txt 一样。放在子目录里(例如 /docs/llms.txt)不会被规范识别。
llms.txt 文件应该写多长?
要简洁。规范建议是一页 Markdown——通常 500–2000 词。再长的内容应该放进 llms-full.txt 或被链接的页面本身。把 llms.txt 当成一份 README,而不是一个知识库。如果你需要给智能体更多背景,就链接过去;不要内联粘贴。
什么是 llms.txt 文件?2026 年完整指南 · Ceres