llms.txt 和 robots.txt 或 sitemap.xml 是一回事吗？

不是。robots.txt 告诉爬虫它们可以访问什么、不可以访问什么（一份权限文件）。sitemap.xml 列出你网站上的每一个 URL 及其元数据，供搜索引擎索引（一份发现文件）。llms.txt 则是一份经过精选、由人工撰写的叙述，把 AI 智能体指向最重要的页面——它更接近一份 README，而不是上述两个既有文件中的任何一个。三者是互补的，而不是相互替代。

如今 AI 引擎真的会读取 llms.txt 吗？

截至 2026 年，采用情况是部分的。Anthropic、Mistral 以及若干智能体运行时已表态支持。Perplexity 和 Google 的 AI 概览没有直接承诺，但有若干研究论文将其列为一个有用的信号。务实的答案是：llms.txt 发布成本很低（一个 Markdown 文件，无需任何基础设施），而下行风险为零，所以大多数为 AI 搜索可见性做优化的团队，无论哪些引擎已正式背书，都会放一份。

llms.txt 和 llms-full.txt 有什么区别？

llms.txt 是索引——简洁、约 1–2 页、人类可读、配有精选链接。llms-full.txt 是可选的伴生文件：把被索引页面的实际内容扁平化成单个 Markdown 文档，这样一个需要你完整语料的智能体就能在一次请求中拿到它，而不必爬取。两者都属于同一份 llmstxt.org 规范；小网站通常只需要 llms.txt，内容密集的网站则两者都能受益。

我该把 llms.txt 文件放在哪里？

放在你域名的根目录——https://yoursite.com/llms.txt。规范对此说得很明确：智能体会在裸根目录下查找 /llms.txt，就像它们查找 /robots.txt 一样。放在子目录里（例如 /docs/llms.txt）不会被规范识别。

llms.txt 文件应该写多长？

要简洁。规范建议是一页 Markdown——通常 500–2000 词。再长的内容应该放进 llms-full.txt 或被链接的页面本身。把 llms.txt 当成一份 README，而不是一个知识库。如果你需要给智能体更多背景，就链接过去；不要内联粘贴。

解析 · 9 分钟阅读

什么是 llms.txt 文件？2026 年完整指南

Published April 30, 2026 · By Ceres

llms.txt 是一份放在你域名根目录（https://yoursite.com/llms.txt）的 Markdown 文件，用来给大语言模型提供一份你最重要内容的精选导览图。它由 Jeremy Howard（fast.ai 与 Answer.AI 联合创始人）于 2024 年 9 月提出，规范文档见 llmstxt.org。可以把它理解为一份写给 AI 智能体的 README——简洁、人工精选，指向那些最重要的页面。

这篇文章回答我们最常被问到的几个问题：llms.txt 是什么，它与 robots.txt、sitemap.xml 有何区别，AI 引擎到底会不会读取它，里面该放些什么，以及如何在 30 分钟内发布一份。文中还有一节讲可选的伴生文件 llms-full.txt，并附了一个你可以直接照搬的真实示例。

一段话总结

llms.txt 是放在你域名 /llms.txt 路径下的单个 Markdown 文件，列出你最重要的页面，每个页面配一行描述。它的设计目标是帮助 AI 智能体和大语言模型快速理解你的网站，而无需爬取所有内容。格式很简单：一个顶级 # 标题写上你的名称，一段可选的 > 引用块摘要，然后是若干 ## 小节，里面包含带描述的 Markdown 风格链接。采用它完全是自愿的——没有任何强制机制——但这份文件发布成本很低、毫无坏处，所以如今大多数为 AI 搜索可见性做优化的团队都会放一份。

llms.txt 为什么存在

故事要从 AI 智能体访问网站时面临的难题说起。你的网站很可能有几十甚至几百个页面，每个都用 JavaScript 渲染，外面还裹着导航框架、营销组件、Cookie 横幅和页脚链接。一个想要回答关于你产品问题的智能体，面前只有三个糟糕的选择：

爬取每一个页面。 又慢又费钱，而且大多数页面跟智能体的问题毫不相关。花在 Cookie 横幅文案上的 token，就是没花在真正答案上的 token。
读取 sitemap.xml。 它给出一份 URL 列表，但没有任何信号表明哪些重要，没有描述，也没有人工精选的叙述。一份包含 1,200 个 URL 的站点地图对搜索引擎有帮助；它帮不了智能体判断什么值得抓取。
用浏览器渲染首页。 能抓到营销文案，却会漏掉你的文档、定价细节和政策页面。而且也很贵——在智能体规模下，整页 JS 渲染是要真金白银花钱的。

llms.txt 一刀斩断了这个戈尔迪之结。最清楚哪些页面重要的网站所有者，写一份简短的 Markdown 索引，把智能体直接指向相关内容。智能体抓取这一个文件（只有几 KB），拿到一份精选导览图，再根据清晰的提示决定接下来读什么。带宽、延迟和 token 成本都随之下降。

llms.txt vs robots.txt vs sitemap.xml

这三个文件常被混淆。它们其实是互补的，各自回答一个不同的问题：

robots.txt 回答的是 “你可以访问什么？”——这是一份权限文件，告诉爬虫哪些路径允许访问、哪些禁止。它是给机器人的指令，而不是对内容的描述。
sitemap.xml 回答的是 “存在哪些 URL？”——这是一份机器可读的列表，列出每一个可索引的 URL 及其元数据（最后修改时间、变更频率、优先级）。它为搜索引擎发现而生；又长又详尽，没有任何编辑取舍。
llms.txt 回答的是 “我应该先看哪里？”——这是一份人工精选、便于叙述的 Markdown 索引，带描述地指向最重要的页面。它为 AI 智能体而生；简短、有主见、手工编辑。

你不用三选一。一个认真的网站三者都有。它们服务于不同的消费方：robots.txt 给传统爬虫，sitemap.xml 给搜索引擎，llms.txt 给 AI 智能体。

格式详解

llms.txt 是纯 Markdown。按照 llmstxt.org 上的规范，其结构为：

一个 H1 标题 写上网站或产品名称。这是必需的，而且必须有且仅有一个。
一段可选的引用块 （>），用一段话概括网站是关于什么的。强烈推荐——这是智能体读到的第一段内容。
可选的纯文本段落 提供更多背景。保持简短。
H2 小节 按用途对链接进行分组——常见的小节名称有 ## Documentation、## Product、## Trust & policies 和 ## Optional。
Markdown 链接 放在每个小节内，链接后面可以选择跟一个冒号和一段描述。格式为：- link text: description。

有一个特殊的小节名称很关键：## Optional 专门保留给那些在上下文紧张时智能体可以跳过的页面。按照规范，智能体应把 Optional 小节视为优先级较低的阅读内容——这是一种方式，既能标记交易型或信息量低的页面（注册表单、联系页面），又不必把它们从文件中彻底删除。

一个真实示例

下面是我们在 agentceres.com 上发布的 llms.txt（略作精简）：

# Ceres

> Ceres is your AI Growth Officer — the first AI agent that
> runs marketing 24/7 for indie founders and small SaaS teams.
> Specialist agents deliver evidence-cited briefings in
> Slack; outbound content ships as drafts for your review.

## Product

- [Landing page](https://agentceres.com/): Meet Ceres — the
  AI Growth Officer for indie SaaS
- [How it works](https://agentceres.com/how-it-works): The
  evidence chain, memory system, and human-review posture
- [Pricing](https://agentceres.com/pricing): Four flat-price
  plans from $19/mo

## Documentation

- [Documentation](https://agentceres.com/docs): Operator
  and customer-facing setup docs

## Trust & policies

- [Security](https://agentceres.com/security): Tenant-isolation,
  evidence requirements, approval boundary
- [Privacy](https://agentceres.com/privacy): Privacy policy
- [Terms](https://agentceres.com/terms): Terms of service

## Optional

- [Sign up](https://agentceres.com/signup): Free trial signup —
  transactional page, not informational reading
- [Contact](https://agentceres.com/contact): Contact form —
  transactional page, not informational reading

你可以在 agentceres.com/llms.txt 读到完整文件。注意它的结构：H1 写品牌名，引用块写摘要，小节按用途分组，每个链接配一行描述，交易型页面单独归到 ## Optional 下。

llms.txt vs llms-full.txt

规范定义了一个可选的伴生文件：llms-full.txt。两者分工不同：

llms.txt ——索引。简短（通常 500–2000 词）、经过精选，链接到你的重要页面，被最先抓取。
llms-full.txt ——完整语料的扁平化版本。把你被索引页面的实际内容拼接成一份 Markdown 文档，可选择压缩以提升 token 效率。它让智能体能在一次请求中抓取你的整个知识库，而不必逐页爬取。

小网站通常只需要 llms.txt。如果你的网站有大量文档（一个文档门户、一个帮助中心、一份很长的博客归档），那么连带发布 llms-full.txt 能让智能体一次性拿到全部内容，省去 N 次往返。要把它控制在托管服务商的响应大小限制之内（Cloudflare 和 Vercel 通常比较宽裕；有些 CDN 上限在 10–25 MB）。

如何创建你自己的 llms.txt——30 分钟版

快速路径：

新建一个空白文件。 命名为 llms.txt。把它放进你网站的 public/静态目录（Next.js：public/llms.txt；Vite：public/llms.txt；静态站点生成器：构建产物的根目录）。
写好 H1 和引用块。 用 # Heading 写你的产品或网站名称；在一个 > 引用块里用 2–3 句话回答“这是什么？”。
添加小节。 先从三个开始：## Product、## Documentation、## Trust & policies。为交易型页面（注册、联系、登录）添加 ## Optional。
手工挑选链接。 克制住把每个 URL 都塞进去的冲动。整件事的意义就在于精选。对于一个典型的 SaaS 着陆站，8–15 个链接就足够了；文档密集的网站或许能撑到 25–40 个。
为每个链接写一段描述。 用一句具体的话说明该页面讲什么。跳过营销套话（“最好的 X”就是噪音）；写智能体读完这个页面能学到什么。
确认它在根目录被正确提供。 部署后，用 curl https://yoursite.com/llms.txt 确认你拿回的是文件本身，而不是 404 或你的 SPA 外壳。常见坑：SPA 回退会把所有路径重写到 index.html；你可能需要改一处配置，让 /llms.txt 提供那个静态文件。
把它加进你的站点地图（可选）。 有些团队会从 sitemap.xml 里引用 llms.txt 以便被发现；并非严格必需，但无伤大雅。

常见错误

把它当成站点地图。 1,200 个没有描述的链接，违背了它存在的初衷。llms.txt 是一份精选索引，不是 URL 倾倒场。
描述里写营销文案。 “全球最佳的 AI 驱动客户成功平台”对智能体毫无用处。写这个页面包含什么，而不是你希望它被怎么看待。
忘了 ## Optional。 不把交易型页面单独隔离出来，智能体就会浪费 token 去试图从你的注册表单或联系页面里提取信息。
内容陈旧。 如果你发布了 llms.txt 却从不更新，这份文件就会和你真实的网站渐行渐远。把它当文档来对待——每个季度在你改动导航或新增重大功能时重新审一遍。
链接到需要登录才能访问的页面。 智能体无法登入你的仪表盘。跳过需要鉴权的路由；只链接公开页面。

这一切真的能带来改变吗？

2026 年的诚实答案是：很可能能，但有前提。llms.txt 的采用是真实的，但只是部分。Anthropic、Mistral 以及若干智能体运行时已表态支持。Perplexity 和 Google 的 AI 概览则两边都没有正式承诺。我们看到一些轶事性的流量归因数据，显示 AI 智能体在存在 llms.txt 时会去抓取它，并用它来为答案提供依据，但公开研究仍然单薄。

话虽如此，成本收益的算账是一边倒的。发布 llms.txt 只需 30 分钟，在你的 CDN 上占约 2 KB。坏处为零——不读它的智能体会悄悄忽略它，没有 SEO 惩罚，文件存在之后也没有维护负担。而好处是：如果（或当）llms.txt 在 AI 引擎中成为更强的排名信号，那么对于 GEO 操作手册里最便宜的干预手段之一来说，它将带来可观的 AI 引用可见性。我们发布了它。大多数为 AI 搜索可见性做优化的团队都发布了它。

llms.txt 在 GEO 工具箱中的定位

生成式引擎优化（GEO）是这样一门学问：优化你的内容，使得 AI 引擎（Perplexity、ChatGPT、Claude、Google AI 概览）在你所在的品类被提问时引用你。llms.txt 是 GEO 工具箱里的几件工具之一：

llms.txt ——给智能体一份人工精选的网站导览图（就是本文）。
结构化数据（Schema.org JSON-LD） ——在你的 HTML 中嵌入机器可读的事实，让引擎能直接提取 Article、FAQPage、HowTo、Organization 标记。
FAQPage / HowTo / Article schema ——对 AI 引擎提取最有用的几种具体 schema 类型。其中 FAQ 尤其能干净地对应到引擎据以合成答案的问答结构。
便于引用的内容 ——具体的数字、一手来源、对比表格、具名实体。引擎更偏爱有出处的页面，而非含糊其辞的页面。
引用审计 ——按固定节奏衡量在各引擎中哪些查询引用了你、哪些引用了竞品，让改写有证据可依，而不是靠猜。

最后这一项正是我们的生成式引擎优化策略师每周所做的事——在你追踪的查询清单上，跨 Perplexity、ChatGPT、Claude 和 AI 概览审计引用情况，诊断引擎在引用竞品时究竟为何如此，并把改写简报交给 SEO 专家角色。llms.txt 是一次性设置；引用审计才是持续进行的衡量循环。

今天就发布一份

llms.txt 是那种少见的优化：成本微不足道，坏处为零。如果你还没有，现在就写一份。把上面的示例当模板用。保持简短、人工精选、有描述。在你的网站发生变化时，每季度重新审一遍。

如果你想看到引用层面的结果——真正去衡量 AI 引擎是否在这次改动之后开始引用你——那就是 Ceres 的生成式引擎优化策略师角色接手的地方：每周引用审计、改写简报、前后对比。如果你想要完整的团队，可以开始免费试用，或者就把这个页面收藏起来，当作你的 llms.txt 参考。

FAQ

什么是 llms.txt 文件？: llms.txt 文件是放在你域名根目录（https://yoursite.com/llms.txt）的一份 Markdown 文档，为大语言模型提供一份你最重要内容的精选导览图。它源自 Jeremy Howard（fast.ai）于 2024 年 9 月提出的方案——一个单文件索引，AI 智能体读完它就能理解你的网站，而无需爬取每一个页面，也无需为整页 JavaScript 渲染付费。
llms.txt 和 robots.txt 或 sitemap.xml 是一回事吗？: 不是。robots.txt 告诉爬虫它们可以访问什么、不可以访问什么（一份权限文件）。sitemap.xml 列出你网站上的每一个 URL 及其元数据，供搜索引擎索引（一份发现文件）。llms.txt 则是一份经过精选、由人工撰写的叙述，把 AI 智能体指向最重要的页面——它更接近一份 README，而不是上述两个既有文件中的任何一个。三者是互补的，而不是相互替代。
如今 AI 引擎真的会读取 llms.txt 吗？: 截至 2026 年，采用情况是部分的。Anthropic、Mistral 以及若干智能体运行时已表态支持。Perplexity 和 Google 的 AI 概览没有直接承诺，但有若干研究论文将其列为一个有用的信号。务实的答案是：llms.txt 发布成本很低（一个 Markdown 文件，无需任何基础设施），而下行风险为零，所以大多数为 AI 搜索可见性做优化的团队，无论哪些引擎已正式背书，都会放一份。
llms.txt 和 llms-full.txt 有什么区别？: llms.txt 是索引——简洁、约 1–2 页、人类可读、配有精选链接。llms-full.txt 是可选的伴生文件：把被索引页面的实际内容扁平化成单个 Markdown 文档，这样一个需要你完整语料的智能体就能在一次请求中拿到它，而不必爬取。两者都属于同一份 llmstxt.org 规范；小网站通常只需要 llms.txt，内容密集的网站则两者都能受益。
我该把 llms.txt 文件放在哪里？: 放在你域名的根目录——https://yoursite.com/llms.txt。规范对此说得很明确：智能体会在裸根目录下查找 /llms.txt，就像它们查找 /robots.txt 一样。放在子目录里（例如 /docs/llms.txt）不会被规范识别。
llms.txt 文件应该写多长？: 要简洁。规范建议是一页 Markdown——通常 500–2000 词。再长的内容应该放进 llms-full.txt 或被链接的页面本身。把 llms.txt 当成一份 README，而不是一个知识库。如果你需要给智能体更多背景，就链接过去；不要内联粘贴。