GEO

LLMs.txt:让AI读懂你的网站,开启智能文档新纪元

2026/1/9
AI Summary (BLUF)

LLMs.txt is a new file format that provides AI models with a structured, concise summary of a website's documentation. It helps LLMs like ChatGPT and Claude understand site content efficiently, avoiding irrelevant details. Major platforms like Stripe and Mintlify have adopted it, and tools exist to generate these files automatically.

引言

六个月前,一种革命性的文件格式——LLMs.txt横空出世,旨在让大型语言模型(LLM)能够轻松访问和理解网站文档。自发布以来,这一标准在开发者和内容创作者中的影响力持续攀升。如今,随着模型上下文协议(MCP)讨论的兴起,LLMs.txt作为经过验证的AI优先文档解决方案,再次成为焦点,它在人类可读内容与机器友好数据之间架起了桥梁。本文将深入探索LLMs.txt的发展历程、结构优势、技术集成方案,并与新兴的MCP标准进行对比分析。

LLMs.txt的崛起之路

背景与时代需求

传统网络文件如robots.txt和sitemap.xml是为搜索引擎爬虫设计的,而AI模型需要的是简洁、经过提炼的内容。LLMs.txt应运而生,它提供网站文档的精简概览,让LLM能够快速掌握核心信息,避免被无关细节干扰。

核心价值:

  • 精准提炼: 将网站内容转化为适合AI推理的格式
  • 快速落地: Mintlify、Anthropic、Cursor等主流平台已集成使用
  • 趋势引领: 在MCP讨论热潮中,社区正积极比较两种增强LLM能力的方法

社区热议与行业认可

Twitter上的讨论反映了LLMs.txt的快速普及:

  • Jeremy Howard (@jeremyphoward): “最近几周,我提出的llms.txt标准确实获得了巨大的发展势头。”他特别感谢了Stripe开发团队的支持。
  • Stripe Developers (@StripeDev): 宣布已在文档网站托管LLMs.txt(docs.stripe.com/llms.txt),让开发者能轻松将Stripe知识集成到任何LLM中。

开发者们不仅称赞LLMs.txt,还引发了将其与MCP对比的讨论。有用户指出,LLMs.txt增强了内容摄取能力,而MCP则让LLM更具可操作性。

深入解析LLMs.txt文件

LLMs.txt是一种采用结构化格式的Markdown文件,专门为LLM访问网站文档设计。主要包含两个版本:

/llms.txt

用途: 提供网站文档的高层次策划概览,帮助LLM快速掌握网站结构和关键资源。

结构规范:

  1. H1标题: 项目或网站名称(唯一必需部分)
  2. 摘要段落: 包含理解文档所需的关键信息
  3. 详细信息: 零个或多个Markdown元素(段落、列表等)
  4. 文件列表: 由H2标题分隔,包含带注释的URL链接

/llms-full.txt

用途: 包含完整的文档内容,为需要详细上下文的场景提供支持,特别适合技术API参考、深入指南等。

结构示例:

# 项目名称
> 简短项目摘要

## 核心文档
- [快速入门](url):简洁介绍
- [API参考](url):详细API文档

## 可选资源
- [附加资源](url):补充信息

LLMs.txt的核心优势

与传统网络标准相比,LLMs.txt展现出多重优势:

  1. AI优化处理: 去除导航菜单、JavaScript等非必要元素,专注关键内容
  2. 高效上下文管理: 简洁格式确保在有限上下文窗口中只使用最相关信息
  3. 双重可读性: Markdown格式既对人类友好,又便于工具解析
  4. 标准互补: 提供AI中心的文档视图,与sitemap.xml等标准形成互补

如何在AI系统中使用LLMs.txt?

ChatGPT集成

方法: 将/llms-full.txt文件的URL或完整内容复制到ChatGPT中
优势: 丰富上下文,获得更准确的回复

Claude集成

方法: 由于Claude缺乏直接浏览功能,可粘贴内容或上传文件
优势: 确保响应建立在最新、可靠的文档基础上

Cursor集成

方法: 利用@Docs功能添加LLMs.txt链接
优势: 增强上下文感知,成为开发者的强大工具

生成LLMs.txt的实用工具

Mintlify

为托管文档自动生成/llms.txt和/llms-full.txt文件,确保一致性。

dotenv的llmstxt

将网站的sitemap.xml转换为符合要求的LLMs.txt文件,与现有工作流无缝整合。

Firecrawl的llmstxt

利用网络爬虫技术将网站内容编译成LLMs.txt文件,最大限度减少人工干预。

Python模块与CLI工具

安装与使用

pip install llms-txt

CLI操作

# 获取帮助
llms_txt2ctx -h

# 转换为XML上下文
llms_txt2ctx llms.txt > llms.md

Python模块示例

from llms_txt import *
from pathlib import Path

# 读取文件
samp = Path('llms-sample.txt').read_text()

# 解析文件
parsed = parse_llms_file(samp)
print(list(parsed))  # ['title', 'summary', 'info', 'sections']

简洁解析器实现

from pathlib import Path
import re, itertools

def chunked(it, chunk_sz):
    it = iter(it)
    return iter(lambda: list(itertools.islice(it, chunk_sz)), [])

def parse_llms_txt(txt):
    "解析llms.txt文件内容到字典"
    def _p(links):
        link_pat = '-\s*\[(?P<title>[^\]]+)\]\((?P<url>[^\)]+)\)(?:\:\s*(?P<desc>.*))?'
        return [re.search(link_pat, l).groupdict()
                for l in re.split(r'\n+', links.strip()) if l.strip()]
    
    start,*rest = re.split(fr'^##\s*(.*?$)', txt, flags=re.MULTILINE)
    sects = {k: _p(v) for k,v in dict(chunked(rest, 2)).items()}
    
    pat = '^#\s*(?P<title>.+?$)\n+(?:^>\s*(?P<summary>.+?$)$)?\n+(?P<info>.*)'
    d = re.search(pat, start.strip(), (re.MULTILINE|re.DOTALL)).groupdict()
    d['sections'] = sects
    return d

LLMs.txt vs MCP:深度对比

LLMs.txt:专注内容提炼

目标: 通过结构化Markdown格式为LLM提供简洁、策划的内容
实现: 网站所有者维护的静态文件
优势:

  • 简化内容摄取流程
  • 易于实施和更新
  • 通过过滤非必要元素提升提示质量

MCP:构建AI连接生态

定义: 开放标准,在数据与AI工具间建立安全的双向连接
核心价值:

  • 预建集成: 提供即用连接器库
  • 灵活切换: 实现不同AI提供商间的无缝迁移
  • 安全保障: 确保数据在基础设施内的安全

架构对比

MCP工作流程:

  1. MCP主机: 希望访问数据的程序
  2. MCP客户端: 与服务器保持1:1连接
  3. MCP服务器: 公开特定数据源的轻量级适配器

本质区别

  • LLMs.txt: 帮助LLM更好地“阅读”
  • MCP: 帮助LLM有效地“行动”

实际应用场景

FastHTML项目实践

FastHTML不仅使用LLMs.txt提供文档概览,还提供普通HTML页面,确保人类读者和LLM都能以最适合的格式访问内容。

自动扩展机制

通过XML结构将LLMs.txt自动扩展为两个Markdown文件:

  • llms-ctx.txt: 包含上下文,不含可选URL
  • llms-ctx-full.txt: 包含可选URL,提供更全面上下文

多样化应用

从技术文档到企业结构概述,从立法解读到个人简历展示,LLMs.txt展现出广泛适用性。Answer.AI和fast.ai等项目也使用此功能重新生成文档。

未来展望

LLMs.txt作为AI优先的文档标准,正在重塑内容与智能系统的交互方式。它与MCP形成互补关系:一个优化内容输入,一个扩展功能边界。随着AI技术的不断发展,这种双重策略将为开发者提供更强大、更灵活的工具生态。

关键启示:

  1. 内容即服务: 文档不仅是给人看的,也要为AI优化
  2. 标准演进: 从搜索引擎优化到AI优化,标准在不断进化
  3. 生态协同: 多种标准和技术可以协同工作,创造更大价值

无论你是内容创作者、开发者还是企业决策者,理解并应用LLMs.txt都将帮助你在AI时代保持竞争优势。现在就开始为你的网站创建LLMs.txt文件,让AI更好地理解你的内容吧!

← 返回文章列表
分享到:微博

版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。

文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。

若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。