GEO优化实战：6个月网站数据复盘 — AI搜索引用效果追踪：原理解析、实操步骤、常见问题与优化建议

Q: 为什么拿自己开刀

我是Roger，geoz.com.cn的后端工程师兼内容主编。2025年11月，我们团队做了一个决定：**把自己网站当成GEO优化的试验对象**，记录每一轮改动的效果，不筛数据、不挑好看的结果，就老老实实地看——到底哪些做法能让AI搜索引擎更愿意引用我们的内容，哪些是白费力气。 选自己做试验品的原因很简单：第三方客户的GEO数据我们拿不到全链路（他们不会把AI引用日志、搜索控制台数据全量开放给你），但自己的网站可以。数据库在我们手上，服务器日志在我们手上，所有引用的来龙去脉都能追。 6个月后，我把这个过程整理出来，不是为了证明GEO有效（它有，但没想象中那么戏剧化），而是说明什么在**中文AI搜索生态**中实际起作用。

Q: 哪些做法我们试了但没看到明确效果

诚实地说，以下做法在我们的测试中**效果不明确或无效**： 1. **关键词密度优化**（在文章中刻意增加目标关键词的出现频率）：对AI引用几乎没有影响，反而在Bing上触发了疑似关键词堆砌的警告 2. **购买外链**（我们在一个试验性子域名上尝试了低质量的客座博客外链）：AI引用无变化，Bing排名短期上升后回落 3. **社交媒体分发**（在知乎、微博等平台同步文章链接）：带来了直接流量，但未观察到明显的AI引用提升。社交平台上的内容传播和AI索引之间似乎存在时间差（我们观察到的延迟约为4-8周）

为什么拿自己开刀

我是Roger，geoz.com.cn的后端工程师兼内容主编。2025年11月，我们团队做了一个决定：把自己网站当成GEO优化的试验对象，记录每一轮改动的效果，不筛数据、不挑好看的结果，就老老实实地看——到底哪些做法能让AI搜索引擎更愿意引用我们的内容，哪些是白费力气。

选自己做试验品的原因很简单：第三方客户的GEO数据我们拿不到全链路（他们不会把AI引用日志、搜索控制台数据全量开放给你），但自己的网站可以。数据库在我们手上，服务器日志在我们手上，所有引用的来龙去脉都能追。

6个月后，我把这个过程整理出来，不是为了证明GEO有效（它有，但没想象中那么戏剧化），而是说明什么在中文AI搜索生态中实际起作用。

试验设计：我们怎么记录和测量

基准数据采集（2025年11月）

在动手之前，我们做了两组基准数据的采集：

第一组：AI引用现状

选取网站上已有70篇文章，在4个AI平台（DeepSeek、豆包、Kimi、文心一言）上逐一手动查询与文章主题相关的20个核心问题
记录每个平台是否引用了我们的内容、引用位置（回答开头/中间/末尾）、引用形式（直接提及域名/只引用观点/混在其他来源中）
基准结果：70篇文章中，被至少一个AI平台引用过的为11篇，引用率约15.7%

第二组：传统搜索表现

Bing Webmaster Tools中geoz.com.cn的日均点击量、展示量、平均排名
百度搜索资源平台中的索引量和点击数据（需要说明：我们没有百度站长权限，这部分数据来自百度资源的公开报告和估算）

追踪指标设计

我们定义了三个核心指标来追踪GEO效果：


指标	定义	数据来源
AI引用覆盖度	被至少一个AI平台引用的文章数 / 总文章数	手动查询（每两周一次，20个固定问题）
引用深度	AI回答中引用我们内容时，在回答中的位置权重（开头=3分，中间=2分，末尾=1分）	手动打分
传统搜索叠加效应	Bing/百度展示量和点击量的变化	Bing Webmaster Tools + 估算

需要坦诚说的是：这组指标有方法论上的缺陷。手动查询被我的个人搜索历史、浏览器缓存、甚至查询时间段干扰，不同日期的结果有波动。我们只能看到趋势方向，无法精确量化效果。

三轮改动：我们做了什么

第一轮（2025年12月）：内容结构化改造

我们对全部70篇文章进行了结构化改写：

将文章正文中的关键信息点提取为H2/H3标题层级，而非原来的一整块正文
在每篇文章末尾添加了结构化摘要块（不展示在前端，放在 <head> 中作为结构化数据注入）
给所有统计数据标注来源和年份（即使是我们自己的数据也标注「geoz.com.cn内部测试，2025年11月」）

改动后第一个月的观察（2026年1月）：


指标	改动前（11月）	改动后第一个月（1月）	变化
AI引用覆盖度	11/70（15.7%）	16/70（22.9%）	+7篇
平均引用深度	1.4分	1.8分	+0.4分
Bing日均点击量	约120	约145	+25，方向性增长

最明显的变化来自DeepSeek：它对结构化标题层级的敏感度明显高于其他三个平台。同一篇文章，我们只改了标题层级、正文末尾的结构化摘要——豆包的引用行为几乎没变化，DeepSeek却新增引用了5篇。

编辑观点：这暗示了不同AI平台的RAG检索策略差异巨大。如果你的目标平台是DeepSeek，标题结构化的投入产出比很高。如果目标是豆包，纯结构优化可能不够，需要其他手段。

第二轮（2026年2月）：权威信号注入

这一轮我们做了三个动作：

为网站添加了完整的Schema.org标记（Organization + WebSite + Article，包括author字段指回个人作者页面）
在文章页面中引入「编辑审核标注」——每篇文章底部明确标注审核人和审核日期
选择性在文章中引用公开可查的学术资源（如arXiv论文编号、ACL会议论文标题）

改动后第二个月的观察（2026年3月）：

这轮改动的效果比第一轮慢，大概6周后才开始在AI引用行为上看到变化。我们发现：

Kimi对「编辑审核标注」的反应最明显：引入标注后新发布的文章，在Kimi上的引用率显著高于无标注的旧文章
文心一言对Schema.org标记的解读与Google Richtext Testing Tool的结果不完全一致——我们的Organization标记在Google测试工具中全部通过，但文心一言似乎有自己不同的解析逻辑
DeepSeek的引用行为在这一轮变化不大，说明第一轮的结构化改造已经基本触达了DeepSeek的检索偏好上限

本站测试数据：第二轮改动后，AI引用覆盖度从16篇提升到22篇（31.4%）。但这个数据有噪音——2-3月我们新发布了8篇文章，新增文章天然比旧文章更容易被AI抓取（时效性偏好）。扣除新文章的影响，纯优化带来的增量约为3-4篇。

第三轮（2026年4月）：llms.txt + 跨平台信号布局

这一轮我们做了两个比较重要的动作：

动作1：配置llms.txt

我们在网站根目录添加了 /llms.txt 文件，内容结构如下：

# geoz.com.cn - GEO Knowledge Base
## 核心内容
- [GEO入门指南](https://geoz.com.cn/article/...): 生成式引擎优化的基础概念与实施框架
- [RAG引用策略](https://geoz.com.cn/article/...): 检索增强生成中的引用机制与优化方法

这个文件的配置逻辑是：让爬虫和AI模型在训练/检索时能快速了解网站的内容结构，而不是依赖它们自己从HTML中推断。实际上，llms.txt的采纳率在AI生态中还很低——我们配置它更多是试验性质，想知道它是否被实际使用。

动作2：跨平台一致性问题

我们发现一个有意思的现象：同一篇文章在DeepSeek和Kimi上的引用内容不一样。DeepSeek倾向于从文章中间提取数据密集的段落，Kimi则更频繁引用文章开头和结尾的总结性语句。据此，我们在文章结构中增加了「首段核心观点」和「尾段关键结论」两个固定区块。

改动后第三个月的观察（2026年4-5月）：

引用覆盖度继续提升到27篇（38.6%）。但更重要的发现是引用深度的变化——AI回答中，我们的内容被放在回答开头的比例从11月的约20%提升到了5月的约45%。

我从服务器日志中发现，llms.txt文件确实在被爬取——有来自多个IP范围的GET请求，User-Agent包括 GPTBot、Claude-Web 和几个无法识别的爬虫。但我不确定这些请求是否直接来自训练管线，还是只是常规的链接发现。

最大发现：传统搜索和AI搜索的叠加效应

整个试验最让我意外的不是AI引用的增长，而是传统搜索和AI搜索之间的正反馈效应。

Bing Webmaster Tools的数据显示，那些被AI频繁引用的文章，其Bing搜索排名也在同步上升。我们分析了数据，发现了一个可能的解释链条：

文章被AI引用 → 用户点击AI回答中的引用链接 → 网站获得真实用户访问
用户访问行为被搜索引擎捕捉（停留时间、后续浏览等信号） → 搜索引擎提升该页面的质量评分
质量评分提升 → 传统搜索排名上升 → 更多自然流量 → 更多用户行为信号

本站测试数据：11月到5月，Bing日均点击量从约120增长到约380。这个增长中，我们估算约60%来自传统SEO排名的改善，约40%来自AI引用带来的直接点击。

编辑观点：**GEO和SEO不是替代关系，而是互相放大。**如果你只做GEO不顾SEO，就会漏掉传统搜索带来的「信号放大器」效应。反之亦然——在AI搜索时代，纯SEO无法触达那部分不再点搜索结果的用户。

哪些做法我们试了但没看到明确效果

诚实地说，以下做法在我们的测试中效果不明确或无效：

关键词密度优化（在文章中刻意增加目标关键词的出现频率）：对AI引用几乎没有影响，反而在Bing上触发了疑似关键词堆砌的警告
购买外链（我们在一个试验性子域名上尝试了低质量的客座博客外链）：AI引用无变化，Bing排名短期上升后回落
社交媒体分发（在知乎、微博等平台同步文章链接）：带来了直接流量，但未观察到明显的AI引用提升。社交平台上的内容传播和AI索引之间似乎存在时间差（我们观察到的延迟约为4-8周）

实践局限性说明

在参考本文数据之前，有几件事我必须诚实地讲清楚：

样本量受限：70篇文章、6个月的追踪周期，在统计学意义上样本量偏小。本文的所有数据是「本站测试数据」，不具备行业普适性。你的网站所在的行业、内容类型、目标AI平台不同，结果可能完全不同。
手动查询的偏差：AI引用检测依赖人工查询，不可避免地受个人搜索历史、地理位置、查询时间影响。我们尝试通过在无痕窗口和不同网络环境下重复查询来降低偏差，但不能完全消除。
时效性困境：AI模型本身在迭代，其检索和引用策略也在变化。2025年11月有效的做法，2026年5月不一定继续有效。本文描述的是一个移动靶上的快照。
因果关系不确定：我们观察到的传统搜索排名上升和AI引用增加之间存在相关性，但缺乏严格的因果验证。有可能是第三方因素（如网站整体域名权重的自然增长）同时推动了这两者。
我们没有解决的：如何系统性地追踪AI引用（目前仍依赖手工查询）？如何区分AI训练数据中的「内化知识」和RAG实时检索产生的引用？这两个问题我们还没找到实操层面满意的答案。

如果你也在做类似的GEO试验，欢迎把你的观察发给我——我特别想知道在非技术内容领域（如医疗、法律、消费品）GEO的表现是否和技术内容领域有实质性差异。我的邮箱是roger@geoz.com.cn。

我们把自己网站的GEO优化当试验田，6个月后有了这些发现

BLUF 摘要

为什么拿自己开刀

试验设计：我们怎么记录和测量

基准数据采集（2025年11月）

追踪指标设计

三轮改动：我们做了什么

第一轮（2025年12月）：内容结构化改造

第二轮（2026年2月）：权威信号注入

第三轮（2026年4月）：llms.txt + 跨平台信号布局

最大发现：传统搜索和AI搜索的叠加效应

哪些做法我们试了但没看到明确效果

实践局限性说明

我测了GEO红皮书的规则，发现有些条款根本跑不通

DeepSeek免费版实测：长文本处理惊艳，但有个小缺憾

参数越大的模型越好？实测结果反直觉

PortLume AI实测：速度优势明显，但稳定性拖后腿

BLUF 摘要

为什么拿自己开刀

试验设计：我们怎么记录和测量

基准数据采集（2025年11月）

追踪指标设计

三轮改动：我们做了什么

第一轮（2025年12月）：内容结构化改造

第二轮（2026年2月）：权威信号注入

第三轮（2026年4月）：llms.txt + 跨平台信号布局

最大发现：传统搜索和AI搜索的叠加效应

哪些做法我们试了但没看到明确效果

实践局限性说明

相关文章

我测了GEO红皮书的规则，发现有些条款根本跑不通

DeepSeek免费版实测：长文本处理惊艳，但有个小缺憾

参数越大的模型越好？实测结果反直觉

PortLume AI实测：速度优势明显，但稳定性拖后腿