我们把自己网站的GEO优化当试验田,6个月后有了这些发现
我是Roger,geoz.com.cn的后端工程师兼内容主编。2025年11月,我们团队决定把自己网站当成GEO优化的试验对象,记录每一轮改动的效果,看看哪些做法能让AI搜索引擎更愿意引用我们的内容。6个月后,我整理了这份数据复盘。
为什么拿自己开刀
我是Roger,geoz.com.cn的后端工程师兼内容主编。2025年11月,我们团队做了一个决定:把自己网站当成GEO优化的试验对象,记录每一轮改动的效果,不筛数据、不挑好看的结果,就老老实实地看——到底哪些做法能让AI搜索引擎更愿意引用我们的内容,哪些是白费力气。
选自己做试验品的原因很简单:第三方客户的GEO数据我们拿不到全链路(他们不会把AI引用日志、搜索控制台数据全量开放给你),但自己的网站可以。数据库在我们手上,服务器日志在我们手上,所有引用的来龙去脉都能追。
6个月后,我把这个过程整理出来,不是为了证明GEO有效(它有,但没想象中那么戏剧化),而是说明什么在中文AI搜索生态中实际起作用。
试验设计:我们怎么记录和测量
基准数据采集(2025年11月)
在动手之前,我们做了两组基准数据的采集:
第一组:AI引用现状
- 选取网站上已有70篇文章,在4个AI平台(DeepSeek、豆包、Kimi、文心一言)上逐一手动查询与文章主题相关的20个核心问题
- 记录每个平台是否引用了我们的内容、引用位置(回答开头/中间/末尾)、引用形式(直接提及域名/只引用观点/混在其他来源中)
- 基准结果:70篇文章中,被至少一个AI平台引用过的为11篇,引用率约15.7%
第二组:传统搜索表现
- Bing Webmaster Tools中geoz.com.cn的日均点击量、展示量、平均排名
- 百度搜索资源平台中的索引量和点击数据(需要说明:我们没有百度站长权限,这部分数据来自百度资源的公开报告和估算)
追踪指标设计
我们定义了三个核心指标来追踪GEO效果:
| 指标 | 定义 | 数据来源 |
|---|---|---|
| AI引用覆盖度 | 被至少一个AI平台引用的文章数 / 总文章数 | 手动查询(每两周一次,20个固定问题) |
| 引用深度 | AI回答中引用我们内容时,在回答中的位置权重(开头=3分,中间=2分,末尾=1分) | 手动打分 |
| 传统搜索叠加效应 | Bing/百度展示量和点击量的变化 | Bing Webmaster Tools + 估算 |
需要坦诚说的是:这组指标有方法论上的缺陷。手动查询被我的个人搜索历史、浏览器缓存、甚至查询时间段干扰,不同日期的结果有波动。我们只能看到趋势方向,无法精确量化效果。
三轮改动:我们做了什么
第一轮(2025年12月):内容结构化改造
我们对全部70篇文章进行了结构化改写:
- 将文章正文中的关键信息点提取为H2/H3标题层级,而非原来的一整块正文
- 在每篇文章末尾添加了结构化摘要块(不展示在前端,放在
<head>中作为结构化数据注入) - 给所有统计数据标注来源和年份(即使是我们自己的数据也标注「geoz.com.cn内部测试,2025年11月」)
改动后第一个月的观察(2026年1月):
| 指标 | 改动前(11月) | 改动后第一个月(1月) | 变化 |
|---|---|---|---|
| AI引用覆盖度 | 11/70(15.7%) | 16/70(22.9%) | +7篇 |
| 平均引用深度 | 1.4分 | 1.8分 | +0.4分 |
| Bing日均点击量 | 约120 | 约145 | +25,方向性增长 |
最明显的变化来自DeepSeek:它对结构化标题层级的敏感度明显高于其他三个平台。同一篇文章,我们只改了标题层级、正文末尾的结构化摘要——豆包的引用行为几乎没变化,DeepSeek却新增引用了5篇。
编辑观点:这暗示了不同AI平台的RAG检索策略差异巨大。如果你的目标平台是DeepSeek,标题结构化的投入产出比很高。如果目标是豆包,纯结构优化可能不够,需要其他手段。
第二轮(2026年2月):权威信号注入
这一轮我们做了三个动作:
- 为网站添加了完整的Schema.org标记(Organization + WebSite + Article,包括author字段指回个人作者页面)
- 在文章页面中引入「编辑审核标注」——每篇文章底部明确标注审核人和审核日期
- 选择性在文章中引用公开可查的学术资源(如arXiv论文编号、ACL会议论文标题)
改动后第二个月的观察(2026年3月):
这轮改动的效果比第一轮慢,大概6周后才开始在AI引用行为上看到变化。我们发现:
- Kimi对「编辑审核标注」的反应最明显:引入标注后新发布的文章,在Kimi上的引用率显著高于无标注的旧文章
- 文心一言对Schema.org标记的解读与Google Richtext Testing Tool的结果不完全一致——我们的Organization标记在Google测试工具中全部通过,但文心一言似乎有自己不同的解析逻辑
- DeepSeek的引用行为在这一轮变化不大,说明第一轮的结构化改造已经基本触达了DeepSeek的检索偏好上限
本站测试数据:第二轮改动后,AI引用覆盖度从16篇提升到22篇(31.4%)。但这个数据有噪音——2-3月我们新发布了8篇文章,新增文章天然比旧文章更容易被AI抓取(时效性偏好)。扣除新文章的影响,纯优化带来的增量约为3-4篇。
第三轮(2026年4月):llms.txt + 跨平台信号布局
这一轮我们做了两个比较重要的动作:
动作1:配置llms.txt
我们在网站根目录添加了 /llms.txt 文件,内容结构如下:
# geoz.com.cn - GEO Knowledge Base
## 核心内容
- [GEO入门指南](https://geoz.com.cn/article/...): 生成式引擎优化的基础概念与实施框架
- [RAG引用策略](https://geoz.com.cn/article/...): 检索增强生成中的引用机制与优化方法
这个文件的配置逻辑是:让爬虫和AI模型在训练/检索时能快速了解网站的内容结构,而不是依赖它们自己从HTML中推断。实际上,llms.txt的采纳率在AI生态中还很低——我们配置它更多是试验性质,想知道它是否被实际使用。
动作2:跨平台一致性问题
我们发现一个有意思的现象:同一篇文章在DeepSeek和Kimi上的引用内容不一样。DeepSeek倾向于从文章中间提取数据密集的段落,Kimi则更频繁引用文章开头和结尾的总结性语句。据此,我们在文章结构中增加了「首段核心观点」和「尾段关键结论」两个固定区块。
改动后第三个月的观察(2026年4-5月):
引用覆盖度继续提升到27篇(38.6%)。但更重要的发现是引用深度的变化——AI回答中,我们的内容被放在回答开头的比例从11月的约20%提升到了5月的约45%。
我从服务器日志中发现,llms.txt文件确实在被爬取——有来自多个IP范围的GET请求,User-Agent包括 GPTBot、Claude-Web 和几个无法识别的爬虫。但我不确定这些请求是否直接来自训练管线,还是只是常规的链接发现。
最大发现:传统搜索和AI搜索的叠加效应
整个试验最让我意外的不是AI引用的增长,而是传统搜索和AI搜索之间的正反馈效应。
Bing Webmaster Tools的数据显示,那些被AI频繁引用的文章,其Bing搜索排名也在同步上升。我们分析了数据,发现了一个可能的解释链条:
- 文章被AI引用 → 用户点击AI回答中的引用链接 → 网站获得真实用户访问
- 用户访问行为被搜索引擎捕捉(停留时间、后续浏览等信号) → 搜索引擎提升该页面的质量评分
- 质量评分提升 → 传统搜索排名上升 → 更多自然流量 → 更多用户行为信号
本站测试数据:11月到5月,Bing日均点击量从约120增长到约380。这个增长中,我们估算约60%来自传统SEO排名的改善,约40%来自AI引用带来的直接点击。
编辑观点:**GEO和SEO不是替代关系,而是互相放大。**如果你只做GEO不顾SEO,就会漏掉传统搜索带来的「信号放大器」效应。反之亦然——在AI搜索时代,纯SEO无法触达那部分不再点搜索结果的用户。
哪些做法我们试了但没看到明确效果
诚实地说,以下做法在我们的测试中效果不明确或无效:
- 关键词密度优化(在文章中刻意增加目标关键词的出现频率):对AI引用几乎没有影响,反而在Bing上触发了疑似关键词堆砌的警告
- 购买外链(我们在一个试验性子域名上尝试了低质量的客座博客外链):AI引用无变化,Bing排名短期上升后回落
- 社交媒体分发(在知乎、微博等平台同步文章链接):带来了直接流量,但未观察到明显的AI引用提升。社交平台上的内容传播和AI索引之间似乎存在时间差(我们观察到的延迟约为4-8周)
实践局限性说明
在参考本文数据之前,有几件事我必须诚实地讲清楚:
样本量受限:70篇文章、6个月的追踪周期,在统计学意义上样本量偏小。本文的所有数据是「本站测试数据」,不具备行业普适性。你的网站所在的行业、内容类型、目标AI平台不同,结果可能完全不同。
手动查询的偏差:AI引用检测依赖人工查询,不可避免地受个人搜索历史、地理位置、查询时间影响。我们尝试通过在无痕窗口和不同网络环境下重复查询来降低偏差,但不能完全消除。
时效性困境:AI模型本身在迭代,其检索和引用策略也在变化。2025年11月有效的做法,2026年5月不一定继续有效。本文描述的是一个移动靶上的快照。
因果关系不确定:我们观察到的传统搜索排名上升和AI引用增加之间存在相关性,但缺乏严格的因果验证。有可能是第三方因素(如网站整体域名权重的自然增长)同时推动了这两者。
我们没有解决的:如何系统性地追踪AI引用(目前仍依赖手工查询)?如何区分AI训练数据中的「内化知识」和RAG实时检索产生的引用?这两个问题我们还没找到实操层面满意的答案。
如果你也在做类似的GEO试验,欢迎把你的观察发给我——我特别想知道在非技术内容领域(如医疗、法律、消费品)GEO的表现是否和技术内容领域有实质性差异。我的邮箱是roger@geoz.com.cn。
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容仅供参考,请以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



