Gemini Flash 2.0如何革新PDF解析?2026年成本效益深度分析
BLUF 摘要
Gemini Flash 2.0以近乎完美的准确率和每美元处理约6000页的超高成本效益,彻底革新了RAG系统的PDF解析,首次实现大规模文档摄取的经济可行性。
The Document Parsing Challenge
将 PDF 文件分块——即将其转换为整齐、机器可读的文本片段——对于任何 RAG 系统来说都是一个主要难题。虽然存在开源和专有解决方案,但都没有真正实现准确性、可扩展性和成本效益的理想结合。
The Shortcomings of Current Solutions
Open-Source Complexities
现有的端到端模型难以处理现实世界文档中复杂的布局。其他开源解决方案通常需要协调多个专门的 ML 模型,用于布局检测、表格解析和 Markdown 转换。一个典型的例子是:NVIDIA 的 nv-ingest 需要启动一个包含八个服务和两个 A/H100 GPU 的 Kubernetes 集群。这使得编排变得极其繁琐,且性能仍然不理想。
Proprietary Cost and Consistency Issues
尽管成本高昂,许多专有解决方案在处理复杂布局和实现一致的准确性方面仍然存在困难。此外,在处理大型数据集时,费用变得极其高昂。对于我们的需求——解析数亿页文档——供应商的报价简直是不可持续的。
The LLM Promise and Pitfall
大型基础模型似乎是这项任务的天然选择。然而,它们尚未被证明比专有解决方案更具成本效益,而且其细微的不一致性给实际应用带来了重大挑战。例如,GPT-4o 经常在表格内生成虚假的单元格伪影,使其难以在生产中使用。
Enter Gemini Flash 2.0
虽然在我看来,Google 的开发者体验仍然落后于 OpenAI,但其成本效益却不容忽视。与存在细微不一致性、难以在生产中依赖的 1.5 Flash 不同,我们的内部测试表明,Gemini Flash 2.0 实现了近乎完美的 OCR 准确性,同时仍然非常便宜。
A New Benchmark in Cost-Performance
| Provider | Model | PDF to Markdown, Pages per Dollar |
|---|---|---|
| Gemini | 2.0 Flash | 🏆 ≈ 6,000 |
| Gemini | 2.0 Flash Lite | ≈ 12,000 (尚未测试) |
| Gemini | 1.5 Flash | ≈ 10,000 |
| AWS Textract | Commercial | ≈ 1000 |
| Gemini | 1.5 Pro | ≈ 700 |
| OpenAI | 4o-mini | ≈ 450 |
| LlamaParse | Commercial | ≈ 300 |
| OpenAI | 4o | ≈ 200 |
| Anthropic | claude-3-5-sonnet | ≈ 100 |
| Reducto | Commercial | ≈ 100 |
| Chunkr | Commercial | ≈ 100 |
所有 LLM 提供商的报价均基于其批量定价 [2]。
Does High Efficiency Compromise Accuracy?
在文档解析的所有步骤中,表格识别和提取是最具挑战性的。复杂的布局、非常规的格式和不一致的数据质量使得可靠的提取变得困难。
因此,这是评估性能的理想场景。我们使用了 Reducto 的 rd-tablebench 的一个子集,该基准测试模型应对现实世界挑战的能力,例如质量不佳的扫描件、多语言和复杂的表格结构——这远远超出了学术基准测试中常见的整洁示例。
| Provider | Model | Accuracy | Comment |
|---|---|---|---|
| Reducto | 0.90 ± 0.10 | ||
| Gemini | 2.0 Flash | 0.84 ± 0.16 | 近乎完美 |
| Anthropic | Sonnet | 0.84 ± 0.16 | |
| AWS Textract | 0.81 ± 0.16 | ||
| Gemini | 1.5 Pro | 0.80 ± 0.16 | |
| Gemini | 1.5 Flash | 0.77 ± 0.17 | |
| OpenAI | 4o | 0.76 ± 0.18 | 细微的数字幻觉 |
| OpenAI | 4o-mini | 0.67 ± 0.19 | 较差 |
| Gcloud | 0.65 ± 0.23 | ||
| Chunkr | 0.62 ± 0.21 |
Reducto 自身的模型目前在此基准测试中优于 Gemini Flash 2.0(0.90 对 0.84)。然而,当我们审查表现较差的示例时,发现大多数差异是微小的结构变化,不会实质性地影响 LLM 对表格的理解。
关键的是,我们很少看到具体数值被误读的情况。这表明 Gemini 的大多数“错误”是表面的格式选择,而非实质性的不准确。我们在下文附上了这些失败案例的示例 [1]。
除了表格解析,Gemini 在 PDF 转 Markdown 转换的所有其他方面都始终提供近乎完美的准确性。如果将所有这些结合起来,你将得到一个极其简单、可扩展且廉价的索引管道。
Enhancing the Pipeline: Semantic Chunking
Markdown 提取只是第一步。要使文档能在 RAG 管道中有效使用,必须将其分割成更小的、具有语义意义的片段。
最近的研究表明,使用大型语言模型(LLM)执行此任务在检索准确性方面可以胜过其他策略。这直观上是合理的——LLM 擅长理解上下文和识别文本中的自然边界,使其非常适合生成具有语义意义的片段。
问题是什么?成本。直到现在,基于 LLM 的分块一直昂贵得令人望而却步。然而,随着 Gemini Flash 2.0 的出现,游戏规则再次改变——其定价使得大规模使用它来分块文档成为可能。
我们可以用 Gemini Flash 2.0 以 5,000 美元的价格解析我们超过 1 亿页的语料库,这比几个向量数据库托管服务的月费还要低。
你甚至可以设想将分块与 Markdown 提取结合起来,根据我们非常有限的测试,结果似乎是有效的,且不影响提取质量。
CHUNKING_PROMPT = """\
OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.
Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.
Surround the chunks with <chunk> </chunk> html tags.
"""
The Bounding Box Dilemma
虽然 Markdown 提取和分块解决了解析文档中的许多问题,但它们引入了一个关键限制:边界框信息的丢失。这意味着用户无法再看到特定信息在原始文档中的位置。相反,引用最终指向一个通用的页码或孤立的摘录。
这造成了信任鸿沟。边界框对于将提取的信息链接回源 PDF 中的确切位置至关重要,它使用户确信数据不是幻觉产生的。
这可能是我对绝大多数分块库最大的不满。
我们的应用程序在源文档上下文中显示引用。
The Unrealized Potential of LLMs for Spatial Understanding
但这里有一个有前景的想法——LLM 已经展现出卓越的空间理解能力(参见 Simon Willis 关于 Gemini 为密集鸟群生成准确边界框的示例)。你会认为可以利用它来精确地将文本映射到其在文档中的位置。
这是我们的一大希望。不幸的是,Gemini 在这方面似乎确实存在困难,无论我们如何尝试提示,它都会生成极不准确的边界框,这表明文档布局理解在其训练数据中代表性不足。不过,这似乎确实是一个暂时的问题。
如果 Google 在训练期间纳入更多文档特定的数据——或者进行专注于文档布局的微调——我们很可能相当容易地弥合这一差距。其潜力是不可否认的。
GET_NODE_BOUNDING_BOXES_PROMPT = """\
Please provide me strict bounding boxes that encompasses the following text in the attached image? I'm trying to draw a rectangle around the text.
- Use the top-left coordinate system
- Values should be percentages of the image width and height (0 to 1)
{nodes}
"""
真实情况——你可以看到 3 个不同的边界框包围着表格的不同部分。
** 这只是一个示例提示,我们在这里尝试了多种不同的方法,但似乎都没有效果(截至 2025 年 1 月)。
Conclusion: The Path to Effortless Document Ingestion
通过整合这些解决方案,我们构建了一个既优雅又经济的大规模索引管道。我们最终将开源我们在这方面的成果,尽管我相信许多其他人也会实现类似的库。
重要的是,一旦我们解决了解析、分块和边界框检测这三个挑战,我们实际上就“解决”了将文档摄取到 LLM 的问题(带有注意事项)。这一进展使我们无比接近一个未来,在这个未来中,文档解析不仅高效,而且对于任何用例来说都几乎不费吹灰之力。
Footnotes:
[2] 我收到过关于此的疑问,因此以下是我对 Gemini Flash 2.0 成本的细分。输入图像成本 - 每张图像 0.00009675 美元。输出成本 - 每 400 个令牌 0.0000525 美元。这相当于 每美元处理 6,379 页。内容密集的页面可能成本更高,但这提供了一个可靠的估算。更多详情,请查看 Vertex 的批量定价页面。
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容仅供参考,请以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



