GEO
广告

DSPy框架深度批判:2025年LLM伪科学优化指南

2026/2/162,551阅读 7 分钟
DSPy框架深度批判:2025年LLM伪科学优化指南

BLUF 摘要

面对LLM这一“外星黑匣子”,DSPy等框架的所谓“优化”实为新型“货物崇拜”。其通过黑盒互调生成提示词的方法,本质是用学术术语包装随机实验,并未触及模型核心原理。

The Arrival of the Artifact

想象一下,人类发现了一个外星造物——一个黑匣子,它能接收文本输入并产生令人惊异的智能文本输出。我们不了解它的架构,无法窥视其内部,也没有关于其运行机制的理论。但它确实有效,有时甚至表现卓越。

这本质上就是我们当前面对大语言模型(LLMs)的处境。它们是由梯度下降法塑造的复杂数学对象,然而其涌现出的行为是如此难以理解,以至于它们与来自另一个世界的造物无异。创造它们的训练过程就像一条外星生产线——我们可以复制它,却难以理解其内部运作。

The Cargo Cult Response

面对这个神秘的造物,出现了两种截然不同的方法。其中一个阵营,以 DSPy 等框架为代表,选择将 LLM 视为一个神奇的黑匣子。其方法论包括用各种文本输入试探它,观察输出结果,保留看似“有效”的部分,然后用学术术语包装这种本质上是随机的实验。这就是 DSPy 的方法:用一个未被充分理解的造物(一个 LLM)来为另一个生成提示词,并将此过程称为“优化”。

DSPy 框架可被视为人工智能领域“货物崇拜科学”的巅峰。就像太平洋岛民建造竹制控制塔以期召唤来运输机一样,DSPy 构建了由“优化器”和“提词器”组成的复杂架构,希望以此从 LLM 中召唤出更好的性能。它使用了“贝叶斯优化”和“帕累托前沿”等术语——这些概念在已被充分理解的数学领域具有精确、严谨的含义——却将其应用于提示词工程的语义噪声中,在那里它们常常失去了实质意义。

The Illusion of Academic Rigor

DSPy 尤其令人担忧之处在于其表面的学术合法性。它源自知名机构,包裹在同行评议会议(如 ICLR)的语言中,带有科学权威的印记。然而,剥去这些资历,显露出的核心过程却异常简单且缺乏根基。

current_prompt = "Solve this"
while hoping_for_improvement:
    new_prompt = llm.suggest_variation(current_prompt)  # One black box queries another
    if accidentally_scores_higher():  # Evaluation via yet another noisy process
        current_prompt = new_prompt
        publish_paper()

本质上,他们是在用一个外星造物(例如 GPT-4)生成随机文本变体,输入给另一个造物(例如 Gemini),然后当随机噪声偶尔在某个任意指标上产生略高的分数时,便宣称实现了“优化”。这类似于用一个灵应牌来校准另一个。

其代码仓库的状态往往揭示了真相:基本功能存在缺陷、令牌限制处理不当、模型集成失败,而且所谓的“优化后”提示词在性能上常常不及精心手工设计的方案。关于 GitHub star 数被人为虚增(超过实际下载量)的报告,描绘出一个“波将金村庄”式的框架形象,其设计更多是为了打动风险投资家和会议评审,而非解决真正的工程问题。

A Symptom of a Broader Malady

一个令人不安的事实是,DSPy 只是 LLM 应用领域内一种更普遍弊病的突出症状。当前被标榜为“LLM 工程”的很大一部分工作,都遭受着类似缺乏根基的问题。从业者用各种“棍子”试探难以理解的模型,保留在孤立测试中看似有效的部分,却没有从根本上理解其为何有效。

有多少“提示词工程指南”仅仅是积累的迷信合集?有多少宣称的“最佳实践”只是周二在特定数据集上有效、周三就莫名失效的模式?有多少框架最终只是将随机试探自动化并加以美化的复杂系统?

整个提示词工程学科常常让人联想到中世纪的炼金术——一本缺乏理论基础、满是配方和咒语的汇编。指示“在你的提示词中加入‘让我们一步步思考’”就是我们这个时代“往大锅里加入蝾螈眼”的等价物。有时它会产生更好的结果,我们对其原因没有可靠的解释,但这种做法却持续存在。

The Nature of the Artifacts: They Are Mathematical

深刻的悲剧在于,这些 LLM 数学对象,而非魔法造物。建造它们的“外星人”是数学家和微积分法则。塑造这些模型的梯度下降过程遵循精确的、确定性的数学规则。这些造物拥有内部结构,其行为有因可循,并且表现出可以被发现和利用的规律性。

一些研究实验室认识到了这一基本事实,正在追求基于量化的方法:

  • Anthropic 率先研究机械可解释性,致力于逆向工程这些模型内部的实际计算电路。
  • OpenAI(在其部分研究中)检查对数概率和置信度分布,以严格量化模型的不确定性。
  • DeepMind 以数学的严谨性研究缩放定律和涌现行为,寻找可预测的原理。

这些团队将这些造物视为其本来面目:极其复杂但最终可以理解的数学对象,可以通过仔细的实验、测量和理论构建来理解。他们分析注意力模式,追踪信息在层间的流动,并根据对数概率来度量不确定性。他们从事的是科学。

DSPy as Anti-Science

与之形成鲜明对比的是,DSPy 体现了 LLM 开发中的一种反科学方法。它并非试图理解造物本身,而是在其周围构建复杂的“鲁布·戈德堡机械”。它不去测量有形的、信息丰富的量(例如对数概率、注意力权重分布、梯度流),而是将嘈杂的、任务特定的评估分数视为主信号。它不发展可检验的理论,而是大量制造术语。

GEPA(遗传提示进化)扩展完美地例证了这一点。它使用“进化算法”来进化出以不同方式刺激 LLM 的代码。虽然报告在 ARC-AGI 基准上取得了 5.5% 的改进,但将这个“增益”置于背景下看就毫无意义:在该基准上,模型得分为 3-4%,而人类得分约为 60%。这不是有意义的进展;这是在优化从“完全失败”到“带有略微不同噪声的完全失败”的路径。

The Core Epistemological Failure

DSPy 根本的认识论缺陷在于,它将语义/提示词变异视为经典意义上的连续、可优化空间。真正的优化需要:

  1. 一个可测量、稳定的目标函数——而非来自另一个未校准 LLM 的嘈杂、黑盒评估。
  2. 对输入与输出之间关系的理解——而非“也许这个同义词有时效果更好”这样的启发式方法。
  3. 一套变化理论——而不仅仅是“让我们试试不同的东西,看看会发生什么”。
new_prompt = random_walk_in_semantic_space(old_prompt)
if coin_flip_says_better():  # Where the coin flip is a noisy LLM judge
    claim_optimization()

DSPy 不具备其中任何一点。其过程更准确的描述是:

new_prompt = random_walk_in_semantic_space(old_prompt)
if coin_flip_says_better():  # 这里的抛硬币指的是嘈杂的 LLM 评判器
    claim_optimization()

然而,这却被包装并呈现为“系统化优化”。

Conclusion: The Path Forward

最终的讽刺在于,这些并非真正的外星造物——它们是人工制造的数学创造物,其复杂性目前超出了我们的完全理解。所谓的“外星人”是高维空间和基于梯度优化的数学原理。这些造物遵循数学定律,拥有数学结构,并表现出数学规律性。

像 DSPy 这样的框架将其视为魔法,因为这样做比进行真正理解的艰苦工作要容易。构建一个随机排列提示词的系统,比破译为何某个特定提示词能引发所需的思维链要容易。宣称“优化”比承认自己仅仅是在广阔未探索的空间中寻找有利的噪声要容易。

那些致力于机械可解释性、严格不确定性量化和理论构建的研究团队,正在指明可行的前进道路。他们尊重这些造物的本质:复杂但最终可以理解的、适合进行细致科学研究的数学对象。

DSPy 代表了选择货物崇拜而非科学、戏剧而非理论、表面复杂而非真正理解的结果。它是一个构建在语义噪声之上的框架,在随机性中寻找意义,并在方差中宣称胜利。这个外星造物——我们自己的数学创造——理应得到比随机试探好得多的对待。它理应得到真正的科学。

晓婷深圳
本文由 晓婷 审核,最后更新于 2026年5月7日
联系编辑 →
← 返回文章列表
分享到:微博

版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。

文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容仅供参考,请以官方信息为准。

若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。

广告