DeepSeek-V3.2如何超越GPT-5?2026年三大技术突破解析
AIAI Summary (BLUF)
DeepSeek-V3.2实现三大技术突破:稀疏注意力机制(DSA)提升计算效率,可扩展强化学习框架性能比肩GPT-5,以及大规模智能体任务合成流程。其高算力版本V3.2-Speciale超越GPT-5,与Gemini-3.0-Pro持平,并在2025年国际数学与信息学奥赛中夺得金牌。
摘要
我们推出 DeepSeek-V3.2,这是一个在卓越推理与智能体性能和高计算效率之间取得平衡的模型。DeepSeek-V3.2 的关键技术突破如下:(1) DeepSeek 稀疏注意力 (DSA):我们引入了 DSA,一种高效的注意力机制,能在长上下文场景中显著降低计算复杂度,同时保持模型性能。(2) 可扩展的强化学习框架:通过实施稳健的强化学习协议并扩展后训练计算量,DeepSeek-V3.2 的性能与 GPT-5 相当。值得注意的是,我们的高计算量变体 DeepSeek-V3.2-Speciale 超越了 GPT-5,其推理能力与 Gemini-3.0-Pro 不相上下,在 2025 年国际数学奥林匹克竞赛 (IMO) 和国际信息学奥林匹克竞赛 (IOI) 中均取得了金牌级别的表现。(3) 大规模智能体任务合成流水线:为了将推理能力整合到工具使用场景中,我们开发了一种新颖的合成流水线,能够系统地大规模生成训练数据。这种方法促进了可扩展的智能体后训练,在复杂、交互式环境中显著提升了模型的泛化能力和指令遵循的鲁棒性。
1. 引言
推理模型的发布标志着大型语言模型 (LLM) 演进的关键时刻,推动了其在可验证领域整体性能的显著飞跃。自这一里程碑以来,LLM 的能力迅速发展。然而,在过去几个月中出现了一个明显的分化趋势。尽管开源社区持续取得进展,但闭源专有模型的性能提升轨迹却以明显更快的速度加速。因此,闭源模型与开源模型之间的性能差距非但没有缩小,反而似乎在扩大,专有系统在复杂任务中展现出日益卓越的能力。
通过我们的分析,我们识别出限制开源模型在复杂任务中能力的三个关键不足。首先,在架构上,对标准注意力机制的普遍依赖严重限制了长序列处理的效率。这种低效性对可扩展部署和有效的后训练构成了重大障碍。其次,在资源分配方面,开源模型在后训练阶段的计算投入不足,限制了其在困难任务上的表现。最后,在 AI 智能体方面,与专有模型相比,开源模型在泛化能力和指令遵循能力上表现出明显滞后,阻碍了其在真实部署中的有效性。
为了应对这些关键限制,我们首先引入了 DSA,这是一种旨在显著降低计算复杂性的高效注意力机制。该架构有效解决了效率瓶颈,即使在长上下文场景中也能保持模型性能。其次,我们开发了一个稳定且可扩展的强化学习协议,允许在后训练阶段进行大规模计算扩展。值得注意的是,该框架分配的后训练计算预算超过了预训练成本的 10%,从而解锁了高级能力。第三,我们提出了一种新颖的流水线,以促进工具使用场景中的可泛化推理。首先,我们利用 DeepSeek-V3 的方法实施冷启动阶段,将推理和工具使用统一在单一轨迹中。随后,我们推进到大规模智能体任务合成,生成了超过 1,800 个不同的环境和 85,000 个复杂提示。这些广泛的合成数据驱动了强化学习过程,显著增强了模型在智能体上下文中的泛化能力和指令遵循能力。
DeepSeek-V3.2 在多个推理基准测试中与 Kimi-k2-thinking 和 GPT-5 取得了相似的性能。此外,DeepSeek-V3.2 显著提升了开源模型的智能体能力,在 EvalSys (2025) 等引入的长尾智能体任务上表现出色。DeepSeek-V3.2 成为智能体场景中一个极具成本效益的替代方案,在显著降低成本的同时,大大缩小了开源模型与前沿专有模型之间的性能差距。值得注意的是,为了推动开源模型在推理领域的边界,我们放宽了长度限制,开发了 DeepSeek-V3.2-Speciale。因此,DeepSeek-V3.2-Speciale 实现了与领先闭源系统 Gemini-3.0-Pro 的性能持平,并在 IOI 2025、ICPC 世界总决赛 2025、IMO 2025 和 CMO 2025 中展现出金牌级别的表现。
2. DeepSeek-V3.2 架构
2.1. DeepSeek 稀疏注意力 (DSA)
DeepSeek-V3.2 采用了与 DeepSeek-V3.2-Exp 完全相同的架构。与 DeepSeek-V3.1 系列的最终版本 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2 在架构上唯一的修改是通过持续训练引入了 DeepSeek 稀疏注意力 (DSA)。
DSA 的原型。DSA 的原型主要由两个组件构成:一个闪电索引器和一个细粒度的令牌选择机制。闪电索引器计算查询令牌 h𝑡 与前一个令牌 h𝑠 之间的索引分数 𝐼𝑡,𝑠,以确定查询令牌应选择哪些令牌。给定每个查询令牌 h𝑡 的索引分数 {𝐼𝑡,𝑠},我们的细粒度令牌选择机制仅检索与 top-k 索引分数对应的键值条目 {c𝑠}。然后,通过应用查询令牌 h𝑡 与稀疏选择的键值条目 {c𝑠} 之间的注意力机制来计算注意力输出 u𝑡。
在 MLA 下实例化 DSA。考虑到从 DeepSeek-V3.1-Terminus 进行持续训练的需求,我们基于 MLA 为 DeepSeek-V3.2 实例化了 DSA。在核心层面,为了计算效率,每个键值条目必须在多个查询之间共享。因此,我们基于 MLA 的 MQA 模式实现了 DSA,其中每个潜在向量(MLA 的键值条目)将在查询令牌的所有查询头之间共享。基于 MLA 的 DSA 架构如图 2 所示。
2.1.1. 持续预训练
从上下文长度已扩展到 128K 的 DeepSeek-V3.1-Terminus 基础检查点开始,我们执行持续预训练,然后进行后训练,以创建 DeepSeek-V3.2。DeepSeek-V3.2 的持续预训练包含两个训练阶段。对于这两个阶段,训练数据的分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。
密集预热阶段。我们首先使用一个简短的预热阶段来初始化闪电索引器。在此阶段,我们保持密集注意力,并冻结除闪电索引器之外的所有模型参数。为了将索引器输出与主注意力分布对齐,对于第 𝑡 个查询令牌,我们首先通过对所有注意力头的注意力分数求和进行聚合。然后,该总和沿序列维度进行 L1 归一化,以产生目标分布 𝑝𝑡,:。基于 𝑝𝑡,:,我们设置一个 KL 散度损失作为索引器的训练目标。对于预热,我们使用 10^−3 的学习率。我们仅对索引器进行 1000 步训练,每步包含 16 个 128K 令牌的序列,总计 21 亿个令牌。
稀疏训练阶段。在索引器预热之后,我们引入细粒度的令牌选择机制,并优化所有模型参数,使模型适应 DSA 的稀疏模式。在此阶段,我们继续保持索引器输出与主注意力分布的对齐,但仅考虑选定的令牌集 S𝑡。值得注意的是,我们将索引器输入从计算图中分离出来进行单独优化。索引器的训练信号仅来自 L𝐼,而主模型的优化仅根据语言建模损失进行。在此稀疏训练阶段,我们使用 7.3 × 10^−6 的学习率,并为每个查询令牌选择 2048 个键值令牌。我们对主模型和索引器进行 15000 步训练,每步包含 480 个 128K 令牌的序列,总计 9437 亿个令牌。
2.2. 性能评估
标准基准测试。2025年9月,我们在一个专注于多样化能力的基准测试套件上评估了 DeepSeek-V3.2-Exp,并将其与表现相似的 DeepSeek-V3.1-Terminus 进行了比较。虽然 DeepSeek-V3.2-Exp 在长序列上显著提高了计算效率,但我们观察到,与 DeepSeek-V3.1-Terminus 相比,无论是在短上下文还是长上下文任务上,其性能都没有出现实质性下降。
人类偏好。鉴于直接的人类偏好评估本身容易受到偏见影响,我们采用 ChatbotArena 作为间接评估框架,以近似用户对新开发的基础模型的偏好。DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 共享相同的后训练策略,它们在 2025年11月10日评估中获得的 Elo 分数非常接近。这些结果表明,尽管采用了稀疏注意力机制,新的基础模型达到了与前一版本相当的性能。
长上下文评估。在 DeepSeek-V3.2-Exp 发布后,使用先前未见过的测试集进行了多项独立的长上下文评估。一个代表性的基准是 AA-LCR,在该基准中,DeepSeek-V3.2-Exp 在推理模式下比 DeepSeek-V3.1-Terminus 高出四分。在 Fiction.liveBench 评估中,DeepSeek-V3.2-Exp 在多个指标上持续优于 DeepSeek-V3.1-Terminus。这些证据表明,DeepSeek-V3.2-Exp 的基础检查点在长上下文任务上没有出现性能倒退。
2.3. 推理成本
DSA 将主模型的核心注意力复杂度从 O(𝐿^2) 降低到 O(𝐿𝑘),
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



