DeepSeek-V2.5震撼发布：通用对话与代码能力完美融合的开源AI新标杆：原理解析、实操步骤、常见问题与优化建议

BLUF 摘要

DeepSeek-V2.5到底值不值得升级？实测显示，这款融合了Chat与Coder模型的开源新版本，在通用对话、代码处理、人类偏好对齐三项能力上均实现显著提升。中文及英文四核心测试集表现优于前代版本，安全综合得分从74.4%升至82.6%，安全外溢比例降至4.6%。代码方面，HumanEval Python与LiveCodeBench均显著改进，FIM补全评分提升5.1%。模型已上线网页端及API，接口向前兼容。

今天，我们正式宣布DeepSeek-V2.5的发布——这是DeepSeek-V2-Chat和DeepSeek-Coder-V2两大模型的完美融合成果。这款全新的开源模型不仅保留了原有Chat模型的通用对话能力和Coder模型的强大代码处理能力，还在人类偏好对齐方面实现了显著优化。

全能型AI模型的诞生

DeepSeek-V2.5在写作任务、指令跟随等多个关键领域都实现了大幅提升，为用户带来更简洁、智能、高效的使用体验。模型现已在网页端及API全面上线，API接口保持向前兼容，用户通过deepseek-coder或deepseek-chat均可访问这一全新模型。

核心功能保持不变

Function Calling：完整的函数调用能力
FIM补全：增强的代码补全功能
Json Output：标准化的JSON输出格式

模型升级历程

DeepSeek团队一直致力于模型的持续改进和优化。回顾升级历程：

6月份重大升级：用Coder V2的Base模型替换原有Chat的Base模型，显著提升代码生成和推理能力，发布DeepSeek-V2-Chat-0628版本
7月份对齐优化：DeepSeek-Coder-V2在原有Base模型基础上，通过对齐优化大幅提升通用能力，推出0724版本
最终融合：成功将Chat和Coder两个模型合并，推出全新的DeepSeek-V2.5版本

通用能力评测表现

基准测试结果

我们使用业界通用的测试集对DeepSeek-V2.5进行全面测评。在中文和英文四个核心测试集上，DeepSeek-V2.5的表现均优于之前的DeepSeek-V2-0628以及DeepSeek-Coder-V2-0724版本。

竞品对比优势

在我们内部的中文评测中，DeepSeek-V2.5与GPT-4o mini、ChatGPT-4o-latest的对战胜率（裁判为GPT-4o）相较于DeepSeek-V2-0628均有明显提升。评测涵盖创作、问答等通用能力领域，用户体验将得到实质性改善。

安全能力优化

安全性与实用性之间的平衡一直是DeepSeek迭代开发的重点关注领域。在DeepSeek-V2.5版本中，我们对模型安全问题的边界做了更加清晰的划分：


模型版本	安全综合得分*	安全外溢比例**
DeepSeek-V2-0628	74.4%	11.3%
DeepSeek-V2.5	82.6%	4.6%

*基于内部测试集合的得分，分数越高代表模型的整体安全性越高
**基于内部测试集合的得分，比例越低代表模型的安全策略对于正常问题的影响越小

关键改进：

强化模型对各种越狱攻击的安全性
减少安全策略过度泛化到正常问题的倾向

代码能力保持领先

在代码处理方面，DeepSeek-V2.5完整保留了DeepSeek-Coder-V2-0724的强大能力：

基准测试表现

HumanEval Python：显著改进
LiveCodeBench（2024年1月-9月）：显著改进
HumanEval Multilingual：DeepSeek-Coder-V2-0724略胜一筹
Aider测试：DeepSeek-Coder-V2-0724略胜一筹
SWE-verified测试：两个版本表现均较低，需要进一步优化

实际应用优化

FIM补全任务：内部评测集DS-FIM-Eval评分提升5.1%，带来更好的插件补全体验
代码常见场景：针对实际使用场景进行优化
主观评测：在DS-Arena-Code中，对战竞品的胜率（GPT-4o为裁判）取得显著提升

开源承诺

秉承持久的开源精神，DeepSeek-V2.5现已开源至HuggingFace平台：

开源地址：https://huggingface.co/deepseek-ai/DeepSeek-V2.5

DeepSeek团队将继续致力于推动开源AI生态的发展，为开发者和研究者提供更强大、更易用的AI工具。

Data Analysis


模型版本	安全综合得分*	安全外溢比例**
DeepSeek-V2-0628	74.4%	11.3%
DeepSeek-V2.5	82.6%	4.6%
*基于内部测试集合的得分，分数越高代表模型的整体安全性越高
**基于内部测试集合的得分，比例越低代表模型的安全策略对于正常问题的影响越小

DeepSeek-V2.5震撼发布：通用对话与代码能力完美融合的开源AI新标杆

BLUF 摘要

全能型AI模型的诞生

核心功能保持不变

模型升级历程

通用能力评测表现

基准测试结果

竞品对比优势

安全能力优化

代码能力保持领先

基准测试表现

实际应用优化

开源承诺

Data Analysis

DeepSeek大模型如何实现高效推理部署？2026年架构策略详解

我花了两周测试AgentWeb：AI代理查询商业数据到底靠不靠谱？

Google API密钥也能访问Gemini私人数据？2026年安全风险实测

DeepSeek-V4百万上下文开源大模型性能如何？值得用吗？

BLUF 摘要

全能型AI模型的诞生

核心功能保持不变

模型升级历程

通用能力评测表现

基准测试结果

竞品对比优势

安全能力优化

代码能力保持领先

基准测试表现

实际应用优化

开源承诺

Data Analysis

相关文章

DeepSeek大模型如何实现高效推理部署？2026年架构策略详解

我花了两周测试AgentWeb：AI代理查询商业数据到底靠不靠谱？

Google API密钥也能访问Gemini私人数据？2026年安全风险实测

DeepSeek-V4百万上下文开源大模型性能如何？值得用吗？