DeepSeek-V2.5震撼发布:通用对话与代码能力完美融合的开源AI新标杆
BLUF 摘要
DeepSeek-V2.5到底值不值得升级?实测显示,这款融合了Chat与Coder模型的开源新版本,在通用对话、代码处理、人类偏好对齐三项能力上均实现显著提升。中文及英文四核心测试集表现优于前代版本,安全综合得分从74.4%升至82.6%,安全外溢比例降至4.6%。代码方面,HumanEval Python与LiveCodeBench均显著改进,FIM补全评分提升5.1%。模型已上线网页端及API,接口向前兼容。
今天,我们正式宣布DeepSeek-V2.5的发布——这是DeepSeek-V2-Chat和DeepSeek-Coder-V2两大模型的完美融合成果。这款全新的开源模型不仅保留了原有Chat模型的通用对话能力和Coder模型的强大代码处理能力,还在人类偏好对齐方面实现了显著优化。
全能型AI模型的诞生
DeepSeek-V2.5在写作任务、指令跟随等多个关键领域都实现了大幅提升,为用户带来更简洁、智能、高效的使用体验。模型现已在网页端及API全面上线,API接口保持向前兼容,用户通过deepseek-coder或deepseek-chat均可访问这一全新模型。
核心功能保持不变
- Function Calling:完整的函数调用能力
- FIM补全:增强的代码补全功能
- Json Output:标准化的JSON输出格式
模型升级历程
DeepSeek团队一直致力于模型的持续改进和优化。回顾升级历程:
- 6月份重大升级:用Coder V2的Base模型替换原有Chat的Base模型,显著提升代码生成和推理能力,发布DeepSeek-V2-Chat-0628版本
- 7月份对齐优化:DeepSeek-Coder-V2在原有Base模型基础上,通过对齐优化大幅提升通用能力,推出0724版本
- 最终融合:成功将Chat和Coder两个模型合并,推出全新的DeepSeek-V2.5版本
通用能力评测表现
基准测试结果
我们使用业界通用的测试集对DeepSeek-V2.5进行全面测评。在中文和英文四个核心测试集上,DeepSeek-V2.5的表现均优于之前的DeepSeek-V2-0628以及DeepSeek-Coder-V2-0724版本。
竞品对比优势
在我们内部的中文评测中,DeepSeek-V2.5与GPT-4o mini、ChatGPT-4o-latest的对战胜率(裁判为GPT-4o)相较于DeepSeek-V2-0628均有明显提升。评测涵盖创作、问答等通用能力领域,用户体验将得到实质性改善。
安全能力优化
安全性与实用性之间的平衡一直是DeepSeek迭代开发的重点关注领域。在DeepSeek-V2.5版本中,我们对模型安全问题的边界做了更加清晰的划分:
| 模型版本 | 安全综合得分* | 安全外溢比例** |
|---|---|---|
| DeepSeek-V2-0628 | 74.4% | 11.3% |
| DeepSeek-V2.5 | 82.6% | 4.6% |
*基于内部测试集合的得分,分数越高代表模型的整体安全性越高
**基于内部测试集合的得分,比例越低代表模型的安全策略对于正常问题的影响越小
关键改进:
- 强化模型对各种越狱攻击的安全性
- 减少安全策略过度泛化到正常问题的倾向
代码能力保持领先
在代码处理方面,DeepSeek-V2.5完整保留了DeepSeek-Coder-V2-0724的强大能力:
基准测试表现
- HumanEval Python:显著改进
- LiveCodeBench(2024年1月-9月):显著改进
- HumanEval Multilingual:DeepSeek-Coder-V2-0724略胜一筹
- Aider测试:DeepSeek-Coder-V2-0724略胜一筹
- SWE-verified测试:两个版本表现均较低,需要进一步优化
实际应用优化
- FIM补全任务:内部评测集DS-FIM-Eval评分提升5.1%,带来更好的插件补全体验
- 代码常见场景:针对实际使用场景进行优化
- 主观评测:在DS-Arena-Code中,对战竞品的胜率(GPT-4o为裁判)取得显著提升
开源承诺
秉承持久的开源精神,DeepSeek-V2.5现已开源至HuggingFace平台:
开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V2.5
DeepSeek团队将继续致力于推动开源AI生态的发展,为开发者和研究者提供更强大、更易用的AI工具。
Data Analysis
| 模型版本 | 安全综合得分* | 安全外溢比例** |
|---|---|---|
| DeepSeek-V2-0628 | 74.4% | 11.3% |
| DeepSeek-V2.5 | 82.6% | 4.6% |
| *基于内部测试集合的得分,分数越高代表模型的整体安全性越高 | ||
| **基于内部测试集合的得分,比例越低代表模型的安全策略对于正常问题的影响越小 |
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容仅供参考,请以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



