GEO

最新文章

50
DeepSeek 最新模型是什么?DeepSeek MODEL1曝光
🔥 热门

DeepSeek 最新模型是什么?DeepSeek MODEL1曝光

在DeepSeek-R1发布一周年之际,其代码仓库意外曝光了代号“MODEL1”的全新模型架构。技术分析显示,MODEL1与现有V32架构存在根本性差异,包括采用分层KV缓存以减少内存碎片、引入动态稀疏激活算法,以及通过混合精度流水线提升推理速度。新架构在内存优化方面进行了系统性重构,如分块注意力内存复用、动态梯度检查点调度和新型权重共享机制,显著降低了内存占用并提升了训练效率。这些改进表明DeepSeek正探索超越传统Transformer的新路径,可能预示下一代大语言模型的发展方向。
DeepSeek2026/1/21
阅读全文 →
DeepSeek突破:纯强化学习如何实现高级AI推理能力

DeepSeek突破:纯强化学习如何实现高级AI推理能力

DeepSeek demonstrates that pure reinforcement learning can develop advanced AI reasoning without human demonstrations, achieving superior performance in mathematics, coding, and STEM through emergent self-reflection and verification patterns. (DeepSeek证明纯强化学习无需人类演示即可发展高级AI推理,通过涌现的自我反思和验证模式在数学、编程和STEM领域实现卓越性能。)
DeepSeek2026/1/21
阅读全文 →
DeepSeek与OpenAI数据训练争议:AI行业伦理与竞争公平性面临考验

DeepSeek与OpenAI数据训练争议:AI行业伦理与竞争公平性面临考验

Microsoft and OpenAI are investigating whether DeepSeek improperly used OpenAI's model outputs to train its R1 LLM, raising questions about data ethics and competitive fairness in AI development. (微软和OpenAI正在调查DeepSeek是否不当使用OpenAI的模型输出来训练其R1大语言模型,这引发了关于AI发展中数据伦理和竞争公平性的问题。)
AI大模型2026/1/21
阅读全文 →