标签：DeepSeek

查看包含 DeepSeek 标签的所有文章。

共 138 篇

DeepSeek 把 AI 推理成本打下来了：大模型八年进化实录

BLUF

本文系统回顾了大型语言模型从2017年Transformer架构诞生到2025年DeepSeek-R1发布的关键发展历程，涵盖BERT、GPT系列、ChatGPT、多模态模型及推理模型等里程碑，深入分析了自注意力机制、RLHF等核心技术如何推动语言模型能力跃升，并探讨了DeepSeek-R1对AI产业的高性价比冲击。

AI大模型2026/7/12

阅读全文 →

DeepSeek一口气开源十个项目，从通信库到OCR全链覆盖

BLUF

本文汇总了DeepSeek-AI在GitHub上开源的一系列关键基础设施项目，涵盖专家并行通信库（DeepEP）、推测解码训练框架（DeepSpec）、高效BLAS库（DeepGEMM）、高性能分布式文件系统（3FS）、注意力加速内核（FlashMLA）等，为AI研究与工程提供完整的工具链。

DeepSeek2026/7/12

阅读全文 →

StreamIndex 破解 DeepSeek V4 注意力瓶颈：序列长度从65K扩展到1M

BLUF

DeepSeek V4引入了压缩稀疏注意力(CSA)机制，但其中间评分张量巨大，单GPU内存无法承载。本文提出的StreamIndex通过分块合并top-k方法，在不物化完整评分张量的情况下，将可处理序列长度从65K扩展到1M，且召回率接近1.0。该实现基于Triton，在H200上验证了内存和性能优势。

GEO技术2026/7/12

阅读全文 →

DeepSeek把V3.1和R1的免费对话搬到了首页，点开即用

BLUF

DeepSeek 官方网页版现已提供免费对话，支持 V3.1 和 R1 模型，用户可以直接开始体验。

DeepSeek2026/7/11

阅读全文 →

中国AI从‘聊天’到‘办事’：智能体2025年的效率革命

BLUF

这篇文章全面回顾了2025年中国人工智能的发展态势，指出AI技术正从对话式“聊天”转向能自主执行任务的“智能体”时代。文章深入分析了技术向上突破（如密度法则、稀疏注意力机制）与应用向下扎根（如制造业、政务、消费场景）的双重变革，并探讨了算力一体化、高质量数据挖掘、产业赋能及安全治理等关键议题，揭示了中国AI发展的独特路径和未来方向。

行业追踪2026/7/8

阅读全文 →