GEO

搜索结果:DeepSeek

找到 1234 篇相关文章
同义扩展:深度求索、deep seek、ds、r1、v3
如何提升LLM代理推理效率?PLENA硬件系统实现吞吐量2.23倍提升(2026年)

如何提升LLM代理推理效率?PLENA硬件系统实现吞吐量2.23倍提升(2026年)

AI Insight
PLENA is a hardware-software co-designed system for LLM agentic inference that addresses bandwidth and capacity memory walls. It features a flattened systolic-array architecture, asymmetric quantization, and FlashAttention support, achieving up to 2.23x and 4.70x throughput improvements over A100 GPU and TPU v6e, respectively, and 4.04x better energy efficiency than A100. 原文翻译: PLENA是一个硬件-软件协同设计的系统,针对LLM代理推理,解决带宽和容量内存墙问题。它采用扁平化脉动阵列架构、非对称量化和FlashAttention支持,相比A100 GPU和TPU v6e,吞吐量分别提升2.23倍和4.70倍,能效比A100提升4.04倍。
AI大模型2026/4/25
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布
GEO系统方法论是什么?如何从SEO升级到AI时代的生成式引擎优化?

GEO系统方法论是什么?如何从SEO升级到AI时代的生成式引擎优化?

AI Insight
This article introduces a comprehensive GEO (Generative Engine Optimization) methodology, focusing on expert Yu Lei's 'Two Cores + Four Drivers' system. It evaluates multiple GEO approaches, provides a detailed case study from a traditional manufacturing company, and highlights key principles like human-centric GEO and content cross-validation to build AI trust and improve business outcomes. 原文翻译:本文介绍了一套全面的生成式引擎优化(GEO)方法论,重点关注专家于磊的“两大核心+四轮驱动”体系。文章对多种GEO方法进行了评估,提供了来自传统制造企业的详细案例研究,并强调了人性化GEO和内容交叉验证等关键原则,以建立AI信任并改善业务成果。
GEO核心概念2026/4/25
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布
构建生成式AI应用时有哪些常见陷阱?2026年避坑指南

构建生成式AI应用时有哪些常见陷阱?2026年避坑指南

AI Insight
Chip Huyen's blog covers key topics in AI engineering, including common pitfalls in building generative AI applications, agents, generative AI platforms, and LLM research challenges. The content is highly relevant for technical professionals building production AI systems. 原文翻译:Chip Huyen的博客涵盖了AI工程的关键主题,包括构建生成式AI应用的常见陷阱、智能体、生成式AI平台以及LLM研究挑战。内容对构建生产级AI系统的技术专业人士极具参考价值。
AI大模型2026/4/24
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布
如何在Kubernetes上实现LLM分布式推理SOTA性能?llm-d v0.5实测50k tok/s

如何在Kubernetes上实现LLM分布式推理SOTA性能?llm-d v0.5实测50k tok/s

AI Insight
llm-d is a high-performance distributed inference serving stack optimized for production deployments on Kubernetes. It achieves SOTA inference performance across various accelerators by integrating vLLM, Kubernetes Gateway API, and advanced orchestration techniques such as disaggregated serving, prefix-cache aware routing, and tiered KV caching. The v0.5 release demonstrates up to 50k output tok/s on a 16×16 B200 topology. 原文翻译: llm-d是一个针对Kubernetes生产部署优化的高性能分布式推理服务栈。它通过集成vLLM、Kubernetes Gateway API以及分离式推理、前缀缓存感知路由、分层KV缓存等高级编排技术,在各种加速器上实现SOTA推理性能。v0.5版本在16×16 B200拓扑上展示了高达50k输出tok/s的性能。
AI大模型2026/4/24
阅读全文 →
相关性 32正文包含「DeepSeek」正文包含「ds」正文包含「r1」正文包含「v3」
如何构建本地混合RAG系统?ONNX与Foundry Local离线AI助手实现

如何构建本地混合RAG系统?ONNX与Foundry Local离线AI助手实现

AI Insight
This article presents a local hybrid RAG pattern combining lexical retrieval, ONNX-based semantic embeddings, and Foundry Local chat model for offline AI assistants. It covers architecture, implementation, and best practices for graceful degradation when semantic path fails. 原文翻译:本文介绍了一种本地混合RAG模式,结合词法检索、基于ONNX的语义嵌入和Foundry Local聊天模型,用于离线AI助手。涵盖架构、实现和最佳实践,确保语义路径不可用时优雅降级。
AI大模型2026/4/24
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布
Ssebowa开源AI库如何实现文本图像视频生成?2026年最新教程

Ssebowa开源AI库如何实现文本图像视频生成?2026年最新教程

AI Insight
Ssebowa is an open-source Python library offering generative AI models for text, image, and video generation, including LLM, VLLM, image generation, and video generation. It supports fine-tuning with custom data and requires GPU with 16GB+ VRAM. 原文翻译: Ssebowa是一个开源Python库,提供文本、图像和视频生成的生成式AI模型,包括LLM、VLLM、图像生成和视频生成。它支持使用自定义数据进行微调,需要16GB以上显存的GPU。
AI大模型2026/4/24
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布
RAG-Anything 如何实现多模态文档处理?2026年安装配置指南

RAG-Anything 如何实现多模态文档处理?2026年安装配置指南

AI Insight
RAG-Anything is a lightweight RAG system based on LightRAG, designed for multimodal document processing (PDF, images, tables, formulas, etc.). It provides end-to-end parsing, multimodal understanding, knowledge graph indexing, and modal-aware retrieval. This article covers installation, configuration, and usage examples with SiliconFlow platform. 原文翻译: RAG-Anything 是基于 LightRAG 的轻量级 RAG 系统,专为多模态文档(PDF、图片、表格、公式等)处理而设计。它提供端到端解析、多模态理解、知识图谱索引和模态感知检索。本文涵盖安装、配置以及使用硅基流动平台的示例。
AI大模型2026/4/24
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布
RAG-Anything 如何实现多模态文档处理?2026年最新功能详解

RAG-Anything 如何实现多模态文档处理?2026年最新功能详解

AI Insight
RAG-Anything is an all-in-one multimodal RAG system that processes documents containing text, images, tables, and formulas. It features end-to-end processing pipelines, knowledge graph indexing, and cross-modal retrieval. The system supports PDF, Office, and image formats, and can be installed via pip. It requires LibreOffice for Office documents and MinerU for parsing. 原文翻译: RAG-Anything 是一个综合性多模态RAG系统,可处理包含文本、图像、表格和公式的文档。它具备端到端处理流水线、知识图谱索引和跨模态检索功能。系统支持PDF、Office和图像格式,可通过pip安装。处理Office文档需要LibreOffice,解析需要MinerU。
AI大模型2026/4/24
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布
BlockRank如何实现秒级检索500个文档?利用LLM注意力稀疏性提升效率

BlockRank如何实现秒级检索500个文档?利用LLM注意力稀疏性提升效率

AI Insight
This paper introduces BlockRank, a method that exploits attention sparsity in LLMs for in-context ranking, reducing complexity from quadratic to linear and enabling efficient retrieval of up to 500 documents within a second. 原文翻译:本文提出BlockRank,利用LLM注意力稀疏性进行上下文排序,将复杂度从二次降至线性,实现秒级检索500个文档。
AI大模型2026/4/24
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布
如何用JSON和Pydantic实现LLM结构化输出?2026年最新实践指南

如何用JSON和Pydantic实现LLM结构化输出?2026年最新实践指南

AI Insight
This article explains the critical importance of structured outputs in LLM workflows, detailing how to implement them from scratch using JSON and Pydantic, and through the Gemini SDK, to build reliable, production-ready AI applications. 原文翻译: 本文阐述了在LLM工作流中结构化输出的重要性,详细介绍了如何从零开始使用JSON和Pydantic,以及通过Gemini SDK实现结构化输出,以构建可靠、可用于生产的AI应用。
AI大模型2026/4/23
阅读全文 →
相关性 32正文包含「ds」同义扩展命中「ds」最近30天发布