NexaSDK如何实现高性能端侧AI?2026年跨平台推理框架解析
AIAI Summary (BLUF)
NexaSDK是一款高性能端侧推理框架,支持开发者在NPU、GPU及CPU上跨平台运行最新多模态AI模型,实现最低能耗与最高运行速度。
引言
NexaSDK 让您能够以最低的能耗,构建最智能、最快速的端侧人工智能应用。 它是一个高性能的本地推理框架,只需几行代码,即可在 NPU、GPU 和 CPU 上跨 Android、Windows、Linux、macOS 和 iOS 设备本地运行最新的多模态 AI 模型。
NexaSDK 支持最新模型的速度领先业界数周甚至数月——例如 Qwen3-VL、DeepSeek-OCR、Gemma3n (Vision) 等。
🏆 业界认可与里程碑
NexaSDK 的卓越性能和创新能力已获得众多行业巨头的认可:
- 高通 (Qualcomm) 在其官方博客中三次专题报道我们。
- Qwen 因我们提供 Day-0 Qwen3-VL 在 NPU、GPU 和 CPU 上的支持 而专题报道。我们在 GGUF 格式支持上领先 Ollama 和 llama.cpp 三周,并且至今仍是唯一支持其在 NPU 上运行的框架。
- IBM 在其官方博客中将我们的 NexaML 推理引擎与 vLLM、llama.cpp 和 MLX 并列提及,并认可了我们对 Day-0 Granite 4.0 的支持。
- 谷歌 (Google) 因我们提供 EmbeddingGemma 的 Day-0 NPU 支持 而专题报道。
- AMD 因我们 在 AMD NPU 上实现 SDXL-turbo 图像生成 而专题报道。
- 英伟达 (NVIDIA) 在其官方博客中介绍了由 NexaSDK 驱动的热门本地AI应用 Hyperlink。
- 微软 (Microsoft) 在 Microsoft Ignite 2025 大会上将我们作为官方合作伙伴进行展示。
- 英特尔 (Intel) 因我们在 NexaSDK 中提供 Intel NPU 支持 而专题报道。
🚀 快速开始
您可以根据目标平台选择最合适的入门方式:
| 平台 / Platform | 链接 / Links |
|---|---|
| 🖥️ CLI | 快速开始 | 文档 |
| 🐍 Python | 快速开始 | 文档 |
| 🤖 Android | 快速开始 | 文档 |
| 🐳 Linux Docker | 快速开始 | 文档 |
| 🍎 iOS | 快速开始 | 文档 |
🖥️ CLI
下载:
| Windows | macOS | Linux |
|---|---|---|
| arm64 (Qualcomm NPU) | arm64 (Apple Silicon) | arm64 |
| x64 (Intel/AMD NPU) | x64 | x64 |
运行您的第一个模型:
# Chat with Qwen3
nexa infer ggml-org/Qwen3-1.7B-GGUF
# Multimodal: drag images into the CLI
nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF
# NPU (Windows arm64 with Snapdragon X Elite)
nexa infer NexaAI/OmniNeural-4B
🐍 Python SDK
通过 pip 安装 SDK:
pip install nexaai
使用 Python 代码加载并运行模型:
from nexaai import LLM, GenerationConfig, ModelConfig, LlmChatMessage
llm = LLM.from_(model="NexaAI/Qwen3-0.6B-GGUF", config=ModelConfig())
conversation = [
LlmChatMessage(role="user", content="Hello, tell me a joke")
]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=100)):
print(token, end="", flush=True)
- 支持的模型类型: LLM、多模态、ASR、OCR、Rerank、目标检测、图像生成、Embedding
- 支持的格式: GGUF、MLX、NEXA
- NPU 模型: 模型中心
- 📖 Python SDK 文档
🤖 Android SDK
在您的 app/AndroidManifest.xml 中添加:
<application android:extractNativeLibs="true">
在您的 build.gradle.kts 中添加依赖:
dependencies {
implementation("ai.nexa:core:0.0.19")
}
初始化 SDK 并运行模型:
// Initialize SDK
NexaSdk.getInstance().init(this)
// Load and run model
VlmWrapper.builder()
.vlmCreateInput(VlmCreateInput(
model_name = "omni-neural",
model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
plugin_id = "npu",
config = ModelConfig()
))
.build()
.onSuccess { vlm ->
vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
}
- 系统要求: Android minSdk 27,Qualcomm Snapdragon 8 Gen 4 芯片
- 支持的模型类型: LLM、多模态、ASR、OCR、Rerank、Embedding
- NPU 模型: 支持的模型
- 📖 Android SDK 文档
🐳 Linux Docker
拉取 Docker 镜像并运行:
docker pull nexa4ai/nexasdk:latest
export NEXA_TOKEN="your_token_here"
docker run --rm -it --privileged \
-e NEXA_TOKEN \
nexa4ai/nexasdk:latest infer NexaAI/Granite-4.0-h-350M-NPU
- 系统要求: Qualcomm Dragonwing IQ9,ARM64 系统
- 支持的模型类型: LLM、VLM、ASR、CV、Rerank、Embedding
- NPU 模型: 支持的模型
- 📖 Linux Docker 文档
🍎 iOS SDK
下载 NexaSdk.xcframework 并将其添加到您的 Xcode 项目中。
使用 Swift 代码示例(如语音识别):
import NexaSdk
// Example: Speech Recognition
let asr = try Asr(plugin: .ane)
try await asr.load(from: modelURL)
let result = try await asr.transcribe(options: .init(audioPath: "audio.wav"))
print(result.asrResult.transcript)
- 系统要求: iOS 17.0+ / macOS 15.0+, Swift 5.9+
- 支持的模型类型: LLM、
常见问题(FAQ)
NexaSDK支持哪些硬件平台和操作系统?
NexaSDK支持在NPU、GPU和CPU上运行,并跨Android、Windows、Linux、macOS和iOS等多个平台,实现高性能本地推理。
NexaSDK在模型支持方面有什么优势?
NexaSDK能领先业界数周甚至数月支持最新多模态AI模型,如Qwen3-VL、DeepSeek-OCR等,并提供Day-0支持,是唯一支持部分模型在NPU上运行的框架。
如何开始使用NexaSDK进行开发?
开发者可通过CLI、Python SDK、Android SDK、iOS SDK或Linux Docker等多种方式快速开始,只需几行代码即可构建高性能、低功耗的端侧AI应用。
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



