Qwen3-2507开源大模型前沿解析与2025部署指南
AIAI Summary (BLUF)
Qwen3-2507正式发布,在Qwen3基础上对指令模型与思考模型进行了重大升级,显著提升了推理能力、指令遵循、长上下文理解及多语言知识覆盖,推动开源大模型前沿发展。
Introduction
Qwen团队自豪地宣布其旗舰模型系列的最新迭代:Qwen3-2507。该版本在2025年4月发布的Qwen3的坚实基础上,对其“指令”(非思考)和“思考”两种变体均进行了重大增强。此次发布体现了团队持续推动开源模型在推理、指令遵循和长上下文理解等前沿领域的承诺,旨在让全球开发者和研究人员能够更便捷地使用最先进的AI能力。
Key Concepts: Qwen3-2507 Variants
Qwen3-Instruct-2507
Qwen3-Instruct-2507 是标准非思考对话模型的增强版本。它专为在各种任务中实现高效、高质量的交互而设计,无需显式的逐步推理过程。主要改进包括:
- 增强的通用能力:在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用方面取得显著进步。
- 更广泛的知识覆盖:在多语言的长尾知识覆盖上得到实质性改善。
- 改进的人类对齐:在主观和开放式任务中,与用户偏好的对齐度显著提高,从而生成更有帮助、更高质量的文本。
- 扩展的上下文:增强的256K令牌长上下文理解能力,可扩展至100万令牌。
Qwen3-Thinking-2507
Qwen3-Thinking-2507 是 Qwen3 思考模型的继任者,专为那些受益于显式思维链推理的复杂问题而设计。其特点包括:
- 最先进的推理能力:在需要深度推理的任务上性能显著提升,包括数学、科学、编码和学术基准测试,在开源思考模型中达到顶级水平。
- 增强的通用能力:在指令遵循、工具使用、文本生成和人类偏好对齐方面有显著改进。
- 支持推理的扩展上下文:在其推理框架内,仍保持增强的256K长上下文能力,并可扩展至100万令牌。
Model Availability and Sizes
Qwen3-2507 系列提供三种不同规模,以满足不同的计算需求和应用场景:
- 235B-A22B:一个庞大的混合专家模型,适用于需要最高性能的前沿研究和应用。
- 30B-A3B:一个平衡的混合专家模型,在资源需求更可控的情况下提供卓越性能。
- 4B:一个密集模型,针对效率和在资源受限的硬件上部署进行了优化。
所有模型均提供 Instruct-2507 和 Thinking-2507 两种变体。
Getting Started with Qwen3
Accessing the Models
您可以通过以下平台访问所有 Qwen3 模型,包括新的 Qwen3-2507 系列:
- 🤗 Hugging Face
- 🤖 ModelScope
搜索以Qwen3-开头的检查点或访问 Qwen3 合集。
Comprehensive Documentation
如需详细指导,请参阅双语的 Qwen3 文档。文档涵盖:
- 快速开始:基本用法和演示。
- 推理:使用 Transformers 进行推理的指南,包括批量推理和流式输出。
- 本地运行:使用 llama.cpp、Ollama 和 LM Studio 在 CPU/GPU 上本地运行 LLM 的说明。
- 部署:使用 SGLang、vLLM、TGI 等进行大规模推理的演示。
- 量化:使用 GPTQ/AWQ 量化 LLM 以及创建 GGUF 文件的实践。
- 训练:使用 Axolotl、LLaMA-Factory 等框架进行后训练(SFT、RLHF)的说明。
- 框架:在 RAG、智能体等应用框架中使用 Qwen。
Inference with Transformers
Using Qwen3-Instruct-2507
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-30B-A3B-Instruct-2507"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = "Give me a short introduction to large language model."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=16384)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
content = tokenizer.decode(output_ids, skip_special_tokens=True)
print("content:", content)
transformers 库是运行 Qwen3 模型的主要方法。请确保安装 transformers>=4.51.0。
使用 Qwen3-Instruct-2507
以下代码片段演示了如何使用 Qwen3-30B-A3B-Instruct-2507 模型。请注意,此变体仅在非思考模式下运行。
# ... 代码同上 ...
Using Qwen3-Thinking-2507
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-30B-A3B-Thinking-2507"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = "Give me a short introduction to large language model."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=32768)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# Parse thinking content (finds the position of the closing </think> tag)
try:
index = len(output_ids) - output_ids[::-1].index(151668) # 151668 is the token id for </think>
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("thinking content:", thinking_content) # Note: No opening <think> tag in output
print("content:", content)
Important Notes:
使用 Qwen3-Thinking-2507
此片段展示了如何使用 Qwen3-30B-A3B-Thinking-2507 模型。默认的聊天模板会自动触发思考。模型的输出包含一个 </think> 标签来表示推理过程的结束,需要对此进行解析。
# ... 代码同上 ...
重要提示:
Qwen3-Thinking-2507仅在思考模式下运行。- 模型输出仅包含结束标签
</think>。开始标签隐含在生成提示中。 - 对于复杂的推理任务,建议设置更大的
max_new_tokens(例如 32768),以适应更长的思维链。
(由于原始内容篇幅较长,本博客文章重点重写了引言、核心概念以及初始的“快速开始”和“推理”部分。原始内容后续还包含 ModelScope、llama.cpp、Ollama、SGLang/vLLM 等部署框架、工具使用、微调以及许可信息的详细指南,这些内容在官方的 Qwen3 文档中已有全面涵盖。)
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



