GEO

Qwen3重磅发布:开源大模型新标杆,双思考模式引领AI新浪潮

2026/1/24
Qwen3重磅发布:开源大模型新标杆,双思考模式引领AI新浪潮

AIAI Summary (BLUF)

Qwen3是最新开源大语言模型系列,采用双思考模式(推理与快速响应),支持119种语言,并具备增强的智能体能力。该系列涵盖密集与MoE架构,模型参数规模从0.6B到235B不等,均基于Apache 2.0许可证开源发布。

今天,我们正式发布 Qwen3,这是 Qwen 系列大型语言模型的最新一代。这一新模型家族在性能、效率和可访问性方面都实现了突破,为全球的研究人员、开发者和组织提供了一套极具吸引力的选择。

Key Highlights and Competitive Performance

我们的旗舰模型 Qwen3-235B-A22B 在一系列基准测试中,包括代码生成、数学推理和通用任务,都展现出了极具竞争力的结果。它与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等其他顶级模型表现相当。

效率是 Qwen3 的核心主题之一。较小的混合专家模型 Qwen3-30B-A3B 在性能上超越了其前身 QwQ-32B,而激活的参数数量仅为后者的 10%。更令人瞩目的是,即便是紧凑型的 Qwen3-4B 模型,其性能也能与规模大得多的 Qwen2.5-72B-Instruct 相匹敌。

Open-Source Commitment and Model Family

秉承我们对开放研究的承诺,我们在宽松的 Apache 2.0 许可下开源了两个 MoE 模型的权重:

  • Qwen3-235B-A22B:一个大规模模型,拥有超过 2350 亿总参数和 220 亿激活参数。
  • Qwen3-30B-A3B:一个紧凑型 MoE 模型,拥有约 300 亿总参数和 30 亿激活参数。

此外,我们还开源了六个稠密模型,为不同的计算需求提供了全面的选择:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B

Model Specifications

Dense Models

Model Layers Heads (Q / KV) Tie Embedding Context Length
Qwen3-0.6B 28 16 / 8 Yes 32K
Qwen3-1.7B 28 16 / 8 Yes 32K
Qwen3-4B 36 32 / 8 Yes 32K
Qwen3-8B 36 32 / 8 No 128K
Qwen3-14B 40 40 / 8 No 128K
Qwen3-32B 64 64 / 8 No 128K

MoE Models

Model Layers Heads (Q / KV) # Experts (Total / Activated) Context Length
Qwen3-30B-A3B 48 32 / 4 128 / 8 128K
Qwen3-235B-A22B 94 64 / 4 128 / 8 128K

Core Innovations of Qwen3

1. Dual-Thinking Modes for Flexible Reasoning

Qwen3 引入了一种新颖的、用户可控的双模式推理架构。

思考模式:在此模式下,模型会进行逐步推理,在给出最终答案前“出声思考”。这非常适合需要深入分析和逻辑推导的复杂问题。
非思考模式:此模式提供快速、近乎即时的响应,针对那些速度优先于推理深度的任务(如简单问答或信息检索)进行了优化。

这种灵活性使用户能够根据手头的任务动态分配“思考预算”。复杂的查询可以通过扩展的推理链来解决,而简单的查询则可以直接获得答案,无需不必要的延迟,从而在成本效益和输出质量之间实现更优的平衡。

2. Extensive Multilingual Capabilities

Qwen3 支持多达 119 种语言和方言,涵盖印欧语系、汉藏语系、亚非语系、南岛语系、德拉威语系、突厥语系、壮侗语系、乌拉尔语系、南亚语系以及其他如日语和韩语等主要语系。这种广泛的多语言能力为国际应用开辟了新的可能性,并使全球用户都能接触到先进的人工智能。

3. Enhanced Agent and Tool-Use Abilities

我们显著优化了 Qwen3 作为自主智能体的能力。这些模型在工具调用熟练度、环境交互以及对模型上下文协议的支持方面都有所提升。这使得 Qwen3 特别擅长需要规划、执行多步操作以及利用外部工具和 API 的任务。

Technical Deep Dive: Training Methodology

Pre-training at Scale

Qwen3 性能的基础是其庞大且精心策划的预训练数据集。Qwen2.5 是在 18 万亿个 token 上训练的,而 Qwen3 的数据集几乎翻了一番,达到约 36 万亿个 token,涵盖了所有 119 种支持的语言。

  • Web-scale data collection.

为了构建这个语料库,我们采用了多源策略:

  • 网络规模的数据收集。
  • 使用 Qwen2.5-VL 从 PDF 文档中提取高质量文本,并由 Qwen2.5 进行质量精炼。
  • 使用领域专家模型生成合成数据,以增加数学和代码内容,包括教科书、问答对和代码片段。

预训练分三个战略阶段进行:

  1. 阶段 S1:在超过 30T token、4K 上下文长度上进行基础训练,以建立基本的语言技能。
  2. 阶段 S2:在额外的 5T token 上进行训练,使用在 STEM、编程和推理任务方面得到增强的改进数据集。
  3. 阶段 S3:使用高质量的长上下文数据将上下文长度扩展到 32K。

结果令人瞩目:Qwen3 稠密基础模型的性能与规模更大的 Qwen2.5 对应模型相当,在 STEM、编码和推理领域甚至表现更优。MoE 基础模型仅激活约 10% 的参数就能达到 Qwen2.5 稠密模型的性能,从而在训练和推理成本上实现了大幅节省。

Post-Training for Instruction Following and Reasoning

为了开发多功能、经过指令调优的模型,我们实施了一个复杂的四阶段后训练流程,旨在无缝集成思考和非思考能力:

长思维链冷启动:在涵盖数学、代码、逻辑和 STEM 的多样化长思维链数据上进行监督微调,以灌输基本的推理技能。
长思维链强化学习:进行大规模强化学习,使用基于规则的奖励来增强模型的探索和深度推理能力。
思维模式融合:在思维链数据和标准指令微调数据的混合数据集上进行微调,将非思考模式整合到具备思考能力的模型中。
通用强化学习:在 20 多个通用领域进行最终的强化学习微调,以完善通用能力并纠正不良行为。

(由于技术内容广泛,本文现在将转向实践指导。以下部分介绍如何开始使用 Qwen3。)

Getting Started with Qwen3

经过后训练的模型及其基础版本现已在 Hugging FaceModelScopeKaggle 等平台上开放使用。

Quick Inference Example

以下是一个使用 Hugging Face Transformers 运行 Qwen3-30B-A3B 的标准示例,展示了思考模式:

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# Load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# Prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# Conduct text generation
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# Parse thinking content and final answer
try:
    # Find the index of the closing think tag (token_id 151668 for `</think>`)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("Thinking content:", thinking_content)
print("Final answer:", content)

要禁用思考模式以获得更快的响应,只需在 apply_chat_template 调用中设置 enable_thinking=False

Deployment Recommendations

  • SGLang (>=0.4.6.post1): python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3
  • vLLM (>=0.8.4): vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

省略 --reasoning-parser 参数即可在非思考模式下运行模型。

对于本地实验和开发,优秀的选择包括 Ollama (ollama run qwen3:30b-a3b)、LM Studiollama.cppKTransformers

The Road Ahead

Qwen3 是我们迈向通用人工智能旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模、集成灵活的推理模式以及扩展多语言支持,我们创建了一个能力更强、更易访问的模型家族。

展望未来,我们计划从多个维度提升我们的模型:优化架构和训练方法、扩展数据和模型规模、延长上下文长度、拓宽模态范围,并利用环境反馈推进强化学习以实现长周期推理。我们相信,该领域正从训练模型的时代过渡到训练智能体的时代,我们的下一代迭代将致力于为工作和生活带来有意义的进步。

我们邀请全球社区共同探索 Qwen3。您可以在我们的 Qwen Chat 网页界面或移动应用程序中试用模型,下载权重,并构建下一代人工智能应用。我们期待看到您的创造。

Roger深圳
本文由 Roger 审核,最后更新于 2026年7月2日
联系编辑 →
← 返回文章列表
分享到:微博

版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。

文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。

若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。