Qwen3重磅发布：开源大模型新标杆，双思考模式引领AI新浪潮：原理解析、实操步骤、常见问题与优化建议

今天，我们正式发布 Qwen3，这是 Qwen 系列大型语言模型的最新一代。这一新模型家族在性能、效率和可访问性方面都实现了突破，为全球的研究人员、开发者和组织提供了一套极具吸引力的选择。

Key Highlights and Competitive Performance

我们的旗舰模型 Qwen3-235B-A22B 在一系列基准测试中，包括代码生成、数学推理和通用任务，都展现出了极具竞争力的结果。它与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等其他顶级模型表现相当。

效率是 Qwen3 的核心主题之一。较小的混合专家模型 Qwen3-30B-A3B 在性能上超越了其前身 QwQ-32B，而激活的参数数量仅为后者的 10%。更令人瞩目的是，即便是紧凑型的 Qwen3-4B 模型，其性能也能与规模大得多的 Qwen2.5-72B-Instruct 相匹敌。

Open-Source Commitment and Model Family

秉承我们对开放研究的承诺，我们在宽松的 Apache 2.0 许可下开源了两个 MoE 模型的权重：

Qwen3-235B-A22B：一个大规模模型，拥有超过 2350 亿总参数和 220 亿激活参数。
Qwen3-30B-A3B：一个紧凑型 MoE 模型，拥有约 300 亿总参数和 30 亿激活参数。

此外，我们还开源了六个稠密模型，为不同的计算需求提供了全面的选择：Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。

Model Specifications

Dense Models


Model	Layers	Heads (Q / KV)	Tie Embedding	Context Length
Qwen3-0.6B	28	16 / 8	Yes	32K
Qwen3-1.7B	28	16 / 8	Yes	32K
Qwen3-4B	36	32 / 8	Yes	32K
Qwen3-8B	36	32 / 8	No	128K
Qwen3-14B	40	40 / 8	No	128K
Qwen3-32B	64	64 / 8	No	128K

MoE Models


Model	Layers	Heads (Q / KV)	# Experts (Total / Activated)	Context Length
Qwen3-30B-A3B	48	32 / 4	128 / 8	128K
Qwen3-235B-A22B	94	64 / 4	128 / 8	128K

Core Innovations of Qwen3

1. Dual-Thinking Modes for Flexible Reasoning

Qwen3 引入了一种新颖的、用户可控的双模式推理架构。

思考模式：在此模式下，模型会进行逐步推理，在给出最终答案前“出声思考”。这非常适合需要深入分析和逻辑推导的复杂问题。
非思考模式：此模式提供快速、近乎即时的响应，针对那些速度优先于推理深度的任务（如简单问答或信息检索）进行了优化。

这种灵活性使用户能够根据手头的任务动态分配“思考预算”。复杂的查询可以通过扩展的推理链来解决，而简单的查询则可以直接获得答案，无需不必要的延迟，从而在成本效益和输出质量之间实现更优的平衡。

2. Extensive Multilingual Capabilities

Qwen3 支持多达 119 种语言和方言，涵盖印欧语系、汉藏语系、亚非语系、南岛语系、德拉威语系、突厥语系、壮侗语系、乌拉尔语系、南亚语系以及其他如日语和韩语等主要语系。这种广泛的多语言能力为国际应用开辟了新的可能性，并使全球用户都能接触到先进的人工智能。

3. Enhanced Agent and Tool-Use Abilities

我们显著优化了 Qwen3 作为自主智能体的能力。这些模型在工具调用熟练度、环境交互以及对模型上下文协议的支持方面都有所提升。这使得 Qwen3 特别擅长需要规划、执行多步操作以及利用外部工具和 API 的任务。

Technical Deep Dive: Training Methodology

Pre-training at Scale

Qwen3 性能的基础是其庞大且精心策划的预训练数据集。Qwen2.5 是在 18 万亿个 token 上训练的，而 Qwen3 的数据集几乎翻了一番，达到约 36 万亿个 token，涵盖了所有 119 种支持的语言。

Web-scale data collection.

为了构建这个语料库，我们采用了多源策略：

网络规模的数据收集。
使用 Qwen2.5-VL 从 PDF 文档中提取高质量文本，并由 Qwen2.5 进行质量精炼。
使用领域专家模型生成合成数据，以增加数学和代码内容，包括教科书、问答对和代码片段。

预训练分三个战略阶段进行：

阶段 S1：在超过 30T token、4K 上下文长度上进行基础训练，以建立基本的语言技能。
阶段 S2：在额外的 5T token 上进行训练，使用在 STEM、编程和推理任务方面得到增强的改进数据集。
阶段 S3：使用高质量的长上下文数据将上下文长度扩展到 32K。

结果令人瞩目：Qwen3 稠密基础模型的性能与规模更大的 Qwen2.5 对应模型相当，在 STEM、编码和推理领域甚至表现更优。MoE 基础模型仅激活约 10% 的参数就能达到 Qwen2.5 稠密模型的性能，从而在训练和推理成本上实现了大幅节省。

Post-Training for Instruction Following and Reasoning

为了开发多功能、经过指令调优的模型，我们实施了一个复杂的四阶段后训练流程，旨在无缝集成思考和非思考能力：

长思维链冷启动：在涵盖数学、代码、逻辑和 STEM 的多样化长思维链数据上进行监督微调，以灌输基本的推理技能。
长思维链强化学习：进行大规模强化学习，使用基于规则的奖励来增强模型的探索和深度推理能力。
思维模式融合：在思维链数据和标准指令微调数据的混合数据集上进行微调，将非思考模式整合到具备思考能力的模型中。
通用强化学习：在 20 多个通用领域进行最终的强化学习微调，以完善通用能力并纠正不良行为。

（由于技术内容广泛，本文现在将转向实践指导。以下部分介绍如何开始使用 Qwen3。）

Getting Started with Qwen3

经过后训练的模型及其基础版本现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。

Quick Inference Example

以下是一个使用 Hugging Face Transformers 运行 Qwen3-30B-A3B 的标准示例，展示了思考模式：

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# Load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# Prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# Conduct text generation
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# Parse thinking content and final answer
try:
    # Find the index of the closing think tag (token_id 151668 for `</think>`)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("Thinking content:", thinking_content)
print("Final answer:", content)

要禁用思考模式以获得更快的响应，只需在 apply_chat_template 调用中设置 enable_thinking=False。

Deployment Recommendations

SGLang (>=0.4.6.post1): python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3
vLLM (>=0.8.4): vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

省略 --reasoning-parser 参数即可在非思考模式下运行模型。

对于本地实验和开发，优秀的选择包括 Ollama (ollama run qwen3:30b-a3b)、LM Studio、llama.cpp 和 KTransformers。

The Road Ahead

Qwen3 是我们迈向通用人工智能旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模、集成灵活的推理模式以及扩展多语言支持，我们创建了一个能力更强、更易访问的模型家族。

展望未来，我们计划从多个维度提升我们的模型：优化架构和训练方法、扩展数据和模型规模、延长上下文长度、拓宽模态范围，并利用环境反馈推进强化学习以实现长周期推理。我们相信，该领域正从训练模型的时代过渡到训练智能体的时代，我们的下一代迭代将致力于为工作和生活带来有意义的进步。

我们邀请全球社区共同探索 Qwen3。您可以在我们的 Qwen Chat 网页界面或移动应用程序中试用模型，下载权重，并构建下一代人工智能应用。我们期待看到您的创造。

Qwen3重磅发布：开源大模型新标杆，双思考模式引领AI新浪潮

AIAI Summary (BLUF)

Key Highlights and Competitive Performance

Open-Source Commitment and Model Family

Model Specifications

Core Innovations of Qwen3

1. Dual-Thinking Modes for Flexible Reasoning

2. Extensive Multilingual Capabilities

3. Enhanced Agent and Tool-Use Abilities

Technical Deep Dive: Training Methodology

Pre-training at Scale

Post-Training for Instruction Following and Reasoning

Getting Started with Qwen3

Quick Inference Example

Deployment Recommendations

The Road Ahead

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择

AIAI Summary (BLUF)

Key Highlights and Competitive Performance

Open-Source Commitment and Model Family

Model Specifications

Core Innovations of Qwen3

1. Dual-Thinking Modes for Flexible Reasoning

2. Extensive Multilingual Capabilities

3. Enhanced Agent and Tool-Use Abilities

Technical Deep Dive: Training Methodology

Pre-training at Scale

Post-Training for Instruction Following and Reasoning

Getting Started with Qwen3

Quick Inference Example

Deployment Recommendations

The Road Ahead

相关文章

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择