什么是RLHF？2024年强化学习从人类反馈技术详解 | Geoz.com.cn：原理解析、实操步骤、常见问题与优化建议

Introduction

通过人类反馈进行强化学习（RLHF）是一种机器学习技术，它首先通过人类的直接反馈训练一个“奖励模型”，然后利用强化学习来优化人工智能代理的性能。

也被称为基于人类偏好的强化学习，RLHF 特别适用于目标复杂、定义不清或难以明确指定的任务。例如，虽然用算法以数学术语定义什么是“有趣”可能不切实际或不可能，但人类评估大型语言模型（LLM）生成的笑话却很容易。这种人类反馈可以被提炼成奖励函数，用于提升LLM的写笑话能力。

OpenAI 的 Paul F. Christiano 在 2017 年的一篇论文中详细阐述了 RLHF 早期的成功应用，该论文由 OpenAI 和 DeepMind 的其他研究人员共同撰写，其中 RLHF 被用于训练 AI 模型执行复杂任务，如玩 Atari 游戏和模拟机器人运动。¹ 在这些创新的基础上，电子游戏继续成为 RLHF 的重要试验场。2019 年，使用 RLHF 训练的 AI 系统，如 OpenAI Five 和 DeepMind 的 AlphaStar，分别在更为复杂的 Dota 2² 和 StarCraft³ 游戏中击败了顶尖的人类职业选手。

也许最重要的是，OpenAI 2017 年的论文表明，他们的方法，特别是引入了用于更新模型权重的近端策略优化（PPO）算法，极大地降低了收集和提取必要人类反馈的成本。这为 RLHF 与自然语言处理（NLP）领域的最终融合铺平了道路，有助于将 LLM 和 RLHF 共同推向 AI 研究的前沿。

2019 年，OpenAI 首次发布了详细说明如何在语言模型上使用 RLHF 的代码⁴，随后在 2022 年初发布了经过 RLHF 训练的 InstructGPT。⁵ 这是在 GPT-3 和后来驱动 ChatGPT 发布的 GPT-3.5 Turbo 之间架起桥梁的关键一步。

此后，RLHF 已被 OpenAI、DeepMind、Google⁶ 和 Anthropic⁷ 用于训练最先进的大型语言模型。

Key Concepts in Reinforcement Learning

从概念上讲，强化学习（RL）旨在模仿人类的学习方式：AI 代理通过试错进行整体学习，并有强烈的成功激励。

为了将这一策略付诸实践，强化学习的数学框架由以下组成部分构成：

State Space

状态空间包含了 AI 代理可以做出决策的当前任务相关的所有可用信息，包括已知和未知变量。状态空间通常随着代理做出的每个决策而改变。

Action Space

动作空间包含 AI 代理可以做出的所有可能决策。例如，在棋盘游戏的背景下，动作空间是离散且定义明确的，由 AI 玩家在给定时刻所有合法的走法组成。在文本生成的背景下，动作空间是巨大的，包含了 LLM 可用的全部标记“词汇表”。

Reward Function

奖励是衡量成功或进展的指标，为 AI 代理提供激励。在像棋盘游戏这样的情况下，定义成功（在这种情况下是赢得游戏）是客观且直接的。然而，当“成功”的定义模糊时，设计一个有效的奖励函数可能是一个重大挑战。在数学框架中，这种反馈必须被转换为奖励信号——即正（或负）反馈的标量量化。

Constraints

奖励函数可以通过对被认为不利于当前任务的行为施加惩罚（负奖励）来补充。例如，企业可能希望禁止聊天机器人使用亵渎语言或其他粗俗语言，或者自动驾驶模型可能因碰撞或偏离车道而受到惩罚。

Policy

策略本质上是驱动 AI 代理行为的策略或“思维过程”。用一般的数学术语描述，策略（'π'）是一个以状态（'s'）为输入并返回动作（'a'）的函数：π(s)→a。

RL 算法的目标是优化策略以获得最大奖励。在深度强化学习中，策略由一个神经网络表示，该网络在学习过程中根据奖励函数不断更新。AI 代理像人类一样从经验中学习。

虽然传统 RL 在许多领域取得了令人印象深刻的实际成果，但对于难以清晰定义成功的复杂任务，它可能难以构建有效的奖励函数。RLHF 的一个关键优势在于它能够通过使用积极的人类反馈，而不是正式定义的目标，来捕捉细微差别和主观性。

RLHF for Enhancing Large Language Models

RLHF 最突出的应用之一是提高 LLM 的相关性、准确性和伦理对齐性，特别是用作聊天机器人时。

与所有生成式 AI 模型一样，LLM 的目标是复制其训练数据的概率分布。尽管最近的进展使得 LLM 被用作聊天机器人的引擎或通用 AI 的推理引擎，但这些语言模型只是简单地用于预测由提示启动的给定序列中的下一个单词，使用的是从其训练数据中学到的模式。从根本上说，这些模型并非真正在回应提示；它们是在向提示追加文本。

如果没有高度具体的指令，语言模型理解用户意图的能力很有限。提示工程可以帮助为 LLM 提供必要的上下文，使其能够根据用户需求进行响应，但要求与聊天机器人的每次对话都进行提示工程是不现实的。

此外，虽然现成的 LLM 已经通过传统方式训练以产生语法连贯的输出，但训练 LLM 产生“好”的输出是一个更难以捉摸的问题。像真实性、有用性、创造性，甚至使代码片段可执行这样的概念，远比词义和语言结构更依赖于上下文。

为了创建更好的人类交流语言模型，数据科学家转向了基于人类反馈的强化学习。经过 RLHF 增强的 InstructGPT 模型在性能上显著优于其前身 GPT-3，特别是在遵循指令、保持事实准确性和防止模型幻觉方面。⁵ 同样，OpenAI 随 GPT-4 发布的研究表明，RLHF 将对抗性提示的准确性提高了一倍。⁸

RLHF 的一个优势在于，它可以替代更大训练数据集的价值，从而能够开发出数据效率更高的模型。OpenAI 指出，其标注者更喜欢 13 亿参数的 InstructGPT 版本的输出，而不是 1750 亿参数的 GPT-3 版本的输出。⁵

The RLHF Training Process for LLMs

使用 RLHF 训练 LLM 的过程通常包括四个阶段：

1. Pre-trained Model

RLHF 通常不是作为一种端到端的学习方法，而是用于微调和优化一个预训练模型。例如，InstructGPT 使用 RLHF 来改进现有的 GPT（生成式预训练 Transformer）模型。OpenAI 在发布 InstructGPT 时表示，这个过程可以理解为“解锁 GPT-3 已经具备但仅通过提示工程难以激发的能力”。⁵

预训练仍然是 RLHF 中最耗费资源的阶段。OpenAI 指出，InstructGPT 的 RLHF 训练过程所需的计算量和数据量不到 GPT-3 预训练所需资源的 2%。

2. Supervised Fine-Tuning (SFT)

在开始显式的强化学习之前，使用监督微调（SFT）来塑造模型，使其以用户期望的格式生成响应。

如前所述，LLM 预训练过程通过预测用户提示中序列的下一个单词来优化模型以完成序列，这复制了模型预训练期间学到的语言模式。有时，LLM 可能无法以用户期望的方式完成序列。例如，如果用户请求“告诉我如何写简历”，LLM 可能会回答“使用 Microsoft Word”。虽然这是完成句子的有效方式，但它与用户的目标不符。

因此，SFT 使用监督学习来训练模型对各种提示做出适当响应。人类专家以（提示，响应）的格式创建标注示例，以演示如何响应各种用例（如问答、摘要或翻译）的提示。

这种演示数据很强大，但生成起来耗时且成本高。DeepMind 引入了一种方法，基于“通用书面对话格式（‘采访记录’风格）”应用过滤启发式方法，从 MassiveWeb 数据集中分离出合适的提示/响应示例对，而不是从头创建新的定制示例。⁹

3. Reward Model Training

为了让人类反馈在强化学习中驱动奖励函数，需要一个奖励模型，能够将人类偏好转化为可量化的奖励信号。设计一个有效的奖励模型是 RLHF 中的关键步骤，因为不存在能够捕捉主观人类价值的简单数学或逻辑公式。

此阶段的主要目标是为奖励模型提供充足的训练数据，这些数据由人类评估者的直接反馈组成，使其学会模仿人类偏好如何为不同类型的模型响应分配奖励。这使得训练可以在没有持续人类参与的情况下离线继续进行。

奖励模型必须以一段文本作为输入，并输出一个标量奖励值。该值以数字形式预测人类用户会为该文本分配的奖励（或惩罚）量。输出为标量对于将奖励模型的输出与 RL 算法的其他组件集成至关重要。

虽然最简单直观的方法可能是让人类评分者以标量格式表达他们对每个模型响应的意见——例如，在 1（最差）到 10（最好）的尺度上对响应进行评分——但让所有人类评分者就给定分数的相对价值达成一致是极其困难的，更不用说就真空状态下什么是“好”或“坏”的响应达成一致了。因此，直接应用标量评分可能噪声大且难以校准。

2024年RLHF技术详解：强化学习人类反馈指南

AIAI Summary (BLUF)

Introduction

Key Concepts in Reinforcement Learning

State Space

Action Space

Reward Function

Constraints

Policy

RLHF for Enhancing Large Language Models

The RLHF Training Process for LLMs

1. Pre-trained Model

2. Supervised Fine-Tuning (SFT)

3. Reward Model Training

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择

AIAI Summary (BLUF)

Introduction

Key Concepts in Reinforcement Learning

State Space

Action Space

Reward Function

Constraints

Policy

RLHF for Enhancing Large Language Models

The RLHF Training Process for LLMs

1. Pre-trained Model

2. Supervised Fine-Tuning (SFT)

3. Reward Model Training

相关文章

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择