什么是RLHF？基于人类反馈的强化学习技术详解 | Geoz.com.cn：原理解析、实操步骤、常见问题与优化建议

Introduction

基于人类反馈的强化学习（RLHF）是一种机器学习技术，它利用人类的直接反馈来训练一个“奖励模型”，进而用于优化AI智能体的性能。

RLHF，也被称为基于人类偏好的强化学习，特别适用于那些目标复杂、定义不明确或难以明确指定的任务。例如，用算法或数学术语来定义“有趣”是不现实的（甚至是不可能的），但人类评估一个由大语言模型（LLM）生成的笑话却很容易。这种人类反馈可以被提炼成一个奖励函数，用于提升LLM编写笑话的能力。

在2017年的一篇开创性论文中，OpenAI的Paul F. Christiano与来自OpenAI和DeepMind的其他研究人员共同探讨了RLHF在训练AI模型执行复杂任务（如玩Atari游戏和机器人运动模拟）方面取得的成功。基于这一突破，电子游戏此后一直是RLHF的关键试验场。到2019年，使用RLHF训练的AI系统已经在更复杂的游戏中击败了顶尖的人类职业玩家，例如OpenAI Five在Dota 2中获胜，以及DeepMind的AlphaStar在《星际争霸》中获胜。

也许最重要的是，2017年OpenAI的论文指出，其方法论，特别是用于更新模型权重的近端策略优化（PPO）算法的引入，显著降低了收集和提炼所需人类反馈的成本。这为RLHF最终与自然语言处理（NLP）领域的融合铺平了道路，由此产生的进展帮助将LLM和RLHF都推向了AI研究的前沿。

详细说明在语言模型上使用RLHF的代码由OpenAI于2019年首次发布。随后在2022年初，发布了使用RLHF训练的InstructGPT——这是在GPT-3和GPT-3.5 Turbo之间架起桥梁的关键一步，也是推动ChatGPT发布的模型。

自此以后，RLHF已被用于训练来自OpenAI、DeepMind、Google和Anthropic的最先进的大语言模型。

Core Concepts of Reinforcement Learning

从概念上讲，强化学习（RL）旨在模仿人类的学习方式。AI智能体受到成功这一强烈动机的驱动，并通过试错进行整体性学习。

为了将这一策略付诸实践，强化学习的数学框架由以下组成部分构成：

State Space

状态空间是与当前任务相关的所有可用信息，包括已知和未知的变量，涉及AI智能体可能做出的决策。状态空间通常随着智能体每次做出决策而改变。

Action Space

行动空间包含AI智能体可以做出的所有可能决策。例如，在棋盘游戏中，行动空间是离散且明确定义的，由AI玩家在给定时刻可用的所有合法走法组成。在文本生成中，行动空间是巨大的，由LLM可用的整个标记“词汇表”组成。

Reward Function

奖励是激励AI智能体的成功或进展的度量。在像棋盘游戏这样的情况下，定义成功（在这种情况下是赢得游戏）是客观且直接的。然而，当“成功”的定义模糊不清时，设计一个有效的奖励函数可能是一个重大挑战。在数学框架中，这种反馈必须被转换为奖励信号——即正（或负）反馈的标量量化。

Constraints

奖励函数可以通过负奖励——即对被认为不利于当前任务的行为进行惩罚——来补充。例如，您可能希望禁止公司的聊天机器人使用亵渎性语言或其他粗俗语言。对于自动驾驶模型，您可以惩罚碰撞或车道偏离。

Policy

策略本质上是驱动AI智能体行为的策略或“思维过程”。用简单的数学术语来说，策略（表示为“π”）是一个以状态（“s”）为输入并返回行动（“a”）的函数：π(s) → a。

RL算法的目标是优化策略以产生最大的奖励。在深度强化学习中，策略被表示为一个神经网络，并在学习过程中根据奖励函数不断更新。AI智能体像人类一样从经验中学习。

虽然传统RL在许多现实世界领域取得了显著成果，但对于那些难以明确定义成功的复杂任务，构建有效的奖励函数可能很困难。RLHF的主要优势在于它能够通过积极的人类反馈来捕捉细微差别和主观性，而不是依赖正式定义的目标。

RLHF for Enhancing Large Language Models

RLHF最突出的用途之一是增强大语言模型的相关性、准确性和伦理性，特别是当它们被用作聊天机器人时。

与所有生成式AI模型一样，大语言模型的目标是复制其训练数据的概率分布。尽管最近的进展使其被用作聊天机器人引擎或通用AI推理引擎，但这些语言模型仅仅是使用从训练数据中学到的模式来预测由提示启动的给定序列中的下一个词。从根本上说，这类模型并非真正在回应提示；它们只是在向提示添加文本。

如果没有非常具体的指令，语言模型几乎无法理解用户的意图。提示工程有助于提供LLM所需的情境，使其能够以符合用户需求的方式回应，但要求在与聊天机器人的每次交互中都进行提示工程是不现实的。

此外，现成的大语言模型通过传统方式进行训练以产生语法连贯的输出，但训练LLM产生“良好”输出是一个充满未知的领域。诸如真实性、有用性、创造性，甚至是什么使代码片段可执行等概念，远比词义或语言结构更依赖于上下文。

为了使语言模型适合与人类互动，数据科学家转向了基于人类反馈的强化学习。通过RLHF增强的InstructGPT模型在遵循指令、保持事实准确性以及避免模型幻觉方面显著优于GPT-3之前的模型。同样，OpenAI在发布GPT-4时发布的研究报告称，RLHF将对抗性问题的准确性提高了一倍。

RLHF的好处可能超过更大训练数据集的价值，从而实现更高效的数据模型开发：OpenAI的标注者表示，与1.75B参数的GPT-3.5版本输出相比，他们更喜欢1.3B参数的InstructGPT版本的输出。

The RLHF Training Pipeline

使用RLHF训练大语言模型通常分为四个阶段：

Pre-trained Model (预训练模型)
Policy Optimization (策略优化)

Phase 1: Pre-trained Model

RLHF通常不被用作端到端的训练方法，而是用于微调和优化预训练模型。例如，InstructGPT使用RLHF来增强现有的GPT（生成式预训练变换器）模型。在其发布公告中，OpenAI表示：“理解这个过程的一种方式是‘解锁’GPT-3已经具备但仅通过提示工程难以激发的能力。”预训练仍然是RLHF中最耗费资源的阶段。OpenAI指出，InstructGPT的RLHF训练过程所需的计算量和数据不到GPT-3预训练所需的2%。

Phase 2: Supervised Fine-Tuning

在启动显式强化学习之前，使用监督式微调（SFT）来准备模型，使其以用户期望的格式生成响应。如前所述，LLM的预学习过程通过预测从用户提示开始的序列中的下一个词来优化模型以完成文本，这复制了模型在预训练期间学到的语言模式。根据用户提出请求的方式，LLM可能不会按照用户的期望完成序列。例如，对于提示“教我如何制作简历”，LLM可能会回答“使用Microsoft Word。”这个句子是完整的，但它不符合用户的目标。因此，在SFT中，使用监督学习来训练模型对各种类型的提示做出适当响应。人类专家按照（提示，响应）的格式创建带标签的示例，展示如何针对问答、摘要、翻译等各种用例的提示进行响应。这些演示数据非常有效，但生成起来耗时且昂贵。DeepMind引入了一种方法，应用“基于通用书面对话格式（例如，采访记录）过滤的启发式教学方法”，从MassiveWeb数据集中分离出合适的提示/响应示例对，而不是创建定制的新示例。

Phase 3: Reward Model Training

为了让人类反馈增强强化学习中的奖励函数，需要一个奖励模型来将人类偏好转化为数值化的奖励信号。由于没有数学或逻辑公式来正确定义人类的主观价值，设计一个有效的奖励模型是RLHF中的关键一步。此阶段的主要目标是为奖励模型提供足够的训练数据，这些数据由人类评估者的直接反馈组成，使其能够学习模仿人类偏好如何为不同类型的模型响应分配奖励。这使得训练可以在没有人类干预的情况下离线继续进行。奖励模型必须接收一段文本，并输出一个标量奖励值，该值在数值上预测人类用户会给予该文本多少奖励（或惩罚）。输出为标量值这一点对于奖励模型的输出与RL算法的其他组件集成至关重要。让人类评估者以标量形式简单地表达他们对每个模型响应的意见，例如在1（最差）到10（最好）的尺度上进行评分，似乎是最直观的。然而，很难在所有人类评估者之间保持评分的一致性，而且人类评估者无法单独校准对他们而言什么是“好”或“坏”的响应。这可能导致直接标量评分充满噪声且难以校准。相反，评估系统通常建立在人类对不同模型输出的反馈比较之上。一种常见的方法是让用户直接比较两个相似的文本序列，例如两个不同语言模型对同一提示的响应输出，然后使用类似Elo评分系统的方法为每个生成的文本片段生成一个聚合的相对排名。在更简单的系统中，用户可能对每个输出进行

RLHF技术详解：2024年基于人类反馈的强化学习指南

AIAI Summary (BLUF)

Introduction

Core Concepts of Reinforcement Learning

State Space

Action Space

Reward Function

Constraints

Policy

RLHF for Enhancing Large Language Models

The RLHF Training Pipeline

Phase 1: Pre-trained Model

Phase 2: Supervised Fine-Tuning

Phase 3: Reward Model Training

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择

AIAI Summary (BLUF)

Introduction

Core Concepts of Reinforcement Learning

State Space

Action Space

Reward Function

Constraints

Policy

RLHF for Enhancing Large Language Models

The RLHF Training Pipeline

Phase 1: Pre-trained Model

Phase 2: Supervised Fine-Tuning

Phase 3: Reward Model Training

相关文章

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择