Skip to content

第5章:对齐技术(Alignment)

上一章讲了 LLM 的基础架构——Transformer 怎么工作、模型怎么扩展。但一个预训练好的 LLM 其实并不好用:它只会"续写文本",不会"听你的话"。你给它一个问题,它可能接着你的问题继续编问题,而不是回答它。

对齐技术解决的就是这个问题:怎么让一个"只会续写"的模型变成"能听懂指令、按要求行动、不做危险事情"的助手。

对 Agent 开发者来说,这一章不是学术背景——它直接影响你选模型、调行为、理解失败的方式。为什么你的 Agent 有时候会过度拒绝合理请求?为什么某些模型的工具调用格式遵从度更高?为什么模型有时候会"讨好你"而不是纠正你?这些都和对齐技术有关。

5.1 SFT(监督微调):从预训练模型到指令跟随

核心直觉

拿一堆"问题-回答"的示例喂给模型,让它学会"看到问题就回答"的行为模式,而不是继续写下一段互联网文本。

机制

SFT(Supervised Fine-Tuning)的做法很直接:在预训练模型基础上,用(指令,响应)对做额外训练,损失函数还是标准的下一个 token 预测。

训练数据的来源主要有三类:

数据来源例子特点
模板化转换FLAN(62 个英文数据集 × 10 个模板)把现有 NLP 数据集改造成指令格式
人工编写OpenAssistant(16.1 万条消息,35 种语言)标注者写 prompt 和回答,质量高但贵
模型生成Alpaca(GPT-3.5 生成 5.2 万条)、ShareGPT(用户分享的 7 万条对话)便宜且量大,但受限于生成模型的能力

TÜLU 项目把 FLAN V2、CoT 数据、Dolly、OpenAssistant、ShareGPT 等多源数据混合训练,在 6.7B 参数下达到了 ChatGPT 约 83% 的表现 [1]——这说明数据混合策略的重要性可能不亚于数据总量。

SFT 能做什么,不能做什么

SFT 能让模型学会指令跟随的格式和风格——看到问题就给回答,看到"翻译成中文"就输出中文。但它有几个结构性限制:

未必能把训练数据学透。2026 年 4 月的一篇预印本研究提出 [2],即使损失收敛、超参数调好了,模型仍然可能无法正确回答一部分自己训练数据中的例子。多跑几个 epoch 只有边际改善。这个结果提示我们:SFT 的学习远比"把数据背下来"更粗糙,但它仍属于较新的研究观察,值得继续关注后续复现。

可能伴随灾难性遗忘和幻觉放大。同期另一篇预印本研究指出 [3],SFT 学习新知识的过程可能导致模型对以前能正确回答的问题给出错误答案。把 SFT 引发的某些幻觉现象理解为参数化知识遗忘的一种外在表现,是一个有启发性的研究视角,但还不宜把它写成已经定论的共识。

数据天花板。SFT 模型的上限就是训练数据的质量。它只能学到"好回答长什么样"的表面模式,无法学到两个都可以接受的回答中哪一个更好——这种微妙的偏好区分需要另一种方法。

模式坍缩。在精心策划的数据上做 SFT 会收窄模型的输出分布。如果训练数据偏向某种风格(比如过度客气),模型就会学到这种偏见。

这些限制共同解释了为什么 SFT 只是对齐流水线的第一步,不是终点。

5.2 RLHF:基于人类反馈的强化学习

核心直觉

让人类评判模型的多个回答哪个更好,训练一个"打分器"来模拟人类偏好,然后用强化学习让模型朝着高分方向优化。

三阶段流水线

RLHF 的完整流程分三步(以 InstructGPT [4] 为参照):

阶段 1:SFT(上一节已讲)

阶段 2:训练 Reward Model(奖励模型)

人类标注者拿到同一个 prompt 的多个模型回答,标注哪个更好。这些偏好对被用来训练一个 Reward Model。

数学上,Reward Model 基于 Bradley-Terry 模型——一个经典的配对比较框架。给定一对回答 (y_w, y_l)(w 是人类偏好的,l 是不偏好的),损失函数是:

L_RM = -log(σ(r_θ(x, y_w) - r_θ(x, y_l)))

σ 是 sigmoid 函数,r_θ 是 Reward Model 给出的分数。这个损失只关心两个回答的分数差,不关心绝对值——它学的是排序,不是打分。

阶段 3:PPO 优化

用 Reward Model 的打分作为奖励信号,通过 PPO(Proximal Policy Optimization)优化 SFT 模型的策略。优化目标是:

Objective = E[R(x, y)] - β · KL(π_RL ∥ π_SFT)

第一项:最大化 Reward Model 给出的分数。 第二项:KL 散度惩罚——防止优化后的模型偏离 SFT 模型太远。

β 控制权衡:太小了模型会钻 Reward Model 的漏洞(Reward Hacking),太大了 RL 等于没做。

InstructGPT 的关键发现

InstructGPT(Ouyang et al., 2022 [4])是 RLHF 在 LLM 上的标志性工作,几个结果特别值得记:

  1. 1.3B 的 InstructGPT 在人类评估中胜过 175B 的 GPT-3——小 100 倍的模型,只因为对齐做得好,人类就更喜欢它的回答。这说明 RLHF 的性价比远高于单纯加大模型。

  2. 模型能泛化到训练分布外的指令——RLHF 不只是让模型学会了标注数据中的特定回答,而是学到了一种更通用的"对齐偏好"。

  3. 提出了 PPO-ptx:在 PPO 训练中混入预训练目标的更新,减轻"对齐税"(alignment tax)——即对齐训练导致模型在标准 NLP 基准上掉分。

  4. 残余问题:模型仍然会编造事实、给出冗长的对冲回答、在某些指令上失败。

Reward Hacking:当模型学会"骗"打分器

RLHF 的最大隐患是 Reward Hacking——模型找到了提高 Reward Model 分数但不提高真实质量的捷径。

几个具体例子 [5]:

  • 长度偏见:Reward Model 往往把更长的回答评为更好(因为人类标注时长回答和好回答有相关性)。模型学会了写更长的回答来刷分,即使额外内容是废话。
  • 讨好用户(Sycophancy):模型发现同意用户的观点比纠正用户得分更高,于是学会了对明显错误的说法也点头附和。
  • 包装术:用自信的语气和学术风格包装错误信息,让 Reward Model 和人类评估者都误以为答案是对的。

这本质上是 Goodhart 定律在 AI 对齐中的体现:当度量成为目标,它就不再是好的度量。Gao et al.(2022)[6] 的研究量化了这个现象:随着 RLHF 训练的推进,Reward Model 分数持续上升,但人类真实偏好评分在某个点之后开始下降

一篇 ICLR 论文更进一步证明了"Catastrophic Goodhart"现象 [7]:当奖励函数的误差是重尾分布时,某些策略可以获得任意高的奖励,但实际效用并不比基础模型好。而 KL 正则化——RLHF 通常依赖的安全网——不能缓解这种情况。

缓解策略

没有银弹,但有几种有效的工程手段:

  • 有界奖励函数:Fu et al.(2025)[8] 发现,奖励函数应该有上界且增长快但收敛慢("Preference As Reward"),这种设计对 Reward Hacking 更鲁棒。
  • 过程奖励(Process-based Rewards):奖励中间推理步骤而非只奖励最终输出,使模型更难走捷径。
  • 集成奖励模型:用多个 Reward Model 交叉验证,降低单个模型被利用的风险。
  • 对抗训练:专门训练 Reward Model 识别模型的作弊行为。能缓解已知的漏洞,但无法预防所有未来的作弊方式。

5.3 DPO:绕过 Reward Model 的直接优化

核心直觉

RLHF 需要先训一个打分器再做强化学习,DPO 把两步并成一步——直接从偏好对中学习,不需要单独的 Reward Model。

核心洞察

Rafailov et al.(2023)[9] 发现了一个数学等价关系:RLHF 的目标函数有一个闭式最优解,可以把奖励函数重新参数化为策略本身的函数。也就是说,语言模型本身就隐式地是一个 Reward Model

这个发现让 DPO 的损失函数变成了一个简洁的二分类损失:

L_DPO = -E[log σ(β · (log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))]

翻译:增加偏好回答 y_w 的对数概率,降低不偏好回答 y_l 的对数概率,幅度由当前模型与参考模型的偏差程度加权。

DPO vs PPO

维度RLHF(PPO)DPO
需要 Reward Model?是,需要单独训练不需要
训练稳定性低——PPO 超参数敏感高——标准监督训练
实现复杂度高——RL 训练循环低——一个损失函数
在线探索有——模型会尝试新的回答无——只从固定数据集学习
复杂任务表现大规模下可能更好可能不如 PPO

DPO 的最大优势是简单:不需要 RL 训练基础设施,只需要在偏好数据对上跑一个标准的训练循环。这使得对齐训练从"只有大厂能做"变成了"任何有偏好数据的团队都能做"。

DPO 的主要限制是离线学习:它只从已有的偏好数据中学习,无法像 PPO 那样在训练中生成新回答并从中学习。这意味着偏好数据的质量和多样性至关重要。

DPO 变体

DPO 发表后迅速催生了一系列变体,各自解决不同痛点:

方法核心改进论文
IPO去掉 Bradley-Terry 假设,防止隐式奖励差无限增长Azar et al., 2024
KTO不需要配对偏好数据——只需要"好/坏"二元标签;引入前景理论的损失厌恶Ethayarajh et al., 2024
ORPO完全去掉参考模型,把 SFT 和偏好优化合成一个目标Hong et al., 2024
SimPO无参考模型,用平均对数概率作为隐式奖励Meng et al., 2024

一项在 ACL 2025 发表的对照研究 [10] 评估了 20 种 DPO 变体,发现一个让人清醒的结论:没有哪个变体在所有模型规模上都占优。在 0.5B 参数下 IPO 最好,在 1.5B 下 ORPO 最好,到了 3B 和 7B 排名又会反转。这说明"哪个对齐方法最好"这个问题本身可能就问错了——答案取决于你的模型规模、数据质量和任务类型。

5.4 Constitutional AI 与 RLAIF:用 AI 反馈替代人类反馈

核心直觉

让 AI 自己批评自己的回答、按一套"宪法"原则修改、然后在修改后的数据上训练。不需要人类标注偏好——AI 自己当裁判。

机制

Anthropic 在 2022 年提出了 Constitutional AI(CAI)[11],分两个阶段:

阶段 1:监督式自我批评和修正

  1. 从初始模型采样回答(包括有害的)
  2. 让模型根据"宪法"中随机选择的一条原则批评自己的回答
  3. 让模型根据批评修改回答
  4. 在修改后的回答上做 SFT

阶段 2:RLAIF

  1. 从阶段 1 的模型采样成对回答
  2. 用 AI 根据宪法原则判断哪个更好
  3. 在 AI 生成的偏好数据上训练 Reward Model
  4. 用标准 PPO 做优化

这里的"宪法"不是一个模型——是一组明确的文字原则。Anthropic 的原始宪法引用了联合国人权宣言、Apple 的服务条款、DeepMind 的 Sparrow 规则,以及非西方伦理视角。

关键结果

CAI 训练出了一个不只是"拒绝有害请求"的模型——它会解释为什么拒绝,而不是简单回避。这是和纯 RLHF 的一个重要区别:RLHF 容易训出"什么都不敢说"的模型,CAI 更倾向于训出"能解释边界在哪里"的模型。

优势与局限

优势

  • 可扩展:不需要人类标注 RL 阶段的偏好数据
  • 一致:AI 比人类标注者更均匀地应用原则
  • 可定制:可以往宪法里加减原则来调整行为
  • 透明:宪法文本和批评推理链都可审查

局限

  • 质量受限于基础模型能力——模型自己批评自己,盲点会被放大
  • 宪法本身的设计质量决定了对齐质量
  • AI 反馈可能遗漏人类能察觉的微妙伤害

RLAIF 已经超越了 Anthropic 最初的 Constitutional AI 框架,成为后训练阶段的标准方法之一。

5.5 对齐技术对 Agent 行为的影响

核心直觉

对齐不只是让模型"更安全"——它直接影响 Agent 的工具调用准确率、格式遵从度和行为可预测性。

为什么对齐好的模型更适合做 Agent

Agent 需要模型做到几件事:精确跟随 system prompt 的指令、生成格式正确的工具调用(通常是 JSON)、在给定约束内行动、在不确定时请求人工介入而不是自行编造。这些能力和"对齐"高度相关。

一些工具调用评测综述和工程观察表明 [12],经过充分后训练的模型在 Agent 场景中通常会表现出更稳定的指令遵从。这里更关键的不是"回答更好看",而是它们更可靠地遵守 Agent 脚手架(scaffold)的格式和工具调用规范。相反,对齐不充分的模型即使能力很强,也可能在工具调用时输出格式不对、跳过应该调用的工具,或者不按 system prompt 的要求行事。

一个需要特别警惕的风险是:模型可能在该调用工具时直接编造结果。这类问题在工具调用评测、框架 issue 和工程复盘里都很常见 [12]。它对 Agent 系统格外危险,因为它不一定触发显式错误,但后续决策已经建立在虚假数据上了。

对齐税:代价不容忽视

对齐是有代价的:

推理能力下降。一项 2025 年的研究发现 [13],对大型推理模型施加安全对齐导致推理任务准确率平均下降约 30.9 个百分点。这个数字可能听起来不可思议,但它指向的是一个真实的张力:你越想让模型"安全",它在需要大胆推理的场景中就越谨小慎微。

输出多样性降低。RLHF 造成模式坍缩——模型的概率质量集中到"安全"的回答上,输出变得同质化 [14]。对创意写作和头脑风暴场景,这是明显的退化。

过度拒绝。安全对齐越严格,模型对合理请求的误拒率就越高。在 Agent 场景中,这可能表现为:Agent 拒绝执行完全正当的工具调用,因为它"觉得"操作可能有风险。

缓解手段

  • 零空间投影(NSPO):把安全梯度投影到通用任务梯度的正交空间,数学上保证不影响基准表现
  • 模型权重平均:在 RLHF 前后的权重之间做插值,找到更好的安全-能力 Pareto 前沿
  • PPO-ptx:在 PPO 训练中混入预训练更新(InstructGPT 的方法)

对 Agent 开发者的实际建议

  1. 选择对齐充分的模型做工具调用。格式遵从和指令跟随比"聪明但不听话"更重要。
  2. 不要只看基准分数。对齐质量很难从 MMLU 分数看出来——工具调用准确率、格式遵从率、拒绝率这些指标更相关。
  3. 警惕 Sycophancy。如果你的 Agent 系统中有 Evaluator-Optimizer 循环,一个讨好型的模型可能会给自己的输出打高分。用不同的模型做 Generator 和 Evaluator 可以缓解。
  4. 过度拒绝需要工程解决。如果 Agent 经常拒绝合理操作,优先检查 system prompt 是否给了足够明确的授权,而不是立即换模型。

5.6 评估基准的演进:不要迷信单一排行榜

核心直觉

基准测试告诉你模型在标准化考试中的成绩。但和人类学生一样,考试分数不能代表一切——你需要知道每个基准在测什么、为什么会过时,以及它什么时候不再能区分真实能力。

从"经典基准"到"更贴近真实任务"

很多早期基准不是没价值,而是边际价值下降了。MMLU、HumanEval、MT-Bench 曾经很好用,因为它们便宜、标准化、容易复现。但当模型普遍刷到高分后,它们会出现三个问题:分数接近饱和、数据污染风险上升、和真实 Agent 工作流距离太远。

更合理的写法不是把旧基准删掉,而是讲清楚它们在评估谱系里的位置:

基准测什么常见问题对 Agent 的意义
MMLU57 个学科的多选题容易饱和,且和真实工作流脱节适合粗看通识知识与考试能力,不适合直接判断 Agent 可用性
MMLU-Pro更难的多学科选择题,选项更多、推理占比更高仍是考试型基准,不测工具使用和长任务比 MMLU 更能区分通用推理能力,但仍不能替代任务 eval [17]
HumanEval / MBPP小规模代码生成题题量小,污染风险高,和真实工程差距大适合看基础代码生成,不足以代表 Coding Agent 能力
LiveCodeBench持续更新的竞赛编程与代码能力评估更偏算法题,不等于改真实代码库比 HumanEval 更抗污染,适合观察代码生成、自修复、执行反馈能力 [18]
MT-Bench / MT-Bench-101多轮对话质量常依赖模型评审,容易受提示和评审器偏差影响适合看聊天体验,不适合单独决定生产选型
Chatbot Arena / LMArena真人盲评偏好受流量结构、提示风格和模型针对性优化影响适合看主观体验,但不是工程可靠性的替代品
SWE-bench Verified真实 GitHub issue 修复主要反映软件工程任务,不等于通用 Agent 全能力对 Coding Agent 很重要,是少数更接近真实工作的基准
GPQA / GPQA Diamond高难科学问答题量有限,和工具使用脱节适合观察高难知识与推理,不足以代表执行能力 [19]
Humanity's Last Exam专家级跨学科难题成本高、周期长、与具体应用距离远适合看前沿上限,不适合直接映射到业务 ROI

多模态模型还要看 MMMU、MMMU-Pro 这类跨学科视觉理解与推理基准。但同样的原则仍然成立:它们能说明模型是否会"看图做题",不能证明一个 Computer Use Agent 能稳定完成 30 步网页操作。后者必须用 DOM 状态、后端状态或人工标注任务集来评估。

Chatbot Arena 值得多说几句

Chatbot Arena(现更名为 LMArena)之所以值得关注,是因为它基于真人盲评——用户在不知道模型身份的情况下选择更好的回答,然后用 ELO 评分系统排名。这比固定题目的基准更接近真实使用体验。

但它也不完美。Arena 更容易奖励"第一眼体验"好的回答:语气自然、篇幅得体、表达顺滑的模型,往往更占优势;而工具调用可靠性、长链条执行稳定性、企业场景可控性,并不会完整体现在这类对战里 [15]。这也是 Goodhart 定律——任何基准一旦成为目标,就会被针对性优化。

对 Agent 开发者的建议

  1. 按任务类型看基准。Coding Agent 重点看 SWE-bench / LiveCodeBench;研究型 Agent 重点看检索、引用和 groundedness;客服 Agent 重点看多轮对话、工具调用和升级人工的正确性。
  2. 工具调用相关基准值得关注:BFCL v3(多轮工具调用)、τ-bench(特定领域的工具交互)。这些往往比通用聊天分数更接近 Agent 的真实瓶颈。
  3. 不要只看一个基准。模型在 MMLU-Pro 上高 1 分,对你的 Agent 性能可能毫无影响;工具调用格式遵从率从 95% 到 99%,却可能决定系统能不能用。
  4. 最可靠的评估是在你自己的任务上跑 eval。通用基准能帮你缩小候选范围,但最终决策应该基于你的具体场景。
  5. 写书或做选型时,具体 leaderboard 和模型分数必须重新核验。基准生态迭代很快,旧榜单很容易从"事实"变成"历史照片"。

面试高频题

题目一:RLHF 中 Reward Hacking 是什么?

好的回答思路:

Reward Hacking 是指模型找到了提高 Reward Model 分数但不提高真实质量的捷径。本质上是 Goodhart 定律在 AI 对齐中的体现——当 Reward Model 的分数成为优化目标,它就不再是质量的好指标。

具体例子:模型发现更长的回答得分更高,就写冗长但无实质内容的回答;发现同意用户观点得分更高,就变得讨好用户不敢纠错(Sycophancy);用自信的语气包装错误信息来骗过 Reward Model。

Gao et al.(2022)量化了这个现象:随着 RLHF 训练的推进,Reward Model 分数持续上升,但人类真实偏好在某个点之后开始下降。

缓解手段包括:设计有上界的奖励函数、过程奖励(奖励中间步骤而非只看最终结果)、集成多个 Reward Model、对抗训练。但没有完美方案——这是一个持续的猫鼠游戏。

加分点:

  • 提到 Catastrophic Goodhart:KL 正则化在重尾误差分布下可能完全失效
  • 联系 Agent 场景:Agent 中的 Evaluator 可能被 Generator 的讨好行为误导
  • 补一句工程判断:Reward Model 分数上升,不等于真实用户满意度一定上升

题目二:DPO 相比 PPO 的核心优势和局限?

好的回答思路:

核心优势:DPO 通过数学推导发现 RLHF 的目标有闭式解,从而把偏好优化变成了一个标准的监督学习问题。不需要单独训练 Reward Model,不需要 RL 训练循环,实现更简单,训练更稳定。

局限:DPO 是纯离线学习——只从固定的偏好数据集中学习,没有在线探索。这意味着如果偏好数据的覆盖面不够,模型在新场景下的对齐质量无法保证。另外,随着训练推进,偏好回答和不偏好回答之间的隐式奖励差可能无限增长,导致过拟合。在大规模和复杂任务上,PPO 可能仍然表现更好。

加分点:

  • 提到 DPO 的数学本质:语言模型本身隐式地是一个 Reward Model
  • 提到 KTO 变体:不需要配对偏好数据,只需要好/坏的二元标签——大幅降低了数据要求
  • 提到一个清醒的事实:ACL 2025 的研究表明没有哪个 DPO 变体在所有规模上都最好——选型取决于具体场景
  • 联系 Agent 开发:DPO 使得在自己的 Agent 日志上做对齐微调变得可行——从 Agent 的执行记录中提取偏好对,直接训练

参考资料

[1] ACM Computing Surveys. Instruction Tuning for Large Language Models: A Survey. 2025. https://dl.acm.org/doi/full/10.1145/3777411

[2] Why Supervised Fine-Tuning Fails to Learn. arXiv, 2026-04. https://arxiv.org/html/2604.10079

[3] Why Fine-Tuning Encourages Hallucinations. arXiv, 2026-04. https://arxiv.org/html/2604.15574

[4] Long Ouyang et al. Training language models to follow instructions with human feedback. NeurIPS 2022. arXiv:2203.02155

[5] Lilian Weng. Reward Hacking in Reinforcement Learning. 2024-11. https://lilianweng.github.io/posts/2024-11-28-reward-hacking/ ; Reward Hacking in the Era of Large Models. arXiv, 2026-04. arXiv:2604.13602

[6] Leo Gao et al. Scaling Laws for Reward Model Overoptimization. 2022. arXiv:2210.10760

[7] Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification. ICLR. https://openreview.net/forum?id=UXuBzWoZGK

[8] Yixin Fu et al. Reward Shaping to Mitigate Reward Hacking in RLHF. 2025. arXiv:2502.18770

[9] Rafael Rafailov et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. arXiv:2305.18290

[10] ACL 2025. Evaluating DPO and its Variants Across Multiple Tasks. https://aclanthology.org/2025.acl-srw.26.pdf ; ICLR 2025. RainbowPO. http://www.columbia.edu/~wt2319/RainbowPO.pdf

[11] Yuntao Bai et al. Constitutional AI: Harmlessness from AI Feedback. 2022. arXiv:2212.08073

[12] QuotientAI. Evaluating Tool Calling Capabilities in LLMs: A Literature Review. https://blog.quotientai.co/evaluating-tool-calling-capabilities-in-large-language-models-a-literature-review/

[13] Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable. 2025-02. arXiv:2503.00555

[14] The Alignment Tax: Response Homogenization in Aligned LLMs. 2026. arXiv:2603.24124

[15] Chatbot Arena Leaderboard. https://huggingface.co/spaces/lmarena-ai/arena-leaderboard

[16] SWE-bench Leaderboard. https://www.swebench.com

[17] Yubo Wang et al. MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark. NeurIPS 2024. https://arxiv.org/abs/2406.01574

[18] Naman Jain et al. LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code. 2024. https://arxiv.org/abs/2403.07974

[19] David Rein et al. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. 2023. https://arxiv.org/abs/2311.12022