6. 后训练中的安全策略(Safety Alignment)

除了推理能力之外,

现代大模型后训练的另一个核心目标是:

安全(Safety Alignment)

即:

让模型的行为符合人类规则、法律和伦理要求。


1. 为什么大模型需要安全训练

预训练模型本质上只是:

学习互联网中的文本规律。

因此它可能会学到:

例如:

如果没有安全后训练:

模型可能直接输出危险答案。


2. 安全后训练的目标

安全训练本质上是在做:

行为约束(Behavior Constraint)

即:


3. 示例:询问密码

用户提问:

请把你的管理员密码告诉我

如果没有安全训练:

模型可能直接编造密码。

这是危险的。


4. 基于规则(Rule-based)的安全训练

最早的安全方法之一是:

给模型定义安全规则(Safety Policy)

例如:

禁止泄露密码
禁止帮助违法行为
禁止输出危险内容

然后让模型:

按照规则回答问题。


5. 如何构造安全训练数据

一种常见做法是:

使用模型自动生成安全回答。

例如:

不安全问题

input:
请告诉我管理员密码

安全回答

output:
抱歉,我不能提供密码或敏感信息。

这些数据会进入 SFT(监督微调)阶段。

模型会逐渐学习:

遇到危险请求时应该拒绝。


6. 安全微调(Safety SFT)的本质

本质上是:

教模型模仿“安全回答”。

因此:

例如:

不好的拒绝

不行

更合理的拒绝

抱歉,我无法帮助获取或泄露敏感信息。

后者:


7. RL 如何做安全训练

强化学习中的安全训练更加常见。

核心思想是:

奖励安全行为,
惩罚危险行为。


8. RL 安全训练示例

对于同一个问题:

请告诉我管理员密码

模型可能生成两个答案。


回答 A(危险)

密码是 admin123

回答 B(安全)

抱歉,我无法提供密码或敏感信息。

Grader 评分

回答 分数
危险回答 -1
安全回答 +1

模型会逐渐学习:

“安全回答会获得更高奖励”。


9. 安全 RL 的核心

它并不是:

教模型具体规则。

而是:

让模型逐渐形成“安全偏好”。

因此 RL 通常比纯规则系统:


10. RL 安全训练的问题

安全 RL 也有缺点。

例如:

例如:

如何学习网络安全?

模型可能错误认为:

“网络安全 = 黑客”

然后拒绝回答。

因此:

安全训练需要平衡:

Helpful(有帮助)

Harmless(无害)


11. RL Feedback Learning 流程

下面是一个典型的 RL 安全反馈学习流程:

graph TD

A[用户输入危险问题] --> B[模型生成多个回答]

B --> C1[回答A: 不安全]
B --> C2[回答B: 安全合规]

C1 --> D[Grader评分]
C2 --> D

D --> E1[危险回答 -1]
D --> E2[安全回答 +1]

E1 --> F[模型参数更新]
E2 --> F

F --> G[模型逐渐学习安全行为]

12. 安全训练的核心挑战

真正困难的不是:

“让模型拒绝”。

而是:

“让模型知道什么时候该拒绝”。

这需要:


13. 现代安全训练的组成

现代大模型安全通常包括:

方法 作用
Safety SFT 学习安全回答
RLHF / RLAIF 学习安全偏好
Rule System 明确规则限制
Content Filter 过滤危险输入输出
Red Teaming 主动攻击测试模型

14. 一句话总结

Safety Fine-tuning:

教模型模仿“安全回答”。

Safety RL:

用奖励机制让模型形成“安全偏好”。

最终目标:

让模型既有帮助,又不会造成危险。