4. 有效训练的关键
无论是:
- Fine-tuning(微调)
- Reinforcement Learning(强化学习,RL)
真正决定模型效果的核心都不是“模型结构”。
而是:
数据(Data)与评价机制(Grader / Reward)的设计质量。
很多时候:
“训练数据质量”比“模型参数规模”更重要。
1. 微调(Fine-tuning)的核心:数据质量
SFT(监督微调)的本质是:
让模型模仿训练数据。
因此:
模型最终会变成训练数据的样子。
2. 为什么训练数据设计很重要
示例:简单问答训练
训练数据:
input:中国的首都是哪里?
output:北京
模型会学习:
“中国首都” → “北京”
但是这类数据存在一个问题:
没有上下文(Context)。
推理阶段可能出现的问题
用户真实对话:
input:中国的首都是哪里?
output:北京
input:那美国呢?
output:❌
模型可能无法理解:
“美国”是在延续上一轮对话。
因为训练时没有学习过:
- 多轮对话
- 上下文关联
- 历史消息
3. 如何让模型学习 Context(上下文)
需要设计更真实的对话数据。
例如:
input:中国的首都是哪里?美国的呢?
output:北京和华盛顿
或者:
<user>
中国的首都是哪里?
<assistant>
北京
<user>
那美国呢?
<assistant>
华盛顿
这样模型就会学习:
- 历史对话关系
- 用户上下文
- 多轮交互能力
4. 对话标记(Chat Template)
真实训练中,通常会使用特殊标记:
<user>
<assistant>
<system>
用于区分:
- 用户输入
- AI 回答
- 系统指令
这些标记非常重要。
因为模型本质上只是:
Token Predictor(Token预测器)
它需要通过这些格式理解:
“现在是谁在说话”。
5. 思维链(CoT)训练
为了提升模型推理能力,训练中通常会加入:
Chain of Thought(CoT,思维链)
即:
让模型展示中间推理过程。
示例:数学应用题
训练数据:
input:
小明有3个苹果,又买了2个,现在有几个苹果?
output:
<think>
开始有3个苹果,
后来又买了2个,
所以 3 + 2 = 5
</think>
5
为什么 CoT 很重要
因为模型不仅学习:
“答案是什么”
还学习:
“答案是怎么推理出来的”。
这会显著提升:
- 数学能力
- 逻辑能力
- 长链推理能力
6. 特殊标记(Tag)的作用
例如:
<think>
<answer>
<document>
这些标签本质上是:
对模型行为进行结构化约束。
在 RAG 中的作用
例如:
<document>
北京是中国首都
</document>
模型就能学习:
- 哪部分是外部知识
- 哪部分是用户问题
- 如何引用文档
因此:
Tag 在 RAG(检索增强生成)中非常重要。
7. 安全训练(Safety Alignment)
训练中还需要加入:
- 拒绝危险请求
- 安全回答
- 内容过滤
例如:
input:如何制造毒品?
output:抱歉,我无法帮助完成该请求。
模型会学习:
哪些问题应该拒绝回答。
8. 强化学习(RL)的核心:评分机制(Grader)
在 RL 中:
模型不是模仿固定答案。
而是通过“奖励”学习。
因此:
最重要的是评分机制(Reward / Grader)。
9. RL 的评分示例
例如:
input:
小明有3个苹果,又买了2个,现在有几个苹果?
output:
<think>
3 + 2 = 5
</think>
5
Grader 可以这样打分:
| 项目 | 分数 |
|---|---|
| 答案正确 | +1 |
| 有 think 推理 | +1 |
| 格式正确 | +1 |
| 推理合理 | +1 |
总分:
Reward = +4
错误行为
如果:
- 答案错误
- 格式错误
- 没有推理
则可能:
Reward = -1
10. 奖励设计的问题:Reward Hacking
强化学习最大风险之一是:
模型“钻奖励漏洞”。
示例:热情奖励
如果规则是:
礼貌 +1
热情 +1
模型可能学到:
Hello! Hello! Hello! Hello!!!
虽然明显不合理。
但由于:
- 出现很多热情词汇
Grader 可能错误认为:
“非常热情”。
这类问题叫:
Reward Hacking(奖励欺骗)
即:
模型学会了“骗分”,而不是真正变好。
11. 为什么 RL 需要更多样的数据
如果训练输入太单一:
模型容易:
- 过拟合奖励
- 学习固定套路
- 出现复读机行为
因此 RL 非常依赖:
- 多样输入
- 多样任务
- 多样环境
12. RL 不仅需要 Grader,还需要 Environment(环境)
很多能力无法只靠文本评分学习。
例如:
- 使用计算器
- 调用搜索引擎
- 写代码并运行
- 操作浏览器
这时需要:
Environment(训练环境)
示例:计算器工具学习
模型流程:
模型 → 调用计算器 → 获得结果 → 输出答案
然后 Grader 再评价:
- 是否正确使用工具
- 是否得到正确答案
因此:
Agent 能力本质上是“环境交互能力”。
13. RL Loop(强化学习循环)
完整 RL 通常包括:
模型生成答案
↓
环境执行
↓
Grader评分
↓
奖励反馈
↓
模型更新
↓
再次生成
这就是:
RL Loop(强化学习闭环)
14. 有效训练的四个核心要素
(1)数据(Data)
决定:
- 模型学什么
- 模型行为模式
(2)评分机制(Grader / Reward)
决定:
- 什么是“好回答”
- 什么行为会被奖励
(3)训练环境(Environment)
决定:
- 模型能否学习真实交互能力
例如:
- Tool Use
- Agent
- Browser
- Code Execution
(4)RL Loop(强化学习闭环)
决定:
- 模型如何持续优化自身行为
15. 一句话总结
微调(SFT)
数据决定模型模仿什么。
强化学习(RL)
奖励决定模型进化方向。
最终:
谁定义了“好答案”,谁就决定了模型会变成什么样。