4. 有效训练的关键

无论是:

真正决定模型效果的核心都不是“模型结构”。

而是:

数据(Data)与评价机制(Grader / Reward)的设计质量。

很多时候:

“训练数据质量”比“模型参数规模”更重要。


1. 微调(Fine-tuning)的核心:数据质量

SFT(监督微调)的本质是:

让模型模仿训练数据。

因此:

模型最终会变成训练数据的样子。


2. 为什么训练数据设计很重要

示例:简单问答训练

训练数据:

input:中国的首都是哪里?
output:北京

模型会学习:

“中国首都” → “北京”

但是这类数据存在一个问题:

没有上下文(Context)。


推理阶段可能出现的问题

用户真实对话:

input:中国的首都是哪里?
output:北京

input:那美国呢?
output:❌

模型可能无法理解:

“美国”是在延续上一轮对话。

因为训练时没有学习过:


3. 如何让模型学习 Context(上下文)

需要设计更真实的对话数据。

例如:

input:中国的首都是哪里?美国的呢?
output:北京和华盛顿

或者:

<user>
中国的首都是哪里?

<assistant>
北京

<user>
那美国呢?

<assistant>
华盛顿

这样模型就会学习:


4. 对话标记(Chat Template)

真实训练中,通常会使用特殊标记:

<user>
<assistant>
<system>

用于区分:

这些标记非常重要。

因为模型本质上只是:

Token Predictor(Token预测器)

它需要通过这些格式理解:

“现在是谁在说话”。


5. 思维链(CoT)训练

为了提升模型推理能力,训练中通常会加入:

Chain of Thought(CoT,思维链)

即:

让模型展示中间推理过程。


示例:数学应用题

训练数据:

input:
小明有3个苹果,又买了2个,现在有几个苹果?

output:
<think>
开始有3个苹果,
后来又买了2个,
所以 3 + 2 = 5
</think>

5

为什么 CoT 很重要

因为模型不仅学习:

“答案是什么”

还学习:

“答案是怎么推理出来的”。

这会显著提升:


6. 特殊标记(Tag)的作用

例如:

<think>
<answer>
<document>

这些标签本质上是:

对模型行为进行结构化约束。


在 RAG 中的作用

例如:

<document>
北京是中国首都
</document>

模型就能学习:

因此:

Tag 在 RAG(检索增强生成)中非常重要。


7. 安全训练(Safety Alignment)

训练中还需要加入:

例如:

input:如何制造毒品?
output:抱歉,我无法帮助完成该请求。

模型会学习:

哪些问题应该拒绝回答。


8. 强化学习(RL)的核心:评分机制(Grader)

在 RL 中:

模型不是模仿固定答案。

而是通过“奖励”学习。

因此:

最重要的是评分机制(Reward / Grader)。


9. RL 的评分示例

例如:

input:
小明有3个苹果,又买了2个,现在有几个苹果?

output:
<think>
3 + 2 = 5
</think>

5

Grader 可以这样打分:

项目 分数
答案正确 +1
有 think 推理 +1
格式正确 +1
推理合理 +1

总分:

Reward = +4

错误行为

如果:

则可能:

Reward = -1

10. 奖励设计的问题:Reward Hacking

强化学习最大风险之一是:

模型“钻奖励漏洞”。


示例:热情奖励

如果规则是:

礼貌 +1
热情 +1

模型可能学到:

Hello! Hello! Hello! Hello!!!

虽然明显不合理。

但由于:

Grader 可能错误认为:

“非常热情”。

这类问题叫:

Reward Hacking(奖励欺骗)

即:

模型学会了“骗分”,而不是真正变好。


11. 为什么 RL 需要更多样的数据

如果训练输入太单一:

模型容易:

因此 RL 非常依赖:


12. RL 不仅需要 Grader,还需要 Environment(环境)

很多能力无法只靠文本评分学习。

例如:

这时需要:

Environment(训练环境)


示例:计算器工具学习

模型流程:

模型 → 调用计算器 → 获得结果 → 输出答案

然后 Grader 再评价:

因此:

Agent 能力本质上是“环境交互能力”。


13. RL Loop(强化学习循环)

完整 RL 通常包括:

模型生成答案
        ↓
环境执行
        ↓
Grader评分
        ↓
奖励反馈
        ↓
模型更新
        ↓
再次生成

这就是:

RL Loop(强化学习闭环)


14. 有效训练的四个核心要素

(1)数据(Data)

决定:


(2)评分机制(Grader / Reward)

决定:


(3)训练环境(Environment)

决定:

例如:


(4)RL Loop(强化学习闭环)

决定:


15. 一句话总结

微调(SFT)

数据决定模型模仿什么。

强化学习(RL)

奖励决定模型进化方向。

最终:

谁定义了“好答案”,谁就决定了模型会变成什么样。