12. 为什么评估(Evals)比训练更重要
很多人认为:
训练决定模型能力。
实际上在工业界,更常见的说法是:
评估决定训练方向。
因为训练只是不断优化模型,
而评估(Evaluation)决定:
- 模型是否真的变好
- 下一步应该收集什么数据
- 应该调整什么奖励机制
- 应该优化哪些能力
因此:
评估不是训练结束后的验收环节,而是训练过程中的导航系统。
1. 为什么评估如此重要
训练过程本质上是:
graph LR A[评估发现问题] --> B[收集数据] B --> C[训练模型] C --> D[重新评估] D --> A
这是一个持续循环。
例如:
评估发现:
数学能力差
下一步:
收集数学数据
增加数学RL训练
评估发现:
代码能力下降
下一步:
增加代码测试集
增加代码奖励模型
因此:
评估决定了数据收集和训练策略。
2. 强化学习中的评估
对于 RL 来说:
评估甚至更加重要。
因为 RL 的核心问题是:
Reward 是否真的反映了用户想要的能力?
例如:
热情 +1
模型可能学会:
Hello!!!
Hello!!!
Hello!!!
获得高奖励。
但用户体验反而变差。
因此需要评估系统不断发现:
- Reward Hacking
- 奖励漏洞
- 模型作弊行为
3. RL 中的评估闭环
graph TD A[模型生成答案] --> B[Reward评分] B --> C[RL训练] C --> D[评估系统] D --> E[发现问题] E --> F[修改Reward] F --> A
4. 预训练中的评估指标
Pre-training 最关注:
Training Loss
训练集损失:
模型对训练数据预测是否准确
Validation Loss
验证集损失:
模型在未见数据上的表现
Perplexity(困惑度)
衡量:
模型预测下一个 Token 的难度。
公式可以理解为:
Perplexity 越低越好
例如:
| 模型 | PPL |
|---|---|
| 模型A | 10 |
| 模型B | 5 |
说明:
模型B预测能力更强
5. 为什么 Loss 不适合后训练
在后训练(Post-training)阶段:
Loss 的意义会迅速下降。
原因是:
后训练关注的是用户体验,而不是 Token 预测。
例如:
问题:
如何学习Python?
回答A:
学习Python。
回答B:
建议先学习变量、函数和控制流,
再完成一些实际项目练习。
两者可能:
Loss接近
但用户显然更喜欢:
回答B
因此:
Loss 不等于用户满意度。
6. 后训练真正关注什么
后训练更关注:
Helpful
Harmless
Honest
Reasoning
Tool Use
这些能力无法通过 Loss 完整衡量。
7. 什么是测试集(Test Set)
测试集:
模型从未见过的数据。
作用:
衡量模型真实泛化能力。
8. 为什么测试集必须未见过
如果:
测试题
出现在训练数据中
模型可能只是:
背答案
而不是学会能力。
这称为:
Data Leakage(数据泄漏)
9. 模型对比评估
评估不仅可以看:
模型自己是否进步
还可以比较:
模型A vs 模型B
例如:
GPT-4
vs
Claude
vs
DeepSeek
10. ELO评分体系
很多 Chatbot Arena 使用:
ELO Rating
类似国际象棋评分。
流程
用户同时看到:
回答A
回答B
然后投票:
A更好
或者:
B更好
系统不断更新:
ELO Score
ELO示意图
graph LR A[模型A] --> C[用户投票] B[模型B] --> C C --> D[ELO更新]
11. RL 中也可以评估评分器
除了评估模型:
还需要评估:
Reward Model
因为:
Reward Model 也会出错。
例如:
模型输出:
Hello!!!
Hello!!!
Hello!!!
Reward:
10分
但人类:
2分
说明:
Reward Model失效
12. Calibration(校准)
现代模型不仅要正确。
还要:
知道自己什么时候不确定。
这叫:
Calibration(概率校准)
13. 什么是 Calibration
理想情况:
模型说:
90%概率正确
现实中:
真的90%正确
如果:
模型说90%
实际只有50%
则:
过度自信(Overconfidence)
14. 校准的重要性
例如医疗场景:
模型说:
99%确定
实际上:
完全错误
风险极大。
15. Calibration 的评估方法
常见方法:
Token Probability Calibration
检查:
Token概率
是否与:
真实出现概率
一致。
Reliability Diagram
比较:
预测概率
和:
实际准确率
之间的关系。
16. 拒答机制
校准后:
模型可以学会:
我不知道
例如:
置信度 < 20%
输出:
抱歉,我不确定这个答案。
而不是胡编乱造。
17. 效率评估(Efficiency)
除了正确率:
现代模型还关注:
响应速度。
TTFT
Time To First Token
即:
用户提问
↓
第一个Token出现
所需时间。
TPOT
Time Per Output Token
即:
平均生成一个Token
需要多少时间
18. 核心评估维度
现代 LLM 通常评估:
| 指标 | 作用 |
|---|---|
| Accuracy | 准确率 |
| Fairness | 公平性 |
| Calibration | 概率校准 |
| Robustness | 鲁棒性 |
| Transparency | 可解释性 |
| Toxicity | 有害内容 |
| Efficiency | 推理效率 |
19. Accuracy(准确率)
最基础指标:
答对了多少题
例如:
- 数学
- 代码
- QA
20. Fairness(公平性)
检查:
模型是否存在:
- 性别偏见
- 种族偏见
- 地域偏见
21. Robustness(鲁棒性)
测试:
输入稍微变化时,
模型是否稳定。
例如:
2+2=?
和:
请问2加2等于多少?
是否都能正确回答。
22. Transparency(可解释性)
检查:
模型是否能够解释:
为什么这样回答
23. Toxicity(有害内容)
检查:
模型是否生成:
- 攻击性内容
- 歧视内容
- 危险内容
24. Efficiency(效率)
衡量:
速度
成本
吞吐量
25. 常见公开评测集
MMLU
Massive Multitask Language Understanding
覆盖:
- 数学
- 法律
- 医学
- 历史
- 科学
共 50+ 学科。
是目前最经典的综合能力测试集之一。
GPQA
Graduate-Level Google-Proof Q&A
特点:
即使专业人士也很难答对。
主要测试:
- 物理
- 生物
- 化学
高级推理能力。
HumanEval
评估:
代码生成能力
GSM8K
评估:
数学推理能力
26. 评估驱动训练(Evaluation-Driven Development)
现代大模型研发越来越强调:
graph TD A[Evals] --> B[发现问题] B --> C[数据收集] C --> D[SFT] D --> E[RL] E --> F[重新评估] F --> A
核心思想:
不要先训练再评估,
而是先设计评估,再决定如何训练。
一句话总结
训练决定模型会什么,评估决定模型应该学什么。
在后训练时代,最优秀的团队往往不是训练能力最强,而是评估体系最完善。