12. 为什么评估(Evals)比训练更重要

很多人认为:

训练决定模型能力。

实际上在工业界,更常见的说法是:

评估决定训练方向。

因为训练只是不断优化模型,

而评估(Evaluation)决定:

因此:

评估不是训练结束后的验收环节,而是训练过程中的导航系统。


1. 为什么评估如此重要

训练过程本质上是:

graph LR

A[评估发现问题]
--> B[收集数据]

B --> C[训练模型]

C --> D[重新评估]

D --> A

这是一个持续循环。

例如:

评估发现:

数学能力差

下一步:

收集数学数据
增加数学RL训练

评估发现:

代码能力下降

下一步:

增加代码测试集
增加代码奖励模型

因此:

评估决定了数据收集和训练策略。


2. 强化学习中的评估

对于 RL 来说:

评估甚至更加重要。

因为 RL 的核心问题是:

Reward 是否真的反映了用户想要的能力?

例如:

热情 +1

模型可能学会:

Hello!!!
Hello!!!
Hello!!!

获得高奖励。

但用户体验反而变差。

因此需要评估系统不断发现:


3. RL 中的评估闭环

graph TD

A[模型生成答案]
--> B[Reward评分]

B --> C[RL训练]

C --> D[评估系统]

D --> E[发现问题]

E --> F[修改Reward]

F --> A

4. 预训练中的评估指标

Pre-training 最关注:

Training Loss

训练集损失:

模型对训练数据预测是否准确

Validation Loss

验证集损失:

模型在未见数据上的表现

Perplexity(困惑度)

衡量:

模型预测下一个 Token 的难度。

公式可以理解为:

Perplexity 越低越好

例如:

模型 PPL
模型A 10
模型B 5

说明:

模型B预测能力更强

5. 为什么 Loss 不适合后训练

在后训练(Post-training)阶段:

Loss 的意义会迅速下降。

原因是:

后训练关注的是用户体验,而不是 Token 预测。

例如:

问题:

如何学习Python?

回答A:

学习Python。

回答B:

建议先学习变量、函数和控制流,
再完成一些实际项目练习。

两者可能:

Loss接近

但用户显然更喜欢:

回答B

因此:

Loss 不等于用户满意度。


6. 后训练真正关注什么

后训练更关注:

Helpful
Harmless
Honest
Reasoning
Tool Use

这些能力无法通过 Loss 完整衡量。


7. 什么是测试集(Test Set)

测试集:

模型从未见过的数据。

作用:

衡量模型真实泛化能力。


8. 为什么测试集必须未见过

如果:

测试题
出现在训练数据中

模型可能只是:

背答案

而不是学会能力。

这称为:

Data Leakage(数据泄漏)


9. 模型对比评估

评估不仅可以看:

模型自己是否进步

还可以比较:

模型A vs 模型B

例如:

GPT-4
vs
Claude
vs
DeepSeek

10. ELO评分体系

很多 Chatbot Arena 使用:

ELO Rating

类似国际象棋评分。


流程

用户同时看到:

回答A
回答B

然后投票:

A更好

或者:

B更好

系统不断更新:

ELO Score

ELO示意图

graph LR

A[模型A]
--> C[用户投票]

B[模型B]
--> C

C --> D[ELO更新]

11. RL 中也可以评估评分器

除了评估模型:

还需要评估:

Reward Model

因为:

Reward Model 也会出错。


例如:

模型输出:

Hello!!!
Hello!!!
Hello!!!

Reward:

10分

但人类:

2分

说明:

Reward Model失效

12. Calibration(校准)

现代模型不仅要正确。

还要:

知道自己什么时候不确定。

这叫:

Calibration(概率校准)


13. 什么是 Calibration

理想情况:

模型说:
90%概率正确

现实中:

真的90%正确

如果:

模型说90%
实际只有50%

则:

过度自信(Overconfidence)


14. 校准的重要性

例如医疗场景:

模型说:

99%确定

实际上:

完全错误

风险极大。


15. Calibration 的评估方法

常见方法:

Token Probability Calibration

检查:

Token概率

是否与:

真实出现概率

一致。


Reliability Diagram

比较:

预测概率

和:

实际准确率

之间的关系。


16. 拒答机制

校准后:

模型可以学会:

我不知道

例如:

置信度 < 20%

输出:

抱歉,我不确定这个答案。

而不是胡编乱造。


17. 效率评估(Efficiency)

除了正确率:

现代模型还关注:

响应速度。


TTFT

Time To First Token

即:

用户提问
↓
第一个Token出现

所需时间。


TPOT

Time Per Output Token

即:

平均生成一个Token
需要多少时间

18. 核心评估维度

现代 LLM 通常评估:

指标 作用
Accuracy 准确率
Fairness 公平性
Calibration 概率校准
Robustness 鲁棒性
Transparency 可解释性
Toxicity 有害内容
Efficiency 推理效率

19. Accuracy(准确率)

最基础指标:

答对了多少题

例如:


20. Fairness(公平性)

检查:

模型是否存在:


21. Robustness(鲁棒性)

测试:

输入稍微变化时,

模型是否稳定。

例如:

2+2=?

和:

请问2加2等于多少?

是否都能正确回答。


22. Transparency(可解释性)

检查:

模型是否能够解释:

为什么这样回答

23. Toxicity(有害内容)

检查:

模型是否生成:


24. Efficiency(效率)

衡量:

速度
成本
吞吐量

25. 常见公开评测集

MMLU

Massive Multitask Language Understanding

覆盖:

共 50+ 学科。

是目前最经典的综合能力测试集之一。


GPQA

Graduate-Level Google-Proof Q&A

特点:

即使专业人士也很难答对。

主要测试:

高级推理能力。


HumanEval

评估:

代码生成能力

GSM8K

评估:

数学推理能力

26. 评估驱动训练(Evaluation-Driven Development)

现代大模型研发越来越强调:

graph TD

A[Evals]
--> B[发现问题]

B --> C[数据收集]

C --> D[SFT]

D --> E[RL]

E --> F[重新评估]

F --> A

核心思想:

不要先训练再评估,
而是先设计评估,再决定如何训练。


一句话总结

训练决定模型会什么,评估决定模型应该学什么。

在后训练时代,最优秀的团队往往不是训练能力最强,而是评估体系最完善。