12. 为什么评估（Evals）比训练更重要

#大模型

很多人认为：

训练决定模型能力。

实际上在工业界，更常见的说法是：

评估决定训练方向。

因为训练只是不断优化模型，

而评估（Evaluation）决定：

模型是否真的变好
下一步应该收集什么数据
应该调整什么奖励机制
应该优化哪些能力

因此：

评估不是训练结束后的验收环节，而是训练过程中的导航系统。

1. 为什么评估如此重要

训练过程本质上是：

graph LR

A[评估发现问题]
--> B[收集数据]

B --> C[训练模型]

C --> D[重新评估]

D --> A

这是一个持续循环。

例如：

评估发现：

数学能力差

下一步：

收集数学数据
增加数学RL训练

评估发现：

代码能力下降

下一步：

增加代码测试集
增加代码奖励模型

因此：

评估决定了数据收集和训练策略。

2. 强化学习中的评估

对于 RL 来说：

评估甚至更加重要。

因为 RL 的核心问题是：

Reward 是否真的反映了用户想要的能力？

例如：

热情 +1

模型可能学会：

Hello!!!
Hello!!!
Hello!!!

获得高奖励。

但用户体验反而变差。

因此需要评估系统不断发现：

Reward Hacking
奖励漏洞
模型作弊行为

3. RL 中的评估闭环

graph TD

A[模型生成答案]
--> B[Reward评分]

B --> C[RL训练]

C --> D[评估系统]

D --> E[发现问题]

E --> F[修改Reward]

F --> A

4. 预训练中的评估指标

Pre-training 最关注：

Training Loss

训练集损失：

模型对训练数据预测是否准确

Validation Loss

验证集损失：

模型在未见数据上的表现

Perplexity（困惑度）

衡量：

模型预测下一个 Token 的难度。

公式可以理解为：

Perplexity 越低越好

例如：

模型	PPL
模型A	10
模型B	5

说明：

模型B预测能力更强

5. 为什么 Loss 不适合后训练

在后训练（Post-training）阶段：

Loss 的意义会迅速下降。

原因是：

后训练关注的是用户体验，而不是 Token 预测。

例如：

问题：

如何学习Python？

回答A：

学习Python。

回答B：

建议先学习变量、函数和控制流，
再完成一些实际项目练习。

两者可能：

Loss接近

但用户显然更喜欢：

回答B

因此：

Loss 不等于用户满意度。

6. 后训练真正关注什么

后训练更关注：

Helpful
Harmless
Honest
Reasoning
Tool Use

这些能力无法通过 Loss 完整衡量。

7. 什么是测试集（Test Set）

测试集：

模型从未见过的数据。

作用：

衡量模型真实泛化能力。

8. 为什么测试集必须未见过

如果：

测试题
出现在训练数据中

模型可能只是：

背答案

而不是学会能力。

这称为：

Data Leakage（数据泄漏）

9. 模型对比评估

评估不仅可以看：

模型自己是否进步

还可以比较：

模型A vs 模型B

例如：

GPT-4
vs
Claude
vs
DeepSeek

10. ELO评分体系

很多 Chatbot Arena 使用：

ELO Rating

类似国际象棋评分。

流程

用户同时看到：

回答A
回答B

然后投票：

A更好

或者：

B更好

系统不断更新：

ELO Score

ELO示意图

graph LR

A[模型A]
--> C[用户投票]

B[模型B]
--> C

C --> D[ELO更新]

11. RL 中也可以评估评分器

除了评估模型：

还需要评估：

Reward Model

因为：

Reward Model 也会出错。

例如：

模型输出：

Hello!!!
Hello!!!
Hello!!!

Reward：

10分

但人类：

2分

说明：

Reward Model失效

12. Calibration（校准）

现代模型不仅要正确。

还要：

知道自己什么时候不确定。

这叫：

Calibration（概率校准）

13. 什么是 Calibration

理想情况：

模型说：
90%概率正确

现实中：

真的90%正确

如果：

模型说90%
实际只有50%

则：

过度自信（Overconfidence）

14. 校准的重要性

例如医疗场景：

模型说：

99%确定

实际上：

完全错误

风险极大。

15. Calibration 的评估方法

常见方法：

Token Probability Calibration

检查：

Token概率

是否与：

真实出现概率

一致。

Reliability Diagram

比较：

预测概率

和：

实际准确率

之间的关系。

16. 拒答机制

校准后：

模型可以学会：

我不知道

例如：

置信度 < 20%

输出：

抱歉，我不确定这个答案。

而不是胡编乱造。

17. 效率评估（Efficiency）

除了正确率：

现代模型还关注：

响应速度。

TTFT

Time To First Token

即：

用户提问
↓
第一个Token出现

所需时间。

TPOT

Time Per Output Token

即：

平均生成一个Token
需要多少时间

18. 核心评估维度

现代 LLM 通常评估：

指标	作用
Accuracy	准确率
Fairness	公平性
Calibration	概率校准
Robustness	鲁棒性
Transparency	可解释性
Toxicity	有害内容
Efficiency	推理效率

19. Accuracy（准确率）

最基础指标：

答对了多少题

例如：

数学
代码
QA

20. Fairness（公平性）

检查：

模型是否存在：

性别偏见
种族偏见
地域偏见

21. Robustness（鲁棒性）

测试：

输入稍微变化时，

模型是否稳定。

例如：

2+2=?

和：

请问2加2等于多少？

是否都能正确回答。

22. Transparency（可解释性）

检查：

模型是否能够解释：

为什么这样回答

23. Toxicity（有害内容）

检查：

模型是否生成：

攻击性内容
歧视内容
危险内容

24. Efficiency（效率）

衡量：

速度
成本
吞吐量

25. 常见公开评测集

MMLU

Massive Multitask Language Understanding

覆盖：

数学
法律
医学
历史
科学

共 50+ 学科。

是目前最经典的综合能力测试集之一。

GPQA

Graduate-Level Google-Proof Q&A

特点：

即使专业人士也很难答对。

主要测试：

物理
生物
化学

高级推理能力。

HumanEval

评估：

代码生成能力

GSM8K

评估：

数学推理能力

26. 评估驱动训练（Evaluation-Driven Development）

现代大模型研发越来越强调：

graph TD

A[Evals]
--> B[发现问题]

B --> C[数据收集]

C --> D[SFT]

D --> E[RL]

E --> F[重新评估]

F --> A

核心思想：

不要先训练再评估，
而是先设计评估，再决定如何训练。

一句话总结

训练决定模型会什么，评估决定模型应该学什么。

在后训练时代，最优秀的团队往往不是训练能力最强，而是评估体系最完善。