2. 大模型训练的三个阶段

#大模型

大模型（LLM）的训练流程通常可以分为三个核心阶段：

Pre-training（预训练）
Mid-training（中训练 / 持续训练）
Post-training（后训练）

这三个阶段分别负责：

学习世界知识
强化特定领域能力
调整模型行为与交互能力

1. Pre-training（预训练）

什么是预训练

预训练（Pre-training）是大模型最核心、成本最高的阶段。

其本质是：

让模型不断预测“下一个词（Next Token）是什么”。

例如：

输入：

“天空的颜色通常是”

模型需要预测：

“蓝色”

经过海量训练后，模型会学习到：

“蓝色”出现概率最高
“红色”“粉色”等概率较低

模型并不是真正“理解”天空，而是通过统计规律学习语言与知识。

预训练学习到什么

通过大规模数据训练，模型会逐渐学会：

语言规律
世界知识
基础推理
代码能力
文本生成
多语言能力

训练数据通常包括：

网页
书籍
论文
代码
对话数据

预训练的特点

优点

学习通用知识
获得基础智能
泛化能力强

缺点

不懂人类偏好
不会按照指令工作
回答风格不稳定
不具备助手能力

因此：

预训练后的模型，更像“知识压缩器”，而不是“AI助手”。

2. Mid-training（中训练 / 持续训练）

什么是中训练

中训练（Mid-training）也叫：

Continued Pretraining（持续预训练）
Domain Adaptation（领域适配）

它本质上仍然是：

继续预测下一个词。

但和预训练不同的是：

中训练会使用更高质量、更有针对性的数据。

为什么需要中训练

因为预训练数据虽然庞大，但通常比较“杂”。

例如：

数据质量参差不齐
某些领域数据不足
新知识可能不存在

因此需要继续训练模型。

中训练可以做什么

（1）学习新语言

例如：

增强中文能力
学习日语
学习专业术语

（2）学习新模态

让模型支持：

图片（Vision）
音频（Audio）
视频（Video）

例如：

GPT-4o
Gemini
Qwen-VL

本质上都是在持续训练阶段加入多模态数据。

（3）增强领域能力

例如：

医疗
法律
金融
编程

通过高质量专业数据提升模型能力。

（4）扩展上下文长度（Long Context）

例如：

从：

4K Context

扩展到：

32K
128K
1M Context

让模型能阅读更长内容。

中训练的本质

可以理解为：

在“通识教育”之后进行“专项强化训练”。

3. Post-training（后训练）

后训练（Post-training）是目前大模型最关键的能力塑造阶段。

它解决的问题是：

“模型如何与人类协作”。

4. 后训练的核心方法

（1）Fine-tuning / SFT（监督微调）

SFT（Supervised Fine-Tuning）属于最基础的后训练方法。

其本质是：

给模型提供标准的 Input 和 Output。

例如：

输入

“帮我写一个 Python 快速排序”

输出

def quick_sort(arr):
    ...

模型通过大量“问答对”学习：

如何回答问题
如何遵循指令
如何形成固定输出风格

SFT 的作用

它会让模型：

学会听指令
更像聊天助手
输出更稳定
更符合人类习惯

（2）Reinforcement Learning（强化学习，RL）

强化学习（RL）是在 SFT 之后进一步优化模型行为。

它的核心思想是：

判断模型回答“好不好”。

RL 的训练逻辑

模型会针对同一个问题生成多个答案。

系统会评估：

哪个答案更合理
哪个更安全
哪个更符合人类偏好

然后：

奖励好的回答
惩罚差的回答

最终让模型逐渐学会：

“什么样的回答更符合人类需求”。

RL 学到的能力

例如：

更强推理能力
更好的多轮对话
更安全的回答
更自然的表达
更稳定的行为

5. 三个阶段的核心区别

阶段	核心目标	本质
Pre-training	学习世界知识	预测下一个词
Mid-training	强化专项能力	在高质量数据上继续预测
Post-training	学习人类交互与行为	学习如何更好回答问题

6. 一个形象化理解

预训练（Pre-training）

相当于：

让模型读完整个图书馆，但没有老师指导。

模型会获得大量知识。

中训练（Mid-training）

相当于：

给模型精选高质量专业书籍。

让模型强化某些领域能力。

后训练（Post-training）

相当于：

教模型如何与人交流、如何回答问题、如何遵循规则。

模型开始变得：

有礼貌
会思考
能执行指令
更像 AI 助手

7. 一句话总结

预训练：

让模型“有知识”。

中训练：

让模型“更专业”。

后训练：

让模型“更会做人”。