2. 大模型训练的三个阶段

大模型(LLM)的训练流程通常可以分为三个核心阶段:

  1. Pre-training(预训练)
  2. Mid-training(中训练 / 持续训练)
  3. Post-training(后训练)

这三个阶段分别负责:


1. Pre-training(预训练)

什么是预训练

预训练(Pre-training)是大模型最核心、成本最高的阶段。

其本质是:

让模型不断预测“下一个词(Next Token)是什么”。

例如:

输入:

“天空的颜色通常是”

模型需要预测:

“蓝色”

经过海量训练后,模型会学习到:

模型并不是真正“理解”天空,而是通过统计规律学习语言与知识。


预训练学习到什么

通过大规模数据训练,模型会逐渐学会:

训练数据通常包括:


预训练的特点

优点

缺点

因此:

预训练后的模型,更像“知识压缩器”,而不是“AI助手”。


2. Mid-training(中训练 / 持续训练)

什么是中训练

中训练(Mid-training)也叫:

它本质上仍然是:

继续预测下一个词。

但和预训练不同的是:

中训练会使用更高质量、更有针对性的数据。


为什么需要中训练

因为预训练数据虽然庞大,但通常比较“杂”。

例如:

因此需要继续训练模型。


中训练可以做什么

(1)学习新语言

例如:


(2)学习新模态

让模型支持:

例如:

本质上都是在持续训练阶段加入多模态数据。


(3)增强领域能力

例如:

通过高质量专业数据提升模型能力。


(4)扩展上下文长度(Long Context)

例如:

从:

扩展到:

让模型能阅读更长内容。


中训练的本质

可以理解为:

在“通识教育”之后进行“专项强化训练”。


3. Post-training(后训练)

后训练(Post-training)是目前大模型最关键的能力塑造阶段。

它解决的问题是:

“模型如何与人类协作”。


4. 后训练的核心方法

(1)Fine-tuning / SFT(监督微调)

SFT(Supervised Fine-Tuning)属于最基础的后训练方法。

其本质是:

给模型提供标准的 Input 和 Output。

例如:

输入

“帮我写一个 Python 快速排序”

输出

def quick_sort(arr):
    ...

模型通过大量“问答对”学习:


SFT 的作用

它会让模型:


(2)Reinforcement Learning(强化学习,RL)

强化学习(RL)是在 SFT 之后进一步优化模型行为。

它的核心思想是:

判断模型回答“好不好”。


RL 的训练逻辑

模型会针对同一个问题生成多个答案。

系统会评估:

然后:

最终让模型逐渐学会:

“什么样的回答更符合人类需求”。


RL 学到的能力

例如:


5. 三个阶段的核心区别

阶段 核心目标 本质
Pre-training 学习世界知识 预测下一个词
Mid-training 强化专项能力 在高质量数据上继续预测
Post-training 学习人类交互与行为 学习如何更好回答问题

6. 一个形象化理解

预训练(Pre-training)

相当于:

让模型读完整个图书馆,但没有老师指导。

模型会获得大量知识。


中训练(Mid-training)

相当于:

给模型精选高质量专业书籍。

让模型强化某些领域能力。


后训练(Post-training)

相当于:

教模型如何与人交流、如何回答问题、如何遵循规则。

模型开始变得:


7. 一句话总结

预训练:

让模型“有知识”。

中训练:

让模型“更专业”。

后训练:

让模型“更会做人”。