主流 LLM 的训练过程:从裸模型到产品级 AI 的完整链路
到 2026 年初,主流 LLM 的训练已经形成了一套相对清晰的三段式框架。以 Richard Kelley 的分类为骨架 Training LLMs in 2026,结合 Sundeep Teki 的详细技术拆解 The Complete Guide to Post-Training LLMs 和 LLM Stats 的前沿跟踪 Post-Training in 2026,整个过程可以概括为:
Pre-training(预训练)→ Capability Shaping(能力塑造)→ Alignment Shaping(对齐塑造)
其中后两者合称 post-training(后训练),而这恰恰是当前模型能力的主战场——post-training 可以在标准评测上带来 20-40% 的性能提升,远超过单纯追加预训练算力能获得的回报。
一、Pre-training(预训练):打造「世界知识底座」
做什么
在海量、弱过滤的文本语料上做自回归语言建模——给定前文,预测下一个 token。目标函数是交叉熵损失。输出的是一个「base model」(基座模型),具备广泛的句法、语义和事实关联能力,但不会对话、不会遵循指令、也不会拒绝有害请求。
关键参数(以 2024-2025 代表性模型为例)
| 模型 | 参数量 | 训练 tokens | 特点 |
|---|---|---|---|
| Llama 3.1 | 8B / 70B / 405B | 15.6 万亿 | 三阶段预训练,最终 annealing |
| Qwen 2 | 0.5B–72B | 7 万亿(大模型)/ 12 万亿(0.5B) | 合成数据增强,多语言 30 种 |
| Gemma 2 | 2B / 9B / 27B | 13 万亿(27B) | 知识蒸馏用于小模型 |
| Apple AFM | 3B(端侧)+ 服务端 | 6.3 万亿(服务端) | 蒸馏 + 剪枝,3 阶段预训练 |
这些细节来自 Sebastian Raschka 的系统梳理 New LLM Pre-training and Post-training Paradigms。
预训练内部的阶段化
从 2024 年起,各家的预训练普遍不再是「一口气跑到底」,而是拆成 2-3 个子阶段:
- Core pre-training:大规模通用语料,基础上下文窗口(如 4K-8K tokens)
- Continued pre-training:上调代码/数学数据比例,压低低质网页抓取数据的权重
- Context lengthening / annealing:用长序列数据 + 合成数据将上下文窗口扩展到 32K-128K;或用极小的高质量混合数据做最后的「退火」微调,提升 benchmark 表现
Apple AFM 和 Llama 3.1 都采用了三阶段预训练。Llama 3.1 的上下文扩展更是分六步从 8K 逐步拉到 128K。
数据质量的权重在上升
一个反复出现的主题:数据质量远重于数据量。Meta 的 LIMA 论文(2023)早已证明 1000 条精心挑选的 instruction 样本可以接近 GPT-4 水平。当前所有主流团队都在投入大量工程资源做数据过滤、去重、去污染(与 benchmark 去重叠)和配比优化,而非一味扩大数据规模。
二、Capability Shaping(能力塑造):从「会说话」到「会做事」
预训练产出的是通用 next-token predictor,而能力塑造通过继续训练(仍然以交叉熵为目标,但数据更精选)来定向增强特定能力 Training LLMs in 2026:
- Context Extension:扩展可用的上下文窗口
- Code / Math Corpora Training:用高质量编程和数学语料增强形式推理
- Synthetic Reasoning Training:用模型生成或程序生成的推理链数据诱导多步推理行为
- Multilingual Balancing:跨语言数据重加权
- Tool-use Corpora:训练模型理解何时以及如何调用外部工具(搜索、代码执行、API)
这一步与「对齐」之间存在反馈循环:在尝试对齐模型时往往会发现新的能力缺口,再回过头来补充训练。
三、Alignment Shaping(对齐塑造):从「能力模型」到「产品模型」
这是后训练中最核心也最复杂的部分。目前的共识是三段式流水线 The Complete Guide to Post-Training LLMs:
Stage 1 — SFT(Supervised Fine-Tuning,监督微调)
用高质量 instruction-response 对训练模型学会遵循指令的格式、语气和结构。这是把「自动补全引擎」变成「对话助手」的关键一步。
技术选择:
- Full Fine-Tuning(全参数,FP16):质量最高,4-8 张 H100 跑 70B 模型,成本 $1000-5000/次
- LoRA(Low-Rank Adaptation):冻结基座模型,注入小型可训练矩阵,减少 90-99% 训练参数,单张 A100 可跑 70B
- QLoRA:4-bit 量化 + LoRA,单张 24GB 消费级 GPU 即可微调 70B
数据质量铁三角:准确性(Accuracy)、多样性(Diversity)、复杂度(Complexity)。成功的 SFT 数据集中数学和代码通常合计占约 78%(如 SmolLM2:Math 39.4%,Code 38.9%),因为这些领域有客观可验证的正确答案。
Stage 2 — Preference Alignment(偏好对齐)
让模型学会在多个可行回答中选择最 helpful / harmless / honest 的那个。
RLHF(Reinforcement Learning from Human Feedback):训练一个单独的 reward model(奖励模型)来学习人类偏好,然后用 PPO(Proximal Policy Optimization)算法优化 policy 模型。效果强大但昂贵——人类标注成本 $1-5/比较,一次训练需要数十万次比较。OpenAI 的 GPT-4/5 和 Google DeepMind 的 Gemini 仍以 RLHF 为骨架。
DPO(Direct Preference Optimization):2023 年 Stanford 的突破——数学上证明了不需要单独的 reward model,可以直接用偏好数据做监督式优化。计算量约为 RLHF 的 50%,且省去了 RL 训练的不稳定性。DPO 已成为开源模型开发的默认对齐方案,前沿实验室也广泛采用 Post-Training in 2026。
DPO 的进化版:
- SimPO:连 reference model 都省了,用响应的平均 log probability 作为隐式奖励,AlpacaEval 2 上比 DPO 高 6.4 分
- KTO:只需要二进制的 thumbs-up / thumbs-down 信号,不需要配对比较
- ORPO:将 SFT 和偏好优化合并到单个训练目标中,一个阶段代替两个
RLAIF + Constitutional AI(Anthropic 路线):用 AI 反馈代替人类反馈,成本从 $1-5/比较降到 < $0.01/比较。Anthropic 的 constitution 在 2025 年已扩展到约 80 页,模型据此自我批评生成合成偏好数据。质量在大多数维度上与人类 RLHF 相当,一致性更好,但在需要真实人类经验的边缘案例上仍有不足。
Stage 3 — RL with Verifiable Rewards(推理强化学习):2025 年以来最大的变革
这是 post-training 中最新也最快演进的阶段,由 DeepSeek-R1(2025 年 1 月)引爆。
GRPO(Group Relative Policy Optimization):DeepSeek 的核心创新——同时消除了 reward model 和 critic network。对每个 prompt 生成一组(8-16 条)响应,用可验证的奖励函数打分(数学答案是否正确、代码是否通过测试),然后以组内均值为基准计算每条响应的 advantage,增大高奖励响应的概率、降低低奖励的。没有需要学习的 reward model,没有 PPO 的复杂裁剪机制 Post-Training in 2026。
结果:DeepSeek-R1 以远低于 OpenAI o1 的训练成本,实现了与之竞争性的推理性能,甚至自发涌现了自我反思和动态策略调整能力。
DAPO(Decoupled Alignment and Policy Optimization):字节跳动/清华 2025 年提出,针对长链式推理中的训练不稳定性,引入四种技术(Clip-Higher、Dynamic Sampling、Token-level Loss、Overlong Reward Shaping)。在 AIME 2024 上用 Qwen2.5-32B 达到 50 分,比 DeepSeek-R1-Zero 少 50% 训练步骤。
RLVR(Reinforcement Learning with Verifiable Rewards) 是更广泛的范式:任何有客观可验证答案的任务(数学、代码、形式逻辑、结构化输出)都可以用程序化验证信号代替人类反馈进行强化学习训练。这比人类偏好数据更便宜、更快速、更一致。
四、模型能力是如何提升的?——几条核心驱动力
1. Scaling Laws(规模定律)
在预训练阶段,模型性能(以交叉熵损失衡量)随模型参数量、训练数据量和计算量的增加而可预测地改善。这是 Kaplan et al.(2020)和 Chinchilla(2022)确立的基础规律。
2. Emergent Abilities(涌现能力)
某些能力(多步推理、代码生成、in-context learning)在小模型上接近随机水平,但当模型规模超过某个临界阈值后突然跃升。Jason Wei et al.(2022)记录了超过 137 种涌现能力 137 emergent abilities of large language models。不过 2023 年 Stanford 的 Are Emergent Abilities a Mirage? 论文对此提出质疑,认为这可能是评估指标的非线性导致的「视觉错觉」而非模型行为的真正突变 CSET explainer。当前学术界的共识更倾向于:涌现是 scaling、数据、提示策略和指标选择共同作用的多因素现象。
3. Post-training 的能力放大效应
这是当前最大的能力提升来源。post-training 可以在标准评测上带来 20-40% 的性能提升,远超同等算力投入预训练扩展能获得的收益。这意味着:
竞争优势的关键不再是「谁能预训练最大的模型」,而是「谁能把模型 post-train 得最好」。
4. 合成数据与 Self-Play
数据瓶颈正在被合成数据生成打破。代表性方法:
- SPIN(Self-Play Fine-Tuning):模型通过区分自己的输出与人类文本来逐步提升,无需额外人类标注
- SPICE:用外部文档接地(grounding)防止 self-play 中的幻觉放大和模型崩溃,数学推理 +8.9%,通用推理 +9.8%
- NVIDIA NeMo Gym:用交互式 RL 环境训练 agent 模型,Nemotron 3 Super 经历了 21 种环境配置下的 120 万次 rollout
5. 知识蒸馏(Knowledge Distillation)
用小模型(student)在原始训练数据 + 大模型(teacher)的输出上训练。Apple AFM 的端侧 3B 模型是从 6.4B teacher 蒸馏而来;Google Gemma 2 的 2B 和 9B 模型同样使用了蒸馏。这让小模型以远低于从头训练的代价获得接近大模型的能力。
五、三大前沿实验室的 RL 哲学差异
| 实验室 | 核心方法 | 特点 |
|---|---|---|
| OpenAI | RLHF + Process Reward Model + 大规模 RL | 最激进的 RL 扩展策略,o1/o3 系列代表推理 RL 的 SOTA |
| Anthropic | Constitutional AI + RLAIF | 用约 80 页 constitution 替代原始人类偏好,强调一致性和可控性 |
| Google DeepMind | RLHF + PPO + 学术前沿研究 | 最传统的 RLHF 实现,辅以 reward model 鲁棒性、多目标优化等研究 |
来源:The Complete Guide to Post-Training LLMs
六、正在发生的前沿趋势
LLM Stats 总结了下一年最可能定义 post-training 研究的三个方向 Post-Training in 2026:
- 统一流水线:ORPO 已经合并了 SFT 和偏好优化,下一步是将三阶段(SFT + 偏好对齐 + 推理 RL)合并到单一训练目标中
- 环境原生训练:从静态数据集转向交互式 RL 环境(浏览器、文件系统、数据库、API),「聊天模型」和「agent 模型」之间的差距将拉大
- 自动课程生成:模型识别自身弱点 → 生成针对性的训练数据 → 用 RLVR 验证 → 训练 → 重复。SPICE 已经展示了这个闭环的雏形
补充说明 / 尚需核实的点
- 各前沿实验室(尤其是 OpenAI 和 Anthropic)的具体训练配方(数据配比、奖励函数细节、超参数)属于商业机密,并未完整公开,以上分析基于已发表的技术报告和论文。
- 「涌现能力是否为 mirage」的学术争论仍在继续,尚未有定论。本回答中呈现了双方的核心论点,供交叉参考。
- 合成数据 self-play 在哪些任务类型上有天花板、是否会导致模型能力「内卷」,目前缺乏系统性的大规模实证研究。