02. 大模型发展脉络
面试必知:了解行业演进、主流模型特点、关键论文,展示你的行业认知深度
一、大模型发展时间线
2017 ─── Transformer 诞生 ──────────────────────────────────────────────
│ "Attention Is All You Need" (Google)
│ → 序列建模从 RNN/LSTM 进入 Transformer 时代
│
2018 ─── 预训练革命 ────────────────────────────────────────────────────
│ GPT-1 (OpenAI) — 生成式预训练
│ BERT (Google) — 双向编码,NLP 全面刷新
│
2019 ─── 规模初现 ──────────────────────────────────────────────────────
│ GPT-2 (1.5B) — "太危险不发布",零样本能力惊人
│ T5 (Google) — 统一文本到文本框架
│
2020 ─── Scaling Laws 揭示 ─────────────────────────────────────────────
│ GPT-3 (175B) — 少样本学习,In-Context Learning
│ Scaling Laws 论文 — 性能 ∝ 参数量^α × 数据量^β × 计算量^γ
│
2021 ─── 效率优化 ──────────────────────────────────────────────────────
│ LoRA — 低秩适配,微调大模型成为可能
│ Codex — 代码生成,GitHub Copilot 诞生
│ Switch Transformer — MoE 架构探索
│
2022 ─── ChatGPT 元年 ──────────────────────────────────────────────────
│ ChatGPT (11月) — 2个月破亿用户,AI 民主化
│ InstructGPT — RLHF 对齐,从"能用"到"好用"
│ Chain-of-Thought — 思维链推理
│ FlashAttention — 注意力计算加速 2-4x
│ Stable Diffusion — 开源图像生成
│
2023 ─── 百模大战 ──────────────────────────────────────────────────────
│ GPT-4 (3月) — 多模态,能力跃升
│ LLaMA (2月) — Meta 开源,引爆开源社区
│ Llama 2 (7月) — 商用开源
│ Claude 2 — 长上下文 100K
│ Mixtral 8x7B (12月) — 开源 MoE
│ DPO — 替代 RLHF 的简化方案
│ Qwen-1 通义千问 — 国内首批大模型
│
2024 ─── 推理模型 + 多模态 ─────────────────────────────────────────────
│ GPT-4o (5月) — 原生多模态,语音对话
│ Claude 3/3.5 Sonnet — 编程能力最强
│ Llama 3/3.1 — 405B 开源,128K 上下文
│ DeepSeek-V2 (5月) — MLA 注意力,成本降低 5-10x
│ DeepSeek-V3 (12月) — 671B MoE,训练成本仅 $5.5M
│ o1/o3 (9月/12月) — 推理模型,思维链
│ Gemini 1.5/2.0 — 1M 上下文窗口
│ Qwen-2 — 中文能力领先
│ Claude 3.5 Haiku — 小模型性价比之王
│
2025 ─── Agent 元年 ────────────────────────────────────────────────────
DeepSeek-R1 (1月) — 开源推理模型,GRPO 训练
Claude 3.5 Sonnet (新版) — Computer Use,Agent 能力
Claude 4 / Opus 4 (5月) — 最强编程和推理
GPT-4.1 / o3/o4-mini — 推理 + 工具调用
Llama 4 (4月) — Meta 最新开源
Qwen-3 (4月) — 混合推理(思考/非思考模式)
Gemini 2.5 Pro — 最强多模态推理
MCP 协议 — 工具生态标准化
A2A 协议 — Agent 间通信标准化二、主流大模型特色对比
闭源模型
| 模型 | 公司 | 参数 | 上下文 | 核心特色 | 2025年定位 |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | 未公开 | 128K | 原生多模态(文本/图像/音频),速度极快 | 通用首选 |
| o3 | OpenAI | 未公开 | 200K | 深度推理,数学/编程/科学推理最强 | 复杂推理 |
| o4-mini | OpenAI | 未公开 | 200K | 推理能力接近 o3,成本更低 | 推理性价比 |
| GPT-4.1 | OpenAI | 未公开 | 1M | 指令遵循极强,长上下文 | 长文档处理 |
| Claude 3.5 Sonnet | Anthropic | 未公开 | 200K | 编程能力最强,Computer Use | 编程/Agent |
| Claude 4 Opus | Anthropic | 未公开 | 200K | 最强推理+编程,扩展思考 | 专业任务 |
| Gemini 2.5 Pro | 未公开 | 1M | 最长上下文,多模态推理 | 长文档/多模态 | |
| Gemini 2.0 Flash | 未公开 | 1M | 速度极快,成本极低 | 高吞吐场景 |
开源模型
| 模型 | 公司 | 参数 | 上下文 | 核心特色 | 2025年定位 |
|---|---|---|---|---|---|
| DeepSeek-V3 | DeepSeek | 671B (MoE) | 128K | MLA 注意力,训练成本 $5.5M | 开源最强通用 |
| DeepSeek-R1 | DeepSeek | 671B (MoE) | 128K | 推理模型,GRPO 训练,蒸馏版 | 开源推理最强 |
| Llama 4 Scout | Meta | 109B (MoE, 17B 激活) | 10M | 10M 上下文窗口 | 超长上下文 |
| Llama 4 Maverick | Meta | 400B (MoE, 17B 激活) | 1M | 400B 激活参数 | 通用 |
| Qwen-3 | 阿里 | 0.6B-235B | 128K | 混合推理(思考/非思考),中文最强 | 中文场景 |
| Mistral Large | Mistral | 123B | 128K | 欧洲最强,函数调用强 | 欧洲合规 |
| Mixtral 8x22B | Mistral | 176B (MoE) | 64K | MoE 架构,性价比高 | 高性价比 |
各家「绝活」
OpenAI:
├── 推理能力(o3/o4 系列)— 数学、科学、编程推理最强
├── 多模态(GPT-4o)— 原生语音对话,实时翻译
└── 生态(ChatGPT + API)— 最大的用户基数和开发者生态
Anthropic:
├── 编程能力(Claude 3.5/4)— 代码生成和理解最强
├── Agent 能力(Computer Use)— 操控电脑完成任务
├── 安全对齐(Constitutional AI)— 最注重安全的厂商
└── 长文本质量 — 200K 上下文下依然保持高质量
Google:
├── 超长上下文(Gemini 2.5)— 1M token 窗口
├── 多模态推理 — 图像/视频/音频理解最强
└── 价格(Flash 系列)— 极致性价比
DeepSeek:
├── 训练效率 — V3 训练成本仅 $5.5M(GPT-4 的 1/100)
├── 推理能力(R1)— 开源推理模型标杆
├── MLA 注意力 — KV Cache 压缩 93%
└── 开源精神 — 模型+训练方法全部公开
Meta (Llama):
├── 开源生态 — 最大的开源 LLM 社区
├── 超长上下文(Llama 4 Scout)— 10M token 窗口
└── 多模态(Llama 4)— 原生视觉能力
阿里 (Qwen):
├── 中文能力 — 中文理解和生成最强
├── 混合推理(Qwen-3)— 思考/非思考模式自由切换
└── 全尺寸覆盖 — 0.6B 到 235B 全系列三、改变大模型格局的关键论文
1. 架构奠基
"Attention Is All You Need" (Vaswani et al., 2017)
影响:★★★★★ — 整个领域的基石
核心贡献:
├── 提出 Transformer 架构
├── 多头自注意力机制(Multi-Head Attention)
├── 位置编码(Sinusoidal Positional Encoding)
└── 编码器-解码器结构
后续影响:
几乎所有大模型都基于 Transformer 变体
BERT(编码器)、GPT(解码器)、T5(编码器-解码器)"BERT: Pre-training of Deep Bidirectional Transformers" (Devlin et al., 2018)
影响:★★★★★ — 预训练范式的开创者
核心贡献:
├── 掩码语言模型(MLM)— 双向上下文
├── 下一句预测(NSP)
└── 预训练+微调范式 — 刷新 11 项 NLP 任务
后续影响:
开创了"预训练+微调"范式
直到 GPT-3 的 In-Context Learning 才改变2. 规模定律
"Scaling Laws for Neural Language Models" (Kaplan et al., 2020)
影响:★★★★★ — 指导了整个行业的资源投入
核心发现:
├── 性能 ∝ 参数量^0.076 × 数据量^0.095 × 计算量^0.050
├── 增大模型比增大数据更有效(当时结论)
└── 计算预算最优分配:大模型 + 少数据(后来被修正)
后续影响:
直接推动了 GPT-3 (175B) 的诞生
"大力出奇迹"成为行业共识"Chinchilla: Training Compute-Optimal Large Language Models" (Hoffmann et al., 2022)
影响:★★★★☆ — 修正了 Scaling Laws
核心发现:
├── 修正 Kaplan 结论:数据量和参数量应该同等增长
├── 最优比例:20 tokens/参数(而非之前的大量参数少数据)
├── Chinchilla (70B, 1.4T tokens) > Gopher (280B, 300B tokens)
后续影响:
Llama 系列遵循 Chinchilla 定律
行业从"拼参数"转向"拼数据质量"3. 对齐训练
"Training language models to follow instructions with human feedback" (Ouyang et al., 2022)
影响:★★★★★ — ChatGPT 的技术基础(InstructGPT 论文)
核心贡献:
├── RLHF(人类反馈强化学习)三阶段:
│ 1. SFT(监督微调)
│ 2. RM(奖励模型训练)
│ 3. PPO(强化学习优化)
└── 从"预测下一个 token"到"遵循人类指令"
后续影响:
ChatGPT 基于此论文技术
所有对齐训练的鼻祖"Direct Preference Optimization" (Rafailov et al., 2023)
影响:★★★★☆ — 简化了对齐训练
核心贡献:
├── 证明 RLHF 的 RM+PPO 可以用 closed-form 解替代
├── 直接用偏好数据优化策略,无需训练 RM
└── 训练更稳定,实现更简单
后续影响:
被 Claude、Llama 等广泛采用
RLHF → DPO → GRPO 的演进4. 效率优化
"LoRA: Low-Rank Adaptation of Large Language Models" (Hu et al., 2021)
影响:★★★★★ — 让微调大模型平民化
核心贡献:
├── 冻结原始权重,只训练低秩分解矩阵
├── 参数量减少 10000x(7B 模型只训 4MB 参数)
├── 效果接近全参数微调
└── 推理时可合并权重,零额外开销
后续影响:
几乎所有大模型微调都用 LoRA/QLoRA
HuggingFace 上 90%+ 的微调模型基于 LoRA"FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" (Dao et al., 2022)
影响:★★★★☆ — Transformer 推理加速里程碑
核心贡献:
├── IO 感知的注意力计算
├── 分块计算(Tiling)+ 在线 Softmax
├── 训练速度提升 2-4x,显存减少 5-20x
└── 精确计算(不是近似)
后续影响:
FlashAttention-2 进一步优化
几乎所有训练框架都集成5. 开源里程碑
"LLaMA: Open and Efficient Foundation Language Models" (Touvron et al., 2023)
影响:★★★★★ — 引爆开源大模型生态
核心贡献:
├── 证明小模型+更多数据 > 大模型+少数据
├── LLaMA-13B 性能接近 GPT-3 (175B)
├── 开源权重(研究用途)
└── 引发开源社区爆发
后续影响:
Llama 2 → 商用开源
Mistral、Qwen、DeepSeek 都受其影响
HuggingFace 上 Llama 生态最大"DeepSeek-V3 Technical Report" (DeepSeek, 2024)
影响:★★★★★ — 重新定义训练成本
核心贡献:
├── MoE 架构:671B 总参数,37B 激活参数
├── MLA(Multi-Latent Attention):KV Cache 压缩 93%
├── 训练成本仅 $5.5M(GPT-4 估计 $100M+)
├── FP8 混合精度训练
└── 辅助损失-free 的负载均衡
后续影响:
证明了追赶顶级闭源模型的可行性
开源模型性能接近 GPT-46. 推理革命
"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022)
影响:★★★★★ — 发现了 LLM 的推理能力
核心发现:
├── 在 prompt 中加入推理步骤示例
├── LLM 可以进行多步推理
├── 数学/逻辑任务准确率大幅提升
└── 不需要额外训练
后续影响:
催生了推理模型(o1、DeepSeek-R1)
思维链成为 LLM 推理的标准方法"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL" (DeepSeek, 2025)
影响:★★★★★ — 开源推理模型的里程碑
核心贡献:
├── 纯 RL 训练涌现推理能力(R1-Zero)
├── GRPO 算法:去掉 Critic 模型
├── 思维链蒸馏:大模型推理能力迁移到小模型
└── 完全开源:模型+训练方法
后续影响:
推理模型从 OpenAI 垄断走向开源
思维链蒸馏成为新的能力迁移方法
GRPO 成为 RL 训练的新选择7. 工具与 Agent
"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (Lewis et al., 2020)
影响:★★★★★ — RAG 的奠基论文
核心贡献:
├── 检索+生成的混合架构
├── 解决 LLM 知识过时和幻觉问题
├── 可更新知识而无需重新训练
└── 端到端训练检索器和生成器
后续影响:
RAG 成为 LLM 应用的标配
向量数据库行业爆发(Pinecone、Milvus)四、大模型技术演进路线
架构演进:
RNN/LSTM → Transformer → MoE → MLA(DeepSeek)→ ?
↓
更高效的注意力机制
训练范式演进:
预训练+微调 → 预训练+Prompt → 预训练+RLHF → 预训练+DPO/GRPO
↓
更低成本的对齐方法
推理能力演进:
Zero-shot → Few-shot → Chain-of-Thought → Self-Consistency → 推理模型(o1/R1)
↓
Test-Time Compute Scaling
应用范式演进:
单轮问答 → 多轮对话 → RAG → Agent → Multi-Agent → Agentic 工作流
↓
MCP/A2A 标准化五、2025 年行业趋势
1. 推理模型成为标配
- OpenAI o3/o4、DeepSeek-R1、Qwen-3 都支持推理模式
- "思考/非思考"混合模式成为趋势
- 推理成本持续下降
2. Agent 从概念到落地
- MCP 协议标准化工具生态
- Computer Use 让 Agent 可以操控电脑
- 从"聊天助手"到"数字员工"
3. 上下文窗口持续增长
- Gemini: 1M → 2M
- Llama 4 Scout: 10M
- 但长上下文的质量和成本仍是挑战
4. 开源追赶闭源
- DeepSeek-V3/R1 性能接近 GPT-4
- 开源模型在特定任务上已超越闭源
- 训练成本从 $100M+ 降到 $5M
5. 多模态原生化
- 从"文本+图像"到"文本+图像+音频+视频"
- 原生多模态(如 GPT-4o)vs 拼接多模态
- 实时语音对话成为标配
6. 小模型逆袭
- Phi-4 (14B)、Qwen-3 (8B)、Llama 4 (17B) 在特定任务上媲美大模型
- 端侧部署成为可能
- 蒸馏+量化+剪枝技术成熟
六、面试高频问题
Q: 为什么 Transformer 能取代 RNN/LSTM?
答:
- 并行计算:RNN 必须逐步处理,Transformer 可以一次性处理整个序列
- 长距离依赖:RNN 的梯度消失问题,Transformer 的自注意力直接建立任意距离的连接
- 可扩展性:Transformer 天然适合 GPU 大规模并行,可以 scaling 到千亿参数
Q: 为什么 GPT 用 Decoder-only 而 BERT 用 Encoder-only?
答:
- GPT(Decoder-only):自回归生成,适合生成任务(对话、写作、代码)
- BERT(Encoder-only):双向编码,适合理解任务(分类、NER、问答)
- 后来发现:Decoder-only + 足够大的规模,也能做好理解任务
- 2023 年后,Decoder-only 成为主流(GPT、Claude、Llama、DeepSeek 都是)
Q: 为什么 MoE 架构突然火了?
答:
- 成本优势:671B 参数但只激活 37B,计算成本接近 37B 模型
- 性能优势:总参数量大 → 知识容量大 → 性能上限高
- 训练效率:DeepSeek-V3 用 $5.5M 训出 GPT-4 级别模型
- 技术成熟:负载均衡、路由策略等问题被解决
Q: RLHF → DPO → GRPO 的演进逻辑是什么?
答:
RLHF (2022): 完整但复杂
├── 需要训练 Reward Model
├── 需要 PPO 训练(4 个模型同时跑)
└── 训练不稳定,超参敏感
DPO (2023): 简化
├── 证明 RM+PPO 可以用 closed-form 解替代
├── 只需要偏好数据对
└── 训练稳定,实现简单
GRPO (2025): 进一步简化
├── 去掉 Critic Model(PPO 需要的 Value 模型)
├── 用组内相对排名替代绝对价值估计
├── 训练资源减半
└── 特别适合推理任务(奖励信号明确)Q: 2025 年最值得关注的趋势是什么?
答:
- 推理模型普及:从 OpenAI 垄断到开源追赶,推理成本下降 10x
- Agent 落地:MCP 标准化 + Computer Use,从 demo 到生产
- 开源追赶闭源:DeepSeek 证明了 $5M 可以训出 GPT-4 级别
- 长上下文:10M token 窗口,但质量控制仍是挑战
- 多模态原生:不是拼接,而是原生理解图像/音频/视频
📝 最后更新:2025 年 6 月 | 数据截至 2025 年 6 月
2025-2026 大模型发展
1. DeepSeek-R1 / R2:开源推理模型的标杆
发布时间:R1 (2025年1月) / R2 (2025年Q3 预计)
核心技术:
DeepSeek-R1:
├── 参数量:671B MoE(37B 激活参数)
├── 上下文窗口:128K tokens
├── 训练方法:GRPO(Group Relative Policy Optimization)
├── 核心创新:
│ ├── 纯 RL 训练涌现推理能力(R1-Zero 实验)
│ ├── 去掉 Critic Model,用组内相对排名替代
│ ├── 思维链蒸馏:大模型 → 小模型能力迁移
│ └── 完全开源:模型权重 + 训练方法 + 蒸馏版
├── 蒸馏版系列:1.5B / 7B / 8B / 14B / 32B / 70B
└── 性能:数学/编程推理接近 o1,开源最强推理模型GRPO 训练详解:
# GRPO 核心思想(伪代码)
for each question q:
# 1. 采样一组回答
responses = [model.generate(q) for _ in range(G)] # G=8~16
# 2. 计算每个回答的奖励
rewards = [reward_fn(q, r) for r in responses]
# 3. 组内标准化(关键创新:去掉 Critic)
advantages = [(r - mean(rewards)) / std(rewards) for r in rewards]
# 4. 策略梯度更新
loss = -sum(advantages[i] * log_prob(responses[i]) for i in range(G))
loss.backward()面试要点:
- R1-Zero 实验:纯 RL 训练(无 SFT 数据)也能涌现推理能力,证明 RL 对推理的激励效果
- GRPO vs PPO:去掉 Value Model(Critic),训练资源减半,更稳定
- 思维链蒸馏:从 671B 蒸馏到 7B 仍有很强推理能力,方法论意义重大
- DeepSeek-R2 预期:更强的推理能力,更高效的训练方法,预计 2025 Q3 发布
2. GPT-4o / GPT-5:原生多模态的进化
GPT-4o (2024年5月):
核心特点:
├── 原生多模态:文本/图像/音频 统一模型
├── 实时语音对话:延迟 ~320ms,接近人类对话
├── 情感表达:语音可感知情绪,可调节语速/语调
├── 视觉理解:实时摄像头画面分析
└── 速度:比 GPT-4 Turbo 快 2x,价格便宜 50%
技术架构推测:
├── 统一 tokenizer:文本 + 图像 + 音频 → 统一 token 序列
├── 端到端训练:不是拼接模块,而是原生多模态
└── 语音直接理解/生成:无需 ASR/TTS 中间步骤GPT-5 (2025年预期):
预期特点:
├── 更强推理能力:融合 o 系列推理能力
├── 原生视频理解:实时视频流分析
├── Agent 能力增强:原生工具调用 + 长程任务规划
├── 上下文窗口:1M+ tokens
└── 多模态生成:文本/图像/音频/视频 统一生成
面试要点:
├── "原生多模态" vs "拼接多模态" 的区别
├── 语音对话的技术架构(端到端 vs ASR+LLM+TTS)
└── GPT-5 如何整合 o 系列推理能力3. Claude 4 Opus / Sonnet:长上下文与 Agent 之王
Claude 4 系列 (2025年5月):
Claude 4 Opus:
├── 定位:最强专业任务模型
├── 上下文:200K tokens
├── 核心能力:
│ ├── 编程能力:SWE-bench 最高分
│ ├── 推理能力:扩展思考(Extended Thinking)
│ ├── Agent 能力:Computer Use + 工具调用
│ └── 长文本质量:200K 下依然保持高质量
└── 适用场景:复杂编程、专业分析、长文档处理
Claude 4 Sonnet:
├── 定位:速度与能力的平衡
├── 上下文:200K tokens
├── 核心能力:
│ ├── 编程能力接近 Opus
│ ├── 响应速度更快
│ └── 性价比更高
└── 适用场景:日常编程、对话、Agent 应用Claude 的技术特色:
Constitutional AI(宪法 AI):
├── 用一组原则("宪法")指导模型行为
├── 减少人工标注需求
├── 模型自我批评和修正
└── 安全性最高的大模型
Computer Use:
├── 截屏 → 理解界面 → 规划操作 → 执行点击/输入
├── Agent 能力的核心突破
└── 从"对话助手"到"数字员工"
扩展思考(Extended Thinking):
├── 类似 o1 的思维链推理
├── 可调节思考时间/深度
└── 在复杂推理任务上显著提升4. Gemini 2.5 Pro:超长上下文与原生视频
Gemini 2.5 Pro (2025年):
核心特点:
├── 上下文窗口:1M tokens(可扩展到 2M)
├── 原生多模态:文本/图像/音频/视频 统一理解
├── 视频理解:直接理解视频内容,无需逐帧分析
├── 推理能力:Gemini 2.0 Thinking 模式
└── 代码能力:编程能力大幅提升
技术优势:
├── Google TPU 训练:算力成本优势
├── 长上下文质量:1M token 下仍有良好表现
├── 视频原生理解:YouTube 视频直接分析
└── 搜索增强:与 Google 搜索深度集成Gemini 2.0 Flash:
├── 定位:速度极快,成本极低
├── 上下文:1M tokens
├── 适用场景:高吞吐、低延迟场景
└── 价格:业界最低之一5. Qwen3:混合推理与中文优化
Qwen3 (2025年4月):
模型系列:
├── Qwen3-0.6B / 1.7B / 4B / 8B / 14B / 32B(Dense)
├── Qwen3-30B-A3B / 235B-A22B(MoE)
└── 全系列支持 128K 上下文
核心创新:
├── 混合推理模式:
│ ├── 思考模式(Thinking):类似 o1/R1 的深度推理
│ ├── 非思考模式(Non-Thinking):快速响应
│ └── 可动态切换,平衡速度和质量
├── 中文能力:中文理解和生成最强
├── MoE 架构:235B 总参数,22B 激活
└── 训练数据:多语言,重点优化中文
面试要点:
├── Qwen3 的"思考/非思考"混合模式设计思路
├── MoE vs Dense 的选择策略
└── 中文优化的具体方法(数据配比、tokenizer)6. MiMo:小米端侧大模型
MiMo (2025年):
定位:端侧部署优化的大模型系列
核心特点:
├── 端侧优化:
│ ├── 模型压缩:量化、剪枝、蒸馏
│ ├── 推理加速:NPU/GPU 异构计算
│ ├── 内存优化:适配手机/平板内存限制
│ └── 功耗控制:移动设备续航优化
├── 模型规模:7B / 3B / 1.5B 等多尺寸
├── 应用场景:
│ ├── 手机端 AI 助手
│ ├── 本地文档处理
│ ├── 离线语音交互
│ └── 隐私敏感任务(数据不出端)
└── 技术路线:
├── 端云协同:简单任务端侧处理,复杂任务上云
├── 模型蒸馏:从大模型蒸馏到端侧小模型
└── 硬件适配:针对小米自研芯片优化
面试要点:
├── 端侧部署的核心挑战(内存、算力、功耗)
├── 端云协同架构设计
└── 量化/蒸馏/剪枝的技术选型7. Llama 4:开源生态的新旗舰
Llama 4 (2025年4月):
模型系列:
├── Llama 4 Scout:
│ ├── 109B 总参数,17B 激活参数(MoE)
│ ├── 10M token 上下文窗口(业界最长)
│ └── 适合超长文档处理
├── Llama 4 Maverick:
│ ├── 400B 总参数,17B 激活参数(MoE)
│ ├── 1M token 上下文窗口
│ └── 通用能力最强
└── Llama 4 Behemoth(预告):
├── 2T 总参数
└── 训练中
核心创新:
├── MoE 架构:Llama 首次采用 MoE
├── 超长上下文:Scout 支持 10M tokens
├── 原生视觉:图像理解能力
├── 开源生态:
│ ├── 开源权重
│ ├── 社区微调版本爆发
│ └── HuggingFace 生态支持
└── 训练效率:MoE 降低推理成本
面试要点:
├── Llama 4 为什么转向 MoE?
├── 10M 上下文的技术实现(RoPE 外推、稀疏注意力)
└── Llama 生态 vs DeepSeek 生态2025-2026 主流模型综合对比表
| 维度 | DeepSeek-R1/R2 | GPT-4o/5 | Claude 4 Opus | Gemini 2.5 Pro | Qwen3-235B | MiMo | Llama 4 Maverick |
|---|---|---|---|---|---|---|---|
| 公司 | DeepSeek | OpenAI | Anthropic | 阿里 | 小米 | Meta | |
| 总参数量 | 671B MoE | 未公开 | 未公开 | 未公开 | 235B MoE | 7B/3B/1.5B | 400B MoE |
| 激活参数 | 37B | 未公开 | 未公开 | 未公开 | 22B | 全量 | 17B |
| 上下文窗口 | 128K | 128K→1M+ | 200K | 1M~2M | 128K | 4K~32K | 1M |
| 多模态 | 文本为主 | 文/图/音/视频 | 文/图 | 文/图/音/视频 | 文/图 | 文/图/音 | 文/图 |
| 推理能力 | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ |
| 编程能力 | ★★★★☆ | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ |
| 中文能力 | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ | ★★★★★ | ★★★★☆ | ★★★☆☆ |
| 开源 | ✅ 完全开源 | ❌ 闭源 | ❌ 闭源 | ❌ 闭源 | ✅ 完全开源 | ✅ 开源 | ✅ 开源 |
| API定价 | 极低 | 中等 | 较高 | 低 | 极低 | 端侧免费 | 免费(自部署) |
| 特色 | 训练成本低 | 原生多模态 | 编程+Agent | 超长上下文 | 中文+混合推理 | 端侧部署 | 开源生态 |
| 适用场景 | 推理/数学/代码 | 通用/多模态 | 编程/Agent | 长文档/视频 | 中文场景 | 手机/IoT | 开源二次开发 |
各模型定价对比(2025年参考)
| 模型 | 输入价格 ($/1M tokens) | 输出价格 ($/1M tokens) | 备注 |
|---|---|---|---|
| GPT-4o | $2.50 | $10.00 | 多模态 |
| GPT-4.1 | $2.00 | $8.00 | 长上下文 |
| o3 | $10.00 | $40.00 | 推理模型 |
| Claude 4 Opus | $15.00 | $75.00 | 最强专业 |
| Claude 4 Sonnet | $3.00 | $15.00 | 性价比 |
| Gemini 2.5 Pro | $1.25 / $2.50 | $10.00 | 长上下文加价 |
| Gemini 2.0 Flash | $0.10 | $0.40 | 极低价格 |
| DeepSeek-R1 | $0.55 | $2.19 | 开源极低 |
| DeepSeek-V3 | $0.27 | $1.10 | 最具性价比 |
| Qwen3-235B | $0.40 | $1.20 | 中文优化 |
| Llama 4 | 免费(自部署) | 免费(自部署) | 需自建基础设施 |
关键论文更新 (2025-2026)
1. DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
来源:DeepSeek, 2025年1月 影响力:★★★★★ — 开源推理模型的里程碑
核心贡献:
├── R1-Zero 实验:
│ ├── 纯 RL 训练(无 SFT 数据)涌现推理能力
│ ├── 模型自发学会"思维链"和"自我纠错"
│ └── 证明 RL 对推理能力的激励效果
├── GRPO(Group Relative Policy Optimization):
│ ├── 去掉 PPO 中的 Critic/Value Model
│ ├── 用同一问题的多个采样回答进行组内排名
│ ├── 相对优势估计替代绝对价值估计
│ └── 训练资源减半,更稳定
├── 完整训练流程:
│ 1. 冷启动 SFT:少量高质量推理数据微调
│ 2. GRPO 推理训练:数学/编程/逻辑 RL 训练
│ 3. 拒绝采样 + SFT:生成高质量数据再微调
│ 4. 全场景 GRPO:通用能力 + 推理能力平衡
├── 思维链蒸馏:
│ ├── 671B → 1.5B/7B/8B/14B/32B/70B
│ ├── 蒸馏版 14B 超越 QwQ-32B
│ └── 方法论:用大模型推理数据微调小模型
└── 完全开源:模型 + 论文 + 训练细节
面试追问:
Q: GRPO 为什么比 PPO 更适合推理任务?
A: 推理任务的奖励信号明确(对/错),不需要精确的价值估计,
组内相对排名足够。PPO 的 Value Model 在稀疏奖励下训练困难。
Q: R1-Zero 的意义是什么?
A: 证明了推理能力可以通过纯 RL 涌现,不需要人工标注的推理过程数据,
这改变了"推理能力必须通过监督学习获得"的认知。2. Gemma:Google 的开源大模型系列
来源:Google, 2024-2025 影响力:★★★★☆ — Google 开源生态的重要补充
Gemma 1 (2024年2月):
├── 模型规模:2B / 7B
├── 基于 Gemini 技术
├── 开源权重,商用友好
└── 性能:同尺寸开源最强之一
Gemma 2 (2024年6月):
├── 模型规模:2B / 9B / 27B
├── 核心创新:
│ ├── 滑动窗口注意力 + 全局注意力交替
│ ├── 知识蒸馏:大模型蒸馏到小模型
│ ├── 模型合并(Model Merging)技术
│ └── 训练效率优化
├── 性能:27B 接近 Llama 3 70B
└── 特色:推理效率极高
Gemma 3 (2025年):
├── 多模态支持:图像 + 文本
├── 更大规模:1B / 4B / 12B / 27B
├── 128K 上下文
└── 与 Gemini 2 技术对齐
技术论文要点:
├── 知识蒸馏的有效性:大模型 → 小模型,性能损失小
├── 滑动窗口注意力:降低长序列计算成本
├── 模型合并:多个微调模型融合,无需额外训练
└── 训练数据策略:数据质量 > 数据数量
面试追问:
Q: Gemma 和 Gemini 的关系?
A: Gemini 是 Google 的闭源旗舰模型,Gemma 是基于 Gemini 技术
和训练经验的开源版本,但参数规模更小,面向开发者社区。3. Claude 系统提示与 Constitutional AI:Anthropic 的对齐方法论
来源:Anthropic, 2024-2025 影响力:★★★★☆ — AI 安全对齐的重要参考
Constitutional AI(宪法 AI)核心思想:
├── 传统 RLHF:
│ ├── 需要大量人工标注偏好数据
│ ├── 标注者偏好不一致
│ └── 扩展性差
├── Constitutional AI 改进:
│ ├── 定义一组原则("宪法")
│ ├── 模型根据原则自我批评和修正
│ ├── 减少人工标注需求
│ └── 更一致、可解释的行为
├── 训练流程:
│ 1. 生成有害回复
│ 2. 模型根据宪法原则自我批评
│ 3. 模型生成修正后的回复
│ 4. 用修正数据训练 RM
│ 5. RL 训练最终模型
└── 原则示例:
├── "选择最无害的回复"
├── "选择最诚实的回复"
├── "选择最有帮助的回复"
└── "避免协助非法活动"
Claude System Prompt 的设计哲学:
├── 明确的行为边界:什么能做,什么不能做
├── 角色定义:AI 助手的定位和能力范围
├── 安全机制:拒绝有害请求的标准流程
├── 透明度:对不确定性的坦诚表达
└── 长度:Claude 的系统提示长达数千字
面试追问:
Q: Constitutional AI 和 RLHF 的核心区别?
A: RLHF 依赖人工标注偏好,Constitutional AI 用原则指导模型
自我修正,减少了人工标注需求,同时保证了行为一致性。
Q: 为什么 Claude 的系统提示这么长?
A: Anthropic 注重安全和透明,详细定义了行为边界、安全机制、
角色定位等,虽然增加 token 成本,但提高了行为的可预测性。4. Mixture of Agents:多模型协作的新范式
来源:Together AI, 2024 影响力:★★★☆☆ — Multi-Agent 协作的探索
核心思想:
├── 单一模型的局限:
│ ├── 不同模型在不同任务上有优势
│ ├── 单模型难以覆盖所有场景
│ └── 推理能力存在上限
├── Mixture of Agents(MoA)方案:
│ ├── 多个 LLM 组成协作网络
│ ├── 分层结构:Proposer + Aggregator
│ ├── Proposer:多个模型生成候选回答
│ └── Aggregator:一个模型整合所有回答
├── 架构设计:
│ Layer 1: [GPT-4, Claude, Llama, Qwen] → 各自生成回答
│ Layer 2: Aggregator 整合 → 最终输出
│ (可多层堆叠)
└── 实验结果:
├── MoA 超越单个最强模型
├── 在 AlpacaEval / Arena-Hard 上排名第一
└── 开源模型组合超越闭源模型
技术细节:
├── 角色分配:
│ ├── Proposer:生成多样化候选回答
│ ├── Aggregator:整合、去重、优化
│ └── 不同层可使用不同模型
├── 提示策略:
│ ├── Proposer:"请回答以下问题,详细说明你的推理过程"
│ └── Aggregator:"以下是多个回答,请整合出最佳答案"
└── 优化方法:
├── 选择互补性强的模型组合
├── 调整 Proposer 的多样性
└── Aggregator 的整合能力是关键
面试追问:
Q: MoA 和 Ensemble Learning 的区别?
A: MoA 是 LLM 层面的协作,利用不同模型的"知识互补";
传统 Ensemble 是同一模型多次预测的平均。MoA 的 Aggregator
可以进行"智能整合"而非简单投票。
Q: MoA 的成本问题如何解决?
A: 可以用开源模型作为 Proposer(成本低),闭源模型作为
Aggregator(质量高);或者用 MoE 替代 MoA。5. Test-Time Compute Scaling:推理时间计算的扩展
来源:OpenAI / DeepSeek / 学术界, 2024-2025 影响力:★★★★★ — 推理模型的理论基础
核心概念:
├── 传统 Scaling Laws(训练时间):
│ ├── 性能 ∝ 参数量^α × 数据量^β × 计算量^γ
│ ├── 投入更多训练计算 → 更好性能
│ └── 瓶颈:训练成本指数增长
├── Test-Time Compute Scaling(推理时间):
│ ├── 在推理时投入更多计算 → 更好性能
│ ├── 模型"思考更久" → 回答更准确
│ └── 突破训练计算的天花板
└── 关键发现:
├── 推理时间计算的 scaling law 也存在
├── 简单问题:思考更久收益递减
├── 复杂问题:思考更久收益显著
└── 最优策略:根据问题难度动态分配推理计算
实现方法:
├── 思维链(Chain-of-Thought):
│ ├── 让模型"一步一步思考"
│ ├── 推理 token 增加 → 准确率提升
│ └── o1/R1 的核心方法
├── 自我一致性(Self-Consistency):
│ ├── 多次采样 → 投票选择最一致的答案
│ ├── 计算量 = 采样次数 × 单次推理
│ └── 简单有效
├── 树搜索(Tree of Thought):
│ ├── 推理过程建模为树结构
│ ├── 每步生成多个候选推理方向
│ ├── 评估后选择最优方向继续
│ └── 类似 AlphaGo 的 MCTS
├── 验证器引导(Verifier-Guided):
│ ├── 训练一个验证器评估推理过程
│ ├── 验证器给每条推理路径打分
│ ├── 选择得分最高的路径
│ └── Process Reward Model (PRM)
└── 拒绝采样(Rejection Sampling):
├── 生成多个回答 → 过滤掉错误的
├── 保留正确的 → 再生成/整合
└── 简单但有效
o1/o3 的技术推测:
├── 训练阶段:
│ ├── 大规模思维链数据收集
│ ├── 过程奖励模型(PRM)训练
│ └── RL 训练优化推理策略
├── 推理阶段:
│ ├── 内部思维链生成(用户不可见)
│ ├── 动态分配推理计算
│ └── 验证器筛选最优推理路径
└── 关键创新:
├── 推理 token 的高效利用
├── 过程监督 vs 结果监督
└── 推理时间的动态计算分配
面试追问:
Q: Test-Time Compute 和 Train-Time Compute 的关系?
A: 两者互补。训练时间计算提升模型"基础能力",推理时间计算
提升模型"发挥能力"。最优策略是平衡两者投入。DeepSeek-R1
证明了推理时间计算可以在开源模型上实现。
Q: Process Reward Model (PRM) 和 Outcome Reward Model (ORM) 的区别?
A: ORM 只看最终结果对不对,PRM 评估每一步推理是否正确。
PRM 更精确但标注成本更高。o1 推测使用了 PRM。
Q: 推理时间计算的瓶颈是什么?
A: 1) 延迟:思考越久,用户等待越长
2) 成本:推理 token 数量增加,API 费用增加
3) 质量:不是所有问题都受益于更多思考
4) 最优分配:如何根据问题难度动态调整推理计算论文演进脉络总结
对齐训练演进:
RLHF (2022, InstructGPT)
↓ 简化 RM+PPO
DPO (2023, Stanford)
↓ 去掉 Critic Model
GRPO (2025, DeepSeek-R1)
↓ 纯 RL 涌现推理
R1-Zero (2025, DeepSeek)
推理能力演进:
Chain-of-Thought (2022, Google)
↓ 结构化推理
Tree of Thought (2023, Princeton)
↓ 验证器引导
Process Reward Model (2023, OpenAI)
↓ 推理时间扩展
Test-Time Compute Scaling (2024, OpenAI)
↓ 开源实现
DeepSeek-R1 / GRPO (2025, DeepSeek)
多模型协作演进:
Ensemble Learning (传统 ML)
↓ LLM 化
Self-Consistency (2022, Google)
↓ 多模型
Mixture of Agents (2024, Together AI)
↓ 标准化
MCP / A2A 协议 (2025)
开源模型演进:
LLaMA (2023, Meta) → 开源生态爆发
↓ 商用开源
Llama 2 (2023, Meta) → 商用许可
↓ 规模突破
Llama 3 (2024, Meta) → 405B + 128K
↓ MoE 架构
Llama 4 (2025, Meta) → MoE + 10M 上下文
↓ 推理能力
DeepSeek-R1 (2025, DeepSeek) → 开源推理模型📝 最后更新:2025 年 6 月 | 新增 2025-2026 大模型发展 + 关键论文更新