02. 大模型发展脉络

面试必知：了解行业演进、主流模型特点、关键论文，展示你的行业认知深度

一、大模型发展时间线

2017 ─── Transformer 诞生 ──────────────────────────────────────────────
  │  "Attention Is All You Need" (Google)
  │  → 序列建模从 RNN/LSTM 进入 Transformer 时代
  │
2018 ─── 预训练革命 ────────────────────────────────────────────────────
  │  GPT-1 (OpenAI) — 生成式预训练
  │  BERT (Google) — 双向编码，NLP 全面刷新
  │
2019 ─── 规模初现 ──────────────────────────────────────────────────────
  │  GPT-2 (1.5B) — "太危险不发布"，零样本能力惊人
  │  T5 (Google) — 统一文本到文本框架
  │
2020 ─── Scaling Laws 揭示 ─────────────────────────────────────────────
  │  GPT-3 (175B) — 少样本学习，In-Context Learning
  │  Scaling Laws 论文 — 性能 ∝ 参数量^α × 数据量^β × 计算量^γ
  │
2021 ─── 效率优化 ──────────────────────────────────────────────────────
  │  LoRA — 低秩适配，微调大模型成为可能
  │  Codex — 代码生成，GitHub Copilot 诞生
  │  Switch Transformer — MoE 架构探索
  │
2022 ─── ChatGPT 元年 ──────────────────────────────────────────────────
  │  ChatGPT (11月) — 2个月破亿用户，AI 民主化
  │  InstructGPT — RLHF 对齐，从"能用"到"好用"
  │  Chain-of-Thought — 思维链推理
  │  FlashAttention — 注意力计算加速 2-4x
  │  Stable Diffusion — 开源图像生成
  │
2023 ─── 百模大战 ──────────────────────────────────────────────────────
  │  GPT-4 (3月) — 多模态，能力跃升
  │  LLaMA (2月) — Meta 开源，引爆开源社区
  │  Llama 2 (7月) — 商用开源
  │  Claude 2 — 长上下文 100K
  │  Mixtral 8x7B (12月) — 开源 MoE
  │  DPO — 替代 RLHF 的简化方案
  │  Qwen-1 通义千问 — 国内首批大模型
  │
2024 ─── 推理模型 + 多模态 ─────────────────────────────────────────────
  │  GPT-4o (5月) — 原生多模态，语音对话
  │  Claude 3/3.5 Sonnet — 编程能力最强
  │  Llama 3/3.1 — 405B 开源，128K 上下文
  │  DeepSeek-V2 (5月) — MLA 注意力，成本降低 5-10x
  │  DeepSeek-V3 (12月) — 671B MoE，训练成本仅 $5.5M
  │  o1/o3 (9月/12月) — 推理模型，思维链
  │  Gemini 1.5/2.0 — 1M 上下文窗口
  │  Qwen-2 — 中文能力领先
  │  Claude 3.5 Haiku — 小模型性价比之王
  │
2025 ─── Agent 元年 ────────────────────────────────────────────────────
     DeepSeek-R1 (1月) — 开源推理模型，GRPO 训练
     Claude 3.5 Sonnet (新版) — Computer Use，Agent 能力
     Claude 4 / Opus 4 (5月) — 最强编程和推理
     GPT-4.1 / o3/o4-mini — 推理 + 工具调用
     Llama 4 (4月) — Meta 最新开源
     Qwen-3 (4月) — 混合推理（思考/非思考模式）
     Gemini 2.5 Pro — 最强多模态推理
     MCP 协议 — 工具生态标准化
     A2A 协议 — Agent 间通信标准化

二、主流大模型特色对比

闭源模型

模型	公司	参数	上下文	核心特色	2025年定位
GPT-4o	OpenAI	未公开	128K	原生多模态（文本/图像/音频），速度极快	通用首选
o3	OpenAI	未公开	200K	深度推理，数学/编程/科学推理最强	复杂推理
o4-mini	OpenAI	未公开	200K	推理能力接近 o3，成本更低	推理性价比
GPT-4.1	OpenAI	未公开	1M	指令遵循极强，长上下文	长文档处理
Claude 3.5 Sonnet	Anthropic	未公开	200K	编程能力最强，Computer Use	编程/Agent
Claude 4 Opus	Anthropic	未公开	200K	最强推理+编程，扩展思考	专业任务
Gemini 2.5 Pro	Google	未公开	1M	最长上下文，多模态推理	长文档/多模态
Gemini 2.0 Flash	Google	未公开	1M	速度极快，成本极低	高吞吐场景

开源模型

模型	公司	参数	上下文	核心特色	2025年定位
DeepSeek-V3	DeepSeek	671B (MoE)	128K	MLA 注意力，训练成本 $5.5M	开源最强通用
DeepSeek-R1	DeepSeek	671B (MoE)	128K	推理模型，GRPO 训练，蒸馏版	开源推理最强
Llama 4 Scout	Meta	109B (MoE, 17B 激活)	10M	10M 上下文窗口	超长上下文
Llama 4 Maverick	Meta	400B (MoE, 17B 激活)	1M	400B 激活参数	通用
Qwen-3	阿里	0.6B-235B	128K	混合推理（思考/非思考），中文最强	中文场景
Mistral Large	Mistral	123B	128K	欧洲最强，函数调用强	欧洲合规
Mixtral 8x22B	Mistral	176B (MoE)	64K	MoE 架构，性价比高	高性价比

各家「绝活」

OpenAI:
├── 推理能力（o3/o4 系列）— 数学、科学、编程推理最强
├── 多模态（GPT-4o）— 原生语音对话，实时翻译
└── 生态（ChatGPT + API）— 最大的用户基数和开发者生态

Anthropic:
├── 编程能力（Claude 3.5/4）— 代码生成和理解最强
├── Agent 能力（Computer Use）— 操控电脑完成任务
├── 安全对齐（Constitutional AI）— 最注重安全的厂商
└── 长文本质量 — 200K 上下文下依然保持高质量

Google:
├── 超长上下文（Gemini 2.5）— 1M token 窗口
├── 多模态推理 — 图像/视频/音频理解最强
└── 价格（Flash 系列）— 极致性价比

DeepSeek:
├── 训练效率 — V3 训练成本仅 $5.5M（GPT-4 的 1/100）
├── 推理能力（R1）— 开源推理模型标杆
├── MLA 注意力 — KV Cache 压缩 93%
└── 开源精神 — 模型+训练方法全部公开

Meta (Llama):
├── 开源生态 — 最大的开源 LLM 社区
├── 超长上下文（Llama 4 Scout）— 10M token 窗口
└── 多模态（Llama 4）— 原生视觉能力

阿里 (Qwen):
├── 中文能力 — 中文理解和生成最强
├── 混合推理（Qwen-3）— 思考/非思考模式自由切换
└── 全尺寸覆盖 — 0.6B 到 235B 全系列

三、改变大模型格局的关键论文

1. 架构奠基

"Attention Is All You Need" (Vaswani et al., 2017)

影响：★★★★★ — 整个领域的基石
核心贡献：
├── 提出 Transformer 架构
├── 多头自注意力机制（Multi-Head Attention）
├── 位置编码（Sinusoidal Positional Encoding）
└── 编码器-解码器结构

后续影响：
几乎所有大模型都基于 Transformer 变体
BERT（编码器）、GPT（解码器）、T5（编码器-解码器）

"BERT: Pre-training of Deep Bidirectional Transformers" (Devlin et al., 2018)

影响：★★★★★ — 预训练范式的开创者
核心贡献：
├── 掩码语言模型（MLM）— 双向上下文
├── 下一句预测（NSP）
└── 预训练+微调范式 — 刷新 11 项 NLP 任务

后续影响：
开创了"预训练+微调"范式
直到 GPT-3 的 In-Context Learning 才改变

2. 规模定律

"Scaling Laws for Neural Language Models" (Kaplan et al., 2020)

影响：★★★★★ — 指导了整个行业的资源投入
核心发现：
├── 性能 ∝ 参数量^0.076 × 数据量^0.095 × 计算量^0.050
├── 增大模型比增大数据更有效（当时结论）
└── 计算预算最优分配：大模型 + 少数据（后来被修正）

后续影响：
直接推动了 GPT-3 (175B) 的诞生
"大力出奇迹"成为行业共识

"Chinchilla: Training Compute-Optimal Large Language Models" (Hoffmann et al., 2022)

影响：★★★★☆ — 修正了 Scaling Laws
核心发现：
├── 修正 Kaplan 结论：数据量和参数量应该同等增长
├── 最优比例：20 tokens/参数（而非之前的大量参数少数据）
├── Chinchilla (70B, 1.4T tokens) > Gopher (280B, 300B tokens)

后续影响：
Llama 系列遵循 Chinchilla 定律
行业从"拼参数"转向"拼数据质量"

3. 对齐训练

"Training language models to follow instructions with human feedback" (Ouyang et al., 2022)

影响：★★★★★ — ChatGPT 的技术基础（InstructGPT 论文）
核心贡献：
├── RLHF（人类反馈强化学习）三阶段：
│   1. SFT（监督微调）
│   2. RM（奖励模型训练）
│   3. PPO（强化学习优化）
└── 从"预测下一个 token"到"遵循人类指令"

后续影响：
ChatGPT 基于此论文技术
所有对齐训练的鼻祖

"Direct Preference Optimization" (Rafailov et al., 2023)

影响：★★★★☆ — 简化了对齐训练
核心贡献：
├── 证明 RLHF 的 RM+PPO 可以用 closed-form 解替代
├── 直接用偏好数据优化策略，无需训练 RM
└── 训练更稳定，实现更简单

后续影响：
被 Claude、Llama 等广泛采用
RLHF → DPO → GRPO 的演进

4. 效率优化

"LoRA: Low-Rank Adaptation of Large Language Models" (Hu et al., 2021)

影响：★★★★★ — 让微调大模型平民化
核心贡献：
├── 冻结原始权重，只训练低秩分解矩阵
├── 参数量减少 10000x（7B 模型只训 4MB 参数）
├── 效果接近全参数微调
└── 推理时可合并权重，零额外开销

后续影响：
几乎所有大模型微调都用 LoRA/QLoRA
HuggingFace 上 90%+ 的微调模型基于 LoRA

"FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" (Dao et al., 2022)

影响：★★★★☆ — Transformer 推理加速里程碑
核心贡献：
├── IO 感知的注意力计算
├── 分块计算（Tiling）+ 在线 Softmax
├── 训练速度提升 2-4x，显存减少 5-20x
└── 精确计算（不是近似）

后续影响：
FlashAttention-2 进一步优化
几乎所有训练框架都集成

5. 开源里程碑

"LLaMA: Open and Efficient Foundation Language Models" (Touvron et al., 2023)

影响：★★★★★ — 引爆开源大模型生态
核心贡献：
├── 证明小模型+更多数据 > 大模型+少数据
├── LLaMA-13B 性能接近 GPT-3 (175B)
├── 开源权重（研究用途）
└── 引发开源社区爆发

后续影响：
Llama 2 → 商用开源
Mistral、Qwen、DeepSeek 都受其影响
HuggingFace 上 Llama 生态最大

"DeepSeek-V3 Technical Report" (DeepSeek, 2024)

影响：★★★★★ — 重新定义训练成本
核心贡献：
├── MoE 架构：671B 总参数，37B 激活参数
├── MLA（Multi-Latent Attention）：KV Cache 压缩 93%
├── 训练成本仅 $5.5M（GPT-4 估计 $100M+）
├── FP8 混合精度训练
└── 辅助损失-free 的负载均衡

后续影响：
证明了追赶顶级闭源模型的可行性
开源模型性能接近 GPT-4

6. 推理革命

"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022)

影响：★★★★★ — 发现了 LLM 的推理能力
核心发现：
├── 在 prompt 中加入推理步骤示例
├── LLM 可以进行多步推理
├── 数学/逻辑任务准确率大幅提升
└── 不需要额外训练

后续影响：
催生了推理模型（o1、DeepSeek-R1）
思维链成为 LLM 推理的标准方法

"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL" (DeepSeek, 2025)

影响：★★★★★ — 开源推理模型的里程碑
核心贡献：
├── 纯 RL 训练涌现推理能力（R1-Zero）
├── GRPO 算法：去掉 Critic 模型
├── 思维链蒸馏：大模型推理能力迁移到小模型
└── 完全开源：模型+训练方法

后续影响：
推理模型从 OpenAI 垄断走向开源
思维链蒸馏成为新的能力迁移方法
GRPO 成为 RL 训练的新选择

7. 工具与 Agent

"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (Lewis et al., 2020)

影响：★★★★★ — RAG 的奠基论文
核心贡献：
├── 检索+生成的混合架构
├── 解决 LLM 知识过时和幻觉问题
├── 可更新知识而无需重新训练
└── 端到端训练检索器和生成器

后续影响：
RAG 成为 LLM 应用的标配
向量数据库行业爆发（Pinecone、Milvus）

四、大模型技术演进路线

架构演进：
RNN/LSTM → Transformer → MoE → MLA（DeepSeek）→ ?
                                    ↓
                            更高效的注意力机制

训练范式演进：
预训练+微调 → 预训练+Prompt → 预训练+RLHF → 预训练+DPO/GRPO
                                      ↓
                              更低成本的对齐方法

推理能力演进：
Zero-shot → Few-shot → Chain-of-Thought → Self-Consistency → 推理模型(o1/R1)
                                                          ↓
                                                  Test-Time Compute Scaling

应用范式演进：
单轮问答 → 多轮对话 → RAG → Agent → Multi-Agent → Agentic 工作流
                                              ↓
                                      MCP/A2A 标准化

五、2025 年行业趋势

1. 推理模型成为标配

OpenAI o3/o4、DeepSeek-R1、Qwen-3 都支持推理模式
"思考/非思考"混合模式成为趋势
推理成本持续下降

2. Agent 从概念到落地

MCP 协议标准化工具生态
Computer Use 让 Agent 可以操控电脑
从"聊天助手"到"数字员工"

3. 上下文窗口持续增长

Gemini: 1M → 2M
Llama 4 Scout: 10M
但长上下文的质量和成本仍是挑战

4. 开源追赶闭源

DeepSeek-V3/R1 性能接近 GPT-4
开源模型在特定任务上已超越闭源
训练成本从 $100M+ 降到 $5M

5. 多模态原生化

从"文本+图像"到"文本+图像+音频+视频"
原生多模态（如 GPT-4o）vs 拼接多模态
实时语音对话成为标配

6. 小模型逆袭

Phi-4 (14B)、Qwen-3 (8B)、Llama 4 (17B) 在特定任务上媲美大模型
端侧部署成为可能
蒸馏+量化+剪枝技术成熟

六、面试高频问题

Q: 为什么 Transformer 能取代 RNN/LSTM？

答：

并行计算：RNN 必须逐步处理，Transformer 可以一次性处理整个序列
长距离依赖：RNN 的梯度消失问题，Transformer 的自注意力直接建立任意距离的连接
可扩展性：Transformer 天然适合 GPU 大规模并行，可以 scaling 到千亿参数

Q: 为什么 GPT 用 Decoder-only 而 BERT 用 Encoder-only？

答：

GPT（Decoder-only）：自回归生成，适合生成任务（对话、写作、代码）
BERT（Encoder-only）：双向编码，适合理解任务（分类、NER、问答）
后来发现：Decoder-only + 足够大的规模，也能做好理解任务
2023 年后，Decoder-only 成为主流（GPT、Claude、Llama、DeepSeek 都是）

Q: 为什么 MoE 架构突然火了？

答：

成本优势：671B 参数但只激活 37B，计算成本接近 37B 模型
性能优势：总参数量大 → 知识容量大 → 性能上限高
训练效率：DeepSeek-V3 用 $5.5M 训出 GPT-4 级别模型
技术成熟：负载均衡、路由策略等问题被解决

Q: RLHF → DPO → GRPO 的演进逻辑是什么？

答：

RLHF (2022): 完整但复杂
├── 需要训练 Reward Model
├── 需要 PPO 训练（4 个模型同时跑）
└── 训练不稳定，超参敏感

DPO (2023): 简化
├── 证明 RM+PPO 可以用 closed-form 解替代
├── 只需要偏好数据对
└── 训练稳定，实现简单

GRPO (2025): 进一步简化
├── 去掉 Critic Model（PPO 需要的 Value 模型）
├── 用组内相对排名替代绝对价值估计
├── 训练资源减半
└── 特别适合推理任务（奖励信号明确）

Q: 2025 年最值得关注的趋势是什么？

答：

推理模型普及：从 OpenAI 垄断到开源追赶，推理成本下降 10x
Agent 落地：MCP 标准化 + Computer Use，从 demo 到生产
开源追赶闭源：DeepSeek 证明了 $5M 可以训出 GPT-4 级别
长上下文：10M token 窗口，但质量控制仍是挑战
多模态原生：不是拼接，而是原生理解图像/音频/视频

📝 最后更新：2025 年 6 月 | 数据截至 2025 年 6 月

2025-2026 大模型发展

1. DeepSeek-R1 / R2：开源推理模型的标杆

发布时间：R1 (2025年1月) / R2 (2025年Q3 预计)

核心技术：

DeepSeek-R1：
├── 参数量：671B MoE（37B 激活参数）
├── 上下文窗口：128K tokens
├── 训练方法：GRPO（Group Relative Policy Optimization）
├── 核心创新：
│   ├── 纯 RL 训练涌现推理能力（R1-Zero 实验）
│   ├── 去掉 Critic Model，用组内相对排名替代
│   ├── 思维链蒸馏：大模型 → 小模型能力迁移
│   └── 完全开源：模型权重 + 训练方法 + 蒸馏版
├── 蒸馏版系列：1.5B / 7B / 8B / 14B / 32B / 70B
└── 性能：数学/编程推理接近 o1，开源最强推理模型

GRPO 训练详解：

python

# GRPO 核心思想（伪代码）
for each question q:
    # 1. 采样一组回答
    responses = [model.generate(q) for _ in range(G)]  # G=8~16
    
    # 2. 计算每个回答的奖励
    rewards = [reward_fn(q, r) for r in responses]
    
    # 3. 组内标准化（关键创新：去掉 Critic）
    advantages = [(r - mean(rewards)) / std(rewards) for r in rewards]
    
    # 4. 策略梯度更新
    loss = -sum(advantages[i] * log_prob(responses[i]) for i in range(G))
    loss.backward()

面试要点：

R1-Zero 实验：纯 RL 训练（无 SFT 数据）也能涌现推理能力，证明 RL 对推理的激励效果
GRPO vs PPO：去掉 Value Model（Critic），训练资源减半，更稳定
思维链蒸馏：从 671B 蒸馏到 7B 仍有很强推理能力，方法论意义重大
DeepSeek-R2 预期：更强的推理能力，更高效的训练方法，预计 2025 Q3 发布

2. GPT-4o / GPT-5：原生多模态的进化

GPT-4o (2024年5月)：

核心特点：
├── 原生多模态：文本/图像/音频 统一模型
├── 实时语音对话：延迟 ~320ms，接近人类对话
├── 情感表达：语音可感知情绪，可调节语速/语调
├── 视觉理解：实时摄像头画面分析
└── 速度：比 GPT-4 Turbo 快 2x，价格便宜 50%

技术架构推测：
├── 统一 tokenizer：文本 + 图像 + 音频 → 统一 token 序列
├── 端到端训练：不是拼接模块，而是原生多模态
└── 语音直接理解/生成：无需 ASR/TTS 中间步骤

GPT-5 (2025年预期)：

预期特点：
├── 更强推理能力：融合 o 系列推理能力
├── 原生视频理解：实时视频流分析
├── Agent 能力增强：原生工具调用 + 长程任务规划
├── 上下文窗口：1M+ tokens
└── 多模态生成：文本/图像/音频/视频 统一生成

面试要点：
├── "原生多模态" vs "拼接多模态" 的区别
├── 语音对话的技术架构（端到端 vs ASR+LLM+TTS）
└── GPT-5 如何整合 o 系列推理能力

3. Claude 4 Opus / Sonnet：长上下文与 Agent 之王

Claude 4 系列 (2025年5月)：

Claude 4 Opus：
├── 定位：最强专业任务模型
├── 上下文：200K tokens
├── 核心能力：
│   ├── 编程能力：SWE-bench 最高分
│   ├── 推理能力：扩展思考（Extended Thinking）
│   ├── Agent 能力：Computer Use + 工具调用
│   └── 长文本质量：200K 下依然保持高质量
└── 适用场景：复杂编程、专业分析、长文档处理

Claude 4 Sonnet：
├── 定位：速度与能力的平衡
├── 上下文：200K tokens
├── 核心能力：
│   ├── 编程能力接近 Opus
│   ├── 响应速度更快
│   └── 性价比更高
└── 适用场景：日常编程、对话、Agent 应用

Claude 的技术特色：

Constitutional AI（宪法 AI）：
├── 用一组原则（"宪法"）指导模型行为
├── 减少人工标注需求
├── 模型自我批评和修正
└── 安全性最高的大模型

Computer Use：
├── 截屏 → 理解界面 → 规划操作 → 执行点击/输入
├── Agent 能力的核心突破
└── 从"对话助手"到"数字员工"

扩展思考（Extended Thinking）：
├── 类似 o1 的思维链推理
├── 可调节思考时间/深度
└── 在复杂推理任务上显著提升

4. Gemini 2.5 Pro：超长上下文与原生视频

Gemini 2.5 Pro (2025年)：

核心特点：
├── 上下文窗口：1M tokens（可扩展到 2M）
├── 原生多模态：文本/图像/音频/视频 统一理解
├── 视频理解：直接理解视频内容，无需逐帧分析
├── 推理能力：Gemini 2.0 Thinking 模式
└── 代码能力：编程能力大幅提升

技术优势：
├── Google TPU 训练：算力成本优势
├── 长上下文质量：1M token 下仍有良好表现
├── 视频原生理解：YouTube 视频直接分析
└── 搜索增强：与 Google 搜索深度集成

Gemini 2.0 Flash：

├── 定位：速度极快，成本极低
├── 上下文：1M tokens
├── 适用场景：高吞吐、低延迟场景
└── 价格：业界最低之一

5. Qwen3：混合推理与中文优化

Qwen3 (2025年4月)：

模型系列：
├── Qwen3-0.6B / 1.7B / 4B / 8B / 14B / 32B（Dense）
├── Qwen3-30B-A3B / 235B-A22B（MoE）
└── 全系列支持 128K 上下文

核心创新：
├── 混合推理模式：
│   ├── 思考模式（Thinking）：类似 o1/R1 的深度推理
│   ├── 非思考模式（Non-Thinking）：快速响应
│   └── 可动态切换，平衡速度和质量
├── 中文能力：中文理解和生成最强
├── MoE 架构：235B 总参数，22B 激活
└── 训练数据：多语言，重点优化中文

面试要点：
├── Qwen3 的"思考/非思考"混合模式设计思路
├── MoE vs Dense 的选择策略
└── 中文优化的具体方法（数据配比、tokenizer）

6. MiMo：小米端侧大模型

MiMo (2025年)：

定位：端侧部署优化的大模型系列

核心特点：
├── 端侧优化：
│   ├── 模型压缩：量化、剪枝、蒸馏
│   ├── 推理加速：NPU/GPU 异构计算
│   ├── 内存优化：适配手机/平板内存限制
│   └── 功耗控制：移动设备续航优化
├── 模型规模：7B / 3B / 1.5B 等多尺寸
├── 应用场景：
│   ├── 手机端 AI 助手
│   ├── 本地文档处理
│   ├── 离线语音交互
│   └── 隐私敏感任务（数据不出端）
└── 技术路线：
    ├── 端云协同：简单任务端侧处理，复杂任务上云
    ├── 模型蒸馏：从大模型蒸馏到端侧小模型
    └── 硬件适配：针对小米自研芯片优化

面试要点：
├── 端侧部署的核心挑战（内存、算力、功耗）
├── 端云协同架构设计
└── 量化/蒸馏/剪枝的技术选型

7. Llama 4：开源生态的新旗舰

Llama 4 (2025年4月)：

模型系列：
├── Llama 4 Scout：
│   ├── 109B 总参数，17B 激活参数（MoE）
│   ├── 10M token 上下文窗口（业界最长）
│   └── 适合超长文档处理
├── Llama 4 Maverick：
│   ├── 400B 总参数，17B 激活参数（MoE）
│   ├── 1M token 上下文窗口
│   └── 通用能力最强
└── Llama 4 Behemoth（预告）：
    ├── 2T 总参数
    └── 训练中

核心创新：
├── MoE 架构：Llama 首次采用 MoE
├── 超长上下文：Scout 支持 10M tokens
├── 原生视觉：图像理解能力
├── 开源生态：
│   ├── 开源权重
│   ├── 社区微调版本爆发
│   └── HuggingFace 生态支持
└── 训练效率：MoE 降低推理成本

面试要点：
├── Llama 4 为什么转向 MoE？
├── 10M 上下文的技术实现（RoPE 外推、稀疏注意力）
└── Llama 生态 vs DeepSeek 生态

2025-2026 主流模型综合对比表

维度	DeepSeek-R1/R2	GPT-4o/5	Claude 4 Opus	Gemini 2.5 Pro	Qwen3-235B	MiMo	Llama 4 Maverick
公司	DeepSeek	OpenAI	Anthropic	Google	阿里	小米	Meta
总参数量	671B MoE	未公开	未公开	未公开	235B MoE	7B/3B/1.5B	400B MoE
激活参数	37B	未公开	未公开	未公开	22B	全量	17B
上下文窗口	128K	128K→1M+	200K	1M~2M	128K	4K~32K	1M
多模态	文本为主	文/图/音/视频	文/图	文/图/音/视频	文/图	文/图/音	文/图
推理能力	★★★★★	★★★★★	★★★★☆	★★★★☆	★★★★☆	★★★☆☆	★★★☆☆
编程能力	★★★★☆	★★★★☆	★★★★★	★★★★☆	★★★★☆	★★★☆☆	★★★☆☆
中文能力	★★★★☆	★★★★☆	★★★☆☆	★★★☆☆	★★★★★	★★★★☆	★★★☆☆
开源	✅ 完全开源	❌ 闭源	❌ 闭源	❌ 闭源	✅ 完全开源	✅ 开源	✅ 开源
API定价	极低	中等	较高	低	极低	端侧免费	免费(自部署)
特色	训练成本低	原生多模态	编程+Agent	超长上下文	中文+混合推理	端侧部署	开源生态
适用场景	推理/数学/代码	通用/多模态	编程/Agent	长文档/视频	中文场景	手机/IoT	开源二次开发

各模型定价对比（2025年参考）

模型	输入价格 ($/1M tokens)	输出价格 ($/1M tokens)	备注
GPT-4o	$2.50	$10.00	多模态
GPT-4.1	$2.00	$8.00	长上下文
o3	$10.00	$40.00	推理模型
Claude 4 Opus	$15.00	$75.00	最强专业
Claude 4 Sonnet	$3.00	$15.00	性价比
Gemini 2.5 Pro	$1.25 / $2.50	$10.00	长上下文加价
Gemini 2.0 Flash	$0.10	$0.40	极低价格
DeepSeek-R1	$0.55	$2.19	开源极低
DeepSeek-V3	$0.27	$1.10	最具性价比
Qwen3-235B	$0.40	$1.20	中文优化
Llama 4	免费(自部署)	免费(自部署)	需自建基础设施

关键论文更新 (2025-2026)

1. DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

来源：DeepSeek, 2025年1月 影响力：★★★★★ — 开源推理模型的里程碑

核心贡献：
├── R1-Zero 实验：
│   ├── 纯 RL 训练（无 SFT 数据）涌现推理能力
│   ├── 模型自发学会"思维链"和"自我纠错"
│   └── 证明 RL 对推理能力的激励效果
├── GRPO（Group Relative Policy Optimization）：
│   ├── 去掉 PPO 中的 Critic/Value Model
│   ├── 用同一问题的多个采样回答进行组内排名
│   ├── 相对优势估计替代绝对价值估计
│   └── 训练资源减半，更稳定
├── 完整训练流程：
│   1. 冷启动 SFT：少量高质量推理数据微调
│   2. GRPO 推理训练：数学/编程/逻辑 RL 训练
│   3. 拒绝采样 + SFT：生成高质量数据再微调
│   4. 全场景 GRPO：通用能力 + 推理能力平衡
├── 思维链蒸馏：
│   ├── 671B → 1.5B/7B/8B/14B/32B/70B
│   ├── 蒸馏版 14B 超越 QwQ-32B
│   └── 方法论：用大模型推理数据微调小模型
└── 完全开源：模型 + 论文 + 训练细节

面试追问：
Q: GRPO 为什么比 PPO 更适合推理任务？
A: 推理任务的奖励信号明确（对/错），不需要精确的价值估计，
   组内相对排名足够。PPO 的 Value Model 在稀疏奖励下训练困难。

Q: R1-Zero 的意义是什么？
A: 证明了推理能力可以通过纯 RL 涌现，不需要人工标注的推理过程数据，
   这改变了"推理能力必须通过监督学习获得"的认知。

2. Gemma：Google 的开源大模型系列

来源：Google, 2024-2025 影响力：★★★★☆ — Google 开源生态的重要补充

Gemma 1 (2024年2月)：
├── 模型规模：2B / 7B
├── 基于 Gemini 技术
├── 开源权重，商用友好
└── 性能：同尺寸开源最强之一

Gemma 2 (2024年6月)：
├── 模型规模：2B / 9B / 27B
├── 核心创新：
│   ├── 滑动窗口注意力 + 全局注意力交替
│   ├── 知识蒸馏：大模型蒸馏到小模型
│   ├── 模型合并（Model Merging）技术
│   └── 训练效率优化
├── 性能：27B 接近 Llama 3 70B
└── 特色：推理效率极高

Gemma 3 (2025年)：
├── 多模态支持：图像 + 文本
├── 更大规模：1B / 4B / 12B / 27B
├── 128K 上下文
└── 与 Gemini 2 技术对齐

技术论文要点：
├── 知识蒸馏的有效性：大模型 → 小模型，性能损失小
├── 滑动窗口注意力：降低长序列计算成本
├── 模型合并：多个微调模型融合，无需额外训练
└── 训练数据策略：数据质量 > 数据数量

面试追问：
Q: Gemma 和 Gemini 的关系？
A: Gemini 是 Google 的闭源旗舰模型，Gemma 是基于 Gemini 技术
   和训练经验的开源版本，但参数规模更小，面向开发者社区。

3. Claude 系统提示与 Constitutional AI：Anthropic 的对齐方法论

来源：Anthropic, 2024-2025 影响力：★★★★☆ — AI 安全对齐的重要参考

Constitutional AI（宪法 AI）核心思想：
├── 传统 RLHF：
│   ├── 需要大量人工标注偏好数据
│   ├── 标注者偏好不一致
│   └── 扩展性差
├── Constitutional AI 改进：
│   ├── 定义一组原则（"宪法"）
│   ├── 模型根据原则自我批评和修正
│   ├── 减少人工标注需求
│   └── 更一致、可解释的行为
├── 训练流程：
│   1. 生成有害回复
│   2. 模型根据宪法原则自我批评
│   3. 模型生成修正后的回复
│   4. 用修正数据训练 RM
│   5. RL 训练最终模型
└── 原则示例：
    ├── "选择最无害的回复"
    ├── "选择最诚实的回复"
    ├── "选择最有帮助的回复"
    └── "避免协助非法活动"

Claude System Prompt 的设计哲学：
├── 明确的行为边界：什么能做，什么不能做
├── 角色定义：AI 助手的定位和能力范围
├── 安全机制：拒绝有害请求的标准流程
├── 透明度：对不确定性的坦诚表达
└── 长度：Claude 的系统提示长达数千字

面试追问：
Q: Constitutional AI 和 RLHF 的核心区别？
A: RLHF 依赖人工标注偏好，Constitutional AI 用原则指导模型
   自我修正，减少了人工标注需求，同时保证了行为一致性。

Q: 为什么 Claude 的系统提示这么长？
A: Anthropic 注重安全和透明，详细定义了行为边界、安全机制、
   角色定位等，虽然增加 token 成本，但提高了行为的可预测性。

4. Mixture of Agents：多模型协作的新范式

来源：Together AI, 2024 影响力：★★★☆☆ — Multi-Agent 协作的探索

核心思想：
├── 单一模型的局限：
│   ├── 不同模型在不同任务上有优势
│   ├── 单模型难以覆盖所有场景
│   └── 推理能力存在上限
├── Mixture of Agents（MoA）方案：
│   ├── 多个 LLM 组成协作网络
│   ├── 分层结构：Proposer + Aggregator
│   ├── Proposer：多个模型生成候选回答
│   └── Aggregator：一个模型整合所有回答
├── 架构设计：
│   Layer 1: [GPT-4, Claude, Llama, Qwen] → 各自生成回答
│   Layer 2: Aggregator 整合 → 最终输出
│   （可多层堆叠）
└── 实验结果：
    ├── MoA 超越单个最强模型
    ├── 在 AlpacaEval / Arena-Hard 上排名第一
    └── 开源模型组合超越闭源模型

技术细节：
├── 角色分配：
│   ├── Proposer：生成多样化候选回答
│   ├── Aggregator：整合、去重、优化
│   └── 不同层可使用不同模型
├── 提示策略：
│   ├── Proposer："请回答以下问题，详细说明你的推理过程"
│   └── Aggregator："以下是多个回答，请整合出最佳答案"
└── 优化方法：
    ├── 选择互补性强的模型组合
    ├── 调整 Proposer 的多样性
    └── Aggregator 的整合能力是关键

面试追问：
Q: MoA 和 Ensemble Learning 的区别？
A: MoA 是 LLM 层面的协作，利用不同模型的"知识互补"；
   传统 Ensemble 是同一模型多次预测的平均。MoA 的 Aggregator
   可以进行"智能整合"而非简单投票。

Q: MoA 的成本问题如何解决？
A: 可以用开源模型作为 Proposer（成本低），闭源模型作为
   Aggregator（质量高）；或者用 MoE 替代 MoA。

5. Test-Time Compute Scaling：推理时间计算的扩展

来源：OpenAI / DeepSeek / 学术界, 2024-2025 影响力：★★★★★ — 推理模型的理论基础

核心概念：
├── 传统 Scaling Laws（训练时间）：
│   ├── 性能 ∝ 参数量^α × 数据量^β × 计算量^γ
│   ├── 投入更多训练计算 → 更好性能
│   └── 瓶颈：训练成本指数增长
├── Test-Time Compute Scaling（推理时间）：
│   ├── 在推理时投入更多计算 → 更好性能
│   ├── 模型"思考更久" → 回答更准确
│   └── 突破训练计算的天花板
└── 关键发现：
    ├── 推理时间计算的 scaling law 也存在
    ├── 简单问题：思考更久收益递减
    ├── 复杂问题：思考更久收益显著
    └── 最优策略：根据问题难度动态分配推理计算

实现方法：
├── 思维链（Chain-of-Thought）：
│   ├── 让模型"一步一步思考"
│   ├── 推理 token 增加 → 准确率提升
│   └── o1/R1 的核心方法
├── 自我一致性（Self-Consistency）：
│   ├── 多次采样 → 投票选择最一致的答案
│   ├── 计算量 = 采样次数 × 单次推理
│   └── 简单有效
├── 树搜索（Tree of Thought）：
│   ├── 推理过程建模为树结构
│   ├── 每步生成多个候选推理方向
│   ├── 评估后选择最优方向继续
│   └── 类似 AlphaGo 的 MCTS
├── 验证器引导（Verifier-Guided）：
│   ├── 训练一个验证器评估推理过程
│   ├── 验证器给每条推理路径打分
│   ├── 选择得分最高的路径
│   └── Process Reward Model (PRM)
└── 拒绝采样（Rejection Sampling）：
    ├── 生成多个回答 → 过滤掉错误的
    ├── 保留正确的 → 再生成/整合
    └── 简单但有效

o1/o3 的技术推测：
├── 训练阶段：
│   ├── 大规模思维链数据收集
│   ├── 过程奖励模型（PRM）训练
│   └── RL 训练优化推理策略
├── 推理阶段：
│   ├── 内部思维链生成（用户不可见）
│   ├── 动态分配推理计算
│   └── 验证器筛选最优推理路径
└── 关键创新：
    ├── 推理 token 的高效利用
    ├── 过程监督 vs 结果监督
    └── 推理时间的动态计算分配

面试追问：
Q: Test-Time Compute 和 Train-Time Compute 的关系？
A: 两者互补。训练时间计算提升模型"基础能力"，推理时间计算
   提升模型"发挥能力"。最优策略是平衡两者投入。DeepSeek-R1
   证明了推理时间计算可以在开源模型上实现。

Q: Process Reward Model (PRM) 和 Outcome Reward Model (ORM) 的区别？
A: ORM 只看最终结果对不对，PRM 评估每一步推理是否正确。
   PRM 更精确但标注成本更高。o1 推测使用了 PRM。

Q: 推理时间计算的瓶颈是什么？
A: 1) 延迟：思考越久，用户等待越长
   2) 成本：推理 token 数量增加，API 费用增加
   3) 质量：不是所有问题都受益于更多思考
   4) 最优分配：如何根据问题难度动态调整推理计算

论文演进脉络总结

对齐训练演进：
RLHF (2022, InstructGPT)
  ↓ 简化 RM+PPO
DPO (2023, Stanford)
  ↓ 去掉 Critic Model
GRPO (2025, DeepSeek-R1)
  ↓ 纯 RL 涌现推理
R1-Zero (2025, DeepSeek)

推理能力演进：
Chain-of-Thought (2022, Google)
  ↓ 结构化推理
Tree of Thought (2023, Princeton)
  ↓ 验证器引导
Process Reward Model (2023, OpenAI)
  ↓ 推理时间扩展
Test-Time Compute Scaling (2024, OpenAI)
  ↓ 开源实现
DeepSeek-R1 / GRPO (2025, DeepSeek)

多模型协作演进：
Ensemble Learning (传统 ML)
  ↓ LLM 化
Self-Consistency (2022, Google)
  ↓ 多模型
Mixture of Agents (2024, Together AI)
  ↓ 标准化
MCP / A2A 协议 (2025)

开源模型演进：
LLaMA (2023, Meta) → 开源生态爆发
  ↓ 商用开源
Llama 2 (2023, Meta) → 商用许可
  ↓ 规模突破
Llama 3 (2024, Meta) → 405B + 128K
  ↓ MoE 架构
Llama 4 (2025, Meta) → MoE + 10M 上下文
  ↓ 推理能力
DeepSeek-R1 (2025, DeepSeek) → 开源推理模型

📝 最后更新：2025 年 6 月 | 新增 2025-2026 大模型发展 + 关键论文更新

02. 大模型发展脉络 ​

一、大模型发展时间线 ​

二、主流大模型特色对比 ​

闭源模型 ​

开源模型 ​

各家「绝活」 ​

三、改变大模型格局的关键论文 ​

1. 架构奠基 ​

2. 规模定律 ​

3. 对齐训练 ​

4. 效率优化 ​

5. 开源里程碑 ​

6. 推理革命 ​

7. 工具与 Agent ​

四、大模型技术演进路线 ​

五、2025 年行业趋势 ​

1. 推理模型成为标配 ​

2. Agent 从概念到落地 ​

3. 上下文窗口持续增长 ​

4. 开源追赶闭源 ​

5. 多模态原生化 ​

6. 小模型逆袭 ​

六、面试高频问题 ​

Q: 为什么 Transformer 能取代 RNN/LSTM？ ​

Q: 为什么 GPT 用 Decoder-only 而 BERT 用 Encoder-only？ ​

Q: 为什么 MoE 架构突然火了？ ​

Q: RLHF → DPO → GRPO 的演进逻辑是什么？ ​

Q: 2025 年最值得关注的趋势是什么？ ​

2025-2026 大模型发展 ​

1. DeepSeek-R1 / R2：开源推理模型的标杆 ​

2. GPT-4o / GPT-5：原生多模态的进化 ​

3. Claude 4 Opus / Sonnet：长上下文与 Agent 之王 ​

4. Gemini 2.5 Pro：超长上下文与原生视频 ​

5. Qwen3：混合推理与中文优化 ​

6. MiMo：小米端侧大模型 ​

7. Llama 4：开源生态的新旗舰 ​

2025-2026 主流模型综合对比表 ​

各模型定价对比（2025年参考） ​

关键论文更新 (2025-2026) ​

1. DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning ​

2. Gemma：Google 的开源大模型系列 ​

3. Claude 系统提示与 Constitutional AI：Anthropic 的对齐方法论 ​

4. Mixture of Agents：多模型协作的新范式 ​

5. Test-Time Compute Scaling：推理时间计算的扩展 ​

论文演进脉络总结 ​