Skip to content

02. 大模型发展脉络

面试必知:了解行业演进、主流模型特点、关键论文,展示你的行业认知深度


一、大模型发展时间线

2017 ─── Transformer 诞生 ──────────────────────────────────────────────
  │  "Attention Is All You Need" (Google)
  │  → 序列建模从 RNN/LSTM 进入 Transformer 时代

2018 ─── 预训练革命 ────────────────────────────────────────────────────
  │  GPT-1 (OpenAI) — 生成式预训练
  │  BERT (Google) — 双向编码,NLP 全面刷新

2019 ─── 规模初现 ──────────────────────────────────────────────────────
  │  GPT-2 (1.5B) — "太危险不发布",零样本能力惊人
  │  T5 (Google) — 统一文本到文本框架

2020 ─── Scaling Laws 揭示 ─────────────────────────────────────────────
  │  GPT-3 (175B) — 少样本学习,In-Context Learning
  │  Scaling Laws 论文 — 性能 ∝ 参数量^α × 数据量^β × 计算量^γ

2021 ─── 效率优化 ──────────────────────────────────────────────────────
  │  LoRA — 低秩适配,微调大模型成为可能
  │  Codex — 代码生成,GitHub Copilot 诞生
  │  Switch Transformer — MoE 架构探索

2022 ─── ChatGPT 元年 ──────────────────────────────────────────────────
  │  ChatGPT (11月) — 2个月破亿用户,AI 民主化
  │  InstructGPT — RLHF 对齐,从"能用"到"好用"
  │  Chain-of-Thought — 思维链推理
  │  FlashAttention — 注意力计算加速 2-4x
  │  Stable Diffusion — 开源图像生成

2023 ─── 百模大战 ──────────────────────────────────────────────────────
  │  GPT-4 (3月) — 多模态,能力跃升
  │  LLaMA (2月) — Meta 开源,引爆开源社区
  │  Llama 2 (7月) — 商用开源
  │  Claude 2 — 长上下文 100K
  │  Mixtral 8x7B (12月) — 开源 MoE
  │  DPO — 替代 RLHF 的简化方案
  │  Qwen-1 通义千问 — 国内首批大模型

2024 ─── 推理模型 + 多模态 ─────────────────────────────────────────────
  │  GPT-4o (5月) — 原生多模态,语音对话
  │  Claude 3/3.5 Sonnet — 编程能力最强
  │  Llama 3/3.1 — 405B 开源,128K 上下文
  │  DeepSeek-V2 (5月) — MLA 注意力,成本降低 5-10x
  │  DeepSeek-V3 (12月) — 671B MoE,训练成本仅 $5.5M
  │  o1/o3 (9月/12月) — 推理模型,思维链
  │  Gemini 1.5/2.0 — 1M 上下文窗口
  │  Qwen-2 — 中文能力领先
  │  Claude 3.5 Haiku — 小模型性价比之王

2025 ─── Agent 元年 ────────────────────────────────────────────────────
     DeepSeek-R1 (1月) — 开源推理模型,GRPO 训练
     Claude 3.5 Sonnet (新版) — Computer Use,Agent 能力
     Claude 4 / Opus 4 (5月) — 最强编程和推理
     GPT-4.1 / o3/o4-mini — 推理 + 工具调用
     Llama 4 (4月) — Meta 最新开源
     Qwen-3 (4月) — 混合推理(思考/非思考模式)
     Gemini 2.5 Pro — 最强多模态推理
     MCP 协议 — 工具生态标准化
     A2A 协议 — Agent 间通信标准化

二、主流大模型特色对比

闭源模型

模型公司参数上下文核心特色2025年定位
GPT-4oOpenAI未公开128K原生多模态(文本/图像/音频),速度极快通用首选
o3OpenAI未公开200K深度推理,数学/编程/科学推理最强复杂推理
o4-miniOpenAI未公开200K推理能力接近 o3,成本更低推理性价比
GPT-4.1OpenAI未公开1M指令遵循极强,长上下文长文档处理
Claude 3.5 SonnetAnthropic未公开200K编程能力最强,Computer Use编程/Agent
Claude 4 OpusAnthropic未公开200K最强推理+编程,扩展思考专业任务
Gemini 2.5 ProGoogle未公开1M最长上下文,多模态推理长文档/多模态
Gemini 2.0 FlashGoogle未公开1M速度极快,成本极低高吞吐场景

开源模型

模型公司参数上下文核心特色2025年定位
DeepSeek-V3DeepSeek671B (MoE)128KMLA 注意力,训练成本 $5.5M开源最强通用
DeepSeek-R1DeepSeek671B (MoE)128K推理模型,GRPO 训练,蒸馏版开源推理最强
Llama 4 ScoutMeta109B (MoE, 17B 激活)10M10M 上下文窗口超长上下文
Llama 4 MaverickMeta400B (MoE, 17B 激活)1M400B 激活参数通用
Qwen-3阿里0.6B-235B128K混合推理(思考/非思考),中文最强中文场景
Mistral LargeMistral123B128K欧洲最强,函数调用强欧洲合规
Mixtral 8x22BMistral176B (MoE)64KMoE 架构,性价比高高性价比

各家「绝活」

OpenAI:
├── 推理能力(o3/o4 系列)— 数学、科学、编程推理最强
├── 多模态(GPT-4o)— 原生语音对话,实时翻译
└── 生态(ChatGPT + API)— 最大的用户基数和开发者生态

Anthropic:
├── 编程能力(Claude 3.5/4)— 代码生成和理解最强
├── Agent 能力(Computer Use)— 操控电脑完成任务
├── 安全对齐(Constitutional AI)— 最注重安全的厂商
└── 长文本质量 — 200K 上下文下依然保持高质量

Google:
├── 超长上下文(Gemini 2.5)— 1M token 窗口
├── 多模态推理 — 图像/视频/音频理解最强
└── 价格(Flash 系列)— 极致性价比

DeepSeek:
├── 训练效率 — V3 训练成本仅 $5.5M(GPT-4 的 1/100)
├── 推理能力(R1)— 开源推理模型标杆
├── MLA 注意力 — KV Cache 压缩 93%
└── 开源精神 — 模型+训练方法全部公开

Meta (Llama):
├── 开源生态 — 最大的开源 LLM 社区
├── 超长上下文(Llama 4 Scout)— 10M token 窗口
└── 多模态(Llama 4)— 原生视觉能力

阿里 (Qwen):
├── 中文能力 — 中文理解和生成最强
├── 混合推理(Qwen-3)— 思考/非思考模式自由切换
└── 全尺寸覆盖 — 0.6B 到 235B 全系列

三、改变大模型格局的关键论文

1. 架构奠基

"Attention Is All You Need" (Vaswani et al., 2017)

影响:★★★★★ — 整个领域的基石
核心贡献:
├── 提出 Transformer 架构
├── 多头自注意力机制(Multi-Head Attention)
├── 位置编码(Sinusoidal Positional Encoding)
└── 编码器-解码器结构

后续影响:
几乎所有大模型都基于 Transformer 变体
BERT(编码器)、GPT(解码器)、T5(编码器-解码器)

"BERT: Pre-training of Deep Bidirectional Transformers" (Devlin et al., 2018)

影响:★★★★★ — 预训练范式的开创者
核心贡献:
├── 掩码语言模型(MLM)— 双向上下文
├── 下一句预测(NSP)
└── 预训练+微调范式 — 刷新 11 项 NLP 任务

后续影响:
开创了"预训练+微调"范式
直到 GPT-3 的 In-Context Learning 才改变

2. 规模定律

"Scaling Laws for Neural Language Models" (Kaplan et al., 2020)

影响:★★★★★ — 指导了整个行业的资源投入
核心发现:
├── 性能 ∝ 参数量^0.076 × 数据量^0.095 × 计算量^0.050
├── 增大模型比增大数据更有效(当时结论)
└── 计算预算最优分配:大模型 + 少数据(后来被修正)

后续影响:
直接推动了 GPT-3 (175B) 的诞生
"大力出奇迹"成为行业共识

"Chinchilla: Training Compute-Optimal Large Language Models" (Hoffmann et al., 2022)

影响:★★★★☆ — 修正了 Scaling Laws
核心发现:
├── 修正 Kaplan 结论:数据量和参数量应该同等增长
├── 最优比例:20 tokens/参数(而非之前的大量参数少数据)
├── Chinchilla (70B, 1.4T tokens) > Gopher (280B, 300B tokens)

后续影响:
Llama 系列遵循 Chinchilla 定律
行业从"拼参数"转向"拼数据质量"

3. 对齐训练

"Training language models to follow instructions with human feedback" (Ouyang et al., 2022)

影响:★★★★★ — ChatGPT 的技术基础(InstructGPT 论文)
核心贡献:
├── RLHF(人类反馈强化学习)三阶段:
│   1. SFT(监督微调)
│   2. RM(奖励模型训练)
│   3. PPO(强化学习优化)
└── 从"预测下一个 token"到"遵循人类指令"

后续影响:
ChatGPT 基于此论文技术
所有对齐训练的鼻祖

"Direct Preference Optimization" (Rafailov et al., 2023)

影响:★★★★☆ — 简化了对齐训练
核心贡献:
├── 证明 RLHF 的 RM+PPO 可以用 closed-form 解替代
├── 直接用偏好数据优化策略,无需训练 RM
└── 训练更稳定,实现更简单

后续影响:
被 Claude、Llama 等广泛采用
RLHF → DPO → GRPO 的演进

4. 效率优化

"LoRA: Low-Rank Adaptation of Large Language Models" (Hu et al., 2021)

影响:★★★★★ — 让微调大模型平民化
核心贡献:
├── 冻结原始权重,只训练低秩分解矩阵
├── 参数量减少 10000x(7B 模型只训 4MB 参数)
├── 效果接近全参数微调
└── 推理时可合并权重,零额外开销

后续影响:
几乎所有大模型微调都用 LoRA/QLoRA
HuggingFace 上 90%+ 的微调模型基于 LoRA

"FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" (Dao et al., 2022)

影响:★★★★☆ — Transformer 推理加速里程碑
核心贡献:
├── IO 感知的注意力计算
├── 分块计算(Tiling)+ 在线 Softmax
├── 训练速度提升 2-4x,显存减少 5-20x
└── 精确计算(不是近似)

后续影响:
FlashAttention-2 进一步优化
几乎所有训练框架都集成

5. 开源里程碑

"LLaMA: Open and Efficient Foundation Language Models" (Touvron et al., 2023)

影响:★★★★★ — 引爆开源大模型生态
核心贡献:
├── 证明小模型+更多数据 > 大模型+少数据
├── LLaMA-13B 性能接近 GPT-3 (175B)
├── 开源权重(研究用途)
└── 引发开源社区爆发

后续影响:
Llama 2 → 商用开源
Mistral、Qwen、DeepSeek 都受其影响
HuggingFace 上 Llama 生态最大

"DeepSeek-V3 Technical Report" (DeepSeek, 2024)

影响:★★★★★ — 重新定义训练成本
核心贡献:
├── MoE 架构:671B 总参数,37B 激活参数
├── MLA(Multi-Latent Attention):KV Cache 压缩 93%
├── 训练成本仅 $5.5M(GPT-4 估计 $100M+)
├── FP8 混合精度训练
└── 辅助损失-free 的负载均衡

后续影响:
证明了追赶顶级闭源模型的可行性
开源模型性能接近 GPT-4

6. 推理革命

"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022)

影响:★★★★★ — 发现了 LLM 的推理能力
核心发现:
├── 在 prompt 中加入推理步骤示例
├── LLM 可以进行多步推理
├── 数学/逻辑任务准确率大幅提升
└── 不需要额外训练

后续影响:
催生了推理模型(o1、DeepSeek-R1)
思维链成为 LLM 推理的标准方法

"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL" (DeepSeek, 2025)

影响:★★★★★ — 开源推理模型的里程碑
核心贡献:
├── 纯 RL 训练涌现推理能力(R1-Zero)
├── GRPO 算法:去掉 Critic 模型
├── 思维链蒸馏:大模型推理能力迁移到小模型
└── 完全开源:模型+训练方法

后续影响:
推理模型从 OpenAI 垄断走向开源
思维链蒸馏成为新的能力迁移方法
GRPO 成为 RL 训练的新选择

7. 工具与 Agent

"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (Lewis et al., 2020)

影响:★★★★★ — RAG 的奠基论文
核心贡献:
├── 检索+生成的混合架构
├── 解决 LLM 知识过时和幻觉问题
├── 可更新知识而无需重新训练
└── 端到端训练检索器和生成器

后续影响:
RAG 成为 LLM 应用的标配
向量数据库行业爆发(Pinecone、Milvus)

四、大模型技术演进路线

架构演进:
RNN/LSTM → Transformer → MoE → MLA(DeepSeek)→ ?

                            更高效的注意力机制

训练范式演进:
预训练+微调 → 预训练+Prompt → 预训练+RLHF → 预训练+DPO/GRPO

                              更低成本的对齐方法

推理能力演进:
Zero-shot → Few-shot → Chain-of-Thought → Self-Consistency → 推理模型(o1/R1)

                                                  Test-Time Compute Scaling

应用范式演进:
单轮问答 → 多轮对话 → RAG → Agent → Multi-Agent → Agentic 工作流

                                      MCP/A2A 标准化

五、2025 年行业趋势

1. 推理模型成为标配

  • OpenAI o3/o4、DeepSeek-R1、Qwen-3 都支持推理模式
  • "思考/非思考"混合模式成为趋势
  • 推理成本持续下降

2. Agent 从概念到落地

  • MCP 协议标准化工具生态
  • Computer Use 让 Agent 可以操控电脑
  • 从"聊天助手"到"数字员工"

3. 上下文窗口持续增长

  • Gemini: 1M → 2M
  • Llama 4 Scout: 10M
  • 但长上下文的质量和成本仍是挑战

4. 开源追赶闭源

  • DeepSeek-V3/R1 性能接近 GPT-4
  • 开源模型在特定任务上已超越闭源
  • 训练成本从 $100M+ 降到 $5M

5. 多模态原生化

  • 从"文本+图像"到"文本+图像+音频+视频"
  • 原生多模态(如 GPT-4o)vs 拼接多模态
  • 实时语音对话成为标配

6. 小模型逆袭

  • Phi-4 (14B)、Qwen-3 (8B)、Llama 4 (17B) 在特定任务上媲美大模型
  • 端侧部署成为可能
  • 蒸馏+量化+剪枝技术成熟

六、面试高频问题

Q: 为什么 Transformer 能取代 RNN/LSTM?

  1. 并行计算:RNN 必须逐步处理,Transformer 可以一次性处理整个序列
  2. 长距离依赖:RNN 的梯度消失问题,Transformer 的自注意力直接建立任意距离的连接
  3. 可扩展性:Transformer 天然适合 GPU 大规模并行,可以 scaling 到千亿参数

Q: 为什么 GPT 用 Decoder-only 而 BERT 用 Encoder-only?

  • GPT(Decoder-only):自回归生成,适合生成任务(对话、写作、代码)
  • BERT(Encoder-only):双向编码,适合理解任务(分类、NER、问答)
  • 后来发现:Decoder-only + 足够大的规模,也能做好理解任务
  • 2023 年后,Decoder-only 成为主流(GPT、Claude、Llama、DeepSeek 都是)

Q: 为什么 MoE 架构突然火了?

  1. 成本优势:671B 参数但只激活 37B,计算成本接近 37B 模型
  2. 性能优势:总参数量大 → 知识容量大 → 性能上限高
  3. 训练效率:DeepSeek-V3 用 $5.5M 训出 GPT-4 级别模型
  4. 技术成熟:负载均衡、路由策略等问题被解决

Q: RLHF → DPO → GRPO 的演进逻辑是什么?

RLHF (2022): 完整但复杂
├── 需要训练 Reward Model
├── 需要 PPO 训练(4 个模型同时跑)
└── 训练不稳定,超参敏感

DPO (2023): 简化
├── 证明 RM+PPO 可以用 closed-form 解替代
├── 只需要偏好数据对
└── 训练稳定,实现简单

GRPO (2025): 进一步简化
├── 去掉 Critic Model(PPO 需要的 Value 模型)
├── 用组内相对排名替代绝对价值估计
├── 训练资源减半
└── 特别适合推理任务(奖励信号明确)

Q: 2025 年最值得关注的趋势是什么?

  1. 推理模型普及:从 OpenAI 垄断到开源追赶,推理成本下降 10x
  2. Agent 落地:MCP 标准化 + Computer Use,从 demo 到生产
  3. 开源追赶闭源:DeepSeek 证明了 $5M 可以训出 GPT-4 级别
  4. 长上下文:10M token 窗口,但质量控制仍是挑战
  5. 多模态原生:不是拼接,而是原生理解图像/音频/视频

📝 最后更新:2025 年 6 月 | 数据截至 2025 年 6 月


2025-2026 大模型发展

1. DeepSeek-R1 / R2:开源推理模型的标杆

发布时间:R1 (2025年1月) / R2 (2025年Q3 预计)

核心技术

DeepSeek-R1:
├── 参数量:671B MoE(37B 激活参数)
├── 上下文窗口:128K tokens
├── 训练方法:GRPO(Group Relative Policy Optimization)
├── 核心创新:
│   ├── 纯 RL 训练涌现推理能力(R1-Zero 实验)
│   ├── 去掉 Critic Model,用组内相对排名替代
│   ├── 思维链蒸馏:大模型 → 小模型能力迁移
│   └── 完全开源:模型权重 + 训练方法 + 蒸馏版
├── 蒸馏版系列:1.5B / 7B / 8B / 14B / 32B / 70B
└── 性能:数学/编程推理接近 o1,开源最强推理模型

GRPO 训练详解

python
# GRPO 核心思想(伪代码)
for each question q:
    # 1. 采样一组回答
    responses = [model.generate(q) for _ in range(G)]  # G=8~16
    
    # 2. 计算每个回答的奖励
    rewards = [reward_fn(q, r) for r in responses]
    
    # 3. 组内标准化(关键创新:去掉 Critic)
    advantages = [(r - mean(rewards)) / std(rewards) for r in rewards]
    
    # 4. 策略梯度更新
    loss = -sum(advantages[i] * log_prob(responses[i]) for i in range(G))
    loss.backward()

面试要点

  • R1-Zero 实验:纯 RL 训练(无 SFT 数据)也能涌现推理能力,证明 RL 对推理的激励效果
  • GRPO vs PPO:去掉 Value Model(Critic),训练资源减半,更稳定
  • 思维链蒸馏:从 671B 蒸馏到 7B 仍有很强推理能力,方法论意义重大
  • DeepSeek-R2 预期:更强的推理能力,更高效的训练方法,预计 2025 Q3 发布

2. GPT-4o / GPT-5:原生多模态的进化

GPT-4o (2024年5月)

核心特点:
├── 原生多模态:文本/图像/音频 统一模型
├── 实时语音对话:延迟 ~320ms,接近人类对话
├── 情感表达:语音可感知情绪,可调节语速/语调
├── 视觉理解:实时摄像头画面分析
└── 速度:比 GPT-4 Turbo 快 2x,价格便宜 50%

技术架构推测:
├── 统一 tokenizer:文本 + 图像 + 音频 → 统一 token 序列
├── 端到端训练:不是拼接模块,而是原生多模态
└── 语音直接理解/生成:无需 ASR/TTS 中间步骤

GPT-5 (2025年预期)

预期特点:
├── 更强推理能力:融合 o 系列推理能力
├── 原生视频理解:实时视频流分析
├── Agent 能力增强:原生工具调用 + 长程任务规划
├── 上下文窗口:1M+ tokens
└── 多模态生成:文本/图像/音频/视频 统一生成

面试要点:
├── "原生多模态" vs "拼接多模态" 的区别
├── 语音对话的技术架构(端到端 vs ASR+LLM+TTS)
└── GPT-5 如何整合 o 系列推理能力

3. Claude 4 Opus / Sonnet:长上下文与 Agent 之王

Claude 4 系列 (2025年5月)

Claude 4 Opus:
├── 定位:最强专业任务模型
├── 上下文:200K tokens
├── 核心能力:
│   ├── 编程能力:SWE-bench 最高分
│   ├── 推理能力:扩展思考(Extended Thinking)
│   ├── Agent 能力:Computer Use + 工具调用
│   └── 长文本质量:200K 下依然保持高质量
└── 适用场景:复杂编程、专业分析、长文档处理

Claude 4 Sonnet:
├── 定位:速度与能力的平衡
├── 上下文:200K tokens
├── 核心能力:
│   ├── 编程能力接近 Opus
│   ├── 响应速度更快
│   └── 性价比更高
└── 适用场景:日常编程、对话、Agent 应用

Claude 的技术特色

Constitutional AI(宪法 AI):
├── 用一组原则("宪法")指导模型行为
├── 减少人工标注需求
├── 模型自我批评和修正
└── 安全性最高的大模型

Computer Use:
├── 截屏 → 理解界面 → 规划操作 → 执行点击/输入
├── Agent 能力的核心突破
└── 从"对话助手"到"数字员工"

扩展思考(Extended Thinking):
├── 类似 o1 的思维链推理
├── 可调节思考时间/深度
└── 在复杂推理任务上显著提升

4. Gemini 2.5 Pro:超长上下文与原生视频

Gemini 2.5 Pro (2025年)

核心特点:
├── 上下文窗口:1M tokens(可扩展到 2M)
├── 原生多模态:文本/图像/音频/视频 统一理解
├── 视频理解:直接理解视频内容,无需逐帧分析
├── 推理能力:Gemini 2.0 Thinking 模式
└── 代码能力:编程能力大幅提升

技术优势:
├── Google TPU 训练:算力成本优势
├── 长上下文质量:1M token 下仍有良好表现
├── 视频原生理解:YouTube 视频直接分析
└── 搜索增强:与 Google 搜索深度集成

Gemini 2.0 Flash

├── 定位:速度极快,成本极低
├── 上下文:1M tokens
├── 适用场景:高吞吐、低延迟场景
└── 价格:业界最低之一

5. Qwen3:混合推理与中文优化

Qwen3 (2025年4月)

模型系列:
├── Qwen3-0.6B / 1.7B / 4B / 8B / 14B / 32B(Dense)
├── Qwen3-30B-A3B / 235B-A22B(MoE)
└── 全系列支持 128K 上下文

核心创新:
├── 混合推理模式:
│   ├── 思考模式(Thinking):类似 o1/R1 的深度推理
│   ├── 非思考模式(Non-Thinking):快速响应
│   └── 可动态切换,平衡速度和质量
├── 中文能力:中文理解和生成最强
├── MoE 架构:235B 总参数,22B 激活
└── 训练数据:多语言,重点优化中文

面试要点:
├── Qwen3 的"思考/非思考"混合模式设计思路
├── MoE vs Dense 的选择策略
└── 中文优化的具体方法(数据配比、tokenizer)

6. MiMo:小米端侧大模型

MiMo (2025年)

定位:端侧部署优化的大模型系列

核心特点:
├── 端侧优化:
│   ├── 模型压缩:量化、剪枝、蒸馏
│   ├── 推理加速:NPU/GPU 异构计算
│   ├── 内存优化:适配手机/平板内存限制
│   └── 功耗控制:移动设备续航优化
├── 模型规模:7B / 3B / 1.5B 等多尺寸
├── 应用场景:
│   ├── 手机端 AI 助手
│   ├── 本地文档处理
│   ├── 离线语音交互
│   └── 隐私敏感任务(数据不出端)
└── 技术路线:
    ├── 端云协同:简单任务端侧处理,复杂任务上云
    ├── 模型蒸馏:从大模型蒸馏到端侧小模型
    └── 硬件适配:针对小米自研芯片优化

面试要点:
├── 端侧部署的核心挑战(内存、算力、功耗)
├── 端云协同架构设计
└── 量化/蒸馏/剪枝的技术选型

7. Llama 4:开源生态的新旗舰

Llama 4 (2025年4月)

模型系列:
├── Llama 4 Scout:
│   ├── 109B 总参数,17B 激活参数(MoE)
│   ├── 10M token 上下文窗口(业界最长)
│   └── 适合超长文档处理
├── Llama 4 Maverick:
│   ├── 400B 总参数,17B 激活参数(MoE)
│   ├── 1M token 上下文窗口
│   └── 通用能力最强
└── Llama 4 Behemoth(预告):
    ├── 2T 总参数
    └── 训练中

核心创新:
├── MoE 架构:Llama 首次采用 MoE
├── 超长上下文:Scout 支持 10M tokens
├── 原生视觉:图像理解能力
├── 开源生态:
│   ├── 开源权重
│   ├── 社区微调版本爆发
│   └── HuggingFace 生态支持
└── 训练效率:MoE 降低推理成本

面试要点:
├── Llama 4 为什么转向 MoE?
├── 10M 上下文的技术实现(RoPE 外推、稀疏注意力)
└── Llama 生态 vs DeepSeek 生态

2025-2026 主流模型综合对比表

维度DeepSeek-R1/R2GPT-4o/5Claude 4 OpusGemini 2.5 ProQwen3-235BMiMoLlama 4 Maverick
公司DeepSeekOpenAIAnthropicGoogle阿里小米Meta
总参数量671B MoE未公开未公开未公开235B MoE7B/3B/1.5B400B MoE
激活参数37B未公开未公开未公开22B全量17B
上下文窗口128K128K→1M+200K1M~2M128K4K~32K1M
多模态文本为主文/图/音/视频文/图文/图/音/视频文/图文/图/音文/图
推理能力★★★★★★★★★★★★★★☆★★★★☆★★★★☆★★★☆☆★★★☆☆
编程能力★★★★☆★★★★☆★★★★★★★★★☆★★★★☆★★★☆☆★★★☆☆
中文能力★★★★☆★★★★☆★★★☆☆★★★☆☆★★★★★★★★★☆★★★☆☆
开源✅ 完全开源❌ 闭源❌ 闭源❌ 闭源✅ 完全开源✅ 开源✅ 开源
API定价极低中等较高极低端侧免费免费(自部署)
特色训练成本低原生多模态编程+Agent超长上下文中文+混合推理端侧部署开源生态
适用场景推理/数学/代码通用/多模态编程/Agent长文档/视频中文场景手机/IoT开源二次开发

各模型定价对比(2025年参考)

模型输入价格 ($/1M tokens)输出价格 ($/1M tokens)备注
GPT-4o$2.50$10.00多模态
GPT-4.1$2.00$8.00长上下文
o3$10.00$40.00推理模型
Claude 4 Opus$15.00$75.00最强专业
Claude 4 Sonnet$3.00$15.00性价比
Gemini 2.5 Pro$1.25 / $2.50$10.00长上下文加价
Gemini 2.0 Flash$0.10$0.40极低价格
DeepSeek-R1$0.55$2.19开源极低
DeepSeek-V3$0.27$1.10最具性价比
Qwen3-235B$0.40$1.20中文优化
Llama 4免费(自部署)免费(自部署)需自建基础设施

关键论文更新 (2025-2026)

1. DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

来源:DeepSeek, 2025年1月 影响力:★★★★★ — 开源推理模型的里程碑

核心贡献:
├── R1-Zero 实验:
│   ├── 纯 RL 训练(无 SFT 数据)涌现推理能力
│   ├── 模型自发学会"思维链"和"自我纠错"
│   └── 证明 RL 对推理能力的激励效果
├── GRPO(Group Relative Policy Optimization):
│   ├── 去掉 PPO 中的 Critic/Value Model
│   ├── 用同一问题的多个采样回答进行组内排名
│   ├── 相对优势估计替代绝对价值估计
│   └── 训练资源减半,更稳定
├── 完整训练流程:
│   1. 冷启动 SFT:少量高质量推理数据微调
│   2. GRPO 推理训练:数学/编程/逻辑 RL 训练
│   3. 拒绝采样 + SFT:生成高质量数据再微调
│   4. 全场景 GRPO:通用能力 + 推理能力平衡
├── 思维链蒸馏:
│   ├── 671B → 1.5B/7B/8B/14B/32B/70B
│   ├── 蒸馏版 14B 超越 QwQ-32B
│   └── 方法论:用大模型推理数据微调小模型
└── 完全开源:模型 + 论文 + 训练细节

面试追问:
Q: GRPO 为什么比 PPO 更适合推理任务?
A: 推理任务的奖励信号明确(对/错),不需要精确的价值估计,
   组内相对排名足够。PPO 的 Value Model 在稀疏奖励下训练困难。

Q: R1-Zero 的意义是什么?
A: 证明了推理能力可以通过纯 RL 涌现,不需要人工标注的推理过程数据,
   这改变了"推理能力必须通过监督学习获得"的认知。

2. Gemma:Google 的开源大模型系列

来源:Google, 2024-2025 影响力:★★★★☆ — Google 开源生态的重要补充

Gemma 1 (2024年2月):
├── 模型规模:2B / 7B
├── 基于 Gemini 技术
├── 开源权重,商用友好
└── 性能:同尺寸开源最强之一

Gemma 2 (2024年6月):
├── 模型规模:2B / 9B / 27B
├── 核心创新:
│   ├── 滑动窗口注意力 + 全局注意力交替
│   ├── 知识蒸馏:大模型蒸馏到小模型
│   ├── 模型合并(Model Merging)技术
│   └── 训练效率优化
├── 性能:27B 接近 Llama 3 70B
└── 特色:推理效率极高

Gemma 3 (2025年):
├── 多模态支持:图像 + 文本
├── 更大规模:1B / 4B / 12B / 27B
├── 128K 上下文
└── 与 Gemini 2 技术对齐

技术论文要点:
├── 知识蒸馏的有效性:大模型 → 小模型,性能损失小
├── 滑动窗口注意力:降低长序列计算成本
├── 模型合并:多个微调模型融合,无需额外训练
└── 训练数据策略:数据质量 > 数据数量

面试追问:
Q: Gemma 和 Gemini 的关系?
A: Gemini 是 Google 的闭源旗舰模型,Gemma 是基于 Gemini 技术
   和训练经验的开源版本,但参数规模更小,面向开发者社区。

3. Claude 系统提示与 Constitutional AI:Anthropic 的对齐方法论

来源:Anthropic, 2024-2025 影响力:★★★★☆ — AI 安全对齐的重要参考

Constitutional AI(宪法 AI)核心思想:
├── 传统 RLHF:
│   ├── 需要大量人工标注偏好数据
│   ├── 标注者偏好不一致
│   └── 扩展性差
├── Constitutional AI 改进:
│   ├── 定义一组原则("宪法")
│   ├── 模型根据原则自我批评和修正
│   ├── 减少人工标注需求
│   └── 更一致、可解释的行为
├── 训练流程:
│   1. 生成有害回复
│   2. 模型根据宪法原则自我批评
│   3. 模型生成修正后的回复
│   4. 用修正数据训练 RM
│   5. RL 训练最终模型
└── 原则示例:
    ├── "选择最无害的回复"
    ├── "选择最诚实的回复"
    ├── "选择最有帮助的回复"
    └── "避免协助非法活动"

Claude System Prompt 的设计哲学:
├── 明确的行为边界:什么能做,什么不能做
├── 角色定义:AI 助手的定位和能力范围
├── 安全机制:拒绝有害请求的标准流程
├── 透明度:对不确定性的坦诚表达
└── 长度:Claude 的系统提示长达数千字

面试追问:
Q: Constitutional AI 和 RLHF 的核心区别?
A: RLHF 依赖人工标注偏好,Constitutional AI 用原则指导模型
   自我修正,减少了人工标注需求,同时保证了行为一致性。

Q: 为什么 Claude 的系统提示这么长?
A: Anthropic 注重安全和透明,详细定义了行为边界、安全机制、
   角色定位等,虽然增加 token 成本,但提高了行为的可预测性。

4. Mixture of Agents:多模型协作的新范式

来源:Together AI, 2024 影响力:★★★☆☆ — Multi-Agent 协作的探索

核心思想:
├── 单一模型的局限:
│   ├── 不同模型在不同任务上有优势
│   ├── 单模型难以覆盖所有场景
│   └── 推理能力存在上限
├── Mixture of Agents(MoA)方案:
│   ├── 多个 LLM 组成协作网络
│   ├── 分层结构:Proposer + Aggregator
│   ├── Proposer:多个模型生成候选回答
│   └── Aggregator:一个模型整合所有回答
├── 架构设计:
│   Layer 1: [GPT-4, Claude, Llama, Qwen] → 各自生成回答
│   Layer 2: Aggregator 整合 → 最终输出
│   (可多层堆叠)
└── 实验结果:
    ├── MoA 超越单个最强模型
    ├── 在 AlpacaEval / Arena-Hard 上排名第一
    └── 开源模型组合超越闭源模型

技术细节:
├── 角色分配:
│   ├── Proposer:生成多样化候选回答
│   ├── Aggregator:整合、去重、优化
│   └── 不同层可使用不同模型
├── 提示策略:
│   ├── Proposer:"请回答以下问题,详细说明你的推理过程"
│   └── Aggregator:"以下是多个回答,请整合出最佳答案"
└── 优化方法:
    ├── 选择互补性强的模型组合
    ├── 调整 Proposer 的多样性
    └── Aggregator 的整合能力是关键

面试追问:
Q: MoA 和 Ensemble Learning 的区别?
A: MoA 是 LLM 层面的协作,利用不同模型的"知识互补";
   传统 Ensemble 是同一模型多次预测的平均。MoA 的 Aggregator
   可以进行"智能整合"而非简单投票。

Q: MoA 的成本问题如何解决?
A: 可以用开源模型作为 Proposer(成本低),闭源模型作为
   Aggregator(质量高);或者用 MoE 替代 MoA。

5. Test-Time Compute Scaling:推理时间计算的扩展

来源:OpenAI / DeepSeek / 学术界, 2024-2025 影响力:★★★★★ — 推理模型的理论基础

核心概念:
├── 传统 Scaling Laws(训练时间):
│   ├── 性能 ∝ 参数量^α × 数据量^β × 计算量^γ
│   ├── 投入更多训练计算 → 更好性能
│   └── 瓶颈:训练成本指数增长
├── Test-Time Compute Scaling(推理时间):
│   ├── 在推理时投入更多计算 → 更好性能
│   ├── 模型"思考更久" → 回答更准确
│   └── 突破训练计算的天花板
└── 关键发现:
    ├── 推理时间计算的 scaling law 也存在
    ├── 简单问题:思考更久收益递减
    ├── 复杂问题:思考更久收益显著
    └── 最优策略:根据问题难度动态分配推理计算

实现方法:
├── 思维链(Chain-of-Thought):
│   ├── 让模型"一步一步思考"
│   ├── 推理 token 增加 → 准确率提升
│   └── o1/R1 的核心方法
├── 自我一致性(Self-Consistency):
│   ├── 多次采样 → 投票选择最一致的答案
│   ├── 计算量 = 采样次数 × 单次推理
│   └── 简单有效
├── 树搜索(Tree of Thought):
│   ├── 推理过程建模为树结构
│   ├── 每步生成多个候选推理方向
│   ├── 评估后选择最优方向继续
│   └── 类似 AlphaGo 的 MCTS
├── 验证器引导(Verifier-Guided):
│   ├── 训练一个验证器评估推理过程
│   ├── 验证器给每条推理路径打分
│   ├── 选择得分最高的路径
│   └── Process Reward Model (PRM)
└── 拒绝采样(Rejection Sampling):
    ├── 生成多个回答 → 过滤掉错误的
    ├── 保留正确的 → 再生成/整合
    └── 简单但有效

o1/o3 的技术推测:
├── 训练阶段:
│   ├── 大规模思维链数据收集
│   ├── 过程奖励模型(PRM)训练
│   └── RL 训练优化推理策略
├── 推理阶段:
│   ├── 内部思维链生成(用户不可见)
│   ├── 动态分配推理计算
│   └── 验证器筛选最优推理路径
└── 关键创新:
    ├── 推理 token 的高效利用
    ├── 过程监督 vs 结果监督
    └── 推理时间的动态计算分配

面试追问:
Q: Test-Time Compute 和 Train-Time Compute 的关系?
A: 两者互补。训练时间计算提升模型"基础能力",推理时间计算
   提升模型"发挥能力"。最优策略是平衡两者投入。DeepSeek-R1
   证明了推理时间计算可以在开源模型上实现。

Q: Process Reward Model (PRM) 和 Outcome Reward Model (ORM) 的区别?
A: ORM 只看最终结果对不对,PRM 评估每一步推理是否正确。
   PRM 更精确但标注成本更高。o1 推测使用了 PRM。

Q: 推理时间计算的瓶颈是什么?
A: 1) 延迟:思考越久,用户等待越长
   2) 成本:推理 token 数量增加,API 费用增加
   3) 质量:不是所有问题都受益于更多思考
   4) 最优分配:如何根据问题难度动态调整推理计算

论文演进脉络总结

对齐训练演进:
RLHF (2022, InstructGPT)
  ↓ 简化 RM+PPO
DPO (2023, Stanford)
  ↓ 去掉 Critic Model
GRPO (2025, DeepSeek-R1)
  ↓ 纯 RL 涌现推理
R1-Zero (2025, DeepSeek)

推理能力演进:
Chain-of-Thought (2022, Google)
  ↓ 结构化推理
Tree of Thought (2023, Princeton)
  ↓ 验证器引导
Process Reward Model (2023, OpenAI)
  ↓ 推理时间扩展
Test-Time Compute Scaling (2024, OpenAI)
  ↓ 开源实现
DeepSeek-R1 / GRPO (2025, DeepSeek)

多模型协作演进:
Ensemble Learning (传统 ML)
  ↓ LLM 化
Self-Consistency (2022, Google)
  ↓ 多模型
Mixture of Agents (2024, Together AI)
  ↓ 标准化
MCP / A2A 协议 (2025)

开源模型演进:
LLaMA (2023, Meta) → 开源生态爆发
  ↓ 商用开源
Llama 2 (2023, Meta) → 商用许可
  ↓ 规模突破
Llama 3 (2024, Meta) → 405B + 128K
  ↓ MoE 架构
Llama 4 (2025, Meta) → MoE + 10M 上下文
  ↓ 推理能力
DeepSeek-R1 (2025, DeepSeek) → 开源推理模型

📝 最后更新:2025 年 6 月 | 新增 2025-2026 大模型发展 + 关键论文更新

LLM 应用 & Agent 开发面试准备