Skip to content

📋 LLM 应用 & Agent 面试速查表

面试前 30 分钟翻一遍,覆盖 26 个专题核心考点


目录

编号专题页内跳转
01Transformer 架构基础
02预训练与微调
03Prompt Engineering
04RAG 检索增强生成
05Agent 架构与设计
06ReAct & 工具调用
07Function Calling
08多智能体协作
09记忆机制
10向量数据库
11Embedding 模型
12评估与基准测试
13RLHF 与对齐
14推理优化
15模型量化
16分布式训练
17安全与红队测试
18代码生成 Agent
19多模态模型
20长上下文处理
21RAG 进阶
22生产部署
23AI 编程与开发工具
24MCP 协议
25扩散模型基础
26前沿趋势

01 - Transformer 架构基础

核心考点:

  • Self-Attention: Attention(Q,K,V) = softmax(QK^T / √d_k) V
  • Multi-Head Attention: 多个 head 并行计算,拼接后线性变换
  • 三种架构:Encoder-Only (BERT)、Decoder-Only (GPT)、Encoder-Decoder (T5)
  • 位置编码:绝对位置编码 vs RoPE(旋转位置编码)vs ALiBi
架构代表模型适用任务
Encoder-OnlyBERT, RoBERTa分类、NER、匹配
Decoder-OnlyGPT, LLaMA, Qwen生成、对话、推理
Encoder-DecoderT5, BART翻译、摘要

⚠️ 常见坑:

  • 为什么除以 √d_k?→ 防止 softmax 梯度消失(点积过大)
  • Decoder-Only 的 causal mask 确保只能看到左侧 token
  • LayerNorm 位置:Pre-Norm(现代主流)vs Post-Norm(原始 Transformer)

02 - 预训练与微调

核心考点:

  • 预训练目标:CLM(因果语言模型)、MLM(掩码语言模型)
  • 全量微调 vs 参数高效微调(PEFT)
  • LoRA 原理:冻结原始权重,注入低秩矩阵 ΔW = BA,B∈R^{d×r}, A∈R^{r×k}
微调方法参数量显存需求效果
全量微调100%极高最好
LoRA0.1-1%接近全量
QLoRA0.1-1%更低略低于LoRA
Prefix Tuning~0.1%一般
Adapter1-5%良好

⚠️ 常见坑:

  • LoRA rank 选择:通常 r=8~64,太小欠拟合,太大过拟合
  • QLoRA = 4bit量化 + LoRA,显著降低显存但精度略降
  • 学习率:微调通常 1e-5 ~ 5e-5,远小于预训练

LoRA 配置代码:

python
from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=16,                        # 低秩维度
    lora_alpha=32,               # 缩放系数
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)
model = get_peft_model(base_model, config)
# 可训练参数占比
model.print_trainable_parameters()

03 - Prompt Engineering

核心考点:

  • Zero-shot / Few-shot / Chain-of-Thought (CoT)
  • System Prompt 定义角色、约束、输出格式
  • 结构化输出:JSON mode、XML tag、正则约束
技术说明适用场景
Zero-shot无示例直接提问简单任务
Few-shot提供 2-5 个示例格式要求高
CoT引导逐步推理数学/逻辑推理
Self-Consistency多次采样投票高可靠性需求
ReAct思考+行动交替需要工具的任务

⚠️ 常见坑:

  • Few-shot 示例顺序影响结果(recency bias)
  • Prompt 过长会挤占上下文窗口,注意 token 预算
  • "Let's think step by step" 是 Zero-shot CoT 的经典触发词

04 - RAG 检索增强生成

核心考点:

  • 基本流程:Query → 检索 → 增强 Prompt → LLM 生成
  • 检索方式:稀疏(BM25)、稠密(Embedding)、混合
  • 分块策略:固定大小、语义分块、递归分块
组件关键参数注意事项
Chunk Size256-1024 tokens太小丢上下文,太大噪音多
Overlap10-20%防止跨块信息丢失
Top-K3-10太多引入噪音
RerankerCross-Encoder比 Bi-Encoder 精度高但慢

RAG Pipeline 伪代码:

python
def rag_pipeline(query):
    # 1. 检索
    chunks = vector_db.search(query, top_k=5)
    # 2. 重排序(可选)
    chunks = reranker.rank(query, chunks, top_n=3)
    # 3. 构建 prompt
    context = "\n\n".join([c.text for c in chunks])
    prompt = f"""基于以下参考资料回答问题。
    
参考资料:
{context}

问题:{query}
回答:"""
    # 4. 生成
    return llm.generate(prompt)

⚠️ 常见坑:

  • 检索质量是 RAG 瓶颈,"Garbage in, garbage out"
  • 用户 query 可能需要改写(Query Rewriting)才能有效检索
  • 需要做引用溯源,验证生成内容确实来自检索结果

05 - Agent 架构与设计

核心考点:

  • Agent = LLM + 记忆 + 工具 + 规划
  • 核心循环:感知 → 推理 → 行动 → 观察
  • 规划方法:任务分解、子目标设定、反思与修正
架构模式说明代表
单 Agent一个LLM完成所有LangChain Agent
多 Agent分工协作AutoGen, CrewAI
层级式Manager 分配任务给 WorkerMetaGPT
辩论式多个Agent互相审查ChatDev

⚠️ 常见坑:

  • Agent 循环需要设置最大迭代次数,防止无限循环
  • 工具描述质量直接影响 Agent 能否正确调用工具
  • 错误处理:工具调用失败时 Agent 应有 fallback 策略

06 - ReAct & 工具调用

核心考点:

  • ReAct = Reasoning + Acting 交替进行
  • 每步输出:Thought → Action → Observation
  • 与纯 CoT 的区别:ReAct 能与外部环境交互

ReAct 循环代码:

python
def react_loop(query, tools, max_steps=10):
    scratchpad = f"Question: {query}\n"
    for step in range(max_steps):
        # LLM 生成 Thought + Action
        response = llm.generate(REACT_PROMPT + scratchpad)
        thought, action = parse(response)
        scratchpad += f"Thought: {thought}\n"
        
        if action.tool == "finish":
            return action.input
        
        # 执行工具
        observation = tools[action.tool].run(action.input)
        scratchpad += f"Action: {action}\nObservation: {observation}\n"
    
    return "达到最大步数限制"

⚠️ 常见坑:

  • ReAct 需要较强的模型能力,小模型容易格式混乱
  • Observation 过长会撑爆上下文,需要截断策略
  • 解析 Action 时建议用结构化格式而非纯文本

07 - Function Calling

核心考点:

  • LLM 输出结构化的函数调用请求,由外部执行
  • 与 ReAct 的区别:更标准化、JSON schema 定义、平台原生支持
  • 关键:函数描述(description)和参数定义要清晰准确
平台格式特点
OpenAItools + function成熟稳定
Anthropictool_useXML风格
Geminifunction_declarationsGoogle生态

⚠️ 常见坑:

  • 并行调用 vs 串行调用:模型可能一次返回多个 function call
  • 函数描述写得不清楚是 function calling 失败的首要原因
  • 需要处理模型"幻觉"调用不存在的函数的情况

08 - 多智能体协作

核心考点:

  • 通信模式:共享黑板、消息传递、层级指令
  • 角色分工:Planner / Executor / Critic / Coordinator
  • 常见框架:AutoGen、CrewAI、LangGraph、MetaGPT
协作模式优点缺点
辩论式提高准确性Token 消耗大
流水线式分工明确延迟高
动态分配灵活协调复杂

⚠️ 常见坑:

  • Agent 数量不是越多越好,通信开销会成为瓶颈
  • 需要明确终止条件,防止 Agent 间无限对话
  • 角色 prompt 要有明确边界,避免职责重叠

09 - 记忆机制

核心考点:

  • 短期记忆:对话上下文(context window)
  • 长期记忆:向量数据库存储历史摘要
  • 工作记忆:当前任务的中间状态
记忆类型存储方式生命周期
感知记忆原始输入单次交互
短期记忆对话历史单会话
长期记忆向量DB/文件持久化
情景记忆事件摘要跨会话

⚠️ 常见坑:

  • 记忆检索的召回率和精确率需要权衡
  • 压缩记忆(摘要)可能丢失关键细节
  • 上下文窗口满了之后需要滑动窗口或摘要策略

10 - 向量数据库

核心考点:

  • 核心操作:ANN(近似最近邻)搜索
  • 索引算法:HNSW、IVF、PQ(乘积量化)
数据库特点适用场景
Milvus分布式、高性能大规模生产
Pinecone全托管 SaaS快速上手
Chroma轻量嵌入式原型开发
FAISSMeta开源库研究/单机
Weaviate支持混合搜索多模态
QdrantRust实现高性能

⚠️ 常见坑:

  • HNSW 参数 M 和 ef_construction 需要根据数据量调优
  • 距离度量选择:余弦相似度(归一化后等价于点积)、欧氏距离
  • 向量维度不是越高越好,高维会增加存储和检索成本

11 - Embedding 模型

核心考点:

  • 将文本映射到稠密向量空间
  • 训练方式:对比学习(Contrastive Learning)
  • 评估指标:MTEB 排行榜
模型维度特点
text-embedding-3-large3072OpenAI 最强
bge-large-zh1024中文优选
e5-mistral-7b4096LLM-based
jina-embeddings-v31024多语言

⚠️ 常见坑:

  • Query 和 Document 可能需要不同的前缀(如 "query:" vs "passage:")
  • Embedding 模型也需要针对领域微调才能达到最佳效果
  • 归一化后再计算余弦相似度是标准做法

12 - 评估与基准测试

核心考点:

  • 通用基准:MMLU、HellaSwag、HumanEval、GSM8K
  • LLM 评估方法:自动评估(BLEU/ROUGE)、LLM-as-Judge、人工评估
  • RAG 评估指标:Context Relevance、Answer Faithfulness、Answer Relevance
基准测试能力难度
MMLU多学科知识
HumanEval代码生成中高
GSM8K数学推理
MATH高等数学
ARC科学推理

⚠️ 常见坑:

  • 数据污染(Data Contamination):测试集可能在训练数据中出现过
  • BLEU/ROUGE 不适合评估 LLM 开放式生成
  • LLM-as-Judge 存在位置偏见和自我偏见

13 - RLHF 与对齐

核心考点:

  • 训练流程:SFT → Reward Model → PPO/DPO
  • RLHF:用人类偏好训练奖励模型,再用 PPO 优化策略
  • DPO:直接从偏好数据优化,无需单独训练奖励模型
方法是否需要 RM训练复杂度效果
RLHF (PPO)
DPO接近RLHF
KTO略低于DPO
ORPO良好

DPO 损失函数:

L_DPO = -E[log σ(β(log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))]

⚠️ 常见坑:

  • DPO 对偏好数据质量非常敏感
  • β 参数控制偏离参考策略的程度,过大则过于保守
  • 对齐税(Alignment Tax):对齐可能降低模型在某些任务上的表现

14 - 推理优化

核心考点:

  • KV Cache:缓存历史 token 的 K/V,避免重复计算
  • FlashAttention:IO 感知的精确注意力算法,减少 HBM 访问
  • PagedAttention (vLLM):类似操作系统虚拟内存管理 KV Cache
技术加速比是否精确
FlashAttention2-4x✅ 精确
PagedAttention2-4x✅ 精确
Speculative Decoding2-3x✅ 精确
Continuous Batching吞吐量↑✅ 精确

⚠️ 常见坑:

  • Prefill 阶段是 compute-bound,Decode 阶段是 memory-bound
  • Speculative Decoding 的关键是 draft model 与 target model 分布接近
  • Continuous Batching 提升吞吐但不降低单请求延迟

15 - 模型量化

核心考点:

  • 量化精度:FP16 → INT8 → INT4 → GPTQ/AWQ/GGUF
  • 权重量化 vs 权重-激活量化
  • 后训练量化(PTQ)vs 量化感知训练(QAT)
方法精度速度适用
GPTQINT4GPU
AWQINT4GPU
GGUF多种CPU/GPU
bitsandbytesINT8/INT4GPU

⚠️ 常见坑:

  • INT4 量化对大模型(>7B)效果好,小模型精度损失明显
  • 量化后需要重新评估目标任务的精度
  • 混合精度量化(关键层保持高精度)效果更好

16 - 分布式训练

核心考点:

  • 数据并行(DP/DDP):每个 GPU 持有完整模型,分数据
  • 模型并行(Tensor Parallel):将权重矩阵切分到多个 GPU
  • 流水线并行(Pipeline Parallel):将模型层分到不同 GPU
  • ZeRO 优化器:分片存储优化器状态/梯度/参数
策略显存节省通信开销适用场景
DDP模型放得下单卡
ZeRO-1/2/3逐步增大逐步增大大模型训练
TP单层超大
PP模型很深

⚠️ 常见坑:

  • DeepSpeed ZeRO-3 通信开销大,不一定比 TP 快
  • FSDP (PyTorch 原生) 是 ZeRO-3 的等价实现
  • 混合并行(TP+PP+DP)是超大模型训练的标配

17 - 安全与红队测试

核心考点:

  • 攻击类型:Prompt Injection(直接/间接)、越狱(Jailbreak)、数据泄露
  • 防御:输入过滤、输出审查、系统 prompt 隔离、权限最小化
  • 间接注入:恶意内容嵌入工具返回结果或检索文档中
攻击类型危害防御策略
直接注入绕过限制输入过滤 + 输出审查
间接注入执行恶意指令内容消毒 + 隔离
越狱泄露系统提示多层防御
数据投毒模型行为偏移训练数据审查

⚠️ 常见坑:

  • 间接 Prompt Injection 是 RAG/Agent 场景的最大安全风险
  • 系统 prompt 不应包含真正的机密信息
  • 安全和能力之间需要平衡,过度限制会导致体验下降

18 - 代码生成 Agent

核心考点:

  • 代码生成流程:理解需求 → 规划 → 生成 → 测试 → 修复
  • 关键能力:代码补全、调试、重构、测试生成
  • 代表工具:GitHub Copilot、Cursor、Devin、SWE-Agent
评估指标说明
pass@kk 次采样中至少一次通过率
CodeBLEU代码质量评分
人工审查率需要人工修改的比例

⚠️ 常见坑:

  • 代码幻觉:生成看起来正确但有 bug 的代码
  • 上下文长度限制影响理解大型代码库的能力
  • 安全性:生成的代码可能引入漏洞(SQL注入等)

19 - 多模态模型

核心考点:

  • 架构:视觉编码器(ViT)+ LLM 融合
  • 任务:图像理解、视频理解、图文生成
  • 代表:GPT-4o、Claude 3.5、Qwen-VL、LLaVA
模型能力架构
GPT-4o图文音视频闭源
LLaVA图文理解ViT + LLM
Qwen-VL图文视频ViT + Qwen
Gemini原生多模态统一架构

⚠️ 常见坑:

  • 视觉 Token 消耗远高于文本,一张图可能占 1000+ tokens
  • OCR 能力不等于文档理解能力
  • 视频理解需要帧采样策略,不可能处理全部帧

20 - 长上下文处理

核心考点:

  • 位置编码外推:RoPE 外推、YaRN、NTK-aware Scaling
  • 高效注意力:稀疏注意力、线性注意力、滑动窗口
  • 上下文窗口扩展:从 4K → 128K → 1M+
技术原理效果
RoPE 外推频率缩放4x~8x
YaRN非均匀插值16x+
Ring Attention序列并行理论无限
滑动窗口局部注意力降低复杂度

"大海捞针"测试(Needle in a Haystack):验证模型在长上下文中定位关键信息的能力。

⚠️ 常见坑:

  • 窗口大 ≠ 有效利用:模型对中间位置信息的注意力弱(Lost in the Middle)
  • 长上下文推理成本随长度平方增长
  • 实际使用中很少需要超过 32K 的上下文

21 - RAG 进阶

核心考点:

  • Advanced RAG 技术:Query Transformation、Self-RAG、CRAG
  • Graph RAG:结合知识图谱的结构化检索
  • Multi-modal RAG:图文混合检索
技术说明适用场景
HyDE用假设回答做检索Query 短且模糊
Self-RAG模型自我判断是否需要检索开放域问答
CRAG纠正式 RAG,评估检索质量需要高准确性
Graph RAG知识图谱 + 向量检索多跳推理
Agentic RAGAgent 控制检索流程复杂查询

⚠️ 常见坑:

  • 多跳问题单次检索不够,需要迭代检索
  • 检索文档之间的矛盾信息需要消歧处理
  • Graph RAG 构建成本高,维护复杂

22 - 生产部署

核心考点:

  • 推理框架:vLLM、TGI、TensorRT-LLM、SGLang
  • 部署架构:负载均衡、模型并行、A/B 测试
  • 监控指标:延迟(TTFT、TPS)、吞吐量、错误率、成本
框架特点适用
vLLMPagedAttention通用
TGIHuggingFace 生态HF 模型
TensorRT-LLMNVIDIA 优化极致性能
SGLang结构化生成优化Agent 场景

关键指标:

  • TTFT (Time To First Token):首 token 延迟
  • TPS (Tokens Per Second):生成速度
  • QPS (Queries Per Second):系统吞吐量

⚠️ 常见坑:

  • 生产环境必须有 rate limiting 和请求队列
  • 模型版本管理:灰度发布、回滚策略
  • 成本优化:缓存、模型路由(简单问题用小模型)

23 - AI 编程与开发工具

核心考点:

  • 工具类型:IDE 插件、CLI 工具、Agent 型工具
  • 核心能力:代码补全、对话式编程、代码库理解、自动修复
  • 代表产品:GitHub Copilot、Cursor、Windsurf、Cline
工具类型特点
CopilotIDE 补全行级/块级补全
CursorAI-native IDE全局上下文理解
ClineVSCode Agent开源、工具调用
AiderCLIGit 集成

⚠️ 常见坑:

  • 上下文管理是 AI 编程工具的核心差异点
  • 需要人工审查生成代码,不能盲目信任
  • 大型重构任务需要分步进行,不能一次给太大的指令

24 - MCP 协议(Model Context Protocol)

核心考点:

  • Anthropic 提出的开放协议,标准化 LLM 与外部工具/数据的连接
  • 架构:Host(应用)→ Client(协议层)→ Server(工具/数据提供方)
  • 传输方式:stdio(本地进程)、SSE/HTTP(远程服务)
  • 支持能力:Tools(工具调用)、Resources(资源读取)、Prompts(提示模板)
概念说明
MCP Host发起请求的应用(如 Claude Desktop)
MCP Client协议客户端,管理与 Server 的连接
MCP Server暴露工具/资源的服务端
Tool可调用的函数(有输入schema)
Resource可读取的数据源(类似 GET)

⚠️ 常见坑:

  • MCP Server 需要处理好权限隔离,不能暴露危险操作
  • 与 OpenAI Function Calling 互补而非替代关系
  • 远程 MCP 涉及认证和安全问题需要额外处理

25 - 扩散模型基础

核心考点:

  • 核心原理:前向加噪(逐步加高斯噪声)→ 反向去噪(学习去噪)
  • 训练目标:预测噪声 ε(ε-prediction)或预测 x₀
  • 关键组件:U-Net / DiT 去噪网络 + 噪声调度器
模型类型特点
Stable DiffusionLatent Diffusion潜空间操作,高效
DALL-E 3扩散 + T5文本理解强
FLUXDiT 架构Transformer 替代 U-Net
Sora视频 DiT时空 Transformer

Classifier-Free Guidance (CFG):

ε_guided = ε_uncond + w * (ε_cond - ε_uncond)
# w > 1 增强条件引导,通常 w=7~12

⚠️ 常见坑:

  • 扩散模型采样步骤多(20-50步),推理速度慢
  • Latent Diffusion 在潜空间操作,避免直接处理像素
  • 文本生成图片的语义对齐仍是难题(手指、文字等)

26 - 前沿趋势

核心考点:

  • Test-time Compute:推理时增加计算(如 o1 的思考链)提升质量
  • 小模型崛起:Phi、Gemma 等高效小模型,边缘部署成为可能
  • Agent 生态成熟:MCP 协议标准化、多 Agent 框架百花齐放
  • 合成数据:用 LLM 生成训练数据,缓解数据瓶颈
趋势影响代表
推理增强推理能力质变o1, DeepSeek-R1
开源追赶降低门槛LLaMA 3, Qwen 2.5
多模态融合统一理解GPT-4o, Gemini
AI 编程开发效率Cursor, Devin

⚠️ 常见坑:

  • MoE(Mixture of Experts)不是万能药,训练稳定性是挑战
  • Test-time Compute 增加延迟和成本,需要权衡
  • 关注开源模型进展,很多场景不需要闭源大模型

📊 横向对比速查表

主流 LLM 对比

模型参数量上下文特长
GPT-4o未公开128K综合最强
Claude 3.5 Sonnet未公开200K编程、长文本
Gemini 1.5 Pro未公开1M+超长上下文
LLaMA 3.1 405B405B128K开源最强
Qwen 2.5 72B72B128K中文优秀
DeepSeek-V3671B MoE128K性价比极高

推理框架对比

框架核心技术吞吐量易用性
vLLMPagedAttention⭐⭐⭐⭐⭐⭐⭐⭐⭐
TGIContinuous Batching⭐⭐⭐⭐⭐⭐⭐
TensorRT-LLMTensorRT优化⭐⭐⭐⭐⭐⭐⭐
SGLangRadixAttention⭐⭐⭐⭐⭐⭐⭐⭐⭐

🔧 高频代码片段

1. OpenAI Function Calling

python
tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "获取指定城市的天气",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "城市名"}
            },
            "required": ["city"]
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "北京天气如何?"}],
    tools=tools,
    tool_choice="auto"
)

# 处理 function call
if response.choices[0].message.tool_calls:
    call = response.choices[0].message.tool_calls[0]
    args = json.loads(call.function.arguments)
    result = get_weather(**args)

2. 简易 RAG Pipeline(LangChain 风格)

python
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

# 构建
vectordb = Chroma.from_documents(docs, OpenAIEmbeddings())
retriever = vectordb.as_retriever(search_kwargs={"k": 3})
qa = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model="gpt-4o"),
    retriever=retriever,
    return_source_documents=True
)

# 使用
result = qa.invoke({"query": "什么是 RAG?"})

3. DPO 训练配置

python
from trl import DPOTrainer, DPOConfig

config = DPOConfig(
    output_dir="./dpo_output",
    per_device_train_batch_size=4,
    learning_rate=5e-7,
    beta=0.1,               # KL 惩罚系数
    max_length=1024,
    max_prompt_length=512,
)

trainer = DPOTrainer(
    model=model,
    ref_model=ref_model,
    config=config,
    train_dataset=dataset,
    tokenizer=tokenizer,
)
trainer.train()

4. vLLM 部署

python
from vllm import LLM, SamplingParams

llm = LLM(
    model="meta-llama/Llama-3.1-8B-Instruct",
    tensor_parallel_size=2,    # 2卡并行
    max_model_len=8192,
    gpu_memory_utilization=0.9,
)

sampling = SamplingParams(temperature=0.7, max_tokens=512)
outputs = llm.generate(["解释什么是 RAG"], sampling)
print(outputs[0].outputs[0].text)

💡 面试心态提示

  1. 不需要全知 - 面试官期望你展示思考过程,而非背诵答案
  2. 承认边界 - "这个我不太确定,但我的理解是..." 比胡说好
  3. 由浅入深 - 先给概括性回答,等面试官追问再展开细节
  4. 结合项目 - 任何知识点都尽量联系实际项目经验
  5. 主动提问 - 面试结尾的提问环节展示你的思考深度

🎯 常见追问应对策略

"为什么不用 X 而用 Y?"

模板:需求分析 → X 的局限 → Y 的优势 → 实际取舍

示例:"为什么用 RAG 而不是微调?"

  • 我们的数据更新频繁(每天),微调成本高
  • 需要引用原文出处,RAG 天然支持
  • 领域知识通过检索注入,不需要改变模型权重
  • 如果任务是固定领域的风格迁移,我会选择微调

"这个技术有什么缺点?"

模板:先说 2-3 个真实缺点,再说缓解方案

示例:"RAG 的缺点?"

  • 检索质量是瓶颈,需要高质量分块和检索策略
  • 增加了系统复杂度和延迟
  • 缓解:混合检索 + Reranker + Query 改写

"在你的项目中怎么做的?"

模板:背景 → 问题 → 方案 → 结果 → 反思

示例:

  • 背景:内部知识库问答系统,10万+文档
  • 问题:简单检索准确率只有 60%
  • 方案:语义分块 + 混合检索 + Cross-Encoder Reranker
  • 结果:准确率提升到 85%
  • 反思:还需要做 Query 改写处理口语化表达

"如果数据量增长 100 倍怎么办?"

模板:识别瓶颈 → 水平扩展方案 → 成本权衡

  • 检索层:从 Chroma 切换到 Milvus 分布式集群
  • 分块层:预计算 Embedding,异步更新索引
  • 生成层:模型服务多实例 + 负载均衡
  • 缓存层:热门问题缓存,减少重复计算

"如何评估效果?"

模板:自动指标 + 人工评估 + A/B 测试

  • 自动:检索召回率、LLM-as-Judge 评分
  • 人工:标注员评估准确性和有用性
  • 线上:A/B 测试用户满意度、任务完成率

📝 最后检查清单

面试前快速过一遍:

  • [ ] Transformer Self-Attention 公式
  • [ ] LoRA 的原理和配置参数
  • [ ] RAG 完整流程(分块 → 检索 → 重排 → 生成)
  • [ ] ReAct 循环的 Thought-Action-Observation
  • [ ] RLHF vs DPO 的区别
  • [ ] FlashAttention 和 KV Cache 的原理
  • [ ] 量化的 GPTQ vs AWQ 区别
  • [ ] 分布式训练的 TP/PP/DP/ZeRO
  • [ ] Prompt Injection 的类型和防御
  • [ ] MCP 协议的基本架构
  • [ ] 主流 LLM 对比(至少能说出 3 个)

💪 祝面试顺利!记住:展示思考过程比展示知识量更重要。

LLM 应用 & Agent 开发面试准备