📚 LLM & Agent 术语表

中英对照，面试必备术语速查
本表收录 120+ 核心术语，按领域分类，覆盖 LLM 基础、训练微调、RAG、Agent、推理部署、工程实践、多模态及前沿方向。

📖 使用说明

英文术语 列为面试/论文中的标准写法，建议牢记
一句话解释 快速建立直觉，深入学习请参考对应章节
相关章节 指向本仓库内更详细的笔记

一、LLM 基础

英文术语	中文	一句话解释	相关章节
Transformer	变换器	基于自注意力机制的神经网络架构，是现代 LLM 的基石	第1章
Self-Attention	自注意力	让序列中每个 token 关注其他所有 token 的机制，计算相关性权重	第1章
Multi-Head Attention	多头注意力	并行运行多组注意力计算，捕获不同子空间的语义关系	第1章
Tokenizer	分词器	将原始文本拆分为 token 序列的工具，常见算法有 BPE、WordPiece、SentencePiece	第1章
Token	词元	模型处理的最小文本单元，可能是子词、字符或字节	第1章
Embedding	嵌入	将离散 token 映射为连续高维向量的过程/结果	第1章
Positional Encoding	位置编码	为 Transformer 注入序列位置信息的技术（绝对/旋转/相对位置编码）	第1章
Prompt	提示词	输入给 LLM 的文本指令，是与模型交互的主要方式	第1章
System Prompt	系统提示	设定模型角色、行为边界和输出格式的预设指令	第1章
Few-Shot	少样本	在提示中给出少量示例，引导模型完成任务	第1章
Zero-Shot	零样本	不给示例，直接让模型完成任务	第1章
Chain-of-Thought (CoT)	思维链	让模型逐步推理的技术，通过"让我们一步步思考"提升复杂任务准确率	第1章
Temperature	温度	控制采样随机性的参数，越高越多样，越低越确定	第1章
Top-P (Nucleus Sampling)	核采样	按概率从累积概率前 P 的 token 中采样，替代 Temperature 的另一种控制方式	第1章
Top-K	Top-K 采样	仅从概率最高的 K 个 token 中采样	第1章
Logit	对数几率	模型输出层的原始分数，经 softmax 后变为概率	第1章
Perplexity (PPL)	困惑度	衡量语言模型预测能力的指标，越低越好	第1章
Context Window	上下文窗口	模型单次能处理的最大 token 数量	第1章
Pre-training	预训练	在海量无标注文本上通过自监督学习训练基础模型的阶段	第1章
Next Token Prediction	下一个词预测	自回归语言模型的核心训练目标	第1章
Autoregressive	自回归	逐个生成 token，每次将已生成序列作为输入的生成方式	第1章
Decoding Strategy	解码策略	从模型输出概率分布中选择 token 的方法（贪心/束搜索/采样）	第1章
Beam Search	束搜索	维护多个候选序列的解码策略，平衡质量与多样性	第1章
Hallucination	幻觉	模型生成看似合理但事实错误的内容	第1章
Stop Sequence	停止序列	指定模型遇到特定文本时停止生成	第1章

二、训练与微调

英文术语	中文	一句话解释	相关章节
Supervised Fine-Tuning (SFT)	有监督微调	用标注好的指令-回答对训练模型遵循指令的能力	第2章
Reinforcement Learning from Human Feedback (RLHF)	基于人类反馈的强化学习	用人类偏好训练奖励模型，再用 PPO 优化语言模型	第2章
Direct Preference Optimization (DPO)	直接偏好优化	绕过奖励模型，直接从偏好数据优化策略模型的算法	第2章
Group Relative Policy Optimization (GRPO)	群组相对策略优化	DeepSeek 提出的强化学习算法，无需价值模型，通过组内对比计算优势	第2章
Proximal Policy Optimization (PPO)	近端策略优化	RLHF 中常用的强化学习算法，通过裁剪目标函数稳定训练	第2章
Reward Model (RM)	奖励模型	学习人类偏好、为模型输出打分的模型	第2章
LoRA	低秩适配	通过注入低秩分解矩阵来微调大模型，只训练极少量参数	第2章
QLoRA	量化低秩适配	在 4-bit 量化模型上应用 LoRA，大幅降低显存需求	第2章
PEFT	参数高效微调	一类只微调少量参数的方法总称，包括 LoRA、Adapter、Prefix Tuning 等	第2章
Adapter	适配器	在 Transformer 层间插入小型可训练模块的微调方法	第2章
Prefix Tuning	前缀调优	在输入前添加可训练的连续向量（虚拟 token）的微调方法	第2章
Prompt Tuning	提示调优	仅优化连续提示嵌入的极轻量微调方法	第2章
Instruction Tuning	指令调优	用多样化的指令数据训练模型遵循各种指令	第2章
Alignment	对齐	让模型行为符合人类价值观和期望的过程	第2章
Constitutional AI (CAI)	宪法 AI	Anthropic 提出的用一组规则（宪法）进行自我改进的对齐方法	第2章
Distillation	蒸馏	用大模型（教师）的输出训练小模型（学生）以转移知识	第2章
Continual Pre-training	持续预训练	在已有模型基础上用领域数据继续预训练	第2章
Overfitting	过拟合	模型在训练数据上表现好但泛化能力差	第2章
Learning Rate	学习率	控制模型参数更新步长的超参数	第2章
Gradient Accumulation	梯度累积	多个 mini-batch 累积梯度后再更新，模拟大 batch size	第2章
Mixed Precision Training	混合精度训练	使用 FP16/BF16 与 FP32 混合计算以加速训练并减少显存	第2章
DeepSpeed ZeRO	DeepSpeed ZeRO	微软的分布式训练优化技术，通过分片减少每个 GPU 的显存占用	第2章

三、RAG（检索增强生成）

英文术语	中文	一句话解释	相关章节
Retrieval-Augmented Generation (RAG)	检索增强生成	在生成时先检索外部知识库，将结果注入上下文以提升回答准确性	第3章
Chunking	分块	将长文档切分为适合检索的小段落	第3章
Vector Database (Vector DB)	向量数据库	存储和检索高维向量的专用数据库，如 Milvus、Pinecone、Chroma	第3章
Similarity Search	相似度搜索	在向量空间中找到与查询最相似的文档片段	第3章
Cosine Similarity	余弦相似度	衡量两个向量方向相似程度的指标	第3章
Reranking	重排序	对初步检索结果用更精细的模型重新排序以提升相关性	第3章
Hybrid Search	混合搜索	结合关键词（BM25）和语义（向量）搜索以兼顾精确匹配与语义理解	第3章
BM25	BM25	经典的基于词频的文档检索算法	第3章
Reciprocal Rank Fusion (RRF)	互惠排名融合	合并多个排序列表的融合算法	第3章
Embedding Model	嵌入模型	将文本转换为向量表示的专用模型（如 text-embedding-3-small）	第3章
Knowledge Base	知识库	RAG 系统中存储外部文档和数据的集合	第3章
Agentic RAG	智能体驱动的 RAG	Agent 自主决定何时检索、检索什么、是否需要多轮检索	第3章
GraphRAG	图 RAG	基于知识图谱的 RAG，利用实体关系提升检索质量	第3章
Context Window Injection	上下文注入	将检索到的内容塞入模型上下文的技术	第3章
Metadata Filtering	元数据过滤	利用文档标签（时间、来源等）缩小检索范围	第3章
Semantic Chunking	语义分块	基于语义边界（而非固定长度）进行文档切分	第3章

四、Agent（智能体）

英文术语	中文	一句话解释	相关章节
Agent	智能体	能自主感知环境、做出决策并执行动作的 LLM 系统	第4章
ReAct	推理+行动	交替进行推理（Reasoning）和行动（Acting）的 Agent 范式	第4章
Function Calling	函数调用	LLM 结构化地输出函数名和参数，由外部系统执行	第4章
Tool Use	工具使用	Agent 调用外部工具（搜索、代码执行、API 等）完成任务的能力	第4章
Model Context Protocol (MCP)	模型上下文协议	Anthropic 提出的标准化 LLM 与外部工具/数据源交互的开放协议	第4章
Planning	规划	Agent 将复杂任务分解为可执行子步骤的能力	第4章
Memory	记忆	Agent 存储和检索历史交互信息的机制（短期/长期/工作记忆）	第4章
Short-term Memory	短期记忆	当前对话上下文内的信息保持	第4章
Long-term Memory	长期记忆	跨会话持久化的知识和经验	第4章
Working Memory	工作记忆	Agent 在任务执行过程中维护的临时状态	第4章
Multi-Agent System	多智能体系统	多个 Agent 协作完成任务的架构	第4章
Orchestrator	编排器	协调多个 Agent 或工具调用顺序的控制组件	第4章
Reflection	反思	Agent 评估自身输出质量并自我纠正的机制	第4章
Self-Correction	自我纠错	Agent 检测并修正自身错误的能力	第4章
Tool Schema	工具模式	描述工具功能、参数和返回值的 JSON Schema	第4章
Agentic Workflow	智能体工作流	由 Agent 驱动的自动化任务执行流程	第4章
LangChain	LangChain	流行的 LLM 应用开发框架，提供链式调用和 Agent 抽象	第4章
LangGraph	LangGraph	LangChain 团队的图状态机框架，用于构建复杂 Agent 工作流	第4章
CrewAI	CrewAI	基于角色的多智能体协作框架	第4章
OpenAI Assistants API	OpenAI 助手 API	OpenAI 提供的内置工具（代码解释器/文件检索/函数调用）的 Agent API	第4章

五、推理与部署

英文术语	中文	一句话解释	相关章节
Inference	推理	模型训练完成后进行预测/生成的过程	第5章
Quantization	量化	将模型权重从高精度（FP32）压缩到低精度（INT8/INT4）以减少显存和加速	第5章
GPTQ	GPTQ	一种训练后量化方法，逐层量化权重，适合 GPU 推理	第5章
AWQ	激活感知权重量化	基于激活分布优化量化精度的方法，质量优于 GPTQ	第5章
GGUF (GGML)	GGUF	llama.cpp 使用的量化格式，适合 CPU/边缘设备推理	第5章
KV Cache	KV 缓存	推理时缓存已计算的 Key/Value 张量以避免重复计算	第5章
FlashAttention	闪速注意力	通过分块计算和 IO 优化实现高效注意力的算法	第5章
PagedAttention	分页注意力	vLLM 使用的类似操作系统虚拟内存的 KV Cache 管理技术	第5章
vLLM	vLLM	高性能 LLM 推理引擎，支持 PagedAttention 和连续批处理	第5章
TensorRT-LLM	TensorRT-LLM	NVIDIA 的高性能 LLM 推理优化引擎	第5章
Continuous Batching	连续批处理	动态加入/移除请求的批处理策略，提高吞吐量	第5章
Speculative Decoding	投机解码	用小模型快速生成草稿，大模型验证，加速推理	第5章
Tensor Parallelism	张量并行	将单层的权重矩阵分片到多个 GPU 上并行计算	第5章
Pipeline Parallelism	流水线并行	将模型不同层分配到不同 GPU 上	第5章
Model Parallelism	模型并行	将模型拆分到多个设备上运行的策略总称	第5章
ONNX Runtime	ONNX 运行时	微软的跨平台模型推理加速框架	第5章
TorchScript	TorchScript	PyTorch 的 JIT 编译格式，用于生产环境部署	第5章
Latency	延迟	从请求发出到收到完整响应的时间	第5章
Throughput	吞吐量	单位时间内能处理的请求数或 token 数	第5章
Time to First Token (TTFT)	首 token 时间	从请求发出到收到第一个生成 token 的延迟	第5章
Tokens per Second (TPS)	每秒 token 数	衡量生成速度的核心指标	第5章
Prefill	预填充	处理输入 prompt 并计算 KV Cache 的阶段（计算密集）	第5章
Decode	解码	逐 token 生成输出的阶段（内存密集）	第5章

六、工程实践

英文术语	中文	一句话解释	相关章节
Streaming	流式输出	模型逐 token 实时返回结果，而非等待全部生成完毕	第6章
Server-Sent Events (SSE)	服务端推送事件	基于 HTTP 的单向流式传输协议，常用于 LLM 流式输出	第6章
Rate Limiting	速率限制	控制 API 请求频率的机制，防止过载	第6章
Circuit Breaker	熔断器	当下游服务故障率超阈值时自动切断请求以保护系统	第6章
Idempotency	幂等性	同一请求多次执行结果相同，防止重复操作	第6章
Retry with Backoff	退避重试	请求失败后等待逐渐增长的时间再重试	第6章
Prompt Injection	提示注入	攻击者通过精心构造的输入劫持模型行为	第6章
Guard Rails	护栏	限制和引导模型行为的安全机制	第6章
Content Filtering	内容过滤	检测和拦截不当内容的机制	第6章
Token Counting	Token 计数	统计输入/输出 token 数量，用于成本控制和上下文管理	第6章
API Gateway	API 网关	统一管理 API 流量、认证、限流和路由的中间层	第6章
Observability	可观测性	通过日志、指标和追踪监控系统运行状态	第6章
Tracing	链路追踪	记录请求在各组件间的完整调用路径	第6章
Evaluation (Eval)	评估	用指标和数据集系统性衡量模型质量	第6章
A/B Testing	A/B 测试	并行对比不同模型/提示版本效果的实验方法	第6章
Semantic Versioning	语义版本	用 MAJOR.MINOR.PATCH 格式管理 Prompt/模型版本	第6章

七、多模态

英文术语	中文	一句话解释	相关章节
Vision Encoder	视觉编码器	将图像转换为模型可理解的向量表示的模块	第7章
CLIP	对比语言-图像预训练	OpenAI 的图文对比学习模型，建立视觉与语言的对齐	第7章
Vision Transformer (ViT)	视觉 Transformer	将图像切分为 patch 后用 Transformer 处理的架构	第7章
Optical Character Recognition (OCR)	光学字符识别	从图像中识别和提取文字	第7章
Text-to-Speech (TTS)	文字转语音	将文本转换为自然语音	第7章
Speech-to-Text (STT)	语音转文字	将语音转换为文本	第7章
Voice Activity Detection (VAD)	语音活动检测	检测音频中哪些片段包含人声	第7章
Multimodal LLM	多模态大语言模型	能同时处理文本、图像、音频等多种模态的 LLM	第7章
Grounding	接地/锚定	将模型输出与可验证的外部信息源关联	第7章
Image Generation	图像生成	根据文本描述生成图像（如 DALL·E、Stable Diffusion）	第7章
Diffusion Model	扩散模型	通过逐步去噪过程生成图像/音频的生成模型	第7章

八、前沿方向

英文术语	中文	一句话解释	相关章节
World Model	世界模型	对物理世界运行规律建模的 AI 系统	第8章
Synthetic Data	合成数据	由模型自动生成的训练数据，用于补充真实数据不足	第8章
Model Merging	模型合并	将多个微调模型的参数融合为单一模型（SLERP/TIES/DARE）	第8章
Test-Time Compute (TTC)	测试时计算	在推理时投入更多计算（如多次采样/搜索）提升输出质量	第8章
Mixture of Experts (MoE)	混合专家	通过路由机制激活部分专家网络，平衡模型容量与计算效率	第8章
State Space Model (SSM)	状态空间模型	如 Mamba，线性复杂度的序列建模架构，替代 Transformer 的新方向	第8章
Long Context	长上下文	支持 100K+ 甚至百万 token 上下文的技术趋势	第8章
Retrieval-Interleaved Generation	检索交织生成	边检索边生成，在生成过程中动态调用检索	第8章
AI Agent Framework	AI 智能体框架	构建自主 Agent 的软件框架和工具链	第8章
Structured Output	结构化输出	让模型输出符合 JSON Schema 等结构的数据格式	第8章
Knowledge Distillation	知识蒸馏	用大模型的输出训练小模型的压缩技术	第8章
Reinforcement Learning from AI Feedback (RLAIF)	AI 反馈强化学习	用 AI（而非人类）作为偏好标注者的训练方法	第8章
Reward Hacking	奖励攻击	模型找到奖励模型的漏洞，获得高分但实际质量差	第8章
Sycophancy	讨好倾向	模型倾向于迎合用户而非给出正确答案的问题	第8章
Scaling Law	缩放定律	揭示模型性能与参数量/数据量/计算量关系的幂律规律	第8章
Emergent Ability	涌现能力	模型规模达到一定阈值后突然出现的新能力	第8章
Reasoning Model	推理模型	专门强化复杂推理能力的模型（如 o1、DeepSeek-R1）	第8章
Native Tool Calling	原生工具调用	模型架构层面内置的工具调用能力，而非通过提示实现	第8章

九、常见缩写速查

缩写	全称	中文
LLM	Large Language Model	大语言模型
NLP	Natural Language Processing	自然语言处理
RAG	Retrieval-Augmented Generation	检索增强生成
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习
MCP	Model Context Protocol	模型上下文协议
API	Application Programming Interface	应用编程接口
SDK	Software Development Kit	软件开发工具包
GPU	Graphics Processing Unit	图形处理单元
TPU	Tensor Processing Unit	张量处理单元
FLOPS	Floating Point Operations	浮点运算次数
DNN	Deep Neural Network	深度神经网络
NAS	Neural Architecture Search	神经架构搜索

💡 面试提示：掌握术语只是第一步，能用自己的话解释原理并结合实际案例才是加分项。建议每个术语至少能说出 是什么 → 为什么重要 → 怎么用 三层。

📚 LLM & Agent 术语表 ​

📖 使用说明 ​

一、LLM 基础 ​

二、训练与微调 ​

三、RAG（检索增强生成） ​

四、Agent（智能体） ​

五、推理与部署 ​

六、工程实践 ​

七、多模态 ​

八、前沿方向 ​

九、常见缩写速查 ​

📚 LLM & Agent 术语表

📖 使用说明

一、LLM 基础

二、训练与微调

三、RAG（检索增强生成）

四、Agent（智能体）

五、推理与部署

六、工程实践

七、多模态

八、前沿方向

九、常见缩写速查