Skip to content

📚 LLM & Agent 术语表

中英对照,面试必备术语速查

本表收录 120+ 核心术语,按领域分类,覆盖 LLM 基础、训练微调、RAG、Agent、推理部署、工程实践、多模态及前沿方向。


📖 使用说明

  • 英文术语 列为面试/论文中的标准写法,建议牢记
  • 一句话解释 快速建立直觉,深入学习请参考对应章节
  • 相关章节 指向本仓库内更详细的笔记

一、LLM 基础

英文术语中文一句话解释相关章节
Transformer变换器基于自注意力机制的神经网络架构,是现代 LLM 的基石第1章
Self-Attention自注意力让序列中每个 token 关注其他所有 token 的机制,计算相关性权重第1章
Multi-Head Attention多头注意力并行运行多组注意力计算,捕获不同子空间的语义关系第1章
Tokenizer分词器将原始文本拆分为 token 序列的工具,常见算法有 BPE、WordPiece、SentencePiece第1章
Token词元模型处理的最小文本单元,可能是子词、字符或字节第1章
Embedding嵌入将离散 token 映射为连续高维向量的过程/结果第1章
Positional Encoding位置编码为 Transformer 注入序列位置信息的技术(绝对/旋转/相对位置编码)第1章
Prompt提示词输入给 LLM 的文本指令,是与模型交互的主要方式第1章
System Prompt系统提示设定模型角色、行为边界和输出格式的预设指令第1章
Few-Shot少样本在提示中给出少量示例,引导模型完成任务第1章
Zero-Shot零样本不给示例,直接让模型完成任务第1章
Chain-of-Thought (CoT)思维链让模型逐步推理的技术,通过"让我们一步步思考"提升复杂任务准确率第1章
Temperature温度控制采样随机性的参数,越高越多样,越低越确定第1章
Top-P (Nucleus Sampling)核采样按概率从累积概率前 P 的 token 中采样,替代 Temperature 的另一种控制方式第1章
Top-KTop-K 采样仅从概率最高的 K 个 token 中采样第1章
Logit对数几率模型输出层的原始分数,经 softmax 后变为概率第1章
Perplexity (PPL)困惑度衡量语言模型预测能力的指标,越低越好第1章
Context Window上下文窗口模型单次能处理的最大 token 数量第1章
Pre-training预训练在海量无标注文本上通过自监督学习训练基础模型的阶段第1章
Next Token Prediction下一个词预测自回归语言模型的核心训练目标第1章
Autoregressive自回归逐个生成 token,每次将已生成序列作为输入的生成方式第1章
Decoding Strategy解码策略从模型输出概率分布中选择 token 的方法(贪心/束搜索/采样)第1章
Beam Search束搜索维护多个候选序列的解码策略,平衡质量与多样性第1章
Hallucination幻觉模型生成看似合理但事实错误的内容第1章
Stop Sequence停止序列指定模型遇到特定文本时停止生成第1章

二、训练与微调

英文术语中文一句话解释相关章节
Supervised Fine-Tuning (SFT)有监督微调用标注好的指令-回答对训练模型遵循指令的能力第2章
Reinforcement Learning from Human Feedback (RLHF)基于人类反馈的强化学习用人类偏好训练奖励模型,再用 PPO 优化语言模型第2章
Direct Preference Optimization (DPO)直接偏好优化绕过奖励模型,直接从偏好数据优化策略模型的算法第2章
Group Relative Policy Optimization (GRPO)群组相对策略优化DeepSeek 提出的强化学习算法,无需价值模型,通过组内对比计算优势第2章
Proximal Policy Optimization (PPO)近端策略优化RLHF 中常用的强化学习算法,通过裁剪目标函数稳定训练第2章
Reward Model (RM)奖励模型学习人类偏好、为模型输出打分的模型第2章
LoRA低秩适配通过注入低秩分解矩阵来微调大模型,只训练极少量参数第2章
QLoRA量化低秩适配在 4-bit 量化模型上应用 LoRA,大幅降低显存需求第2章
PEFT参数高效微调一类只微调少量参数的方法总称,包括 LoRA、Adapter、Prefix Tuning 等第2章
Adapter适配器在 Transformer 层间插入小型可训练模块的微调方法第2章
Prefix Tuning前缀调优在输入前添加可训练的连续向量(虚拟 token)的微调方法第2章
Prompt Tuning提示调优仅优化连续提示嵌入的极轻量微调方法第2章
Instruction Tuning指令调优用多样化的指令数据训练模型遵循各种指令第2章
Alignment对齐让模型行为符合人类价值观和期望的过程第2章
Constitutional AI (CAI)宪法 AIAnthropic 提出的用一组规则(宪法)进行自我改进的对齐方法第2章
Distillation蒸馏用大模型(教师)的输出训练小模型(学生)以转移知识第2章
Continual Pre-training持续预训练在已有模型基础上用领域数据继续预训练第2章
Overfitting过拟合模型在训练数据上表现好但泛化能力差第2章
Learning Rate学习率控制模型参数更新步长的超参数第2章
Gradient Accumulation梯度累积多个 mini-batch 累积梯度后再更新,模拟大 batch size第2章
Mixed Precision Training混合精度训练使用 FP16/BF16 与 FP32 混合计算以加速训练并减少显存第2章
DeepSpeed ZeRODeepSpeed ZeRO微软的分布式训练优化技术,通过分片减少每个 GPU 的显存占用第2章

三、RAG(检索增强生成)

英文术语中文一句话解释相关章节
Retrieval-Augmented Generation (RAG)检索增强生成在生成时先检索外部知识库,将结果注入上下文以提升回答准确性第3章
Chunking分块将长文档切分为适合检索的小段落第3章
Vector Database (Vector DB)向量数据库存储和检索高维向量的专用数据库,如 Milvus、Pinecone、Chroma第3章
Similarity Search相似度搜索在向量空间中找到与查询最相似的文档片段第3章
Cosine Similarity余弦相似度衡量两个向量方向相似程度的指标第3章
Reranking重排序对初步检索结果用更精细的模型重新排序以提升相关性第3章
Hybrid Search混合搜索结合关键词(BM25)和语义(向量)搜索以兼顾精确匹配与语义理解第3章
BM25BM25经典的基于词频的文档检索算法第3章
Reciprocal Rank Fusion (RRF)互惠排名融合合并多个排序列表的融合算法第3章
Embedding Model嵌入模型将文本转换为向量表示的专用模型(如 text-embedding-3-small)第3章
Knowledge Base知识库RAG 系统中存储外部文档和数据的集合第3章
Agentic RAG智能体驱动的 RAGAgent 自主决定何时检索、检索什么、是否需要多轮检索第3章
GraphRAG图 RAG基于知识图谱的 RAG,利用实体关系提升检索质量第3章
Context Window Injection上下文注入将检索到的内容塞入模型上下文的技术第3章
Metadata Filtering元数据过滤利用文档标签(时间、来源等)缩小检索范围第3章
Semantic Chunking语义分块基于语义边界(而非固定长度)进行文档切分第3章

四、Agent(智能体)

英文术语中文一句话解释相关章节
Agent智能体能自主感知环境、做出决策并执行动作的 LLM 系统第4章
ReAct推理+行动交替进行推理(Reasoning)和行动(Acting)的 Agent 范式第4章
Function Calling函数调用LLM 结构化地输出函数名和参数,由外部系统执行第4章
Tool Use工具使用Agent 调用外部工具(搜索、代码执行、API 等)完成任务的能力第4章
Model Context Protocol (MCP)模型上下文协议Anthropic 提出的标准化 LLM 与外部工具/数据源交互的开放协议第4章
Planning规划Agent 将复杂任务分解为可执行子步骤的能力第4章
Memory记忆Agent 存储和检索历史交互信息的机制(短期/长期/工作记忆)第4章
Short-term Memory短期记忆当前对话上下文内的信息保持第4章
Long-term Memory长期记忆跨会话持久化的知识和经验第4章
Working Memory工作记忆Agent 在任务执行过程中维护的临时状态第4章
Multi-Agent System多智能体系统多个 Agent 协作完成任务的架构第4章
Orchestrator编排器协调多个 Agent 或工具调用顺序的控制组件第4章
Reflection反思Agent 评估自身输出质量并自我纠正的机制第4章
Self-Correction自我纠错Agent 检测并修正自身错误的能力第4章
Tool Schema工具模式描述工具功能、参数和返回值的 JSON Schema第4章
Agentic Workflow智能体工作流由 Agent 驱动的自动化任务执行流程第4章
LangChainLangChain流行的 LLM 应用开发框架,提供链式调用和 Agent 抽象第4章
LangGraphLangGraphLangChain 团队的图状态机框架,用于构建复杂 Agent 工作流第4章
CrewAICrewAI基于角色的多智能体协作框架第4章
OpenAI Assistants APIOpenAI 助手 APIOpenAI 提供的内置工具(代码解释器/文件检索/函数调用)的 Agent API第4章

五、推理与部署

英文术语中文一句话解释相关章节
Inference推理模型训练完成后进行预测/生成的过程第5章
Quantization量化将模型权重从高精度(FP32)压缩到低精度(INT8/INT4)以减少显存和加速第5章
GPTQGPTQ一种训练后量化方法,逐层量化权重,适合 GPU 推理第5章
AWQ激活感知权重量化基于激活分布优化量化精度的方法,质量优于 GPTQ第5章
GGUF (GGML)GGUFllama.cpp 使用的量化格式,适合 CPU/边缘设备推理第5章
KV CacheKV 缓存推理时缓存已计算的 Key/Value 张量以避免重复计算第5章
FlashAttention闪速注意力通过分块计算和 IO 优化实现高效注意力的算法第5章
PagedAttention分页注意力vLLM 使用的类似操作系统虚拟内存的 KV Cache 管理技术第5章
vLLMvLLM高性能 LLM 推理引擎,支持 PagedAttention 和连续批处理第5章
TensorRT-LLMTensorRT-LLMNVIDIA 的高性能 LLM 推理优化引擎第5章
Continuous Batching连续批处理动态加入/移除请求的批处理策略,提高吞吐量第5章
Speculative Decoding投机解码用小模型快速生成草稿,大模型验证,加速推理第5章
Tensor Parallelism张量并行将单层的权重矩阵分片到多个 GPU 上并行计算第5章
Pipeline Parallelism流水线并行将模型不同层分配到不同 GPU 上第5章
Model Parallelism模型并行将模型拆分到多个设备上运行的策略总称第5章
ONNX RuntimeONNX 运行时微软的跨平台模型推理加速框架第5章
TorchScriptTorchScriptPyTorch 的 JIT 编译格式,用于生产环境部署第5章
Latency延迟从请求发出到收到完整响应的时间第5章
Throughput吞吐量单位时间内能处理的请求数或 token 数第5章
Time to First Token (TTFT)首 token 时间从请求发出到收到第一个生成 token 的延迟第5章
Tokens per Second (TPS)每秒 token 数衡量生成速度的核心指标第5章
Prefill预填充处理输入 prompt 并计算 KV Cache 的阶段(计算密集)第5章
Decode解码逐 token 生成输出的阶段(内存密集)第5章

六、工程实践

英文术语中文一句话解释相关章节
Streaming流式输出模型逐 token 实时返回结果,而非等待全部生成完毕第6章
Server-Sent Events (SSE)服务端推送事件基于 HTTP 的单向流式传输协议,常用于 LLM 流式输出第6章
Rate Limiting速率限制控制 API 请求频率的机制,防止过载第6章
Circuit Breaker熔断器当下游服务故障率超阈值时自动切断请求以保护系统第6章
Idempotency幂等性同一请求多次执行结果相同,防止重复操作第6章
Retry with Backoff退避重试请求失败后等待逐渐增长的时间再重试第6章
Prompt Injection提示注入攻击者通过精心构造的输入劫持模型行为第6章
Guard Rails护栏限制和引导模型行为的安全机制第6章
Content Filtering内容过滤检测和拦截不当内容的机制第6章
Token CountingToken 计数统计输入/输出 token 数量,用于成本控制和上下文管理第6章
API GatewayAPI 网关统一管理 API 流量、认证、限流和路由的中间层第6章
Observability可观测性通过日志、指标和追踪监控系统运行状态第6章
Tracing链路追踪记录请求在各组件间的完整调用路径第6章
Evaluation (Eval)评估用指标和数据集系统性衡量模型质量第6章
A/B TestingA/B 测试并行对比不同模型/提示版本效果的实验方法第6章
Semantic Versioning语义版本用 MAJOR.MINOR.PATCH 格式管理 Prompt/模型版本第6章

七、多模态

英文术语中文一句话解释相关章节
Vision Encoder视觉编码器将图像转换为模型可理解的向量表示的模块第7章
CLIP对比语言-图像预训练OpenAI 的图文对比学习模型,建立视觉与语言的对齐第7章
Vision Transformer (ViT)视觉 Transformer将图像切分为 patch 后用 Transformer 处理的架构第7章
Optical Character Recognition (OCR)光学字符识别从图像中识别和提取文字第7章
Text-to-Speech (TTS)文字转语音将文本转换为自然语音第7章
Speech-to-Text (STT)语音转文字将语音转换为文本第7章
Voice Activity Detection (VAD)语音活动检测检测音频中哪些片段包含人声第7章
Multimodal LLM多模态大语言模型能同时处理文本、图像、音频等多种模态的 LLM第7章
Grounding接地/锚定将模型输出与可验证的外部信息源关联第7章
Image Generation图像生成根据文本描述生成图像(如 DALL·E、Stable Diffusion)第7章
Diffusion Model扩散模型通过逐步去噪过程生成图像/音频的生成模型第7章

八、前沿方向

英文术语中文一句话解释相关章节
World Model世界模型对物理世界运行规律建模的 AI 系统第8章
Synthetic Data合成数据由模型自动生成的训练数据,用于补充真实数据不足第8章
Model Merging模型合并将多个微调模型的参数融合为单一模型(SLERP/TIES/DARE)第8章
Test-Time Compute (TTC)测试时计算在推理时投入更多计算(如多次采样/搜索)提升输出质量第8章
Mixture of Experts (MoE)混合专家通过路由机制激活部分专家网络,平衡模型容量与计算效率第8章
State Space Model (SSM)状态空间模型如 Mamba,线性复杂度的序列建模架构,替代 Transformer 的新方向第8章
Long Context长上下文支持 100K+ 甚至百万 token 上下文的技术趋势第8章
Retrieval-Interleaved Generation检索交织生成边检索边生成,在生成过程中动态调用检索第8章
AI Agent FrameworkAI 智能体框架构建自主 Agent 的软件框架和工具链第8章
Structured Output结构化输出让模型输出符合 JSON Schema 等结构的数据格式第8章
Knowledge Distillation知识蒸馏用大模型的输出训练小模型的压缩技术第8章
Reinforcement Learning from AI Feedback (RLAIF)AI 反馈强化学习用 AI(而非人类)作为偏好标注者的训练方法第8章
Reward Hacking奖励攻击模型找到奖励模型的漏洞,获得高分但实际质量差第8章
Sycophancy讨好倾向模型倾向于迎合用户而非给出正确答案的问题第8章
Scaling Law缩放定律揭示模型性能与参数量/数据量/计算量关系的幂律规律第8章
Emergent Ability涌现能力模型规模达到一定阈值后突然出现的新能力第8章
Reasoning Model推理模型专门强化复杂推理能力的模型(如 o1、DeepSeek-R1)第8章
Native Tool Calling原生工具调用模型架构层面内置的工具调用能力,而非通过提示实现第8章

九、常见缩写速查

缩写全称中文
LLMLarge Language Model大语言模型
NLPNatural Language Processing自然语言处理
RAGRetrieval-Augmented Generation检索增强生成
RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习
MCPModel Context Protocol模型上下文协议
APIApplication Programming Interface应用编程接口
SDKSoftware Development Kit软件开发工具包
GPUGraphics Processing Unit图形处理单元
TPUTensor Processing Unit张量处理单元
FLOPSFloating Point Operations浮点运算次数
DNNDeep Neural Network深度神经网络
NASNeural Architecture Search神经架构搜索

💡 面试提示:掌握术语只是第一步,能用自己的话解释原理并结合实际案例才是加分项。建议每个术语至少能说出 是什么 → 为什么重要 → 怎么用 三层。

LLM 应用 & Agent 开发面试准备