🏢 公司分类题库

不同公司的面试侧重点不同，针对性准备效率更高

📋 目录

字节跳动
阿里巴巴
腾讯
百度
小米
创业公司
外企 (Google / OpenAI)

字节跳动

面试风格

节奏快、轮次多（通常 4-6 轮），每轮 45-60 分钟
高度重视算法编码能力，现场手撕代码是标配
系统设计题比重高，注重大规模工程经验
面试官风格偏务实，喜欢追问细节和边界条件
重视候选人的工程品味和问题拆解能力

高频考点

系统设计
- 设计一个 LLM 推理服务平台（支持多模型、多租户）
- 设计字节内部的 AI Agent 编排框架
- 设计一个支持千万级用户的 RAG 检索增强系统
- 如何设计一个高效的 Prompt 管理和版本控制系统
算法与编码
- 动态规划、图论、字符串匹配等经典算法
- LLM 相关：Beam Search 实现、Attention 计算优化
- 大文件排序、分布式 TopK、一致性哈希等工程算法
- 手写 Transformer Self-Attention、KV Cache
LLM 基础与工程
- Transformer 架构细节：Multi-Head Attention、位置编码、LayerNorm
- 大模型训练流程：SFT → RLHF → DPO 全链路
- 模型量化原理：GPTQ、AWQ、GGUF 等方案对比
- vLLM / TensorRT-LLM 等推理框架的核心原理
Agent 与工具链
- ReAct / Function Calling / Tool Use 的实现原理
- 多 Agent 协作架构设计
- Agent 记忆管理：短期记忆、长期记忆、工作记忆
- 工具调用的错误处理与重试机制
分布式系统
- 分布式训练：数据并行、模型并行、流水线并行
- 参数服务器 vs AllReduce 通信架构
- 分布式推理：模型切分、负载均衡、弹性伸缩
- 微服务架构下的 LLM 服务治理
工程实践
- 大规模日志收集与分析系统
- A/B 测试框架设计
- CI/CD 流水线与自动化部署
- 代码质量保障：单测覆盖率、Code Review 规范

准备建议

刷 LeetCode 至少 300 题，重点中等偏难题目
准备 2-3 个能体现系统设计能力的项目，画出架构图
深入理解 Transformer 每一层的计算过程，能手推反向传播
了解字节核心业务（抖音、飞书、豆包），思考 AI 如何赋能
准备 "技术选型" 类问题：为什么选 A 不选 B，权衡点在哪里
练习白板编码，控制在 30 分钟内完成中等难度题目

难度特点

🔴 整体难度：高
算法题难度 3-4 星（LeetCode Hard 常见）
系统设计要求有大规模实战经验
对代码质量和工程规范要求严格
加分项：有开源贡献、技术博客、竞赛获奖经历

阿里巴巴

面试风格

通常 3-5 轮，包含技术面 + 交叉面 + HR 面
重视候选人的业务理解能力和架构思维
喜欢问 "你在项目中遇到的最大挑战是什么"
面试官风格相对温和，但追问深入
非常看重候选人的价值观和团队协作能力
P7 及以上会有架构设计专场面试

高频考点

架构设计
- 设计阿里云通义千问的后端架构
- 电商场景下的智能客服 Agent 系统设计
- 多模型网关设计：统一接入、路由、限流、降级
- 大模型微服务平台架构：数据标注 → 训练 → 评测 → 部署
业务理解
- 如何用 LLM 提升电商搜索的转化率
- 智能推荐系统中 LLM 的应用场景
- 多语言/多方言场景下的 NLP 解决方案
- 如何衡量 LLM 应用的业务 ROI
稳定性与可靠性
- 大模型服务的高可用保障方案
- 幻觉问题的检测与缓解策略
- 内容安全：如何防止模型生成有害内容
- 熔断、降级、限流在 LLM 服务中的应用
- 灰度发布与回滚策略
数据与特征工程
- 大规模语料清洗与去重方案
- 向量数据库选型与优化（Milvus / Faiss / Pinecone）
- RAG 中的文档切分策略与检索优化
- 数据飞轮：如何利用线上反馈持续优化模型
工程能力
- Java/Python 在 LLM 工程中的应用
- 中间件开发经验：消息队列、缓存、配置中心
- 性能调优：JVM 调优、Python GIL 突破、异步编程
- DevOps 实践：容器化、K8s 编排、监控告警
安全与合规
- 大模型数据隐私保护（联邦学习、差分隐私）
- Prompt 注入攻击的防御方案
- 模型输出的可控性与可解释性
- 国内 AI 相关法规与合规要求

准备建议

深入理解阿里业务场景，思考 AI 如何赋能传统业务
准备 STAR 法则描述项目经历，突出业务价值
阿里重视稳定性，多准备容灾、降级、监控相关方案
熟悉阿里云生态：PAI、DashScope、通义系列工具
P7+ 准备全局架构设计能力，能画清系统边界和数据流
了解阿里的技术文化：中台思维、数据驱动、闭环思维

难度特点

🟠 整体难度：中高
算法题难度适中（2-3 星），但要求思路清晰
架构设计和业务理解是核心区分点
对稳定性和工程规范要求极高
加分项：有大流量系统经验、业务 sense 好

腾讯

面试风格

通常 3-4 轮技术面 + 1 轮 GM 面
重视工程实践和代码质量
C++ 和 Python 基础是必考项
面试官风格务实，喜欢聊技术细节
注重候选人的学习能力和技术热情
部分团队有白板 coding 环节

高频考点

工程实践
- 设计微信场景下的 AI 对话系统
- 游戏 AI Agent 的行为决策系统设计
- 海量用户场景下的模型服务架构
- A/B 测试与效果评估体系
C++ / Python 基础
- C++ 内存管理：智能指针、RAII、内存池
- C++ 模板元编程、SFINAE、移动语义
- Python GIL 原理与多线程/多进程方案
- Python 元编程：装饰器、元类、描述符
- Cython / pybind11 实现 Python-C++ 混合编程
微服务架构
- gRPC / Thrift 在 LLM 服务中的应用
- 服务发现、负载均衡、链路追踪
- API Gateway 设计与实现
- 微服务拆分原则与通信模式
LLM 推理优化
- 模型推理加速：算子融合、Kernel 优化
- CUDA 编程基础与自定义算子开发
- 推理框架对比：Triton / vLLM / TGI
- 批处理调度策略与内存管理
多模态技术
- 图文理解：CLIP / BLIP 系列模型原理
- 语音交互：ASR + LLM + TTS 端到端链路
- 视频理解与生成的基础技术
- 多模态 Agent 的架构设计
游戏与社交场景 AI
- NPC 行为树与 LLM 结合的方案
- 社交场景下的内容生成与审核
- 实时对话系统的设计与优化
- 用户画像与个性化推荐

准备建议

夯实 C++ 和 Python 基础，准备好语言层面的八股文
了解腾讯核心产品（微信、QQ、腾讯云、游戏），思考 AI 应用
准备 1-2 个有深度的工程优化案例
熟悉腾讯云 AI 产品线
如果投游戏方向，了解游戏 AI 的基础概念
练习用简洁清晰的语言解释复杂技术问题

难度特点

🟠 整体难度：中高
算法题难度适中（2-3 星）
C++ / Python 语言基础要求扎实
工程优化和微服务经验是核心加分项
加分项：有开源项目经验、熟悉 CUDA 编程

百度

面试风格

通常 3-4 轮技术面 + 1 轮主管面
对 NLP 基础理论要求最高
重视搜索/推荐领域的经验
面试官普遍技术功底深厚，喜欢深入讨论
注重候选人对大模型技术演进的理解
部分岗位有论文讨论环节

高频考点

NLP 基础
- 经典 NLP 模型：Word2Vec、GloVe、ELMo、BERT、GPT 系列
- 分词、NER、关系抽取、文本分类等任务的 SOTA 方案
- 预训练语言模型的训练目标和微调方法
- 文本表示学习：句向量、段落向量的获取与应用
- 信息抽取：事件抽取、三元组抽取、知识图谱构建
搜索与推荐
- 搜索系统架构：召回 → 粗排 → 精排 → 重排
- 向量检索：ANN 算法（HNSW、IVF、PQ）
- LLM 重写 Query 的方法与效果评估
- 语义搜索与关键词搜索的融合方案
- 推荐系统中的 LLM 应用：序列推荐、对话推荐
大模型核心技术
- 文心大模型系列的技术架构
- SFT 数据构造：Self-Instruct、Evol-Instruct
- RLHF 全流程：Reward Model 训练、PPO 优化
- 模型评估：自动评估指标 vs 人工评估
- 长上下文处理：RoPE 外推、ALiBi、StreamingLLM
RAG 深度优化
- 文档解析：PDF/Word/表格的结构化处理
- 分块策略：固定长度、语义分块、递归分块
- 检索优化：混合检索、重排序、查询扩展
- 生成优化：上下文压缩、Lost in the Middle 问题
- 评估框架：RAGAS、TruLens 等
知识图谱与大模型
- 知识图谱与 LLM 的结合：KAPING、StructGPT
- GraphRAG：基于图结构的检索增强
- 知识增强预训练：ERNIE 系列的技术方案
- 知识蒸馏：大模型到小模型的知识传递
AI 原生应用
- 文心一言的插件系统设计
- AI 原生搜索产品的设计思路
- 多轮对话管理与状态追踪
- 意图识别与槽位填充的 LLM 方案

准备建议

扎实 NLP 基础，能清晰解释从 Word2Vec 到 GPT 的技术演进
深入了解搜索/推荐系统的基本原理
阅读百度 NLP 团队的代表性论文（ERNIE、文心系列）
准备 RAG 的深度技术方案，不仅是表面流程
了解百度的 AI 产品矩阵：文心一言、文心一格、千帆平台
关注 ACL、EMNLP、NeurIPS 等顶会的最新 NLP 论文

难度特点

🔴 整体难度：高
NLP 基础理论考察最深入
对搜索/推荐领域的理解要求高
大模型全链路（训练、微调、部署、评估）都要懂
加分项：有顶会论文、搜索/推荐系统经验

小米

面试风格

通常 3-4 轮技术面 + 1 轮总监面
特别关注端侧部署和性能优化经验
重视候选人的动手能力和快速学习能力
面试风格相对务实，注重实际问题解决
对多模态技术有较高关注度
部分团队会考察嵌入式/移动端 AI 部署经验

高频考点

端侧部署
- 手机端大模型部署方案：MLC-LLM、MediaPipe、Core ML
- 模型压缩技术：量化（INT4/INT8）、剪枝、知识蒸馏
- 端侧推理引擎：TFLite、NNAPI、Hexagon DSP
- 端云协同架构设计：端侧快速响应 + 云端深度推理
- 不同硬件平台的适配：高通、联发科、自研芯片
多模态技术
- 图像理解：OCR、图文匹配、视觉问答
- 语音交互：端到端语音大模型、语音克隆
- 多模态 Agent：能看、能听、能说的智能助手
- 实时多模态融合：视觉 + 语音 + 文本的联合理解
性能优化
- 模型推理延迟优化：首 Token 时间（TTFT）、每 Token 时间（TPOT）
- 内存优化：KV Cache 管理、激活值优化
- 功耗优化：端侧 AI 的电池消耗控制
- 吞吐量优化：批处理、异步推理、模型并行
- Benchmark 建立与性能分析工具使用
IoT 与智能家居场景
- 智能家居场景下的 LLM 应用设计
- 设备端 Agent：意图理解、设备控制、场景联动
- 低功耗设备上的轻量级 NLP 方案
- 多设备协同的 AI 决策系统
全栈开发能力
- Android 端 AI 应用开发
- 云端 API 服务设计与实现
- 数据采集、标注、训练、部署全流程
- 快速原型开发与 MVP 验证
自动驾驶相关（部分团队）
- 端到端自动驾驶中的大模型应用
- 场景理解与决策推理
- 实时性要求下的模型优化
- 多传感器融合与语言模型结合

准备建议

重点准备端侧部署经验，了解主流移动端推理框架
了解小米的 AI 产品线：小爱同学、小米大模型、澎湃 OS
准备性能优化案例：量化前后对比、延迟/吞吐提升数据
多模态相关项目经验是加分项
了解 IoT 和智能家居场景的技术特点
如果有 Android 开发经验，重点强调

难度特点

🟡 整体难度：中
算法题难度适中（2-3 星）
端侧部署和性能优化是核心考察点
重视动手能力，有 demo 或作品集加分
加分项：有端侧 AI 部署经验、多模态项目经验

创业公司

面试风格

流程灵活，通常 2-3 轮（技术面 + CEO/CTO 面）
极度重视全栈能力和快速落地能力
喜欢问 "如果从零开始，你会怎么做"
面试官往往是创始人或技术负责人
注重候选人的自驱力和创业心态
可能直接给一个实际场景让你现场设计方案

高频考点

全栈能力
- 前后端开发：React/Vue + FastAPI/Flask
- 数据库设计与优化：PostgreSQL + pgvector
- LLM 应用全栈：Prompt → API → 前端 → 部署
- DevOps：Docker、CI/CD、云服务部署
快速落地
- 如何在 2 周内从零搭建一个 RAG 应用
- MVP 设计思路：核心功能优先、快速迭代
- 技术选型决策：自研 vs 开源 vs 商用 API
- 快速验证产品假设的技术方案
成本控制
- LLM API 调用成本优化：缓存、路由、降级
- 开源模型 vs 商用 API 的成本对比与选型
- GPU 资源管理：按需扩缩容、Spot 实例
- Token 使用优化：Prompt 压缩、上下文管理
- RAG vs Fine-tuning 的成本效益分析
产品思维
- 如何设计一个有竞争力的 AI 产品
- 用户体验设计：流式输出、交互反馈、错误处理
- 产品迭代策略：数据驱动、用户反馈循环
- 竞品分析与差异化定位
技术广度
- LangChain / LlamaIndex / Dify 等框架的使用与原理
- 向量数据库选型：Pinecone / Weaviate / Chroma / Milvus
- 模型服务：Ollama、vLLM、Together AI
- 监控与可观测性：LangSmith、LangFuse
商业化考量
- SaaS 产品的多租户架构设计
- 数据安全与隔离方案
- API 计费与配额管理
- 规模化运营的技术挑战

准备建议

展示全栈能力，最好有可演示的项目或作品
准备从零搭建 LLM 应用的完整方案
了解主流 LLM 工具链和开源生态
思考成本优化方案，能算清楚 "一笔账"
展示自驱力和学习能力，分享技术探索经历
了解目标公司的产品和商业模式

难度特点

🟡 整体难度：中（但广度要求高）
算法题不常考或难度低
全栈能力和快速落地是核心要求
成本意识和产品思维是重要加分项
加分项：有创业经历、个人项目作品集、社区影响力

外企 (Google / OpenAI)

面试风格

流程规范且周期长（通常 4-8 周）
Google: Phone Screen → Onsite (4-5 轮) → Hiring Committee
OpenAI: 技术面 (3-4 轮) + Research Presentation
高度重视算法深度和系统设计能力
注重候选人的研究能力和论文理解深度
英文面试是标配，沟通能力很重要
面试官通常有深厚的学术背景

高频考点

算法深度
- 经典算法的最优解分析与证明
- 复杂度分析：时间、空间、通信复杂度
- 随机化算法、在线算法、近似算法
- 机器学习基础：优化理论、概率图模型
- 大规模算法：MapReduce/Spark 上的算法设计
论文理解
- Attention Is All You Need 深度解析
- GPT 系列：从 GPT-1 到 GPT-4 的技术演进
- Chain-of-Thought、Tree-of-Thought 等推理方法
- RLHF 与 Constitutional AI 的技术细节
- Scaling Laws：模型规模、数据量、计算量的关系
- Mixture of Experts (MoE) 架构原理
- 最新论文的批判性分析能力
系统设计
- 设计一个全球分布式 LLM 推理服务
- 设计训练大规模模型的基础设施
- 设计 AI 安全评估与红队测试框架
- 设计模型版本管理与 A/B 测试平台
- 设计高效的数据管线（ETL for LLM training data）
机器学习基础
- 深度学习优化：SGD、Adam、学习率调度策略
- 正则化技术：Dropout、Weight Decay、数据增强
- 损失函数设计与梯度问题分析
- 分布式训练：数据并行、模型并行、专家并行
- 模型评估方法论与统计显著性检验
AI 安全与对齐
- Alignment 问题：RLHF、DPO、Constitutional AI
- Red Teaming 方法论：对抗性测试、边界探测
- 幻觉检测与缓解技术
- 可解释性：Mechanistic Interpretability
- AI 治理与伦理考量
编程能力
- Python 高级特性与最佳实践
- C++ 系统编程能力
- 代码质量：可读性、可测试性、可维护性
- 设计模式在 LLM 系统中的应用
研究能力
- 如何提出有价值的研究问题
- 实验设计与结果分析
- 论文写作与技术文档能力
- 开源项目贡献与社区影响力

准备建议

刷题至少 400+，覆盖 LeetCode 全类型，重点 Hard 题
精读 10+ 篇 LLM 核心论文，能深入讨论技术细节
准备 1-2 个 Research Project 的深度 Presentation
练习英文技术表达，能流畅进行系统设计讨论
了解 Google / OpenAI 的技术博客和开源项目
准备 Behavioral Questions（STAR 法则），体现 Leadership
OpenAI 特别关注 AI Safety，准备 alignment 相关思考

难度特点

🔴 整体难度：很高
算法题难度 4-5 星，要求最优解 + 正确性证明
论文理解和研究能力是重要考察维度
英文沟通能力是基本门槛
AI Safety / Alignment 的思考深度是加分项
加分项：顶会论文、开源项目影响力、Research 经验

📊 各公司对比总结

维度	字节	阿里	腾讯	百度	小米	创业	外企
算法难度	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
系统设计	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
NLP 基础	⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐
工程能力	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
业务理解	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐
全栈能力	⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐
研究深度	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐	⭐⭐	⭐	⭐⭐⭐⭐⭐
端侧部署	⭐⭐	⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐

🎯 按目标公司制定学习路线

如果目标是字节跳动

优先级: 算法刷题 > 系统设计 > LLM 工程 > 分布式系统
时间分配: 40% 算法 + 30% 系统设计 + 20% LLM + 10% 项目梳理

如果目标是阿里巴巴

优先级: 架构设计 > 业务理解 > 稳定性 > 算法
时间分配: 30% 架构 + 25% 业务 + 25% 稳定性 + 20% 算法

如果目标是腾讯

优先级: C++/Python 基础 > 工程实践 > 微服务 > 算法
时间分配: 30% 语言基础 + 30% 工程 + 20% 微服务 + 20% 算法

如果目标是百度

优先级: NLP 基础 > 搜索/推荐 > 大模型全链路 > RAG
时间分配: 30% NLP + 25% 搜索 + 25% 大模型 + 20% RAG

如果目标是小米

优先级: 端侧部署 > 性能优化 > 多模态 > 全栈
时间分配: 30% 端侧 + 25% 性能 + 25% 多模态 + 20% 全栈

如果目标是创业公司

优先级: 全栈能力 > 快速落地 > 成本控制 > 产品思维
时间分配: 30% 全栈 + 30% 落地 + 20% 成本 + 20% 产品

如果目标是外企

优先级: 算法深度 > 论文理解 > 系统设计 > 英文表达
时间分配: 35% 算法 + 25% 论文 + 20% 系统设计 + 20% 英文

💡 通用建议: 无论目标哪家公司，以下基础都是必备的：
Transformer 架构的深入理解
至少一个完整的 LLM 应用项目经验
RAG 的原理与实践经验
Agent 的设计模式与实现经验
基本的算法编码能力（LeetCode Medium 通关水平）

🏢 公司分类题库 ​

📋 目录 ​

字节跳动 ​

面试风格 ​

高频考点 ​

准备建议 ​

难度特点 ​

阿里巴巴 ​

面试风格 ​

高频考点 ​

准备建议 ​

难度特点 ​

腾讯 ​

面试风格 ​

高频考点 ​

准备建议 ​

难度特点 ​

百度 ​

面试风格 ​

高频考点 ​

准备建议 ​

难度特点 ​

小米 ​

面试风格 ​

高频考点 ​

准备建议 ​

难度特点 ​

创业公司 ​

面试风格 ​

高频考点 ​

准备建议 ​

难度特点 ​

外企 (Google / OpenAI) ​

面试风格 ​

高频考点 ​

准备建议 ​

难度特点 ​

📊 各公司对比总结 ​

🎯 按目标公司制定学习路线 ​

如果目标是字节跳动 ​

如果目标是阿里巴巴 ​

如果目标是腾讯 ​

如果目标是百度 ​

如果目标是小米 ​

如果目标是创业公司 ​

如果目标是外企 ​

🏢 公司分类题库

📋 目录

字节跳动

面试风格

高频考点

准备建议

难度特点

阿里巴巴

面试风格

高频考点

准备建议

难度特点

腾讯

面试风格

高频考点

准备建议

难度特点

百度

面试风格

高频考点

准备建议

难度特点

小米

面试风格

高频考点

准备建议

难度特点

创业公司

面试风格

高频考点

准备建议

难度特点

外企 (Google / OpenAI)

面试风格

高频考点

准备建议

难度特点

📊 各公司对比总结

🎯 按目标公司制定学习路线

如果目标是字节跳动

如果目标是阿里巴巴

如果目标是腾讯

如果目标是百度

如果目标是小米

如果目标是创业公司

如果目标是外企