🏢 公司分类题库
不同公司的面试侧重点不同,针对性准备效率更高
📋 目录
字节跳动
面试风格
- 节奏快、轮次多(通常 4-6 轮),每轮 45-60 分钟
- 高度重视算法编码能力,现场手撕代码是标配
- 系统设计题比重高,注重大规模工程经验
- 面试官风格偏务实,喜欢追问细节和边界条件
- 重视候选人的工程品味和问题拆解能力
高频考点
系统设计
- 设计一个 LLM 推理服务平台(支持多模型、多租户)
- 设计字节内部的 AI Agent 编排框架
- 设计一个支持千万级用户的 RAG 检索增强系统
- 如何设计一个高效的 Prompt 管理和版本控制系统
算法与编码
- 动态规划、图论、字符串匹配等经典算法
- LLM 相关:Beam Search 实现、Attention 计算优化
- 大文件排序、分布式 TopK、一致性哈希等工程算法
- 手写 Transformer Self-Attention、KV Cache
LLM 基础与工程
- Transformer 架构细节:Multi-Head Attention、位置编码、LayerNorm
- 大模型训练流程:SFT → RLHF → DPO 全链路
- 模型量化原理:GPTQ、AWQ、GGUF 等方案对比
- vLLM / TensorRT-LLM 等推理框架的核心原理
Agent 与工具链
- ReAct / Function Calling / Tool Use 的实现原理
- 多 Agent 协作架构设计
- Agent 记忆管理:短期记忆、长期记忆、工作记忆
- 工具调用的错误处理与重试机制
分布式系统
- 分布式训练:数据并行、模型并行、流水线并行
- 参数服务器 vs AllReduce 通信架构
- 分布式推理:模型切分、负载均衡、弹性伸缩
- 微服务架构下的 LLM 服务治理
工程实践
- 大规模日志收集与分析系统
- A/B 测试框架设计
- CI/CD 流水线与自动化部署
- 代码质量保障:单测覆盖率、Code Review 规范
准备建议
- 刷 LeetCode 至少 300 题,重点中等偏难题目
- 准备 2-3 个能体现系统设计能力的项目,画出架构图
- 深入理解 Transformer 每一层的计算过程,能手推反向传播
- 了解字节核心业务(抖音、飞书、豆包),思考 AI 如何赋能
- 准备 "技术选型" 类问题:为什么选 A 不选 B,权衡点在哪里
- 练习白板编码,控制在 30 分钟内完成中等难度题目
难度特点
- 🔴 整体难度:高
- 算法题难度 3-4 星(LeetCode Hard 常见)
- 系统设计要求有大规模实战经验
- 对代码质量和工程规范要求严格
- 加分项:有开源贡献、技术博客、竞赛获奖经历
阿里巴巴
面试风格
- 通常 3-5 轮,包含技术面 + 交叉面 + HR 面
- 重视候选人的业务理解能力和架构思维
- 喜欢问 "你在项目中遇到的最大挑战是什么"
- 面试官风格相对温和,但追问深入
- 非常看重候选人的价值观和团队协作能力
- P7 及以上会有架构设计专场面试
高频考点
架构设计
- 设计阿里云通义千问的后端架构
- 电商场景下的智能客服 Agent 系统设计
- 多模型网关设计:统一接入、路由、限流、降级
- 大模型微服务平台架构:数据标注 → 训练 → 评测 → 部署
业务理解
- 如何用 LLM 提升电商搜索的转化率
- 智能推荐系统中 LLM 的应用场景
- 多语言/多方言场景下的 NLP 解决方案
- 如何衡量 LLM 应用的业务 ROI
稳定性与可靠性
- 大模型服务的高可用保障方案
- 幻觉问题的检测与缓解策略
- 内容安全:如何防止模型生成有害内容
- 熔断、降级、限流在 LLM 服务中的应用
- 灰度发布与回滚策略
数据与特征工程
- 大规模语料清洗与去重方案
- 向量数据库选型与优化(Milvus / Faiss / Pinecone)
- RAG 中的文档切分策略与检索优化
- 数据飞轮:如何利用线上反馈持续优化模型
工程能力
- Java/Python 在 LLM 工程中的应用
- 中间件开发经验:消息队列、缓存、配置中心
- 性能调优:JVM 调优、Python GIL 突破、异步编程
- DevOps 实践:容器化、K8s 编排、监控告警
安全与合规
- 大模型数据隐私保护(联邦学习、差分隐私)
- Prompt 注入攻击的防御方案
- 模型输出的可控性与可解释性
- 国内 AI 相关法规与合规要求
准备建议
- 深入理解阿里业务场景,思考 AI 如何赋能传统业务
- 准备 STAR 法则描述项目经历,突出业务价值
- 阿里重视稳定性,多准备容灾、降级、监控相关方案
- 熟悉阿里云生态:PAI、DashScope、通义系列工具
- P7+ 准备全局架构设计能力,能画清系统边界和数据流
- 了解阿里的技术文化:中台思维、数据驱动、闭环思维
难度特点
- 🟠 整体难度:中高
- 算法题难度适中(2-3 星),但要求思路清晰
- 架构设计和业务理解是核心区分点
- 对稳定性和工程规范要求极高
- 加分项:有大流量系统经验、业务 sense 好
腾讯
面试风格
- 通常 3-4 轮技术面 + 1 轮 GM 面
- 重视工程实践和代码质量
- C++ 和 Python 基础是必考项
- 面试官风格务实,喜欢聊技术细节
- 注重候选人的学习能力和技术热情
- 部分团队有白板 coding 环节
高频考点
工程实践
- 设计微信场景下的 AI 对话系统
- 游戏 AI Agent 的行为决策系统设计
- 海量用户场景下的模型服务架构
- A/B 测试与效果评估体系
C++ / Python 基础
- C++ 内存管理:智能指针、RAII、内存池
- C++ 模板元编程、SFINAE、移动语义
- Python GIL 原理与多线程/多进程方案
- Python 元编程:装饰器、元类、描述符
- Cython / pybind11 实现 Python-C++ 混合编程
微服务架构
- gRPC / Thrift 在 LLM 服务中的应用
- 服务发现、负载均衡、链路追踪
- API Gateway 设计与实现
- 微服务拆分原则与通信模式
LLM 推理优化
- 模型推理加速:算子融合、Kernel 优化
- CUDA 编程基础与自定义算子开发
- 推理框架对比:Triton / vLLM / TGI
- 批处理调度策略与内存管理
多模态技术
- 图文理解:CLIP / BLIP 系列模型原理
- 语音交互:ASR + LLM + TTS 端到端链路
- 视频理解与生成的基础技术
- 多模态 Agent 的架构设计
游戏与社交场景 AI
- NPC 行为树与 LLM 结合的方案
- 社交场景下的内容生成与审核
- 实时对话系统的设计与优化
- 用户画像与个性化推荐
准备建议
- 夯实 C++ 和 Python 基础,准备好语言层面的八股文
- 了解腾讯核心产品(微信、QQ、腾讯云、游戏),思考 AI 应用
- 准备 1-2 个有深度的工程优化案例
- 熟悉腾讯云 AI 产品线
- 如果投游戏方向,了解游戏 AI 的基础概念
- 练习用简洁清晰的语言解释复杂技术问题
难度特点
- 🟠 整体难度:中高
- 算法题难度适中(2-3 星)
- C++ / Python 语言基础要求扎实
- 工程优化和微服务经验是核心加分项
- 加分项:有开源项目经验、熟悉 CUDA 编程
百度
面试风格
- 通常 3-4 轮技术面 + 1 轮主管面
- 对 NLP 基础理论要求最高
- 重视搜索/推荐领域的经验
- 面试官普遍技术功底深厚,喜欢深入讨论
- 注重候选人对大模型技术演进的理解
- 部分岗位有论文讨论环节
高频考点
NLP 基础
- 经典 NLP 模型:Word2Vec、GloVe、ELMo、BERT、GPT 系列
- 分词、NER、关系抽取、文本分类等任务的 SOTA 方案
- 预训练语言模型的训练目标和微调方法
- 文本表示学习:句向量、段落向量的获取与应用
- 信息抽取:事件抽取、三元组抽取、知识图谱构建
搜索与推荐
- 搜索系统架构:召回 → 粗排 → 精排 → 重排
- 向量检索:ANN 算法(HNSW、IVF、PQ)
- LLM 重写 Query 的方法与效果评估
- 语义搜索与关键词搜索的融合方案
- 推荐系统中的 LLM 应用:序列推荐、对话推荐
大模型核心技术
- 文心大模型系列的技术架构
- SFT 数据构造:Self-Instruct、Evol-Instruct
- RLHF 全流程:Reward Model 训练、PPO 优化
- 模型评估:自动评估指标 vs 人工评估
- 长上下文处理:RoPE 外推、ALiBi、StreamingLLM
RAG 深度优化
- 文档解析:PDF/Word/表格的结构化处理
- 分块策略:固定长度、语义分块、递归分块
- 检索优化:混合检索、重排序、查询扩展
- 生成优化:上下文压缩、Lost in the Middle 问题
- 评估框架:RAGAS、TruLens 等
知识图谱与大模型
- 知识图谱与 LLM 的结合:KAPING、StructGPT
- GraphRAG:基于图结构的检索增强
- 知识增强预训练:ERNIE 系列的技术方案
- 知识蒸馏:大模型到小模型的知识传递
AI 原生应用
- 文心一言的插件系统设计
- AI 原生搜索产品的设计思路
- 多轮对话管理与状态追踪
- 意图识别与槽位填充的 LLM 方案
准备建议
- 扎实 NLP 基础,能清晰解释从 Word2Vec 到 GPT 的技术演进
- 深入了解搜索/推荐系统的基本原理
- 阅读百度 NLP 团队的代表性论文(ERNIE、文心系列)
- 准备 RAG 的深度技术方案,不仅是表面流程
- 了解百度的 AI 产品矩阵:文心一言、文心一格、千帆平台
- 关注 ACL、EMNLP、NeurIPS 等顶会的最新 NLP 论文
难度特点
- 🔴 整体难度:高
- NLP 基础理论考察最深入
- 对搜索/推荐领域的理解要求高
- 大模型全链路(训练、微调、部署、评估)都要懂
- 加分项:有顶会论文、搜索/推荐系统经验
小米
面试风格
- 通常 3-4 轮技术面 + 1 轮总监面
- 特别关注端侧部署和性能优化经验
- 重视候选人的动手能力和快速学习能力
- 面试风格相对务实,注重实际问题解决
- 对多模态技术有较高关注度
- 部分团队会考察嵌入式/移动端 AI 部署经验
高频考点
端侧部署
- 手机端大模型部署方案:MLC-LLM、MediaPipe、Core ML
- 模型压缩技术:量化(INT4/INT8)、剪枝、知识蒸馏
- 端侧推理引擎:TFLite、NNAPI、Hexagon DSP
- 端云协同架构设计:端侧快速响应 + 云端深度推理
- 不同硬件平台的适配:高通、联发科、自研芯片
多模态技术
- 图像理解:OCR、图文匹配、视觉问答
- 语音交互:端到端语音大模型、语音克隆
- 多模态 Agent:能看、能听、能说的智能助手
- 实时多模态融合:视觉 + 语音 + 文本的联合理解
性能优化
- 模型推理延迟优化:首 Token 时间(TTFT)、每 Token 时间(TPOT)
- 内存优化:KV Cache 管理、激活值优化
- 功耗优化:端侧 AI 的电池消耗控制
- 吞吐量优化:批处理、异步推理、模型并行
- Benchmark 建立与性能分析工具使用
IoT 与智能家居场景
- 智能家居场景下的 LLM 应用设计
- 设备端 Agent:意图理解、设备控制、场景联动
- 低功耗设备上的轻量级 NLP 方案
- 多设备协同的 AI 决策系统
全栈开发能力
- Android 端 AI 应用开发
- 云端 API 服务设计与实现
- 数据采集、标注、训练、部署全流程
- 快速原型开发与 MVP 验证
自动驾驶相关(部分团队)
- 端到端自动驾驶中的大模型应用
- 场景理解与决策推理
- 实时性要求下的模型优化
- 多传感器融合与语言模型结合
准备建议
- 重点准备端侧部署经验,了解主流移动端推理框架
- 了解小米的 AI 产品线:小爱同学、小米大模型、澎湃 OS
- 准备性能优化案例:量化前后对比、延迟/吞吐提升数据
- 多模态相关项目经验是加分项
- 了解 IoT 和智能家居场景的技术特点
- 如果有 Android 开发经验,重点强调
难度特点
- 🟡 整体难度:中
- 算法题难度适中(2-3 星)
- 端侧部署和性能优化是核心考察点
- 重视动手能力,有 demo 或作品集加分
- 加分项:有端侧 AI 部署经验、多模态项目经验
创业公司
面试风格
- 流程灵活,通常 2-3 轮(技术面 + CEO/CTO 面)
- 极度重视全栈能力和快速落地能力
- 喜欢问 "如果从零开始,你会怎么做"
- 面试官往往是创始人或技术负责人
- 注重候选人的自驱力和创业心态
- 可能直接给一个实际场景让你现场设计方案
高频考点
全栈能力
- 前后端开发:React/Vue + FastAPI/Flask
- 数据库设计与优化:PostgreSQL + pgvector
- LLM 应用全栈:Prompt → API → 前端 → 部署
- DevOps:Docker、CI/CD、云服务部署
快速落地
- 如何在 2 周内从零搭建一个 RAG 应用
- MVP 设计思路:核心功能优先、快速迭代
- 技术选型决策:自研 vs 开源 vs 商用 API
- 快速验证产品假设的技术方案
成本控制
- LLM API 调用成本优化:缓存、路由、降级
- 开源模型 vs 商用 API 的成本对比与选型
- GPU 资源管理:按需扩缩容、Spot 实例
- Token 使用优化:Prompt 压缩、上下文管理
- RAG vs Fine-tuning 的成本效益分析
产品思维
- 如何设计一个有竞争力的 AI 产品
- 用户体验设计:流式输出、交互反馈、错误处理
- 产品迭代策略:数据驱动、用户反馈循环
- 竞品分析与差异化定位
技术广度
- LangChain / LlamaIndex / Dify 等框架的使用与原理
- 向量数据库选型:Pinecone / Weaviate / Chroma / Milvus
- 模型服务:Ollama、vLLM、Together AI
- 监控与可观测性:LangSmith、LangFuse
商业化考量
- SaaS 产品的多租户架构设计
- 数据安全与隔离方案
- API 计费与配额管理
- 规模化运营的技术挑战
准备建议
- 展示全栈能力,最好有可演示的项目或作品
- 准备从零搭建 LLM 应用的完整方案
- 了解主流 LLM 工具链和开源生态
- 思考成本优化方案,能算清楚 "一笔账"
- 展示自驱力和学习能力,分享技术探索经历
- 了解目标公司的产品和商业模式
难度特点
- 🟡 整体难度:中(但广度要求高)
- 算法题不常考或难度低
- 全栈能力和快速落地是核心要求
- 成本意识和产品思维是重要加分项
- 加分项:有创业经历、个人项目作品集、社区影响力
外企 (Google / OpenAI)
面试风格
- 流程规范且周期长(通常 4-8 周)
- Google: Phone Screen → Onsite (4-5 轮) → Hiring Committee
- OpenAI: 技术面 (3-4 轮) + Research Presentation
- 高度重视算法深度和系统设计能力
- 注重候选人的研究能力和论文理解深度
- 英文面试是标配,沟通能力很重要
- 面试官通常有深厚的学术背景
高频考点
算法深度
- 经典算法的最优解分析与证明
- 复杂度分析:时间、空间、通信复杂度
- 随机化算法、在线算法、近似算法
- 机器学习基础:优化理论、概率图模型
- 大规模算法:MapReduce/Spark 上的算法设计
论文理解
- Attention Is All You Need 深度解析
- GPT 系列:从 GPT-1 到 GPT-4 的技术演进
- Chain-of-Thought、Tree-of-Thought 等推理方法
- RLHF 与 Constitutional AI 的技术细节
- Scaling Laws:模型规模、数据量、计算量的关系
- Mixture of Experts (MoE) 架构原理
- 最新论文的批判性分析能力
系统设计
- 设计一个全球分布式 LLM 推理服务
- 设计训练大规模模型的基础设施
- 设计 AI 安全评估与红队测试框架
- 设计模型版本管理与 A/B 测试平台
- 设计高效的数据管线(ETL for LLM training data)
机器学习基础
- 深度学习优化:SGD、Adam、学习率调度策略
- 正则化技术:Dropout、Weight Decay、数据增强
- 损失函数设计与梯度问题分析
- 分布式训练:数据并行、模型并行、专家并行
- 模型评估方法论与统计显著性检验
AI 安全与对齐
- Alignment 问题:RLHF、DPO、Constitutional AI
- Red Teaming 方法论:对抗性测试、边界探测
- 幻觉检测与缓解技术
- 可解释性:Mechanistic Interpretability
- AI 治理与伦理考量
编程能力
- Python 高级特性与最佳实践
- C++ 系统编程能力
- 代码质量:可读性、可测试性、可维护性
- 设计模式在 LLM 系统中的应用
研究能力
- 如何提出有价值的研究问题
- 实验设计与结果分析
- 论文写作与技术文档能力
- 开源项目贡献与社区影响力
准备建议
- 刷题至少 400+,覆盖 LeetCode 全类型,重点 Hard 题
- 精读 10+ 篇 LLM 核心论文,能深入讨论技术细节
- 准备 1-2 个 Research Project 的深度 Presentation
- 练习英文技术表达,能流畅进行系统设计讨论
- 了解 Google / OpenAI 的技术博客和开源项目
- 准备 Behavioral Questions(STAR 法则),体现 Leadership
- OpenAI 特别关注 AI Safety,准备 alignment 相关思考
难度特点
- 🔴 整体难度:很高
- 算法题难度 4-5 星,要求最优解 + 正确性证明
- 论文理解和研究能力是重要考察维度
- 英文沟通能力是基本门槛
- AI Safety / Alignment 的思考深度是加分项
- 加分项:顶会论文、开源项目影响力、Research 经验
📊 各公司对比总结
| 维度 | 字节 | 阿里 | 腾讯 | 百度 | 小米 | 创业 | 外企 |
|---|---|---|---|---|---|---|---|
| 算法难度 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| 系统设计 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| NLP 基础 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
| 工程能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 业务理解 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
| 全栈能力 | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ |
| 研究深度 | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐ | ⭐⭐⭐⭐⭐ |
| 端侧部署 | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ |
🎯 按目标公司制定学习路线
如果目标是字节跳动
优先级: 算法刷题 > 系统设计 > LLM 工程 > 分布式系统
时间分配: 40% 算法 + 30% 系统设计 + 20% LLM + 10% 项目梳理如果目标是阿里巴巴
优先级: 架构设计 > 业务理解 > 稳定性 > 算法
时间分配: 30% 架构 + 25% 业务 + 25% 稳定性 + 20% 算法如果目标是腾讯
优先级: C++/Python 基础 > 工程实践 > 微服务 > 算法
时间分配: 30% 语言基础 + 30% 工程 + 20% 微服务 + 20% 算法如果目标是百度
优先级: NLP 基础 > 搜索/推荐 > 大模型全链路 > RAG
时间分配: 30% NLP + 25% 搜索 + 25% 大模型 + 20% RAG如果目标是小米
优先级: 端侧部署 > 性能优化 > 多模态 > 全栈
时间分配: 30% 端侧 + 25% 性能 + 25% 多模态 + 20% 全栈如果目标是创业公司
优先级: 全栈能力 > 快速落地 > 成本控制 > 产品思维
时间分配: 30% 全栈 + 30% 落地 + 20% 成本 + 20% 产品如果目标是外企
优先级: 算法深度 > 论文理解 > 系统设计 > 英文表达
时间分配: 35% 算法 + 25% 论文 + 20% 系统设计 + 20% 英文💡 通用建议: 无论目标哪家公司,以下基础都是必备的:
- Transformer 架构的深入理解
- 至少一个完整的 LLM 应用项目经验
- RAG 的原理与实践经验
- Agent 的设计模式与实现经验
- 基本的算法编码能力(LeetCode Medium 通关水平)