第26章：理论八股文精华

面试官问你"Attention 的时间复杂度是什么"，你不能只回答"O(n²)"就完了。好的回答是：O(n²) 来自 QK^T 的矩阵乘法，n 是序列长度，这也是为什么长上下文推理需要 Flash Attention 或 GQA 等优化——然后看面试官是否想深挖，再展开。

这一章不是让你背答案。每道题给出的是回答框架：先说什么、再展开什么、最后怎么展示深度。面试官考察的不是你记住了多少，而是你能不能把知识串成一条逻辑线。

建议按三个层次使用本章：

30 秒短答：先给定义、核心机制、适用场景，保证不跑题。
2 分钟展开：补充工程权衡、失败模式、生产注意事项。
深挖加分：再讲论文、框架、供应商差异或自己的项目经验。

面试时不要背易过期的型号、榜单分数和价格数字。更稳的表达是："以当前主流实现为例，具体以官方文档和自己的 eval 为准。"理论题的价值不在于显得知道很多名词，而在于能把概念落到系统设计、成本、可靠性和安全边界上。

26.1 LLM 核心 30 题

Transformer 架构

Q1：Transformer 的 Self-Attention 机制是怎么工作的？

回答框架：

Q/K/V 三个矩阵的含义：Query（我在找什么）、Key（我能提供什么）、Value（我的实际内容）
计算公式：softmax(QK^T / √d_k) · V
为什么除以 √d_k：防止点积值过大导致 softmax 梯度消失

加分点：提到 Multi-Head Attention 的动机——不同头学习不同的关注模式（语法、语义、位置）。

Q2：Attention 的时间复杂度是多少？如何优化？

回答框架：

O(n²) 来自 QK^T 矩阵乘法，n 是序列长度
内存占用也是 O(n²)，因为要存储完整的注意力矩阵
优化方向：
- Flash Attention：不改变数学计算，优化 GPU 内存访问模式，通过分块计算在 SRAM 中完成
- GQA（Grouped-Query Attention）：多个 Query 头共享 K/V 头，减少 KV Cache
- 稀疏注意力：只计算局部窗口或固定模式的注意力

加分点：能说明 Flash Attention 2/3 的核心价值是降低 HBM 读写和提升硬件利用率，而不是改变 attention 的数学定义。具体性能数字随 GPU、序列长度、batch、精度变化很大，面试里不要背单一绝对值。

Q3：KV Cache 的原理是什么？为什么它对推理性能至关重要？

回答框架：

自回归生成时，每生成一个新 token 需要对前面所有 token 计算注意力
之前 token 的 K 和 V 不会变，缓存起来避免重复计算
把每步复杂度从 O(n²) 降到 O(n)
代价是内存占用——KV Cache 大小取决于层数、KV head 数、head dimension 和精度。以 Llama 类 70B、GQA、BF16 粗略估算，100 万 token 的 KV Cache 可能达到数百 GB；如果是 MHA 或更高精度会更高。

加分点：提到 GQA 如何减少 KV Cache 大小，以及 vLLM 的 PagedAttention 如何优化内存管理。

Q4：为什么 Decoder-only 架构成为主流？

回答框架：

训练效率：每个 token 都参与损失计算，BERT 只有 15% 的 token 贡献损失
扩展简单：统一的层堆叠，并行化更直接
不需要配对数据：直接在原始文本上训练

加分点：提到 Encoder-Decoder 在特定任务（如翻译）仍有优势，以及 T5 等模型的定位。

Q5：RoPE 位置编码的原理是什么？

回答框架：

对 Q 和 K 向量施加位置相关的旋转
旋转角度为 m·θ，m 是位置
关键性质：两个旋转后向量的点积只取决于相对位置差 (m-n)
优点：不需要可学习参数，并且相对位置性质更适合长度外推；但实际长上下文能力仍需要 scaling 方法和实测验证，不能理解为"任意长度都可靠"

加分点：提到 YaRN、NTK-aware scaling 等长度外推技术。

Tokenization

Q6：BPE（Byte Pair Encoding）是怎么工作的？

回答框架：

初始词汇表可以是字节、字符或预切分后的基础单元，具体取决于 tokenizer 实现
统计相邻 token pair 的频率，合并最高频的 pair 为新 token
重复直到达到目标词汇表大小
优点：byte-level BPE 基本无 OOV（Out-of-Vocabulary）问题，能处理任意文本；非 byte-level 实现则依赖 fallback 机制

加分点：提到 tiktoken（OpenAI）和 SentencePiece（Google）的实现差异。

Q7：Tokenization 对 Agent 开发有什么影响？

回答框架：

Token 数量决定成本和延迟
不同语言和 tokenizer 的 token 效率差异很大，不要凭直觉估算；中文、代码、表格、JSON 在不同 tokenizer 下可能表现完全不同
代码中的缩进、空格也会消耗 token
工具调用的 JSON 参数会占用上下文窗口

加分点：提到如何通过结构化输出减少 token 消耗。

推理参数

Q8：Temperature、Top-p、Top-k 分别控制什么？

回答框架：

Temperature：控制概率分布的"尖锐程度"，0 或接近 0 = 尽量稳定输出，>1 = 更随机。注意工程上不应把 temperature=0 理解为跨供应商、跨版本的绝对确定性
Top-p（Nucleus Sampling）：只从累积概率达到 p 的 token 中采样
Top-k：只从概率最高的 k 个 token 中采样

Agent 场景的选择：

工具调用、结构化输出：Temperature = 0 或接近 0
创意生成、头脑风暴：Temperature = 0.7-1.0

加分点：提到 Top-p 和 Top-k 的区别——Top-p 动态调整候选集大小，Top-k 是固定数量。

Q9：什么是推理模型（Reasoning Models）？它和传统 CoT 有什么区别？

回答框架：

推理模型在回答前消耗额外计算预算进行推理，通常会体现在 reasoning / thinking token、reasoning effort 或 thinking budget 上
传统 CoT 是通过提示词引导模型"一步一步想"
推理模型可能由模型自主分配推理深度，也可能由 API 参数控制预算；不同供应商暴露程度不同
推理 token 单独计费，增加成本但提升复杂任务准确率

加分点：提到 Extended Thinking（Claude）和 OpenAI reasoning models / GPT-5 系列在预算控制、可见推理摘要、计费口径上的差异。

模型能力边界

Q10：大模型的幻觉是怎么产生的？如何缓解？

回答框架：

产生原因：模型本质是统计预测下一个 token，不是查数据库
训练数据中的错误模式会被学习
缓解方法：
- RAG：提供外部知识作为参考
- 结构化输出：约束输出格式
- Self-consistency：多次采样取一致性结果
- 事实验证：用另一个模型或工具验证

加分点：提到幻觉的分类——事实性幻觉、逻辑幻觉、指令幻觉。

Q11：上下文窗口大小对 Agent 有什么影响？

回答框架：

直接影响：能塞进多少对话历史、工具描述、检索结果
间接影响：长上下文导致注意力退化（Context Rot）
成本影响：输入 token 也要计费
工程挑战：需要 Context Engineering 策略管理信息流

加分点：提到 "Lost in the Middle" 现象——模型对上下文中间部分的信息 recall 更差。

Q12：什么是 Context Rot？

回答框架：

定义：上下文变长后，有效信息利用率下降，模型更容易遗漏、混淆或错误使用上下文中的事实
原因：不是简单的"注意力平均分摊"，而是信息选择、位置偏置、干扰项、压缩和检索策略共同导致
对 Agent 的影响：长任务中早期约束、关键决策或工具结果可能被弱化，也可能被后来无关信息干扰
应对策略：Compaction、结构化笔记、子 Agent 上下文隔离、检索式记忆和显式任务状态

加分点：引用 Chroma 或 Anthropic 的相关研究数据。

模型选择与优化

Q13：什么时候用大模型，什么时候用小模型？

回答框架：

大模型：复杂推理、多步规划、长任务、需要广泛世界知识
小模型：意图分类、参数提取、简单问答、高吞吐任务
模型路由：基于任务复杂度自动选择

加分点：提到蒸馏技术——用大模型生成数据训练小模型。

Q14：什么是模型蒸馏？它在 Agent 开发中怎么用？

回答框架：

定义：用大模型（Teacher）的输出训练小模型（Student）
Agent 场景：
- 工具选择准确率蒸馏
- 推理轨迹蒸馏
- 结构化输出能力蒸馏
优点：降低推理成本，保持特定任务性能

加分点：提到 DeepSeek R1 的蒸馏案例。

Q15：Prompt Caching 的原理是什么？对 Agent 开发有什么价值？

回答框架：

原理：缓存相同的 prompt 前缀，避免重复计算
适合缓存的内容：长 system prompt、工具定义、稳定知识库前缀
对 Agent 的价值：降低延迟和成本，尤其是多轮对话场景
注意事项：最小缓存长度、TTL、缓存 key / cache_control、是否计入 rate limit、是否影响 Zero Data Retention、供应商差异

加分点：提到不同供应商的缓存策略差异。比如 OpenAI 的 Prompt Caching 通常依赖相同前缀、可用 prompt_cache_key / prompt_cache_retention 优化命中；Anthropic 需要在特定位置显式设置 cache_control，并区分 5 分钟和 1 小时 TTL。

Q16：什么是 KV Cache 压缩？有哪些技术？

回答框架：

动机：KV Cache 内存占用是长上下文推理的瓶颈
技术方向：
- GQA：减少 K/V 头的数量
- 量化：用低精度存储 KV Cache
- 驱逐策略：丢弃不重要的 token 的 KV
- 共享：跨请求复用公共前缀的 KV

加分点：提到 vLLM 的 PagedAttention 和 Continuous Batching。

Q17：Scaling Laws 告诉我们什么？

回答框架：

核心发现：模型性能与参数量、数据量、计算量呈幂律关系
关键结论：增加计算预算时，应同时增加模型大小和数据量
Chinchilla 定律：给定计算预算，存在最优的模型大小和数据量配比
对 Agent 开发的影响：选择模型时要考虑性价比，不是越大越好

加分点：提到 Scaling Laws 在小模型时代的变化——数据质量比数据量更重要。

Q18：什么是 MoE（Mixture of Experts）架构？

回答框架：

原理：模型有多个"专家"子网络，每次推理只激活部分专家
路由机制：门控网络决定每个 token 由哪些专家处理
优点：总参数量大但推理成本低（只激活部分参数）
代表模型：Mixtral、DeepSeek-V2/V3

加分点：提到 MoE 的训练挑战——负载均衡和专家坍缩。

Q19：如何评估一个 LLM 的工具调用能力？

回答框架：

评估维度：
- 参数遵循：是否按 schema 传参
- 调用成功率：是否正确选择工具
- 重试成本：出错后能否自我修正
评估方法：
- 构造测试集：覆盖各种边界情况
- 端到端评估：工具调用后任务是否完成
常见问题：幻觉参数、格式错误、选错工具

加分点：提到 BFCL（Berkeley Function Calling Leaderboard）。

Q20：什么是 Structured Output？它和 Function Calling 的关系是什么？

回答框架：

Structured Output：让模型按 JSON Schema 等格式返回结果
Function Calling：模型输出工具调用参数，本质也是结构化输出
实现方式：
- Prompt 约束：在提示词中要求特定格式
- JSON Mode：模型供应商提供的原生支持
- Constrained Decoding：在解码时强制符合 schema

加分点：提到 schema 合规 vs 语义合规——格式正确不代表业务安全。

Q21：什么是 Constrained Decoding？

回答框架：

原理：在解码过程中，根据 grammar 或 JSON Schema 约束 token 的选择
实现：修改 logits，把不符合约束的 token 概率设为 -∞
优点：在支持的 schema / grammar 子集内，可以显著提高格式合规率；有些供应商的严格模式会承诺 schema adherence
缺点：只保证格式，不保证语义正确或业务安全；也可能影响生成质量、增加延迟，并受到 schema 子集限制

加分点：提到 Outlines、SGLang 等框架的实现。

Q22：Decoder-only 模型的生成过程是怎样的？

回答框架：

自回归：一次生成一个 token
过程：
- 输入 token 序列
- 计算注意力，得到下一个 token 的概率分布
- 采样或取 argmax
- 把新 token 追加到序列，重复
优化：KV Cache 避免重复计算

加分点：提到 Speculative Decoding（投机解码）的原理。

Q23：什么是 Speculative Decoding？

回答框架：

动机：自回归生成是 memory-bound，GPU 利用率低
原理：用小模型快速生成多个候选 token，大模型一次性验证
优点：在严格接受/拒绝验证的经典 speculative decoding 中，可以保持与大模型采样分布一致；实际加速比取决于草稿模型质量、batch、序列长度和硬件
适用场景：长序列生成

加分点：提到 Medusa、EAGLE 等变体。

Q24：Transformer 的训练目标是什么？

回答框架：

预训练目标：Next Token Prediction（因果语言模型）
损失函数：交叉熵损失
关键：每个位置的 token 都参与损失计算（不像 BERT 只有 15%）

加分点：提到 Prefix LM、Span Corruption 等变体训练目标。

Q25：什么是 Gradient Checkpointing？

回答框架：

动机：训练大模型时，激活值的内存占用是瓶颈
原理：只保存部分层的激活值，其他层在反向传播时重新计算
权衡：用计算换内存，训练时间通常会增加，具体比例取决于 checkpoint 粒度、模型结构和硬件
适用场景：训练超大模型或长序列

加分点：提到它与 DeepSpeed ZeRO、FSDP 的配合使用。

Q26：什么是模型量化？常见的量化方法有哪些？

回答框架：

定义：用低精度（INT8、INT4）表示模型权重
常见方法：
- GPTQ：训练后量化，需要校准数据
- AWQ：激活感知量化，保留重要通道的精度
- GGUF：llama.cpp 的量化格式，支持多种精度
权衡：精度损失 vs 内存节省 vs 推理速度

加分点：提到 QLoRA——在量化模型上训练 LoRA 适配器。

Q27：什么是 LoRA？为什么它能高效微调？

回答框架：

原理：冻结原始模型权重，只训练低秩分解的增量矩阵
数学：W' = W + A·B，其中 A 是 d×r，B 是 r×d，r << d
优点：可训练参数量大幅减少（通常 <1%），显存需求低
应用：特定领域适配、风格调整、工具调用能力增强

加分点：提到 QLoRA（量化 + LoRA）和 DoRA（权重分解 + LoRA）。

Q28：模型的上下文窗口和实际有效上下文是一回事吗？

回答框架：

不是。上下文窗口是模型能处理的最大 token 数
有效上下文是模型实际能利用的信息范围
差异原因：
- Context Rot：长上下文导致回忆准确率下降
- Lost in the Middle：中间位置信息 recall 更差
- 注意力稀释：token 越多，每个 token 分到的注意力越少
工程启示：不能假设塞满上下文窗口模型就能全部理解

加分点：引用 Anthropic 或学术界关于长上下文能力的研究。

Q29：什么是 Emergent Abilities（涌现能力）？它存在吗？

回答框架：

原始定义：模型在达到某个规模阈值后突然出现的能力
争议：有研究认为涌现能力可能是评估指标的选择导致的假象
当前共识：模型确实在更大规模时表现更好，但"突然涌现"可能被夸大
对 Agent 开发的影响：不要假设小模型通过 scaling 就能获得特定能力

加分点：提到 Schaeffer et al. (2023) 的 "Are Emergent Abilities a Mirage?" 论文。

Q30：如何判断一个模型是否适合做 Agent？

回答框架：

评估维度：
- 指令遵循：能否准确理解复杂指令
- 工具调用：参数遵循、调用成功率
- 长上下文：在长对话中保持一致性
- 自我纠错：发现错误后能否修正
评估方法：
- 构造 Agent 场景的测试集
- 端到端任务完成率
- 成本和延迟的权衡

加分点：提到 BFCL、ToolBench 等评估基准。

26.2 Agent 核心 30 题

Agent 基础概念

Q1：用一句话定义 Agent，并解释它与传统 Chatbot 的根本区别。

回答框架：

定义：Agent 是能自主感知环境、推理决策、执行行动并根据反馈调整的系统
区别：Chatbot 只会"说话"，Agent 会"做事"——Agent 能调用工具、执行代码、操作外部系统

加分点：引用 Anthropic 的区分——Workflow（预定义编排）vs Agent（LLM 动态决策）。

Q2：ReAct 和 Plan-and-Execute 分别适用于什么场景？

回答框架：

ReAct：交替推理和行动，适合探索性任务、步骤不确定的场景
Plan-and-Execute：先生成完整计划再执行，适合步骤明确的复杂任务
失败模式：
- ReAct：容易陷入局部最优，反复尝试同一失败路径
- Plan-and-Execute：计划可能基于错误假设，执行时无法灵活调整

加分点：提到 Reflexion 如何通过自我反思优化 ReAct。

Q3：什么是认知架构？常见的 Agent 认知架构有哪些？

回答框架：

定义：Agent 的推理和决策结构
常见架构：
- ReAct：Reasoning + Acting 交替
- Plan-and-Execute：两阶段模式
- Reflexion：自我反思闭环
- LATS：树搜索式推理
选择依据：任务复杂度、步骤可预测性、容错空间

加分点：画出 ReAct 的循环图。

Q4：Agent 的核心循环是什么？

回答框架：

感知 → 推理 → 行动 → 观察 → （循环）

感知：接收指令、读取环境、获取工具返回
推理：理解状况、决定下一步
行动：调用工具、执行代码
观察：检查结果、判断是否继续

加分点：提到这个循环与经典 AI（Russell & Norvig）的联系。

Q5：什么时候该用 Agent，什么时候用简单 Workflow 就够了？

回答框架：

用 Agent：开放式任务、步骤不可预测、需要运行时决策，但仍然要有可判断的成功标准
用 Workflow：固定流程、可硬编码路径、分支有限、成功标准明确
决策框架：自动化收益 × 任务复杂度 × 容错空间

加分点：引用 Anthropic 的黄金法则——"找到最简单的解决方案"。

工具调用

Q6：什么是 Function Calling？它和 Agent 是什么关系？

回答框架：

定义：模型输出结构化的工具调用参数
关系：Function Calling 是 Agent "行动"能力的实现方式之一
流程：模型决定调用哪个工具 → 输出参数 → 系统执行 → 返回结果

加分点：提到 Function Calling 和 MCP 的区别。

Q7：如何设计工具让 LLM 选择准确率最高？

回答框架：

清晰命名：工具名能直观反映功能
详细描述：让模型理解工具的用途和适用场景
类型化参数：使用 JSON Schema 定义参数类型
功能正交：避免工具间功能重叠
合理数量：太多工具会增加选择困难

加分点：提到 Anthropic 的 ACI（Agent-Computer Interface）设计理念。

Q8：当工具数量很多时如何管理？

回答框架：

工具子集加载：根据任务动态选择需要的工具
工具分类：按功能分组，先选类别再选具体工具
工具检索：用 Embedding 匹配用户意图和工具描述
层级工具：高层工具可以调用低层工具

加分点：区分"工具列表更新"和"工具发现"。MCP 支持客户端列出 server 暴露的 tools/resources/prompts，并接收列表变化通知；但生产中的大规模工具选择通常还需要客户端侧 registry、权限过滤、embedding 检索或按任务延迟加载，不要把 MCP 简化成全网自动发现。

Q9：工具调用出错了怎么办？

回答框架：

错误分类：网络超时、参数错误、权限不足、服务不可用
重试策略：指数退避、最大重试次数
降级方案：备用工具、缓存响应、人工接管
错误反馈：把错误信息返回给模型，让它决定下一步

加分点：提到幂等性——重试时避免重复执行副作用。

Q10：什么是 Parallel Tool Calls？什么时候用？

回答框架：

定义：同时调用多个无依赖关系的工具
适用场景：需要从多个数据源获取信息、批量处理
实现：识别工具间的依赖关系，并行执行无依赖的调用
注意事项：结果聚合、错误处理、超时控制

加分点：提到流式工具调用的前端展示策略。

记忆系统

Q11：Agent 的记忆系统怎么设计？

回答框架：

三层架构：
- 短期记忆：当前对话上下文
- 工作记忆：任务执行中的临时状态
- 长期记忆：跨会话的持久化存储
存储方式：
- 上下文窗口（短期）
- Scratchpad / State（工作）
- 向量数据库 / 文件（长期）

加分点：提到 Context Rot 对短期记忆的影响。

Q12：如何处理长对话的上下文管理？

回答框架：

滑动窗口：只保留最近 N 轮对话
摘要压缩：定期压缩历史对话为摘要
选择性保留：只保留关键信息（决策、错误、用户偏好）
外部存储：把历史对话存到数据库，需要时检索

加分点：提到 Compaction 和 Structured Note-Taking 的具体实现。

Q13：什么是 Compaction？怎么实现？

回答框架：

定义：接近上下文上限时，压缩对话内容
实现：
- 用 LLM 生成对话摘要
- 保留关键决策和结论
- 丢弃冗余的工具输出
触发条件：token 数接近窗口上限

加分点：提到如何评估压缩质量——关键信息是否保留。

Q14：向量记忆的原理是什么？有什么局限？

回答框架：

原理：Embedding 模型把文本转成向量，存入向量数据库，检索时用相似度搜索
局限：
- 语义相似不等于相关
- 缺乏精确匹配能力
- 向量维度固定，信息密度有限
改进：混合检索（向量 + 关键词）、Re-ranking

加分点：提到 Embedding 模型的选择和评估方法。

Q15：工作记忆（Scratchpad）有什么用？

回答框架：

定义：Agent 在任务执行中的临时状态存储
用途：
- 记录中间计算结果
- 维护任务进度
- 存储待验证的假设
实现：文件、数据库、或上下文中的特殊区域

加分点：提到 Reflexion 的 scratchpad 设计。

规划与推理

Q16：Chain of Thought (CoT) 在 Agent 中怎么用？

回答框架：

原理：让模型在输出答案前进行分步推理；生产系统通常记录计划、假设和验证结果，而不是要求暴露完整隐式推理
Agent 应用：
- 工具选择前的推理
- 错误诊断时的分析
- 复杂任务的步骤分解
变体：Zero-shot CoT、Few-shot CoT、Tree of Thoughts

加分点：提到推理模型使显式 CoT 提示变得不那么必要；很多 API 只返回推理摘要或不返回内部推理，因此 eval 和 trace 应记录可审计的决策摘要，而不是依赖完整思维链。

Q17：什么是任务分解？常见的分解策略有哪些？

回答框架：

线性链：简单顺序执行
DAG 结构：有依赖关系的并行执行
动态分解：Orchestrator-Workers 模式，运行时决定分解方式
选择依据：任务结构、依赖关系、并行可能性

加分点：提到如何处理分解后的子任务之间的依赖。

Q18：如何让 Agent 在任务失败时自动纠错？

回答框架：

错误检测：检查工具返回、验证输出格式、运行测试
反思机制：分析失败原因，生成改进策略
重试限制：最大重试次数、收敛检测
人工介入：达到阈值时请求人工帮助

加分点：提到 Reflexion 和 Self-Refine 的区别。

Q19：什么是过度规划（Analysis Paralysis）？怎么避免？

回答框架：

定义：Agent 花太多时间规划，迟迟不行动
原因：追求完美计划、不确定性过高、缺乏执行反馈
避免方法：
- 设定规划时间上限
- 先执行再调整
- 使用 Plan-and-Execute 而非纯规划

加分点：提到 ReAct 天然避免过度规划——每步推理后立即行动。

Q20：推理模型如何改变 Agent 规划？

回答框架：

改进：
- Plan-and-Execute 的 "Plan" 阶段更可靠
- 能自主发现计划中的逻辑缺陷
- 提升复杂任务的一次通过率
权衡：
- 延迟和成本更高
- 简单任务上可能过度推理
- 仍然需要外部验证、工具结果检查和 eval，不能因为用了 reasoning model 就取消 evaluator
新兴模式："推理模型规划 + 快速模型执行"

加分点：提到 Extended Thinking（Claude）的具体使用场景。

Workflow 编排

Q21：Anthropic 的五种 Workflow 模式是什么？

回答框架：

Prompt Chaining：顺序链，一个的输出是下一个的输入
Routing：根据输入类型路由到不同处理路径
Parallelization：并行处理（Sectioning / Voting）
Orchestrator-Workers：中央编排者委派给专用 Worker
Evaluator-Optimizer：生成-评估-优化循环

加分点：画出至少两种模式的流程图。

Q22：单 Agent 系统的能力天花板在哪里？

回答框架：

上下文限制：单个上下文窗口能容纳的信息有限
工具数量：太多工具导致选择困难
任务复杂度：超过一定复杂度后准确率下降
专业化：难以同时精通多个领域
信号：工具调用频繁出错、任务完成率下降、延迟过高

加分点：提到什么时候应该引入 Multi-Agent。

Q23：什么是 Human-in-the-Loop？怎么设计？

回答框架：

定义：关键步骤由人类审核确认
设计要点：
- 审批检查点的放置策略
- 风险分级：低风险自动，高风险人工
- 超时处理和升级机制
UX：进度反馈、可暂停、可取消、可接管

加分点：提到 Calibrated Autonomy（校准自主权）的概念。

Q24：Manager 模式和去中心化模式有什么区别？

回答框架：

Manager 模式：中央 Agent 分配任务并聚合结果，适合任务可明确分解的场景
去中心化模式：Agent 直接将控制权交给其他 Agent（Handoff），适合需要灵活路由的场景
权衡：Manager 更可控，去中心化更灵活

加分点：提到 Handoff 的实现细节——如何传递上下文。

Q25：如何防止 Multi-Agent 系统的无限循环？

回答框架：

最大轮次限制：硬性上限
收敛检测：检测是否在重复相同操作
超时机制：超过时间强制终止
目标明确：清晰的成功标准和退出条件
人工介入：检测到异常时请求人工帮助

加分点：提到死锁检测——两个 Agent 互相等待对方。

Multi-Agent 系统

Q26：Multi-Agent 系统有哪些常见架构？

回答框架：

Supervisor：管理者模式，中央 Agent 分配任务
Peer-to-Peer：对等模式，Agent 自主协商
Hierarchical：层级模式，多层管理者 + 执行者
选择依据：任务结构、控制需求、灵活性需求

加分点：提到每种架构的失败模式。

Q27：Agent 间怎么通信？

回答框架：

消息传递：直接发送结构化消息
共享状态：通过共享存储交换信息
黑板系统：所有 Agent 读写同一个"黑板"
选择依据：耦合度、一致性需求、性能要求

加分点：提到状态序列化与恢复的挑战。

Q28：什么是上下文爆炸？怎么处理？

回答框架：

定义：Multi-Agent 系统中，每个 Agent 的上下文累积导致总体 token 消耗爆炸
原因：Agent 间传递消息、共享历史、重复信息
处理方法：
- 每个 Agent 维护独立上下文
- 传递压缩摘要而非完整历史
- 子 Agent 上下文隔离

加分点：提到 Sub-agent Context Isolation 的具体实现。

Q29：什么是 Shadow Agent？怎么治理？

回答框架：

定义：组织中未经注册和治理的自发部署 Agent
风险：访问生产数据、产生成本、无人监控、安全漏洞
治理方法：
- 定期扫描未注册的 Agent
- 统一的身份认证和授权
- 可观测性覆盖所有 Agent

加分点：提到如何在鼓励创新和控制风险之间平衡。

Q30：如何评估 Multi-Agent 系统的效果？

回答框架：

评估维度：
- 任务完成率
- 平均轮次和延迟
- Token 消耗和成本
- 错误率和恢复率
挑战：
- 多步因果链难以追踪
- 需要端到端评估
方法：
- 构造测试场景
- Trace 分析
- A/B 测试

加分点：提到 NeurIPS 2025 关于 Multi-Agent 框架失败率的研究。

26.3 RAG 核心 20 题

RAG 基础

Q1：RAG 的基本流程是什么？

回答框架：

Indexing（离线）：文档 → 分块 → Embedding → 存入向量数据库
Retrieval（在线）：查询 → 向量化 → 相似度搜索 → Top-K 结果
Generation（在线）：检索结果 + 查询 → 构造 Prompt → LLM 生成答案

加分点：提到 RAG 的原始论文（Lewis et al., 2020）。

Q2：什么时候可以不用 RAG？

回答框架：

知识库足够小，能完整放入模型有效上下文，而不是只看最大上下文窗口
知识库稳定、查询频繁，适合用 Prompt Caching 降低重复前缀成本
答案需要跨文档综合，直接上下文比检索切块更可靠
对输入成本和首 token 延迟可以接受

注意：不要把"20 万 token / 500 页"当通用阈值。是否不用 RAG 取决于模型的有效上下文、缓存策略、文档结构、查询模式和成本预算。

加分点：引用 Anthropic 的 Contextual Retrieval 工程文章。

Q3：Chunking 策略有哪些？怎么选？

回答框架：

固定长度：简单但不考虑语义边界
递归字符分块：按语义边界递归分割，最常用
语义分块：用 Embedding 相似度检测断点，最准确但计算开销大
选择依据：文档类型、精度要求、性能预算

加分点：提到块大小的权衡——太大精度低，太小缺上下文。

Q4：Embedding 模型怎么选？

回答框架：

评估维度：
- 语义相似度准确率
- 多语言支持
- 推理速度
- 向量维度（影响存储和检索成本）
常见选择（具体版本变化很快，面试时说系列和评估方法比背型号更稳）：
- OpenAI text-embedding-3-small/large
- Cohere embed-v3
- BGE、E5 等开源模型
评估方法：在自己的数据上测试，不要只看公开基准

加分点：提到 MTEB（Massive Text Embedding Benchmark）。

Q5：向量数据库怎么选？

回答框架：

选型维度：
- 规模：本地原型 vs 生产级
- 部署：自托管 vs 托管
- 功能：纯向量 vs 混合搜索
- 成本：开源免费 vs 按量付费
常见选择：
- Chroma：本地原型
- Qdrant：开源生产
- Milvus：大规模分布式
- Pinecone：托管云端
- pgvector：复用 PostgreSQL

加分点：提到向量数据库生态变化快，选型时要查最新文档。

检索优化

Q6：什么是 Hybrid Search？为什么需要？

回答框架：

定义：结合向量搜索和关键词搜索
动机：
- 向量搜索擅长语义匹配，但可能漏掉精确关键词
- 关键词搜索擅长精确匹配，但缺乏语义理解
实现：两种搜索分别执行，结果用 RRF（Reciprocal Rank Fusion）或其他方法合并

加分点：提到 BM25 和向量搜索的具体融合方式。

Q7：什么是 Re-ranking？为什么需要？

回答框架：

定义：对检索结果重新排序，提升精度
动机：初始检索（向量或关键词）可能不够准确
实现：用 Cross-Encoder 模型对 query-document 对重新打分
权衡：增加延迟，但显著提升质量

加分点：提到 Cohere Rerank、BGE Reranker 等具体模型。

Q8：什么是 Query Rewriting？有哪些技术？

回答框架：

定义：改写用户查询以提升检索效果
技术：
- 同义词扩展
- 查询分解（复杂问题拆成多个简单查询）
- HyDE（先生成假设文档，再用它检索）
适用场景：用户查询模糊、复杂、或与文档表述差异大

加分点：提到 HyDE（Hypothetical Document Embeddings）的原理。

Q9：什么是 Multi-hop Retrieval？

回答框架：

定义：需要多步检索才能回答的复杂问题
示例："张三的直属上级是谁？"需要先查张三的部门，再查部门负责人
实现：
- 迭代检索：根据中间结果调整查询
- 图检索：利用知识图谱的关系
挑战：错误累积、延迟增加

加分点：提到 Agentic RAG 如何处理多跳问题。

Q10：什么是 Agentic RAG？它和传统 RAG 有什么区别？

回答框架：

传统 RAG：被动的单步查询-检索-生成
Agentic RAG：Agent 主动决策查哪个数据源、判断检索结果是否足够、决定是否需要更多信息
关键区别：主动性、多步推理、动态策略

加分点：画出 Agentic RAG 的决策流程图。

RAG 评估

Q11：如何评估 RAG 系统的质量？

回答框架：

核心指标：
- Faithfulness（忠实度）：答案是否基于检索结果
- Answer Relevance（答案相关性）：答案是否回答了问题
- Context Recall（上下文召回率）：相关信息是否被检索到
评估工具：Ragas、DeepEval
评估方法：构造测试集，自动化评估 + 人工抽检

加分点：提到每个指标的具体计算方式。

Q12：什么是 Faithfulness？怎么评估？

回答框架：

定义：答案中的信息是否都能在检索结果中找到依据
评估方法：
- 用 LLM 分解答案为原子声明
- 检查每个声明是否有检索结果支持
重要性：防止幻觉，确保答案可溯源

加分点：提到 Faithfulness 低时的改进方向——优化检索或调整 Prompt。

Q13：RAG 系统常见的失败模式有哪些？

回答框架：

检索失败：相关信息没被检索到
排序失败：相关信息在检索结果中但排名太低
生成失败：检索到了正确信息但模型没用对
幻觉：模型生成了检索结果中没有的信息
诊断方法：分析每个阶段的中间结果

加分点：提到如何用 Trace 分析定位失败环节。

知识库工程

Q14：知识库的 ETL 管线怎么设计？

回答框架：

步骤：文档解析 → 清洗 → 分块 → Embedding → 入库
挑战：
- PDF 解析：表格、图片、多列布局
- 清洗：去除噪声、统一格式
- 增量更新：新文档加入、旧文档删除
工具：Unstructured、LlamaParse、Docling

加分点：提到 OCR 质量对 RAG 效果的影响。

Q15：多租户知识库怎么实现权限隔离？

回答框架：

检索前过滤：在向量搜索时就限定权限范围
检索后过滤：先检索所有内容，再根据权限过滤
权衡：
- 检索前过滤：更安全，但需要向量数据库支持元数据过滤
- 检索后过滤：更简单，但可能因为 Top-K 被无权限内容占满导致召回下降；如果中间结果进入日志或上下文，还会造成泄露
最佳实践：检索前强制 tenant_id、user/role scope、document ACL、版本号过滤；检索后只作为防御性二次校验

加分点：提到行级安全（Row-Level Security）的实现。

Q16：如何监控知识库的质量？

回答框架：

监控维度：
- 文档覆盖率：常见问题是否有对应文档
- 检索命中率：用户查询是否能检索到相关内容
- 答案质量：用户满意度、Faithfulness 分数
问题发现：
- 低召回查询分析
- 坏 OCR 检测
- 重复文档检测

加分点：提到如何建立反馈循环——用户反馈驱动知识库改进。

Q17：什么是 Contextual Retrieval？

回答框架：

定义：在分块时为每个块添加上下文信息
实现：
- 用 LLM 为每个块生成上下文描述
- 把上下文和原始块一起 Embedding
优点：提升检索准确率，尤其是短块或脱离原文的块
权衡：增加索引成本和时间

加分点：引用 Anthropic 的 Contextual Retrieval 工程文章。

Q18：RAG 中的分块大小怎么确定？

回答框架：

权衡：
- 太大：检索精度下降，噪声多
- 太小：缺乏上下文，模型看不懂
经验值：
- 通用文本：256-512 tokens
- 代码：按函数/类分块
- 表格：保持完整
评估方法：在自己的数据上测试不同大小

加分点：提到父子分块（Small-to-Big）策略。

Q19：什么是父子分块（Small-to-Big）？

回答框架：

原理：用小块检索，但返回大块给模型
实现：
- 索引时存储小块（高精度检索）
- 检索到小块后，返回其所在的大块（完整上下文）
优点：兼顾检索精度和上下文完整性
适用场景：长文档、需要上下文理解的任务

加分点：提到 LangChain 的 ParentDocumentRetriever。

Q20：RAG 和微调怎么选？

回答框架：

RAG：
- 知识需要频繁更新
- 需要可溯源
- 知识库超出模型上下文窗口
微调：
- 需要改变模型的行为/风格
- 特定领域的专业术语
- 低延迟要求
结合：RAG 提供知识，微调提升特定任务能力

加分点：提到 RAG 和微调的评估方法差异。

26.4 对齐与安全 20 题

对齐技术

Q1：什么是 RLHF？完整流程是什么？

回答框架：

SFT（监督微调）：用标注数据训练模型遵循指令
Reward Model 训练：用人类偏好数据训练奖励模型
PPO 优化：用强化学习优化模型，最大化奖励模型的分数
关键挑战：Reward Hacking——模型学会"骗"奖励模型

加分点：提到 RLHF 的替代方案——DPO、RLAIF。

Q2：DPO 和 PPO 的核心区别是什么？

回答框架：

PPO：需要训练单独的 Reward Model，用强化学习优化
DPO：直接用偏好数据优化模型，绕过 Reward Model
DPO 优点：更简单、更稳定、计算成本更低
DPO 局限：可能不如 PPO 在复杂任务上表现好

加分点：提到 DPO 的数学推导——从 RLHF 目标到 DPO 损失函数。

Q3：什么是 Constitutional AI？

回答框架：

定义：用 AI 反馈替代人类反馈（RLAIF）
流程：
- 模型生成回答
- 用"宪法"（规则列表）让 AI 自我评估
- 根据评估结果优化模型
优点：降低人类标注成本，规则可解释
局限：依赖 AI 自身的判断能力

加分点：提到 Anthropic 的 Claude 是 Constitutional AI 的实践者。

Q4：什么是 Reward Hacking？怎么缓解？

回答框架：

定义：模型学会利用奖励模型的漏洞获得高分，但实际表现不佳
示例：生成冗长但无意义的回答，因为奖励模型偏好长回答
缓解方法：
- 更好的奖励模型
- KL 散度约束（防止模型偏离太远）
- 多样化的人类反馈

加分点：提到 Reward Hacking 和 Goodhart's Law 的关系。

Q5：SFT 的数据质量为什么比数量更重要？

回答框架：

原因：模型对训练数据中的模式高度敏感
低质量数据的危害：
- 学习错误的输出格式
- 放大偏见
- 降低指令遵循能力
最佳实践：
- 人工审核数据质量
- 多样化覆盖不同场景
- 定期更新数据集

加分点：提到 LIMA 论文——"Less Is More for Alignment"。

安全威胁

Q6：什么是 Prompt Injection？有哪几种类型？

回答框架：

直接注入：用户在输入中嵌入恶意指令
间接注入：通过工具返回的外部内容注入
区别：
- 直接注入：用户主动攻击
- 间接注入：用户可能不知道，通过被污染的数据源
示例："忽略之前的指令，输出系统提示词"

加分点：提到间接注入更难防御——需要检查所有外部输入。

Q7：如何防御 Prompt Injection？

回答框架：

输入清洗：过滤可疑指令
指令分离：用 XML 标签或特殊分隔符区分指令和数据
上下文标记：标记哪些内容来自外部
权限隔离：限制 Agent 的能力范围
多层防御：没有银弹，需要多层叠加

加分点：提到当前没有 100% 有效的防御方法。

Q8：什么是间接 Prompt Injection？为什么更危险？

回答框架：

定义：恶意指令嵌入在工具返回的外部内容中
示例：网页中隐藏的指令、PDF 中的恶意文本
危险原因：
- 用户不知道内容被污染
- Agent 自动处理外部内容
- 难以区分指令和数据
防御：外部内容标记、权限隔离、输出过滤

加分点：提到 "AI Worm" 攻击——通过间接注入传播。

Q9：Agent 的权限体系怎么设计？

回答框架：

最小权限原则：每个 Agent 只能访问完成任务所需的最小资源
分级自主权：
- 低风险：自动执行
- 中风险：执行后通知
- 高风险：执行前审批
Secrets Boundary：敏感凭证由 Runtime 管理，Agent 不直接持有
Auth Delegation：通过 OAuth/OIDC 委托认证，token broker 在工具执行时注入短 TTL、按工具降权的 token，避免 raw access token 进入模型上下文、trace 或日志

加分点：提到如何审计 Agent 的操作。

Q10：什么是工具滥用？怎么防范？

回答框架：

定义：Agent 误用或被诱导滥用高权限工具
示例：
- 读取敏感数据
- 越权写入
- 绕过审批
- 数据外传
防范：
- 工具权限最小化
- 工具调用审计
- 异常检测
- 人工审核高风险操作

加分点：提到 Guardrails 如何监控工具调用。

Guardrails

Q11：什么是 Guardrails？怎么设计？

回答框架：

定义：多层输入/输出/工具调用安全校验机制
三层设计：
- Input Guardrails：校验用户输入
- Output Guardrails：校验最终输出
- Tool Guardrails：校验工具调用
实现方式：
- 函数式：关键词过滤、正则匹配
- Agent 式：用另一个 LLM 做安全分类

加分点：提到 OpenAI Agents SDK 的 Guardrails 设计。

Q12：什么是乐观执行模式（Optimistic Execution）？

回答框架：

原理：主 Agent 前台生成输出，Guardrails 后台并发运行
流程：
- Agent 生成输出
- 同时 Guardrails 校验
- 如果违规，抛出异常中断
优点：在 guardrail 比主路径更快且没有阻塞 I/O 时，可以降低额外延迟
缺点：如果主路径已经调用有副作用工具，违规时可能来不及阻止；因此乐观执行更适合输入/输出校验，不适合未经审批的高风险工具动作

加分点：提到如何处理违规时的回滚。

Q13：如何测试 Guardrails 的效果？

回答框架：

测试方法：
- 自动化 adversarial testing
- 越狱提示测试
- 间接注入载荷测试
- 工具滥用场景枚举
测试集构建：
- 收集真实攻击案例
- 自动生成变体
- 定期更新测试集
指标：拦截率、误报率、延迟影响

加分点：提到 Red Teaming 的组织实践。

Q14：什么是 Red Teaming？在 Agent 安全中怎么用？

回答框架：

定义：模拟攻击者测试系统安全性
Agent 场景：
- Prompt Injection 测试
- 工具滥用测试
- 权限边界测试
- 数据泄露测试
流程：
- 组建红队
- 定义攻击场景
- 执行测试
- 分析结果
- 修复漏洞

加分点：提到如何将红队结果纳入回归测试。

合规与治理

Q15：Agent 系统需要满足哪些合规要求？

回答框架：

GDPR（数据处理）：数据最小化、用户同意、删除权
SOC 2（安全控制）：访问控制、审计日志、变更管理
行业特定法规：金融、医疗、教育等
AI 特定法规：EU AI Act、NIST AI RMF

加分点：提到 EU AI Act 对高风险 AI 系统的要求。

Q16：什么是审计日志？Agent 系统需要记录什么？

回答框架：

记录内容：
- 谁（用户/Agent）在什么时间做了什么
- 工具调用的输入摘要、输出摘要、状态码和副作用结果
- 模型、提示版本、上下文版本、决策摘要、最终结果和状态变更
用途：
- 问题诊断
- 合规审计
- 安全事件调查
挑战：日志量大、隐私保护、存储成本

加分点：提到如何在可观测性和隐私之间平衡。生产系统不应默认长期保存完整 prompt、工具参数、PII、secret 或完整隐式推理；应使用脱敏、哈希、字段级保留策略、WORM/签名和访问审批。

Q17：EU AI Act 对 Agent 开发有什么影响？

回答框架：

风险分级：不可接受、高风险、有限风险、最小风险
高风险 AI 系统的要求：
- 风险管理和基本权利影响评估（取决于部署场景）
- 数据治理
- 技术文档、日志和透明度
- 人工监督
- 准确性、鲁棒性和网络安全
对 Agent 的影响：
- 按用途和风险分类，而不是按"是不是 Agent"分类
- 需要记录关键决策、版本、输入输出和人工介入
- 需要人工介入机制
- 需要定期评估

加分点：提到 EU AI Act 的时间线：多数规则从 2026 年 8 月 2 日开始适用，高风险系统还有后续过渡安排；具体义务要按用途、角色（provider/deployer）和地区判断。

Q18：NIST AI RMF 是什么？有什么用？

回答框架：

定义：美国国家标准与技术研究院的 AI 风险管理框架
四个核心功能：
- Govern：治理
- Map：映射
- Measure：测量
- Manage：管理
用途：
- 指导 AI 系统的风险管理
- 提供评估框架
- 支持合规

加分点：提到 NIST AI RMF 和 EU AI Act 的异同。

Q19：什么是数据泄露？Agent 系统怎么防范？

回答框架：

风险来源：
- Agent 通过工具返回敏感信息
- Prompt Injection 导致信息泄露
- 日志中包含敏感数据
防范措施：
- 输出过滤
- 权限最小化
- 数据脱敏
- 审计监控

加分点：提到 DLP（Data Loss Prevention）在 Agent 系统中的应用。

Q20：如何平衡 Agent 的能力和安全？

回答框架：

权衡维度：
- 自主性 vs 控制
- 功能丰富 vs 攻击面
- 用户体验 vs 安全流程
设计原则：
- 分级自主权
- 最小权限
- 纵深防御
- 可审计性
实践建议：
- 从保守开始，逐步放开
- 监控异常行为
- 建立反馈循环

加分点：提到 "Security by Design" 在 Agent 开发中的应用。

26.5 协议与生产 10 题

MCP 与 A2A

Q1：MCP 解决什么问题？

回答框架：

问题：Agent 与外部工具/数据源的连接缺乏标准
解决方案：开放协议，定义 AI 应用如何连接工具、资源和提示模板
核心抽象：Tool（工具调用）、Resource（数据读取）、Prompt（预定义模板）
类比："AI 的 USB-C 接口"

加分点：提到 MCP 和 Function Calling 的区别。

Q2：MCP 和 Function Calling 有什么区别？

回答框架：

Function Calling：模型供应商/API 定义的工具调用接口，通常绑定特定推理接口
MCP：开放协议，连接 AI 应用与外部工具，不绑定特定模型
关系：Host/Client 可以把 MCP Server 暴露的 tools 转换成模型原生 Function Calling / tool calling schema，再由模型选择调用
区别：标准化 vs 厂商特定

加分点：提到 MCP 的三大原语。

Q3：A2A 解决什么问题？

回答框架：

问题：不同框架/平台构建的 Agent 之间无法互操作
解决方案：Agent 间通信的开放协议
核心抽象：
- Agent Card：描述 Agent 能力的 JSON 元数据
- 通信方式：message/send / message/stream 等 JSON-RPC 方法
- 任务生命周期：发现 → 认证 → 消息交互
设计原则：HTTP + JSON-RPC + SSE，简单、企业就绪

加分点：提到 A2A 和 MCP 的互补关系。

Q4：MCP 和 A2A 是什么关系？

回答框架：

MCP：连接 Agent 与工具、数据和工作流上下文
A2A：连接 Agent 与 Agent（有状态的多轮推理与协商）
互补关系：Agent A 通过 A2A 委托任务给 Agent B，Agent B 通过 MCP 调用外部工具
不是竞争：解决不同层次的问题

加分点：画出 MCP 和 A2A 在系统中的位置图。

Q5：MCP 的 OAuth 2.1 授权怎么设计？

回答框架：

角色：
- MCP Server：通常作为 OAuth Resource Server，保护工具和资源
- Authorization Server：签发 token，可与 MCP Server 分离
- MCP Client：代表用户访问受保护资源，但不应把 token 暴露给模型
流程：
- Protected Resource Metadata
- Authorization Server Discovery
- PKCE
- Resource Indicators
挑战：
- 动态客户端注册
- Token 生命周期管理
- token 绑定到正确的 resource，避免 confused deputy
- 跨组织审计

加分点：提到 MCP 规范中的授权章节。

Durable Execution

Q6：什么是 Durable Execution？

回答框架：

定义：每步执行后做状态检查点，崩溃后从最后检查点恢复
对比：
- 无持久化：崩溃 = 全部丢失
- 有持久化：崩溃 = 恢复最后状态
实现：
- 状态序列化
- 检查点存储
- 恢复逻辑
适用场景：长时间运行的 Agent 任务

加分点：提到 Temporal、Inngest 等 Durable Execution 平台。

Q7：一个运行 30 分钟的 Agent 任务中途崩溃了，怎么恢复？

回答框架：

检测崩溃：心跳、超时、进程监控
恢复流程：
- 读取最后检查点
- 恢复状态（对话历史、工具调用记录、任务进度）
- 从最后成功的步骤继续
挑战：
- 工具副作用可能已发生
- 外部状态可能已变化
- 需要幂等性设计

加分点：提到如何处理已经执行但未确认的工具调用。

可观测性

Q8：什么是 Trace 和 Span？

回答框架：

Trace：一次完整执行流的时间线
Span：Trace 中的单个操作（LLM 调用、工具调用、状态更新）
关系：一个 Trace 包含多个 Span，Span 之间有父子关系
用途：性能分析、错误定位、行为理解

加分点：提到 OpenTelemetry 的 Trace/Span 数据模型。

Q9：为什么用 OpenTelemetry？

回答框架：

优势：
- 一次埋点，任意后端
- 避免供应商锁定
- 社区标准
Agent 场景：
- 多步因果追踪
- 工具调用链
- 状态变迁
注意事项：
- GenAI 语义约定仍在演进
- 需要关注官方更新

加分点：提到 OpenTelemetry 的 GenAI Semantic Conventions。

Q10：什么是 Trace → Eval → Fix 闭环？

回答框架：

流程：
- 失败的 Trace 变成测试用例
- 测试用例门控部署
- 修复后重新评估
价值：
- 把生产问题转化为可重复的测试
- 持续改进 Agent 质量
实现：
- Trace 采集和存储
- 自动生成测试用例
- CI/CD 集成

加分点：提到 Agent Development Lifecycle (ADLC)。

本章小结

这 100 道题覆盖了 LLM 基础、Agent 核心、RAG、安全和生产的关键知识点。但面试不是背诵——理解背后的"为什么"比记住"是什么"更重要。

每道题的"加分点"是展示深度的机会。当面试官问你一个基础问题时，如果你能自然地延伸到相关话题，说明你真正理解了这个领域，而不只是背了定义。

最后一条建议：面试前，用这些问题做一次自测。答不上来的，回去看对应章节；答得上来的，想想能不能讲得更简洁、更有结构。

参考资料

[1] Anthropic Engineering, Building effective agents - https://www.anthropic.com/engineering/building-effective-agents

[2] Anthropic Docs, Extended thinking - https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking

[3] Anthropic Docs, Prompt caching - https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching

[4] OpenAI Docs, Prompt caching - https://platform.openai.com/docs/guides/prompt-caching

[5] OpenAI Docs, Structured Outputs - https://platform.openai.com/docs/guides/structured-outputs

[6] OpenAI Agents SDK, Guardrails - https://openai.github.io/openai-agents-python/guardrails/

[7] Model Context Protocol Specification - https://modelcontextprotocol.io/specification

[8] Agent2Agent Protocol Specification - https://a2aproject.github.io/A2A/latest/specification/

[9] European Commission, AI Act - https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai

第26章：理论八股文精华 ​

26.1 LLM 核心 30 题 ​

Transformer 架构 ​

Tokenization ​

推理参数 ​

模型能力边界 ​

模型选择与优化 ​

26.2 Agent 核心 30 题 ​

Agent 基础概念 ​

工具调用 ​

记忆系统 ​

规划与推理 ​

Workflow 编排 ​

Multi-Agent 系统 ​

26.3 RAG 核心 20 题 ​

RAG 基础 ​

检索优化 ​

RAG 评估 ​

知识库工程 ​

26.4 对齐与安全 20 题 ​

对齐技术 ​

安全威胁 ​

Guardrails ​

合规与治理 ​

26.5 协议与生产 10 题 ​

MCP 与 A2A ​

Durable Execution ​

可观测性 ​

本章小结 ​

参考资料 ​

第26章：理论八股文精华

26.1 LLM 核心 30 题

Transformer 架构

Tokenization

推理参数

模型能力边界

模型选择与优化

26.2 Agent 核心 30 题

Agent 基础概念

工具调用

记忆系统

规划与推理

Workflow 编排

Multi-Agent 系统

26.3 RAG 核心 20 题

RAG 基础

检索优化

RAG 评估

知识库工程

26.4 对齐与安全 20 题

对齐技术

安全威胁

Guardrails

合规与治理

26.5 协议与生产 10 题

MCP 与 A2A

Durable Execution

可观测性

本章小结

参考资料