Skip to content

第29章:开放性问题与行业洞察

面试的最后阶段,有些问题没有标准答案,但恰恰是考察思维深度的关键。"你觉得 Agent 的瓶颈在哪里?""会取代软件工程师吗?""你怎么保持竞争力?"——这类问题表面开放,实则在考察你对这个领域的真实理解,而不是能否背诵知识点。

这一章不给你台词,给你思考框架。每一节都先梳理这个问题的核心争议,然后给出一个有立场的分析角度,以及在面试中值得提的加分视角。


29.1 目前限制 Agent 能力和普及的最大瓶颈

这是一个开放题,但答案不应该是一句"可靠性还不够"。你能说出多少个独立的瓶颈,每个瓶颈的机制是什么,它在工程层面怎么体现——这才是考察维度。

瓶颈一:可靠性的本质是误差叠加

单步 LLM 调用的准确率假设是 95%,如果每一步彼此独立,五步任务的理论成功率就会跌到 0.95⁵ ≈ 77%,十步约 60%。真实 Agent 往往更复杂:有些错误会被后续步骤纠正,有些错误会在状态里放大,有些失败来自工具、环境或 grader,而不是模型本身。所以这个公式不是精确预测,而是提醒你:多步系统的可靠性不能只看单步准确率。

Anthropic 的 evals 博客记录过类似现象:Claude 在同一 benchmark 上的分数大幅提升,原因并不只是模型进步,还包括发现 grader / harness 本身的问题。这说明我们甚至很难区分"模型真的失败了"和"我们的测试框架有 bug"。

误差叠加意味着:Multi-Agent 系统越复杂,链路越长,可靠性下降越快。这个问题不靠单点技术突破能解决,它要求的是完整的错误处理体系:从每步的 Guardrail 检查,到 Durable Execution 的断点恢复,再到 Eval 驱动的持续改进闭环。

瓶颈二:评估困难制约了迭代速度

软件工程的迭代靠单元测试:改一行代码,跑测试,红灯绿灯立刻知道。Agent 的问题是:怎么评估"第 7 步的工具调用顺序合不合理"?怎么评估"这个 research agent 的报告算不算全面"?

Anthropic 在评估体系文章里给出的指标 pass@k 和 pass^k,本身就承认了 Agent 的非确定性。同一个任务,跑 5 次可能成功 3 次。这意味着:

  • 测试集需要足够大,才能压低方差——但构建测试集本身就耗时耗力
  • Model-based grader 需要人工校准——但人工校准本身也需要领域专家
  • 很多高价值任务(法律文书、医疗建议、科研分析)本来就没有公认的"正确答案"

结果是:很多团队在没有足够 evals 的情况下上线 Agent,然后靠用户投诉来发现问题。更成熟的做法是先用 shadow mode、离线回放、人工标注校准和回归 eval 把失败类型暴露出来,再逐步开放更高风险能力。

瓶颈三:信任与安全的体系还未成熟

用户什么时候会把自己的邮箱、日历、代码库完全交给一个 Agent 来操作?当 Agent 犯了一个不可逆的错误(误发了邮件、删了代码、提交了错误的表单),谁来负责?

这不只是技术问题,是社会与制度问题。OWASP LLM Top-10 里的 Prompt 注入、间接注入等威胁到现在没有完美的防御方案——因为它的根本机制是"语言的灵活性"和"精确执行"之间的矛盾,这是 LLM 架构本身的特性,不是简单修复一个 bug 能解决的。

截至 2026.05,企业级 Agent 的大规模落地,经常卡在"如何定义权限边界"、"如何保证可审计"、"谁批准高风险动作"和"出错后如何追责"这些问题上,而不只是模型能力本身。

瓶颈四:成本结构与任务价值的错配

不是所有值得自动化的任务,用 Agent 自动化都合算。一个 10 步的 Agent 任务如果每步都调用模型、检索、工具和评估,成本可能从几分钱到数美元不等,还要加上人工审阅、沙箱、搜索、向量库和失败重试成本。对于任务价值低的场景(比如简单的表单填写),这个成本结构很容易跑不通。

这就是为什么 Anthropic 和 OpenAI 都在强调:先找简单解,只在必要时增加复杂度。不是不鼓励做 Agent,是因为成本-效益分析经常揭示:一个精心设计的 Workflow + 若干条件判断,比一个"让模型自己决定"的 Agent 更便宜、更可控。

瓶颈五:上下文管理在长任务中仍然脆弱

Anthropic 在 2025 年 9 月发布的上下文管理文章强调:生产 Agent 处理更复杂任务、积累更多工具结果后,会耗尽有效上下文,开发者不得不在截断 transcript 和性能下降之间取舍 [2]。行业里也常用 "context rot" 描述长上下文中有效注意力下降、旧信息变得难以可靠使用的现象。它不只是"上下文窗口不够大",而是信息选择、压缩、记忆和检索策略的问题。

对于运行数小时的 Agent 任务(代码库迁移、深度研究、复杂数据分析),这意味着:Agent 会逐渐"忘记"早期的约束和决策,重复之前做过的工作,或者在关键时刻丢失关键上下文。Compaction、结构化笔记、子 Agent 隔离是现有的工程解法,但都有代价:信息压缩不可避免地带来细节丢失。

面试加分视角

这五个瓶颈之间有结构性关联:可靠性低导致需要更多人工监督,更多监督意味着成本上升,成本上升进一步限制了可以自动化的场景范围。评估困难让迭代变慢,迭代慢让信任建立缓慢。这不是五个独立问题,是一个系统性约束网络。

能说出这个结构,比列出五条瓶颈更有分量。


29.2 从 Prompt Engineering 到 Context Engineering 到 Agent Engineering

这个演进路径不是一个营销说法,它对应的是真实的工程重心转移。如果你能说清楚每一步的技术动因,面试时会很加分。

第一阶段:Prompt Engineering(2020-2023 前后)

LLM 刚开始被工程师用于生产时,核心挑战是"怎么让模型按照我想要的方式回答"。零样本、少样本、CoT、Tree of Thought——这些技术的共同特征是:把问题归结为"如何写一个更好的 prompt"。

这个阶段的心智模型是"模型是一个固定的黑盒,输入决定输出,输入就是 prompt"。

Prompt Engineering 有效,但有上限。当任务从单轮问答扩展到多步执行、工具调用、状态维护,prompt 的优化空间开始触顶。

第二阶段:Context Engineering(2024-2025)

2025 年前后,"context engineering"成为行业里更常用的说法。它的核心不是创造一个新名词,而是承认:真正影响模型表现的,不只是 system prompt 怎么写,而是整个推理过程中哪些信息被放进上下文、以什么顺序放、什么时候压缩、什么时候检索。

Anthropic 在 2025.09 把这个概念系统化:Context Engineering 是"在 LLM 推理时策略性地组织和管理可用 token 集合的方法论",包括所有进入上下文的信息——系统提示、工具描述、工具调用历史、外部检索结果、会话历史。

这个阶段的心智模型升级为:"上下文是一种有限资源,每个 token 都有成本,核心任务是找到信息密度最高的 token 配置。"

关键工程问题从"怎么写 prompt"变成了:

  • 什么信息应该放进上下文,什么时候放
  • 上下文接近上限时怎么压缩而不丢失关键信息
  • 如何设计工具描述,让模型选择准确率最高

第三阶段:Agent Engineering(现在正在成形)

当任务跨越多轮、运行数小时、涉及真实工具副作用、需要多个 Agent 协作时,问题的重心再次转移。现在真正难的不是"上下文怎么管",而是:

  • 可靠性:任务中途崩溃怎么恢复?
  • 可观测性:怎么知道 Agent 在第 7 步为什么做了错误决策?
  • 评估:怎么知道新版本 Agent 比旧版本好?
  • 安全:Agent 在什么权限边界内操作?
  • 经济性:这个任务的 Agent 方案成本合算吗?

这些问题的回答需要一整套工程实践:Durable Execution、Eval 体系、可观测性架构、Guardrails、权限治理……这就是所谓的"Agent Engineering"——它是一个工程学科,不只是一项 AI 技能。

重要的不同意见

并不是所有人都接受这个演进叙事。一个合理的反驳是:"Context Engineering"和"Agent Engineering"有一部分确实是旧概念的重新包装——信息管理、测试驱动开发、系统可靠性工程,这些都是已有几十年历史的软件工程概念,只是进入了 LLM 应用语境。

这个批评有一定道理。但两者之间确实有关键差异:LLM 的非确定性输出让传统的单元测试范式失效;prompt 作为"代码"有版本控制但难以回归测试;工具调用可能产生真实世界副作用而不可回滚——这些都是新的工程问题,需要新的工程答案。


29.3 未来 3-5 年最可能率先颠覆的领域

这个问题没有确定性答案,但有比较扎实的分析框架:什么样的任务最适合 Agent 接管?

适合 Agent 的任务具备哪些特征:

  1. 有明确的成功标准(可自动化验证)
  2. 任务模式可重复,但具体内容不同(规模化收益明显)
  3. 当前对人力成本敏感(自动化 ROI 高)
  4. 允许一定错误率(或有人工审核兜底)

按这个框架,最有可能率先大规模落地的领域是:

软件开发(已经在发生)

这是当前 Agent 能力最成熟的场景。原因很清晰:

  • 成功标准客观(测试通过 = 成功)
  • 存在大量高质量训练数据(GitHub 代码、文档、issue)
  • 反馈回路快(代码执行结果即时可得)
  • 已有真实部署:Cursor、Claude Code、Codex、Devin 等产品说明 coding agent 已经从 demo 进入日常工程流;SWE-bench / SWE-bench Verified 等基准也推动了软件工程任务的可量化评估。但 benchmark 分数不等于真实团队生产率,面试时要主动说明这一点。

值得注意的是:这里说的是"软件开发任务"而不是"软件工程师"。两者有重要区别,后面 29.4 节详细说。

客户服务与支持(早期商业验证已完成)

客服是 Agent 最早出现清晰商业化路径的场景之一。很多产品已经从"回答知识库问题"走向"查询订单、修改账户、发起退款、转人工",商业指标也从回复速度扩展到自动解决率、转人工率、用户满意度和误操作率。

为什么客服适合 Agent:

  • 单次对话边界清晰
  • 查询模式有限(退款/查询/投诉/转人工)
  • 成功标准可量化(工单解决率、客户满意度)
  • 错误代价可控(大部分操作可逆或可由人工接管)

数据分析与研究(适合但还在早期)

"自然语言转 SQL + 数据可视化 + 报告生成"这条链路已经有相对成熟的产品形态。更复杂的 Research Agent(搜索、交叉验证、生成分析报告)在科研和金融分析领域正在快速演进。

挑战在于:这类任务的评估难度很高,"这个分析对不对"经常没有明确答案。这意味着短期内需要保留较强的人工审核。

什么地方不会那么快

两类领域短期内 Agent 化程度会比较低:

一是强监管领域(医疗诊断、法律建议、金融投资):这些领域的失败代价极高,监管框架、责任主体、可解释性和人工监督要求都更严格。AI 会先以辅助、草稿、检索、审查的形式进入,而不是直接替代专业决策。

二是高度依赖物理世界交互的领域(制造业、物流、现场服务):这些涉及机器人技术和物理系统集成,不只是 LLM 问题。

注意这个图是判断,不是事实。它基于"任务结构化程度"、"错误代价"、"监管约束"三个维度的分析,而不是某个权威机构的预测。领域落地速度还取决于具体国家的监管环境、企业文化,以及未来模型能力的实际跃升幅度。


29.4 Agent 会取代软件工程师吗

这个问题之所以值得认真分析,不是因为它没有答案,而是因为错误的答案有两种:一种是"不会,软件工程师无可替代"(回避问题),一种是"会,工程师要失业了"(夸大短期影响)。

当前的事实层面

Anthropic Economic Index 的持续观察显示,软件相关职业是 Claude 使用最密集的职业类别之一,而且很多使用场景属于增强(augmentation)而不是完整自动化(automation)[4]。这说明软件工程师不是站在 AI 之外观察变化的人,而是最早被工具重塑的一群人。

具体表现:工程师用 AI 加速代码编写、生成测试用例、阅读不熟悉的代码库、Debug——这些是"我做的事情变快了",而不是"AI 代替我做事了"。

Coding Agent 的能力确实在高速提升,尤其是在 bug 修复、测试修复、代码迁移、代码库问答这些有明确反馈信号的任务上。但具体 benchmark 排名变化很快,不建议在面试里背某个时间点的分数;更重要的是讲清楚 benchmark 衡量的任务边界。

但 SWE-bench 测的是什么?它是"给定一个 GitHub issue 描述,能否生成一个通过测试套件的 PR"。这是软件工程的一个子集——虽然重要,但不等于整个软件工程工作。

软件工程师的哪些工作难以被自动化

Anthropic 自己在 Building effective agents 里写道:"在我们的编码 Agent 实现中,自动测试帮助验证功能,但人工审核对于确保解决方案符合更广泛的系统需求仍然至关重要。"

为什么人工审核还不能被替代?因为软件工程不只是"写代码让测试通过":

  • 需求的模糊性:真实业务需求经常是不完整的、自相矛盾的、随时间变化的。把模糊需求变成清晰规格,目前还需要人来做。
  • 系统级判断:架构决策、技术债取舍、安全边界设定——这些需要对系统全局的理解,以及对组织上下文的掌握。
  • 不可预见场景的处理:Agent 在见过的 pattern 上表现好,在真正新颖的边界情况上还是会失败。
  • 跨团队协作与沟通:代码最终要在一个组织里维护,涉及对人的理解,不只是对代码的理解。

真正在改变的是什么

会改变的是:软件工程师的时间分配,以及团队构成

一个熟练使用 Coding Agent 的工程师,会把更多时间从"手写样板代码"转移到"澄清需求、拆任务、审查 AI 生成的代码、设计架构、写 evals、调试复杂问题"。这不是简单的失业或不失业问题,而是工作重心的偏移。

对团队构成的影响是:原来需要 10 个工程师才能完成的项目,可能 5 个工程师 + Agent 就够了。这不等于"工程师减少一半",而是"能完成的工作增加了一倍"——软件需求通常是需求弹性很大的,更低的生产成本往往意味着更多的软件被创造出来。

历史上,电子表格软件在 1980 年代诞生时,很多人担心会淘汰会计师。结果是:会计师数量反而增加了,因为更低的分析成本催生了更多的财务分析需求。这个类比不一定完美,但值得思考。

一个值得警惕的反面视角

上面的分析相对乐观。但也有一个现实风险:不是"AI 技术上是否已经能完全取代工程师",而是"公司会不会以'AI 提效'为由减少初级岗位或压缩招聘"。

这是两个不同的问题。即使 AI 实际上还需要大量工程师来管理,公司的招聘决策也可能短期内受 AI 叙事影响而收缩。这是一个真实的职业风险,与技术本身是否真的能替代工作人员是两回事。

对于这个风险,最有效的应对不是否认变化,而是让自己成为"能与 AI 高效协作、能定义任务、能验证结果、能承担系统责任"的工程师,而不是只会手写 boilerplate 代码的人。这正是下一节要说的内容。


29.5 如何持续保持 Agent 领域的竞争力

这是最后一个开放题,也是最个人化的一个。没有通用答案,但有几个被反复验证有效的方向。

理解基础而不是追逐框架

LangChain、LangGraph、CrewAI、OpenAI Agents SDK……这些框架的更迭速度非常快。2022 年写 LangChain 教程,2023 年就开始"别用 LangChain"。如果你的竞争力是"会用某个框架",你的保质期很短。

真正持久的竞争力是:理解框架在做什么,而不只是会用它。

  • 能不用框架从头实现一个支持工具调用和记忆的 Agent?(第 25 章的核心价值就在这里)
  • 能从底层理解 Durable Execution 为什么需要 Checkpoint?
  • 能设计一套适合你业务场景的 Eval 体系,而不只是跑跑 benchmark?

Anthropic 自己说过:"框架能帮你快速起步,但理解底层实现至关重要。"(Building effective agents,2024.12)

把 Eval 能力当成核心能力建设

这一点被大多数工程师低估了。写一个 Agent 原型花 3 天,大家都能做。但建立一套能持续测量 Agent 质量、发现回归、驱动迭代的 Eval 体系——这是把 Agent 从"demo 产品"变成"生产系统"的关键,也是工程师最难复制的核心优势之一。

从 Anthropic 的经验来看:Claude Code 从早期的快速迭代,到后来逐步建立覆盖"简洁性、文件编辑、过度工程"等维度的 eval 套件,这个过程让团队的迭代效率有了质变(来源:Demystifying Evals for AI Agents)。

一个能设计 grader、构建测试集、分析 transcript 的工程师,在团队里的价值远高于一个只会调 prompt 的工程师。

保持域知识的深度

Agent 终究是在帮某个具体场景解决具体问题。软件开发、法律合规、医疗影像、金融分析……每个垂直场景都有自己的数据特征、失败模式、监管约束。

"懂 Agent 工程 + 懂某个垂直领域"的组合,比"只懂 Agent 工程"要稀缺得多。如果你原来是做后端的,不需要放弃这些经验——它们与 Agent 工程的结合点正变得越来越有价值。

实际参与,不只是读文章

这个领域进化太快,读二手总结跟不上速度。真正有效的方法是:

  1. 跟踪一手来源:Anthropic 工程博客、OpenAI 指南、arXiv 的 agent 相关论文(LATS、Reflexion、WebArena 等),直接读原始材料。
  2. 动手构建:把每个你读到的概念都实现一遍。理解 Durable Execution 的最好方式不是读文章,是自己写一个支持 Checkpoint 的 Agent,然后让它崩溃,然后恢复它。
  3. 参与社区:HN 的 AI Agent 相关讨论、GitHub Issues(LangGraph、CrewAI 等框架)、AgentOps 社区——真实的踩坑经验往往比官方文档更有工程价值。

一个更可执行的 6 个月路线:

  1. 第 1 个月:从零实现。不用框架写一个支持工具调用、短期记忆、错误重试和 trace 的 Agent。
  2. 第 2 个月:做一个真实小项目。选你熟悉的领域,例如客服工单、内部知识库、代码修复、数据分析,不做玩具 demo。
  3. 第 3 个月:加评估。构建 30-100 条真实样本,记录 transcript,设计 grader,跑 regression eval。
  4. 第 4 个月:加生产边界。权限、审计、成本预算、失败恢复、人工接管。
  5. 第 5 个月:换一个框架重做关键路径。用 LangGraph / OpenAI Agents SDK / CrewAI 之一复现同一任务,比较抽象带来的收益和限制。
  6. 第 6 个月:写复盘。把架构、失败案例、指标口径、如果重做会改什么写清楚。这会直接变成面试素材。

这条路线的重点不是"做一个很炫的 Agent",而是让你经历从 demo 到可评估、可恢复、可解释系统的完整路径。

关于"是否需要学所有东西"

不需要。Agent 工程已经是一个足够大的领域,没有人能全部精通。建议的策略是:

  • 把核心概念(架构、上下文管理、工具设计、评估、安全)理解到"能向别人解释清楚"的深度
  • 在自己的工作领域里选择 1-2 个组件深入掌握(比如:专注 Eval 体系,或者专注 Multi-Agent 架构)
  • 对其他部分保持"能快速上手"的水平

T 型结构在这里同样适用:横向的广度帮你做系统设计,纵向的深度帮你在关键问题上有真正的竞争力。

一个有点反直觉的建议

在这个领域保持竞争力,有时候意味着抵抗"追新"的冲动。每周都有新框架、新 benchmark、新模型。但大多数基础的工程问题——状态管理、错误处理、测试驱动开发、系统可观测性——在 AI 领域与在传统软件工程里并没有本质区别。

扎实的软件工程底子,加上对 LLM 特有约束的理解(非确定性输出、token 成本、上下文限制、幻觉),再加上领域知识——这个组合比"跟上最新框架"更持久,也更难被复制。

最后还有一条现实建议:保留对业务指标的敏感度。Agent 工程师如果只会说 token、prompt、tool call,很容易停留在工具层;能把它们翻译成自动解决率、人工节省时间、误操作率、单位任务成本和上线风险,才更像能独立负责产品的人。


本章面试题总览

以下面试题的标准不是"背出标准答案",而是"能展开一个有结构、有深度的讨论"。

Q1:你觉得目前限制 Agent 大规模落地的最主要瓶颈是什么?

参考框架:从可靠性(误差叠加)、评估困难(非确定性测量)、信任安全(不可逆操作 + 权限边界)、成本结构(多步任务成本高)、上下文管理(context rot)五个维度展开。加分点:能说出这五个瓶颈之间的结构性关联,而不是把它们当成独立问题列表。

Q2:Context Engineering 和 Prompt Engineering 的本质区别是什么?

参考框架:Prompt Engineering 的优化单位是单次 prompt;Context Engineering 的优化对象是整个推理过程中的 token 预算管理。前者是输入优化,后者是信息流管理。加分点:能结合 context rot、compaction、just-in-time 检索等具体技术说明为什么"管理 token 预算"比"写好 prompt"更难。

Q3:Agent 会取代软件工程师吗?

参考框架:区分"软件开发任务"和"软件工程工作"——前者的很多部分在被 Agent 加速或替代,后者包含大量需要系统级判断、需求模糊性处理、跨团队协作的工作,短期内不会被完全替代。工程师的工作重心会偏移,不是简单消失。加分点:提到 Anthropic Economic Index 对 AI 使用形态的观察(软件相关职业使用密集,很多场景是增强而非完整自动化),以及历史上技术工具对职业的影响(电子表格 vs 会计师的类比)。

Q4:你如何看待 3-5 年内 Agent 最大的突破领域?

参考框架:用"任务结构化程度 + 错误代价可控 + 成功标准可量化"三个维度分析。软件开发(已在发生)、客服(商业模型验证)、数据分析(适合但还在早期)是近期最有可能的突破点;医疗法律受强监管约束。加分点:明确区分这是判断不是预测,说清楚判断的依据,不拍脑袋给时间线。

Q5:如果让你建议一个 1-2 年经验的工程师转型 Agent 方向,你会建议他优先做什么?

参考框架:先理解基础(不靠框架从头实现一个 Agent),再建立 Eval 能力(测试驱动的开发方式),同时保留域知识深度(领域 + Agent 工程的组合稀缺)。不要只追框架,追核心工程问题的解答。加分点:能说出为什么 Eval 能力是分水岭,能举一个具体的能力建设路径(比如:用 3 个月把第 25 章的 Agent 实现一遍,同时在自己工作中试着为一个 Agent 功能写 Eval)。


参考资料

[1] Demystifying evals for AI agents - Anthropic Engineering (2026.01) - https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

[2] Effective context engineering for AI agents - Anthropic Engineering (2025.09) - https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents

[3] Building effective agents - Anthropic Engineering (2024.12) - https://www.anthropic.com/engineering/building-effective-agents

[4] Anthropic Economic Index - Anthropic - https://www.anthropic.com/economic-index

[5] AI Agent Observability - Evolving Standards and Best Practices - OpenTelemetry Blog (2025.03) - https://opentelemetry.io/blog/2025/ai-agent-observability/

[6] A practical guide to building agents - OpenAI (2024) - https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

[7] OWASP Top 10 for Large Language Model Applications - https://owasp.org/www-project-top-10-for-large-language-model-applications/