16 · Agent 清算之年：失败的不是模型，是 runtime

Source: VentureBeat — The Agentic Reckoning 作者 / Author: Preeti Somal（VentureBeat 主源；副源 Jeremy Kahn 转述 Arvind Narayanan & Sayash Kapoor）发布日期: 2026-05-29（VentureBeat 主源）；Fortune 副源 2026-03-24　|　抓取日期: 2026-06-23 主题: ai-祛魅 / agent-reliability

一句话

2026 年企业 AI agent 大面积进入「重建期（rebuild era）」——人们终于承认：agent 在生产环境崩掉，不是因为大模型不够聪明，而是因为承载它的 runtime（状态管理、故障恢复、长程执行）压根没建——能力在涨，可靠性没跟上。

核心论点（英中对照）

失败点是 runtime，不是 model。 EN（原意）: The foundational question of enterprise AI in 2026 is whether agent failures trace back to the model's reasoning capability or to the runtime infrastructure's inability to manage state, survive failures, and coordinate execution. 中: 2026 年企业 AI 的根本问题，是 agent 出错到底该怪「模型的推理能力」，还是怪「runtime 基础设施无法管理状态、扛不住故障、协调不了执行」——作者的答案是后者。
无状态脚本撑不起生产。 EN: AI agents built on stateless infrastructure — Python scripts, LangChain chains, ad hoc orchestration — cannot survive the operational realities of production. 中: 建在无状态基础设施上的 agent——Python 脚本、LangChain 链式拼装、临时编排——扛不住生产环境的真实运行。
容器一重启，上下文就清零。 EN: Container restarts erase context, token costs breach business cases, and hallucinations compound into catastrophic failures. 中: 容器一重启，上下文被抹掉；token 成本击穿商业模型；幻觉层层叠加，最终演变成灾难性失败。
长程任务里失败会「复利」。 EN（原意，Somal）: Failures in long-running workflows can multiply inference expenses, because restarting processes from the beginning multiplies cost. 中: 长程工作流里，一旦中途失败就得从头重跑，推理开销被成倍放大——失败是带复利的。
可靠性的涨幅远跟不上能力的涨幅。（Narayanan & Kapoor） EN: Reliability improved with each successive model release, [but] it did not improve nearly as much as average accuracy figures — on general benchmarks reliability improvement was half that of accuracy; on customer service tasks, one-seventh. 中: 每代新模型可靠性都在提升，但提升幅度远不如平均准确率——通用基准上可靠性涨幅只有准确率的一半，客服任务上只有七分之一。
自动化里，可靠性是硬门槛，不是加分项。 EN: For automation, reliability is a hard prerequisite for deployment: an agent that succeeds on 90% of tasks but fails unpredictably on the remaining 10% may be a useful assistant yet an unacceptable autonomous system. 中: 对自动化而言，可靠性是部署的硬性前提：一个 90% 任务能成、但剩下 10% 不可预测地崩的 agent，可以当个有用的助手，却绝不能当自主系统。
错误会沿链路相乘（一个被低估的杀手）。 EN: Three AI medical tools chained together with reported accuracies of 90%, 85%, and 97% achieved only 74% combined reliability — meaning one in four patients might be misdiagnosed. 中: 三个准确率分别为 90%、85%、97% 的医疗 AI 工具串成一条链，合起来可靠性只剩 74%——意味着每四个病人就可能有一个被误诊。这就是「错误相乘」。
进入「重建期」：很多人在造同一个 agent 的 2.0 版。 EN（原意）: Many customers are building version 2.0 of the same agent after having to move fast without a foundation — production systems require durable execution, state management, workflow visibility, and recovery. 中: 很多客户当初为了抢速度、没打地基就上线，崩了之后正在重做同一个 agent 的 2.0——生产系统需要的是持久化执行、状态管理、流程可视、故障恢复。

精译（信息量最大的段落）

1. 关于「祛魅」的核心判断（综合 Somal）

大模型的能力，并不是 AI agent 成败的唯一决定因素；真正起决定作用的，是底层架构的「持久性（durability）」。当工作流变长、变复杂，失败会层层叠加：从头重启意味着推理成本成倍上涨。能活下来的组织，会把 runtime 的持久性当成一等公民的工程问题来对待——而不是事后用「重试 + 改 prompt」打补丁糊弄过去。

2. 关于「能力涨、可靠性不涨」（Narayanan & Kapoor，经 Kahn 转述）

研究者沿四个维度衡量可靠性——一致性（consistency）、鲁棒性（robustness）、校准度（calibration）、安全性（safety），拆成 14 项具体指标。结果是：尽管能力大幅前进，Claude Opus 4.5 与 Gemini 3 Pro 的整体可靠性都只有 85%。在自动化场景里，这 15% 的不可靠不是「偶尔答错」，而是「不可预测地崩」——而不可预测，正是自主系统最不能接受的特性。

3. 关于「错误相乘」的数字直觉

把三个分别号称 90%、85%、97% 准确的工具串起来，朴素直觉会觉得「整体应该还不错」。实际是 0.90 × 0.85 × 0.97 ≈ 0.74。链条越长，乘法效应越狠。这解释了为什么单点 demo 惊艳、多步 agent 一上生产就垮——失败率不是相加，是相乘。

金句（可做字幕 / 标题）

「failures trace back to the runtime, not the model.」——失败的不是模型，是 runtime。
容器一重启，agent 的「记忆」就清零了——你以为它在思考，其实它每次都从头失忆。
在自动化里，可靠性是硬门槛，不是加分项：90% 能成、10% 不可预测地崩，等于不能用。
三个工具 90%×85%×97% = 74%——每四个病人可能误诊一个。错误不是相加，是相乘。
2026 年大家都在造同一个 agent 的 2.0 版——因为 1.0 没打地基。

剑桥图灵子的加工角度

反共识 / 重新框定： 主流叙事在比拼「下一代模型多强」。但用线上 recsys / ML 工程一手经验看，这个赛道犯了一个老错误：把「离线指标」当成「线上可靠性」。 推荐系统工程师早就知道——线上系统真正的成本不在「模型本身多准」，而在 serving 层：状态一致性、降级路径、failure isolation、回放与恢复、监控埋点。Agent 现在踩的，是搜推广这一行十年前就踩平的坑，只是换了层 LLM 的皮。

用控制论框定更清楚：无状态脚本本质是「开环系统」——发出指令、不带记忆、不看反馈。而生产级 agent 需要的是「闭环 + 状态机」：每一步都要有可观测状态、可回到的检查点、对偏离的纠偏机制。LangChain 那套链式拼装的根本缺陷，是它把一个有状态的控制问题当成无状态的函数组合来解了。

我的判断（原作者没说、可补的）：

「错误相乘」= 长程 agent 的结构性天花板，不是工程能调好的 bug。 单步 95% 可靠，10 步连乘只剩 0.95^10 ≈ 60%，20 步剩 36%。这意味着「全自主长链 agent」在数学上就站不住——除非引入校验/回滚把链路重新「短路」成多个高可靠子段。真正的赢家不会去堆更长的自主链，而会把长链拆成『可验证的短段 + 人类/确定性检查点』。 这跟量化里「不追求单笔高胜率、而追求可控回撤下的复利」是同一种思维。
eval harness 的缺位才是真正的护城河洼地。 报告里反复出现「评估缺口（64% 的负责人点名）」。recsys 行业的铁律是：没有线上 A/B + 可回放 eval，就不该上线任何模型变更。 Agent 圈现在 90% 的团队连一个像样的 eval harness 都没有——谁先把「agent 的可观测性 + 回放 + 离线评测」做成标准件，谁就拿到下一波企业预算。这比再训一个模型的 ROI 高得多。
VC 视角的分类：这一波钱的流向正在从「model layer」转向「runtime / control plane」。 对创业者的含义——纯 prompt-wrapper / 链式编排创业是 content-funnel 级别（会被平台吞）；做有状态 runtime、durable execution、agent 可观测性 / eval才是 VC-backable 的产品化 SaaS。这是图灵子量化宏观「看资金流向、不看叙事热度」的直接应用。

短视频脚本骨架（60-90s）

Hook(3s)： 「2026 年，企业花大钱造的 AI agent，正在被成批砍掉——但原因不是你以为的那个。」
冲突 / 反共识(15s)： 「所有人都在等下一代更强的模型。可数据打脸了：Gartner 说 40% 的 agent 项目 2027 年前会被取消；48% 的高管直接说 AI 是『巨大的失望』。问题真的是模型不够聪明吗？不是。」
论证(30s)： 「失败点在 runtime，不在 model。无状态脚本一重启，agent 上下文就清零——它每次都失忆。更要命的是『错误相乘』：三个 90%、85%、97% 的工具串起来，合起来只剩 74%，每四个就崩一个。我做过线上推荐系统，这就是搜推广十年前踩平的坑——离线指标再漂亮，serving 层扛不住状态和故障，线上一样垮。LangChain 那套，是把一个有状态的控制问题，当成无状态的函数拼接来解了。」
图灵子落点(15s)： 「所以真正的赢家，不会去堆更长的自主链——数学上 0.95 的 20 次方只剩 36%，堆不出可靠。而是把长链拆成『可验证的短段 + 检查点』，再配一套 eval harness。下一波企业的钱，正从 model layer 流向 runtime。」
CTA： 「在比拼模型之前，先问一句：你的 agent，有状态吗？有回放吗？有 eval 吗?——评论区聊聊你踩过的 agent 生产坑。」

长文大纲

开篇：清算来了。 三个数字定调——Gartner 40% 取消、Writer 48% 称「巨大失望」、试点几乎全民但规模化寥寥（78-97% 在试点，落地不足 25%）。
错判病因：大家在治模型，病却在 runtime。 拆 Somal 的核心论点：durability 才是决定项，不是 LLM 能力。
三个具体死法。 (a) 容器重启 → 上下文清零；(b) 长程任务 → 失败从头重跑 → 成本复利；(c) 多工具链 → 错误相乘（90%×85%×97%=74% 的医疗例子）。
数据补刀：能力在涨，可靠性掉队。 Narayanan & Kapoor 的四维（一致/鲁棒/校准/安全）14 指标；通用基准可靠性涨幅只有准确率一半，客服只有七分之一；Opus 4.5 / Gemini 3 Pro 整体可靠性 85%。
图灵子透镜一：recsys 工程的旧坑。 离线指标 ≠ 线上可靠性；serving 层（状态/降级/隔离/回放/监控）才是真成本。
图灵子透镜二：控制论。 开环脚本 vs 闭环状态机；LangChain 把有状态控制问题当无状态函数组合的根本错误。
结构性天花板：错误相乘是数学，不是 bug。 0.95^N 曲线；为什么「全自主长链」站不住；正解是「短段 + 检查点 + 回滚」。
下一波钱往哪流。 从 model layer 到 runtime / control plane；eval harness 是洼地护城河；对创业者的 VC 分类（wrapper = content-funnel；durable runtime = VC-backable）。
收尾：rebuild era 的正确姿势。 上线前的三问——有状态吗？有回放吗？有 eval 吗？

待核实 / 风险

VentureBeat 主源正文未能直接抓取（403 / 429 反爬）。作者「Preeti Somal」、发布日期「2026-05-29」及其引语，来自 Welcome.AI 的二手转述 + VentureBeat 搜索摘要，未逐字比对原文。引用 Somal 的句子标注为「原意」而非逐字直引——发布前建议用浏览器或 CDP 抓一次原文核对作者署名与确切措辞。
「维护吃掉 30-50% 自动化预算」这一条，本次抓取未在任何信源中找到对应数据，故未写入正文。若要使用，必须另找原始出处（疑似来自另一篇报告 / Gartner / Forrester），否则视为未核实，切勿当成本文论点。
Fortune 转述的 Narayanan & Kapoor 数据（可靠性涨幅为准确率一半 / 七分之一、85% 整体可靠性、74% 医疗链路）来自 Jeremy Kahn 文章，已核实可引；但其底层论文 / 基准的原始链接未抓，做严肃文章时建议回溯到 Narayanan-Kapoor 的原报告。
Gartner「40% 取消」= 已核实（Gartner 官方新闻稿 2025-06-25）。
「48% 称巨大失望」来自 WRITER 2026 Enterprise AI Adoption 调查，不是 Gartner——别张冠李戴。
「78% 试点 / 14% 规模化」类数字在多个二手汇编中口径不一（有 78-97% 试点、<25% 落地、88% 试点未转生产等多种说法），原始单一出处未锁定；视频里用「试点几乎全民、规模化寥寥」这种定性表述更稳妥，引具体百分比前需回溯单一权威来源。