为什么AI路线图在上下文层失败,而非模型层
上周大部分时间我都在追人。不是追着他们做产品决策或确认发布日期——而是追着他们给数据资产打标签。我们有一个截止日期、一个数据目录计划,以及一份领域负责人名单,每个人都需要审查自己的表、确认所有权,并添加足够的元数据,以便下游系统能够真正理解它所看到的内容。有些人回复很快。大多数人需要两三次催促。有几个人需要打个人电话,我再次解释为什么他们确认某张表仍然是权威数据源还是在十八个月前就已被其他东西取代这件事很重要。
这就是上下文层问题最纯粹、最不光鲜的形态。我们正在构建的模型非常优秀。它会完全按照我们的要求执行。但它无法告诉你谁拥有某个数据集,上个季度训练时使用的schema是否仍然反映该表今天的实际结构,或者车队表中名为"status"的字段是否与账单表中的含义相同。没有人能自动告诉它这些。必须有人知道。而"知道"本身就是一份全职工作。
我直说吧:模型没问题。它已经没问题很久了。你的AI路线图停滞——或者即将停滞,如果还没有的话——原因不在模型。而在模型上游的一切。在上下文层:谁拥有数据、数据有多新鲜、结构有多一致、当查询进来时检索管道实际返回什么,以及在AI让这一切变得紧迫之前是否有人费心记录过这些。
我知道这话不好听。我交流过的大多数AI负责人和产品经理在过去两年里都在纠结模型选择。哪个供应商。哪个API层级。哪个基准测试对他们的场景重要。这种纠结是可以理解的——它感觉像是那个决定性的决策,决定了产品是否能用。但BCG调查了59个国家的一千名高管,发现70%的AI实施挑战可追溯到人员和流程,20%到技术基础设施,10%到算法(BCG,2024)。百分之十。你最努力优化的那个东西。RAND采访了65名经验丰富的数据科学家,发现超过80%的AI项目失败,大约是非AI IT项目失败率的两倍(RAND,2024)。他们识别出的五个根本原因中有四个是组织性或数据相关的。只有一个——仅仅一个——是关于将AI应用于对AI来说太难解决的问题。
这不是一个关于抽象数据质量的论点。而是关于在实践中具体什么会出问题。
当我构建一个面向运营数据的自然语言界面——车队指标、基础设施仪表板——模型从来不是瓶颈。一次都没有。真正消耗工程时间的是数据时效性:我检索到的数字反映的是一小时前还是三天前发生的事?访问控制:谁被允许问哪些问题,你如何在检索层强制执行而不是寄希望于模型自己搞定?还有检索质量本身——不是模型能否回答问题,而是当它尝试回答时,正确的上下文是否在窗口中。模型耐心且能干地坐在那里,等待它基本没有得到的干净输入。我们不断喂给它错误的东西,然后责怪输出。
Anthropic发表了一篇关于上下文检索的文章,用数字使这一点变得具体。核心发现:修复检索步骤——不是生成模型,只是交给模型的内容——根据方法不同,将检索失败率降低了35%到67%(Anthropic,2024)。模型没有改变。改变的是在模型接触查询之前上下文是如何构建的。这是35%到67%的改进,存在于大多数路线图视为已解决基础设施的层级中。
IBM Watson Health成为了同类失败在巨大规模上的典型案例。在大约40亿美元的投资之后,Watson的AI不是问题。问题在于现实世界的临床数据是混乱的、非结构化的、标注不一致的,远比精心策划的训练集复杂得多。能力在那里。上下文不在。Zillow在一个技术上合理但上下文盲目的房价算法上损失了超过5亿美元——遗漏了社区动态、本地需求变化、特定时刻市场的具体质地(Zillow Offers案例,2021)。模型做了它被训练去做的事。它被训练的数据没有足够接近地反映现实。
麦肯锡发现了一个我认为值得更多关注的现象:那些真正从生成式AI中获得财务回报的组织,在优化模型之前重新设计工作流程的可能性是其他组织的两倍(McKinsey,2025)。不是同时。是之前。他们不是先选最好的模型再想喂什么。他们先弄清楚模型需要看到什么,构建可靠提供这些内容的基础设施,然后再部署。这个顺序差异就是整个关键。
这个错误不断发生的原因不是愚蠢。而是模型层是供应商竞争和基准测试结果所在的地方。它是清晰可读的。你可以指着一个数字——准确率、延迟、上下文窗口——做出决策。上下文层没有一个清晰的数字。它有一个完成了60%的数据目录,在Slack上需要两到五个工作日才回复的领域负责人,在没有文档的情况下演进的schema,以及在演示中表现出色但在生产规模下悄悄崩溃的检索管道。没有人为修复元数据治理写新闻稿。所以路线图一直围绕着可见的东西。
真正需要发生的是一种大多数组织会感到不舒服的注意力重新分配。它意味着在承诺要构建什么之前审查你实际拥有什么。它意味着为你的AI将依赖的数据分配真正的所有权——不是名义上的所有权,那种名字出现在电子表格里的,而是运营上的所有权,有人为时效性、结构和准确性负责。它意味着将检索质量视为一流的工程问题,而不是配置细节。在某些情况下,它意味着推迟你已经宣布的AI计划,直到它所需的数据基础设施真正存在。
这些都没有选择前沿模型那么令人兴奋。但Gartner预测,60%没有AI就绪数据的AI项目将在实现价值之前被放弃(Gartner,2024)。这不是模型问题。这是上下文问题。它等在每个尚未处理它的路线图的上游。
来源
- Anthropic.(2024)。上下文检索。Anthropic工程博客。
- 波士顿咨询集团。(2024)。规模化AI:从概念验证到价值实现 [对59个国家1,000名高管的调查]。
- Gartner。(2024)。2025预测:你忽视的AI风险。
- 麦肯锡公司。(2025)。AI现状:全球调查 [101个国家1,491名参与者]。
- 兰德公司。(2024)。AI为什么失败?来自从业者的洞察 [对65名数据科学家的采访]。
- Zillow。(2021)。Zillow Offers关闭及2021年第三季度财报披露。