Anthropic正在将具备记忆功能的托管智能体定位为面向开发者的基础设施层,用于构建和运行AI智能体,将工作负载从孤立的推理调用转变为协调一致的有状态工作流。在4月23日发布的一篇博客文章中,该公司描述了一类能够跨交互保留上下文、调用工具并以持久状态执行多步骤任务的智能体。
这一模式从根本上改变了数据中心内AI工作负载的结构方式。智能体不再处理离散的推理请求,而是作为协调工作流运行,在各步骤之间检索、更新和复用信息——使数据移动和系统协调成为执行过程的一部分,而不仅仅是模型的输出结果。
记忆功能将推理转变为多步骤工作流
Anthropic在博客文章中表示,智能体能够持续携带上下文信息,包括历史提示、工具输出和结构化数据,并随时间推移复用这些信息。记忆功能允许智能体存储关于用户、任务和历史结果的信息,并在后续步骤或会话中加以访问。
每个请求都可能涉及检索已存储的上下文、将其整合至模型提示,以及根据新输出更新对应状态。最终形成的是一个与模型执行并行的持久数据层,状态的读写贯穿整个工作流程。
在这一范式下,推理不再局限于单次提示与响应的循环。任务可以跨越多个步骤逐步展开,随着智能体的推进,上下文得以持续维护和优化。
数据移动而非GPU,正成为新瓶颈
Anthropic对托管智能体的描述着重强调了多步骤执行过程,智能体在此过程中调用工具、处理中间结果并持续迭代。这些阶段需要在模型、内存系统和执行环境之间频繁移动数据。
Dell'Oro Group副总裁Sameh Boujelbene表示,这些工作负载"将单次推理转变为多步骤的分布式工作流,每个用户请求都会在模型、内存存储、工具沙箱和调度器之间触发反复的内部跳转。"她补充道,流量的增长来源于"编排循环、频繁的状态读写以及服务间调用,而非更密集的GPU计算。"
这一模式真实反映了智能体工作流的实际执行方式。每个步骤都会引入额外的数据交换——检索存储的上下文、在组件之间传递结果或调用工具——使这些交互成为工作负载运行的核心环节。
Boujelbene还指出,这些系统对延迟更为敏感,因为请求依赖于多个顺序和并行步骤。"它们对延迟的敏感程度往往会提高一个数量级,"她表示。
网络在数据中心架构中的角色愈发重要
Anthropic将托管智能体定位为处理具有持久上下文和工具调用能力的长期多步骤任务的解决方案,这一方式将编排能力和系统设计推向了核心位置。
从网络角度来看,Boujelbene认为这一转变需要"低尾延迟的无损网络结构",并需要更清晰地区分紧耦合计算域与更广泛的系统连接。"纵向扩展为大脑提供算力,横向扩展则将大脑与内存、工具和状态连接起来,"她说道。
她还预计,网络将在数据中心支出中占据更大比重,估计到本十年末,网络在整体数据中心IT支出中的占比将提升约10个百分点。
综合来看,具备记忆功能的托管智能体引入了一种以协调、持久化和多步骤执行为核心的工作负载模式——这些因素正日益深刻地塑造着基础设施支持AI的方式,其影响不亚于模型本身。
Q&A
Q1:Anthropic的托管智能体具体是什么?有什么功能?
A:Anthropic的托管智能体是一种面向开发者的AI基础设施层,能够跨多个交互步骤保留上下文信息,调用外部工具,并以持久状态执行复杂的多步骤任务。与传统单次推理请求不同,托管智能体可以存储用户信息、任务历史和工具输出,并在后续步骤中持续复用这些数据,从而实现更复杂、更连贯的AI工作流。
Q2:为什么说数据移动而非GPU算力是智能体工作负载的新瓶颈?
A:因为托管智能体在执行过程中需要在模型、内存存储、工具沙箱和调度器之间反复传递数据,每个步骤都涉及上下文检索、状态读写和服务间调用,而非单纯依赖GPU进行密集计算。Dell'Oro Group副总裁Boujelbene指出,这类工作流的流量增长主要来源于编排循环和频繁的数据交互,因此数据移动效率成为决定系统性能的关键因素。
Q3:托管智能体的普及会对数据中心网络建设带来哪些影响?
A:随着托管智能体工作负载的增加,数据中心网络需要提供低尾延迟的无损网络结构,并明确区分紧耦合计算域与系统级连接。Boujelbene预计,到本十年末,网络在整体数据中心IT支出中的占比将提升约10个百分点,网络基础设施的重要性将大幅提升。