首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型落地一年,我悟了:Harness才是护城河——从O(n²)复杂度看Harness的必然

大模型落地一年,我悟了:Harness才是护城河——从O(n²)复杂度看Harness的必然

作者头像
乐小野
发布2026-06-01 21:21:06
发布2026-06-01 21:21:06
1360
举报

你听过“驯马”和“赛车”的故事吗?今天咱们聊聊AI界的“Harness”之争。


如果你有一匹能日行千里的神马,但它脾气火爆、不听指挥,动不动就尥蹶子,你能用它来送快递吗?

显然不能。首先得先给它套上缰绳/脚手架(Harness)

在AI的世界里,大模型就是那匹神马,而Harness,就是那套“控制装备”:包括提示词工程、RAG(检索增强生成)、函数调用、多智能体协作等等。它的作用就是让大模型听懂人话、调用工具、访问数据,最后踏踏实实地把活干完。

近期AI圈对于harness和大模型底层能力的讨论异常热烈。


01 两种世界观:一个要统一宇宙,一个要搭建生态

左派——“Big Model吃掉一切” 相信 Scaling Laws 的终极威力。随着参数、数据和算力的增长,模型会涌现出更强的推理能力和通用性。未来不需要复杂的编排,一个超大模型就是“世界模拟器”,能端到端处理所有任务——一个模型就是整个操作系统

右派——“Harness为王” 则认为,当前及可预见的未来,大模型存在幻觉、成本高昂、实时性差、无法访问私有数据等固有限制。真正的价值在于如何通过Harness去约束、增强和串联模型能力——RAG、提示工程、函数调用、多智能体协作。


02 大模型单打独斗的天然短板

① 上下文窗口限制与注意力机制的二次方诅咒

现在模型厂商疯狂吹上下文:1M tokens、10M tokens,随便进一个大模型的pricing 报价页面就能深刻感受到厂商要吞下一座图书馆的气魄。

但是,Transformer的注意力机制具有O(n²)的复杂度。当序列长度翻倍,计算量和内存占用要翻四倍。

以4050亿参数的模型为例,128k Token上下文所需的激活值内存,是8k Token场景的16倍。

而且,众所周知,模型会有“lost in the middle”现象这种天生缺陷。

那业界怎么突破百万Token的?常用的手段是上下文并行(Context Parallelism)和环形注意力(Ring Attention)

将序列拆分到多台GPU上,通过环形拓扑让每台设备在计算本地注意力的同时,向下一台传递键值对,实现计算与通信的重叠。但这需要NVIDIA NVLink(1.8TB/s)或InfiniBand这样的高速互联,否则通信就成了瓶颈。

还有更前沿的:Lizard线性化框架引入亚二次方复杂度的注意力机制,用门控线性注意力+滑动窗口注意力的混合架构,试图逼近softmax attention的效果。在5-shot MMLU上,Lizard比以往方法高出18个点。

简而言之,想用一个模型记住企业所有历史数据?那是跟O(n²)复杂度过不去。Harness里的RAG技术通过向量数据库实时检索最相关的上下文,用有限的窗口处理无限的知识,这才是工程学的智慧。

② 实时性与成本:KV Cache与异构并行的经济学

假如你查个天气都要动用千亿参数的Transformer跑一遍推理,成本得多高?

推理成本的核心瓶颈之一是KV Cache

在自回归解码中,每一步都要用到之前所有token的键值对,缓存大小随序列长度和并发数线性增长。

阿里云的Mooncake开源项目正是为了解决这个问题:以共享KVCache为中心,实现上下文复用与内存池化,避免重复计算。这套架构在真实业务中据说QPS提升超3倍,GPU利用率从不足40%提升至约75%,内存占用下降约40%(这里待大家自己适配后验证实际情况)。

PagedAttention则是另一种优化,借鉴操作系统的虚拟内存思想,将KV Cache分页管理,减少内存碎片,提升吞吐。

Harness体系里的“路由机制”正是基于这些底层优化:简单问题扔给轻量模型,复杂推理交给大模型,精确计算直接调传统API。让合适的模型干合适的事,边际成本才能降下来

③ 模型天生没手脚:Function Calling的概率性与确定性鸿沟

大模型本质是“概率预测器”,你让它生成JSON格式的API调用参数,它可能今天输出{ "city": "北京" },明天就输出{ city: "北京" }

生产环境的优化方案包括用流式XML替代Function Call。通过XML标签返回工具名和参数,将思考过程与工具推理步骤合并流式输出,既提升了用户体验,又规避了非所有模型都支持Tool Calls的问题。

更深层的架构是MCP(微服务通信协议)与LLM函数调用的结合

MCP作为服务注册与调度的中间层,维护所有可调用函数的注册信息,支持RoundRobin、Least Load、Cost-aware等多策略负载均衡。

LLM识别任务意图后,通过Function Router路由到最优服务实例,甚至支持异步并发调用和多结果融合。

Harness在这里扮演“翻译+校验+调度”:把用户意图转成严格的API调用,再把返回的确定性数据润色成自然语言。

④ 多模态只是“对齐”,不是“融合”:编码器解耦的硬核真相

现在的多模态模型看起来很牛,既能看图又能读文。但底层实现里,视觉编码器(如ViT)和文本解码器之间隔着巨大的工程鸿沟。

现代大型多模态模型(LMM)引入了一个独特瓶颈:在任何文本生成开始之前,所有图像必须由视觉编码器处理。

这个编码器阶段(计算密集、高并行度)与文本预填充(高内存带宽、大型GEMM)和解码(极度依赖内存带宽、序列化)的特征截然不同。

在同一GPU上运行三个阶段会导致根本性的效率低下。

解决方案是编码器解耦(Encoder Disaggregation)

  • 将视觉编码器分离为独立的可扩展服务
  • 请求N的编码器可以运行,而请求N-1已处于预填充或解码阶段——流水线并行
  • 纯文本请求完全绕过编码器,永不等待
  • 编码器GPU根据多模态图像量扩展,预填充/解码GPU根据请求率和输出长度扩展

编码器输出还可缓存复用,常用图像的嵌入只算一次,进一步降低首字延迟。

工程上更聪明的做法还是Harness架构:需要看图表时调专门的OCR模型,需要识图时调图像描述模型,最后把结果汇总给大模型。效果往往比一个模型硬啃像素更好。


03 Harness才是让AI落地的“定海神针”

RAG:向量数据库作为“外挂大脑”

RAG的核心流程是:检索-增强-生成。背后的核心技术是向量数据库:通过嵌入模型(如BGE、Sentence-BERT)将文本转化为高维向量,再用余弦相似度等算法实现语义级检索。与传统数据库的关键词匹配不同,向量检索能理解“苹果手机”和“iPhone”是同一回事。

索引算法如HNSW、IVF支持亿级向量的毫秒级检索。混合检索策略(向量+关键词)加上元数据过滤(如按更新时间筛选),再通过CrossEncoder重排,能显著提升检索精度。

Agent:复杂任务的规划与推理失衡矫正

举个简单的例子,“帮我订下周去巴黎的机票和酒店”。

Harness里的Agent框架(如ReAct模式)会把它拆成几步:查日历→查航班→比价→下单。每一步都能观察、能干预、能调试。

但生产环境中会遇到“推理失衡(Reasoning Miscalibration)”问题:模型在不关键的步骤上反复思考(过度思考Overthinking),在真正决定成败的步骤上一带而过(思考不足Underthinking)

最新研究提出了Plan-and-Budget框架BAM(Budget Allocation Model)。核心思想是:推理预算应该分配给那些一开始不确定性高、但又确实能通过思考被有效消除的步骤。通过规划拆解子问题,采用前置衰减的预算分配策略——早期关键步骤多分配token,后期确定步骤逐步减少。


04 未来格局:模型当内核,Harness做操作系统

总结下,或许未来的AI系统最终会是分层架构:

  • 底层(Model as Kernel):大模型像Linux内核一样,提供基础的推理、理解、生成能力。它会越来越通用、越来越便宜。“吃掉”的是过去需要多个小模型拼凑的泛化理解能力。
  • 上层(Harness as OS):在模型之上,是一套类似操作系统的Harness层,负责:
    • 内存管理:管理上下文窗口和KV Cache
    • 文件系统:对接外部的向量数据库
    • 设备驱动:通过MCP调用各种外部API和工具
    • 进程调度:协调多个Agent协同工作,实现Plan-and-Budget式的智能算力分配
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 石化人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 两种世界观:一个要统一宇宙,一个要搭建生态
  • 02 大模型单打独斗的天然短板
    • ① 上下文窗口限制与注意力机制的二次方诅咒
    • ② 实时性与成本:KV Cache与异构并行的经济学
    • ③ 模型天生没手脚:Function Calling的概率性与确定性鸿沟
    • ④ 多模态只是“对齐”,不是“融合”:编码器解耦的硬核真相
  • 03 Harness才是让AI落地的“定海神针”
    • RAG:向量数据库作为“外挂大脑”
    • Agent:复杂任务的规划与推理失衡矫正
  • 04 未来格局:模型当内核,Harness做操作系统
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档