首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >把模型“刻”在芯片上,定制ASIC芯片跑出17000tps的逆天速度

把模型“刻”在芯片上,定制ASIC芯片跑出17000tps的逆天速度

作者头像
不二小段
发布2026-04-09 19:27:03
发布2026-04-09 19:27:03
1940
举报
文章被收录于专栏:不二小段不二小段

导读:大模型推理速度受限于“内存墙”的硬件限制,那有没有可能,直接把模型这个“软件”,变成硬件本身?也许AI推理的最终答案不是更强的通用GPU,甚至不是谷歌TPU或者groq LPU,而是为每一个成熟模型量身定制的“一次性”专用芯片(ASIC)。


最近,一家练习时长两年半的初创公司 Taalas,发布了一个大模型对话的演示应用 ChatJimmy。按理说,在今天,这样的对话应用并不会掀起什么波澜,要么是模型变强了,要么是Agent概念吹得更大了。

但这次好像的确不太一样,因为 ChatJimmy 的输出速度,超过了 15000 tokens/s。

你可以自己去体验一下,怎么说呢,如果不是我亲自测试了不同的 Prompt,我一定会以为这是提前缓存好的答案。刚按下回车,一整段回答就完成出现在屏幕上,这种几乎零延迟的瞬时响应,彻底颠覆了过去三年大模型流式输出那种,一个字一个字往外蹦的交互体验。

当然,这个对话应用运行的只是 Llama 3.1 8B 模型,为了追求极致速度,团队甚至进行了 3-bit 量化。但你先别管回答的对不对,你就说回答得快不快吧。

Taalas用自己的定制芯片,做到了极致的快,这本身就是一种秀肌肉,而无关模型是否聪明。根据官方数字,这颗芯片能跑出 16960 tokens/s 的速度。

Taalas甚至还宣称,他们的方案不仅速度快,而且制造成本降低了20倍,功耗也减少了10倍。

怎么可能?怎么做到的?

答案是:把模型直接“刻”在芯片上”。

模型就是计算机

Taalas的官网首页,用一句话概括了他们的哲学:“The Model is The Computer”(模型就是计算机)。这不是比喻,而是对他们技术路径最直接的描述。

GPU的工作方式是,从存储单元(比如高速带宽内存HBM)中把模型参数(权重)和输入数据加载到计算单元(CUDA核心)里,进行矩阵乘法等运算,然后把结果写回存储单元。

无论再强大再先进的GPU,依然遵循冯·诺依曼架构,本质是一台通用计算机。

但在推理时代,这个“取数-计算-存数”的循环,成为了GPU最大的瓶颈。数据在存储和计算单元之间的来回搬运,消耗了大量的时间和能源,遇到了所谓的“内存墙”或“存储墙”问题。

为了缓解这个问题,英伟达等公司尝试了各种办法:开发更快的HBM、用先进封装技术把内存和计算芯片堆叠在一起、增加I/O带宽。这使得GPU系统变得异常复杂、昂贵,且功耗巨大,需要液冷降温。

传统的优化方式,主要解决的就是“搬数据”的问题,但提高了整个系统的成本和复杂性。

Taalas的思路是:能不能干脆不要“搬数据”了?

他们的做法是“完全特化”。他们不再把模型参数当作需要从内存中读取的“数据”,而是通过光刻工艺,将这些参数(权重)直接固化在硅片上,成为电路的一部分。

模型不再是运行在计算机上的软件,模型的结构和权重本身,就构成了这台专用计算机的物理形态。

这种设计带来了几个革命性的改变:

第一,彻底消除了计算与存储的边界。当权重本身就是电路时,“内存墙”自然就消失了。数据的移动被最小化,计算效率和能效比得到了数量级的提升。

第二,系统的极度简化。因为不再需要昂贵且复杂的HBM、先进封装、3D堆叠、高速I/O和液冷系统,整个硬件栈都可以从根本上重新设计。Taalas宣称,这种简化使得系统总成本降低了一个数量级。

第三,极致的性能。因为芯片的每一个晶体管都是为了这个特定模型的特定运算而设计,没有任何冗余和通用性开销,所以能达到惊人的推理速度。

说白了,Taalas做的不是一台能跑各种AI模型的通用电脑,而是为Llama 3.1 8B这个模型,造了一台“Llama 3.1 8B专用机”。这台机器除了运行这个模型,什么也干不了。它牺牲了通用性,换来了在特定任务上最极致的效率。

为每个模型定制芯片的经济账和时间账

这种极端特化的思路听起来很疯狂。AI模型日新月异,今天把一个模型刻在芯片上,明天模型一更新,这块昂贵的芯片不就成了“电子垃圾”?这种“一次性”的芯片,真的有市场吗?

风投机构a16z的合伙人Martin Casado基于“定制ASIC理论”,算了一笔经济账。逻辑很简单:

现在普遍认为,一个顶级大模型的研发成本已经进入了“十亿美金俱乐部”。如果一个模型的训练成本是10亿美元,那么为了让这个投资能够回本,其后续的推理服务所产生的总成本,必然要超过10亿美元。否则,这个模型在商业上就是不可持续的。

现在假设,通过使用为这个模型定制的ASIC芯片,我们可以节省20%的推理成本。对于一个总成本超过10亿美金的推理市场来说,20%就是2亿美元。

而用先进制程“流片”一款定制芯片的成本,恰好也在2亿美元这个数量级。

这意味着,纯粹从经济角度看,当一个模型的规模和应用广度达到一定程度时,花费2亿美元为它专门设计并制造一款推理芯片,仅仅通过节省下来的推理成本,就能完全覆盖掉芯片的研发和制造成本。

Martin甚至认为,20%的节省都是一个保守的数字。Taalas的数据也印证了这一点,他们宣称的成本节省远不止20%。用ASIC替代GPU,推理效率提升一倍(即成本降低50%)是完全可能的。

这意味着,一个10亿美元的推理市场,可以节省出5亿美元,这笔钱足够你流片两款不同的芯片了。

这个经济模型彻底改变了我们对“一次性”芯片的看法。它是浪费的代名词,而是一种在超大规模应用下的极致成本优化手段。

如果仅从 token 经济学上分析可行的话,那这里的关键瓶颈,就是时间。换句话说,研发专用芯片的速度,能不能赶得上新模型研发并用于推理市场的窗口期。

Taalas声称他们能将“从接收一个新模型到硬件实现”的时间压缩到短短两个月。这个说法引起了业界普遍的怀疑,因为传统的芯片设计和制造周期远比这要长,而且他们本次演示使用的Llama 3.1是2024年8月发布的模型,如果他们真的有能力把定制芯片的时间压缩到两个月,那为什么不演示最新的模型?

但不论怎么说,Taalas已经初步验证了专用ASIC的潜力。剩下的问题,就是如何将AI模型快速“编译”成硬件描述语言,用最短时间完成设计、验证、流片。

如果“Taalas Foundry”真的能解决这个“模型到芯片”的快速工程化问题,将真正对英伟达构成巨大威胁。

新计算范式开启的可能性

如果“为模型定制芯片”在经济上、时间上真的可行,那将开启全新的可能性。这不仅仅是让现有的AI应用变得更快、更便宜,更重要的是,它将催生出目前我们因性能和成本限制而无法想象的新物种。

第一,Agentic AI应用的爆发。

目前,我们所设想的能够自主思考、规划、执行复杂任务的AI智能体,一个限制就是交互延迟。当一个Agent需要进行多步推理、调用工具、自我反思和修正时,每一步都需要和模型进行交互。在当前的技术下,一个复杂的任务链可能需要几十秒甚至数分钟才能完成,这在很多实时场景下是不可接受的。

但如果每一次模型交互的延迟都从几百毫秒降低到几毫秒,情况就完全不同了。我们可以在一秒钟内完成数百次的“思考-行动”循环。开发者可以设计出更复杂的AI工作流,比如并行探索多种解决方案的“思维树”,或者用试错和迭代的方式暴力搜索正确答案。

当试错成本趋近于零时,AI解决问题的方式将从一次性的“精确生成”变为大规模的“搜索与验证”,这在处理代码生成、数学证明、科学探索等复杂问题上,可能是通往更高智能水平的有效路径。

第二,真正实现“无处不在的AI”。

Taalas将他们的技术与晶体管的发明相类比。当年的ENIAC是充满整个房间的庞然大物,昂贵且笨重。晶体管的出现,才使得计算设备能够小型化、廉价化,最终进入个人电脑和智能手机,实现了计算能力的普及。

AI也正走在相似的道路上。今天,我们依赖于城市规模的数据中心和邻近的发电厂来提供AI服务,这在长远来看是不可持续的。Taalas展示的路径,通过将模型固化在硬件中,大幅降低了对复杂基础设施的依赖。

这指明了一个方向:未来,当模型架构趋于稳定,可能会出现针对特定任务(如语音识别、图像分类、本地助理)的、功耗极低的专用AI芯片。这些芯片可以被集成到手机、汽车、机器人甚至家用电器中,让强大的AI能力以极低的成本和能耗在本地运行,不再依赖云端。

更何况,随着高质量训练数据逐渐用尽,模型能力提升的边际效益越来越小,顶尖模型的生命周期会被大大延长,为一款模型定制专用硬件,也许真的会是一条可行的道路。

小结:从通用到专用的必然

回顾计算历史,一个反复出现的模式是:当某一种计算任务变得足够重要、足够普遍、且其核心算法足够稳定时,从通用硬件(CPU/GPU)转向专用硬件(ASIC)就成为一个必然的趋势。

AI推理,无疑是人类有史以来面临的最重要、计算量最大的工作负载。目前,由于模型架构仍在快速演进,通用GPU凭借其灵活性占据了主导地位。但随着Transformer等核心架构的逐渐成熟和标准化,为“好用但已不再是最新”的成熟模型定制ASIC,以换取10倍甚至100倍的效率提升,将变得越来越有吸引力。

从这个角度看,Taalas不是一个偶然的技术奇点,而是这一历史趋势的必然方向。

未来几年,AI硬件市场很可能会出现明显的分化:一端是英伟达等巨头主导的通用计算,继续为模型训练和需要极致灵活性的前沿推理提供算力;另一端,则是像Taalas这样的挑战者,为那些已经“足够好”、用量巨大的成熟模型提供极致性价比的专用推理芯片。

一个模型训练出来,经过市场验证,拥有了庞大的用户群和稳定的应用场景,然后就像“刻光盘”一样,被“刻录”到专门的芯片上,以极低的成本大规模分发其推理能力。

我们正在见证AI从“软件模拟”到“硬件原生”的范式转移。现在这听起来好像还不太靠谱,但Taalas和背后的经济逻辑告诉我们,这可能就是AI推理走向普及的必经之路。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 模型就是计算机
  • 为每个模型定制芯片的经济账和时间账
  • 新计算范式开启的可能性
  • 小结:从通用到专用的必然
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档