把模型“刻”在芯片上，定制ASIC芯片跑出17000tps的逆天速度

不二小段

发布于 2026-04-09 19:27:03

1940

导读：大模型推理速度受限于“内存墙”的硬件限制，那有没有可能，直接把模型这个“软件”，变成硬件本身？也许AI推理的最终答案不是更强的通用GPU，甚至不是谷歌TPU或者groq LPU，而是为每一个成熟模型量身定制的“一次性”专用芯片（ASIC）。

最近，一家练习时长两年半的初创公司 Taalas，发布了一个大模型对话的演示应用 ChatJimmy。按理说，在今天，这样的对话应用并不会掀起什么波澜，要么是模型变强了，要么是Agent概念吹得更大了。

但这次好像的确不太一样，因为 ChatJimmy 的输出速度，超过了 15000 tokens/s。

你可以自己去体验一下，怎么说呢，如果不是我亲自测试了不同的 Prompt，我一定会以为这是提前缓存好的答案。刚按下回车，一整段回答就完成出现在屏幕上，这种几乎零延迟的瞬时响应，彻底颠覆了过去三年大模型流式输出那种，一个字一个字往外蹦的交互体验。

当然，这个对话应用运行的只是 Llama 3.1 8B 模型，为了追求极致速度，团队甚至进行了 3-bit 量化。但你先别管回答的对不对，你就说回答得快不快吧。

Taalas用自己的定制芯片，做到了极致的快，这本身就是一种秀肌肉，而无关模型是否聪明。根据官方数字，这颗芯片能跑出 16960 tokens/s 的速度。

Taalas甚至还宣称，他们的方案不仅速度快，而且制造成本降低了20倍，功耗也减少了10倍。

怎么可能？怎么做到的？

答案是：把模型直接“刻”在芯片上”。

模型就是计算机

Taalas的官网首页，用一句话概括了他们的哲学：“The Model is The Computer”（模型就是计算机）。这不是比喻，而是对他们技术路径最直接的描述。

GPU的工作方式是，从存储单元（比如高速带宽内存HBM）中把模型参数（权重）和输入数据加载到计算单元（CUDA核心）里，进行矩阵乘法等运算，然后把结果写回存储单元。

无论再强大再先进的GPU，依然遵循冯·诺依曼架构，本质是一台通用计算机。

但在推理时代，这个“取数-计算-存数”的循环，成为了GPU最大的瓶颈。数据在存储和计算单元之间的来回搬运，消耗了大量的时间和能源，遇到了所谓的“内存墙”或“存储墙”问题。

为了缓解这个问题，英伟达等公司尝试了各种办法：开发更快的HBM、用先进封装技术把内存和计算芯片堆叠在一起、增加I/O带宽。这使得GPU系统变得异常复杂、昂贵，且功耗巨大，需要液冷降温。

传统的优化方式，主要解决的就是“搬数据”的问题，但提高了整个系统的成本和复杂性。

Taalas的思路是：能不能干脆不要“搬数据”了？

他们的做法是“完全特化”。他们不再把模型参数当作需要从内存中读取的“数据”，而是通过光刻工艺，将这些参数（权重）直接固化在硅片上，成为电路的一部分。

模型不再是运行在计算机上的软件，模型的结构和权重本身，就构成了这台专用计算机的物理形态。

这种设计带来了几个革命性的改变：

第一，彻底消除了计算与存储的边界。当权重本身就是电路时，“内存墙”自然就消失了。数据的移动被最小化，计算效率和能效比得到了数量级的提升。

第二，系统的极度简化。因为不再需要昂贵且复杂的HBM、先进封装、3D堆叠、高速I/O和液冷系统，整个硬件栈都可以从根本上重新设计。Taalas宣称，这种简化使得系统总成本降低了一个数量级。

第三，极致的性能。因为芯片的每一个晶体管都是为了这个特定模型的特定运算而设计，没有任何冗余和通用性开销，所以能达到惊人的推理速度。

说白了，Taalas做的不是一台能跑各种AI模型的通用电脑，而是为Llama 3.1 8B这个模型，造了一台“Llama 3.1 8B专用机”。这台机器除了运行这个模型，什么也干不了。它牺牲了通用性，换来了在特定任务上最极致的效率。

为每个模型定制芯片的经济账和时间账

这种极端特化的思路听起来很疯狂。AI模型日新月异，今天把一个模型刻在芯片上，明天模型一更新，这块昂贵的芯片不就成了“电子垃圾”？这种“一次性”的芯片，真的有市场吗？

风投机构a16z的合伙人Martin Casado基于“定制ASIC理论”，算了一笔经济账。逻辑很简单：

现在普遍认为，一个顶级大模型的研发成本已经进入了“十亿美金俱乐部”。如果一个模型的训练成本是10亿美元，那么为了让这个投资能够回本，其后续的推理服务所产生的总成本，必然要超过10亿美元。否则，这个模型在商业上就是不可持续的。

现在假设，通过使用为这个模型定制的ASIC芯片，我们可以节省20%的推理成本。对于一个总成本超过10亿美金的推理市场来说，20%就是2亿美元。

而用先进制程“流片”一款定制芯片的成本，恰好也在2亿美元这个数量级。

这意味着，纯粹从经济角度看，当一个模型的规模和应用广度达到一定程度时，花费2亿美元为它专门设计并制造一款推理芯片，仅仅通过节省下来的推理成本，就能完全覆盖掉芯片的研发和制造成本。

Martin甚至认为，20%的节省都是一个保守的数字。Taalas的数据也印证了这一点，他们宣称的成本节省远不止20%。用ASIC替代GPU，推理效率提升一倍（即成本降低50%）是完全可能的。

这意味着，一个10亿美元的推理市场，可以节省出5亿美元，这笔钱足够你流片两款不同的芯片了。

这个经济模型彻底改变了我们对“一次性”芯片的看法。它是浪费的代名词，而是一种在超大规模应用下的极致成本优化手段。

如果仅从 token 经济学上分析可行的话，那这里的关键瓶颈，就是时间。换句话说，研发专用芯片的速度，能不能赶得上新模型研发并用于推理市场的窗口期。

Taalas声称他们能将“从接收一个新模型到硬件实现”的时间压缩到短短两个月。这个说法引起了业界普遍的怀疑，因为传统的芯片设计和制造周期远比这要长，而且他们本次演示使用的Llama 3.1是2024年8月发布的模型，如果他们真的有能力把定制芯片的时间压缩到两个月，那为什么不演示最新的模型？

但不论怎么说，Taalas已经初步验证了专用ASIC的潜力。剩下的问题，就是如何将AI模型快速“编译”成硬件描述语言，用最短时间完成设计、验证、流片。

如果“Taalas Foundry”真的能解决这个“模型到芯片”的快速工程化问题，将真正对英伟达构成巨大威胁。

新计算范式开启的可能性

如果“为模型定制芯片”在经济上、时间上真的可行，那将开启全新的可能性。这不仅仅是让现有的AI应用变得更快、更便宜，更重要的是，它将催生出目前我们因性能和成本限制而无法想象的新物种。

第一，Agentic AI应用的爆发。

目前，我们所设想的能够自主思考、规划、执行复杂任务的AI智能体，一个限制就是交互延迟。当一个Agent需要进行多步推理、调用工具、自我反思和修正时，每一步都需要和模型进行交互。在当前的技术下，一个复杂的任务链可能需要几十秒甚至数分钟才能完成，这在很多实时场景下是不可接受的。

但如果每一次模型交互的延迟都从几百毫秒降低到几毫秒，情况就完全不同了。我们可以在一秒钟内完成数百次的“思考-行动”循环。开发者可以设计出更复杂的AI工作流，比如并行探索多种解决方案的“思维树”，或者用试错和迭代的方式暴力搜索正确答案。

当试错成本趋近于零时，AI解决问题的方式将从一次性的“精确生成”变为大规模的“搜索与验证”，这在处理代码生成、数学证明、科学探索等复杂问题上，可能是通往更高智能水平的有效路径。

第二，真正实现“无处不在的AI”。

Taalas将他们的技术与晶体管的发明相类比。当年的ENIAC是充满整个房间的庞然大物，昂贵且笨重。晶体管的出现，才使得计算设备能够小型化、廉价化，最终进入个人电脑和智能手机，实现了计算能力的普及。

AI也正走在相似的道路上。今天，我们依赖于城市规模的数据中心和邻近的发电厂来提供AI服务，这在长远来看是不可持续的。Taalas展示的路径，通过将模型固化在硬件中，大幅降低了对复杂基础设施的依赖。

这指明了一个方向：未来，当模型架构趋于稳定，可能会出现针对特定任务（如语音识别、图像分类、本地助理）的、功耗极低的专用AI芯片。这些芯片可以被集成到手机、汽车、机器人甚至家用电器中，让强大的AI能力以极低的成本和能耗在本地运行，不再依赖云端。

更何况，随着高质量训练数据逐渐用尽，模型能力提升的边际效益越来越小，顶尖模型的生命周期会被大大延长，为一款模型定制专用硬件，也许真的会是一条可行的道路。

小结：从通用到专用的必然

回顾计算历史，一个反复出现的模式是：当某一种计算任务变得足够重要、足够普遍、且其核心算法足够稳定时，从通用硬件（CPU/GPU）转向专用硬件（ASIC）就成为一个必然的趋势。

AI推理，无疑是人类有史以来面临的最重要、计算量最大的工作负载。目前，由于模型架构仍在快速演进，通用GPU凭借其灵活性占据了主导地位。但随着Transformer等核心架构的逐渐成熟和标准化，为“好用但已不再是最新”的成熟模型定制ASIC，以换取10倍甚至100倍的效率提升，将变得越来越有吸引力。

从这个角度看，Taalas不是一个偶然的技术奇点，而是这一历史趋势的必然方向。

未来几年，AI硬件市场很可能会出现明显的分化：一端是英伟达等巨头主导的通用计算，继续为模型训练和需要极致灵活性的前沿推理提供算力；另一端，则是像Taalas这样的挑战者，为那些已经“足够好”、用量巨大的成熟模型提供极致性价比的专用推理芯片。

一个模型训练出来，经过市场验证，拥有了庞大的用户群和稳定的应用场景，然后就像“刻光盘”一样，被“刻录”到专门的芯片上，以极低的成本大规模分发其推理能力。

我们正在见证AI从“软件模拟”到“硬件原生”的范式转移。现在这听起来好像还不太靠谱，但Taalas和背后的经济逻辑告诉我们，这可能就是AI推理走向普及的必经之路。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-02-21，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度