DSpark不是什么新模型。但它可能比新模型更能帮你的AI应用省钱。
6月27日,DeepSeek联合北京大学开源了一个叫DSpark的推理加速框架。
没刷屏。大部分人的注意力还在GPT-5.6和Claude Tag上。
但如果你在做AI应用——不只是在用聊天框——DSpark可能是本周跟你关系最大的发布。
大模型生成文字的时候,默认是「一字一蹦」的——每生成一个字都要跑一遍完整的模型计算。对。一个字跑一遍。
你让模型写一段100字的回复,它跑100次完整计算。每次计算用到的GPU算力,跟只跑1个字是一样的。
这就是为什么大模型又慢又贵:它在做大量「无效计算」。就像你从北京开车到上海,每开一公里就停下来重新出发——不是车慢,是方式笨。
DSpark换了个思路。它用一个小模型先快速草稿一整套文字,然后交给大模型一次性校验:对的保留,错的重写。
这个思路不新——推测解码(Speculative Decoding)学术界研究了好几年。DSpark的创新在两点:
草稿质量更高:传统的推测解码,小模型草稿经常打偏,大模型校验完发现大半要重写——白忙一场。DSpark在一个并行主干网上加了轻量级顺序模块,让草稿的上下文更连贯。草稿打准了,大模型校验的工作量就少了。
动态调度:DSpark会实时评估每个候选词的「靠谱度」。靠谱的直接过,不靠谱的才让大模型接手。不是一刀切。
结果:生成速度提升60%-85%。同等硬件下吞吐量最高翻四倍。
第一类:做AI聊天产品的
如果你的产品背后接了大模型API(ChatGPT、DeepSeek、豆包等),用户发一条消息等3-5秒才回复——这个体验差了一口。DSpark把响应降到1-2秒,用户不焦虑了。而且你不需要换硬件、不需要买更多GPU。
对中小团队来说,这不只是「快一点」,是「能不能留住用户」的差别。
第二类:跑批量任务的
比如用AI批量生成SEO文章、批量翻译、批量写代码。以前跑100条要10分钟。现在可能5-6分钟。时间就是算力,算力就是钱。
第三类:自己在服务器上跑开源模型的
如果你在用llama.cpp或vLLM部署开源模型,DSpark的技术思路可以整合进你的推理管线。它是开源框架,代码在GitHub上。
⚠️DSpark技术参数来自开源仓库文档和官方公告,非一手实测。
DSpark这件事,比DSpark本身更值得注意的,是开源方的选择。
DeepSeek这次没有发布新模型。它发布了一个让「所有模型」都能更快运行的框架。
这个动作透露出一个趋势:模型之间的能力差在缩小。但模型「怎么用」的成本差在拉开。
以后重要的不是你有哪个模型。是你用那个模型花了多少钱。
这对于做AI应用的创业者来说是一个好消息——模型的算力成本在降低,你的利润率在提升。
DSpark虽然开源了,但它不是「装上去就能用」的插件。它需要整合进你的推理管线——这意味着你需要有后端工程师或者至少自己会折腾部署。
如果你只是用ChatGPT网页版聊天,DSpark跟你没关系。
但如果你在做一个把AI能力嵌入产品的应用——不管是聊天、写作、翻译还是代码生成——你可以开始关注推理加速这个方向了。它是未来12个月里最确定的一个「降本」路径。
袁锐钦 · AI产品实操 & 出海工具站日更中。做产品、测工具、跑变现,把试过的路摊开给你看。