随着企业从试验大语言模型转向面向客户的正式部署,越来越多的企业选择将模型部署在本地,以实现对整个技术栈的完全掌控。在这种主权化部署模式下,AI工作负载运行在企业自有或从云服务商租用的硬件上。
将数据与模型保留在本地有诸多优势:企业可以更好地掌控性能表现,降低数据泄露和安全漏洞的风险,同时也能在AI应用需求持续攀升的背景下有效控制成本。生成式AI面临的两大主要瓶颈——高内存需求与GPU利用率低下——会随着部署规模的扩大拖慢服务速度并推高运营成本。
正是基于这一背景,开源社区构建了llm-d,用于编排vLLM和SGLang等高性能推理引擎,以应对大规模推理场景下的资源约束。通过高效分发推理请求,llm-d旨在帮助企业和云服务商在控制成本的同时服务更多用户。
llm-d的核心是一个缓存感知路由器,它能将传入请求转发给最有可能在键值(KV)缓存中保存预计算数据的vLLM实例。此外,它还将提示处理阶段(prefill)与文本生成阶段(decoding)分离,使两者能够在各自专属的硬件资源池上分别进行优化。
从设计层面来看,llm-d支持在同一生产集群中混合运行来自不同厂商的GPU,企业可以将较旧或低成本的硬件用于低优先级任务,同时将最昂贵的硬件保留给关键工作负载。
然而在实践中,将来自不同厂商的GPU整合成一个协调统一的服务层面临诸多技术挑战,包括协调差异化的驱动栈与容器运行时,以及如何在不违反延迟服务级别协议(SLO)的前提下优雅地迁移和重新调度进行中的请求。
IBM Research、Red Hat与印度领先的主权云服务商NxtGen Cloud Technologies近期携手合作,对llm-d进行了重新配置,以提升其在混合GPU集群上的性能表现。
通过在NxtGen主权云上开展的一系列实验,研究人员发现,与不使用llm-d的情况相比,llm-d能让IBM Granite和Sarvam AI模型在多元化硬件上的运行速度提升3至5倍,潜在服务用户数量提升至原来的2倍。
这些实验或许是首批证明llm-d在异构硬件上既能提升客户服务质量、又能帮助企业节省成本的研究。尽管测试地点选在印度,研究人员表示,在其他任何大规模开源部署场景下,预计也能获得类似结果。
IBM Research混合云与AI平台副总裁Priya Nagpurkar表示:"llm-d原生于Kubernetes的控制平面,能够在各类加速器之间实现更高吞吐量、更低延迟和更优的基础设施利用率,使企业和主权云服务商得以充分利用现有基础设施。这种开放的云原生方式能够提供控制成本所需的规模弹性。"
KV缓存感知路由的优势
大语言模型工作负载通常包含跨用户或跨会话的重复内容。在传统Kubernetes配置下,请求以轮询方式分发到各个Pod,常常落在没有缓存对应前缀状态的实例上。KV缓存因此不得不在每个节点上重新构建,造成大量冗余计算。
相比之下,llm-d配备了硬件无关的路由器,能够在多节点集群中定位到此前已计算的缓存内容。它实时追踪每个vLLM实例的KV缓存状态,将传入请求路由至内存中最有可能保存匹配提示前缀的实例,无论该前缀最初由哪种加速器处理。
研究人员发现,在响应时间(以吞吐量衡量)和首Token时间(TTFT,即用户提交提示后收到第一个Token所需的时间)两项指标上,llm-d的表现均持续优于传统Kubernetes配置。
在传统Kubernetes配置中,请求被均匀分配,导致较慢的GPU拖累整体吞吐量。而llm-d的前缀缓存感知路由器能够将缓存命中的请求转发至空闲Pod,从而提升整体处理能力。
在一个由20个GPU Pod组成、横跨三家不同厂商的集群中,传统Kubernetes配置在中等流量下峰值输出约为每秒9,600个Token,随着负载增加降至每秒7,500个Token。而使用llm-d后,同样的异构Pod在高负载下能够达到每秒14,200个Token,响应时间缩短近半分钟。
显著的成本节约潜力
llm-d带来的响应时间与吞吐量提升,可以转化为切实可观的成本节约。研究人员测算,以每小时3美元的GPU保守成本计算,使用vLLM和llm-d同时为1,000名用户提供Sarvam-30B模型服务,每年平均可节省高达525万美元。
对于企业而言,核心价值在于:部署llm-d后,服务用户数量最多可提升至原来的2倍,响应速度提升3至5倍。研究人员已在llm-d社区技术博客中详细阐述了相关实验细节。
llm-d社区计划进一步优化路由机制:例如,将计算密集型的预填充任务发送至某一厂商的GPU节点,而将内存密集型的解码任务交由另一厂商的节点处理。要实现这一功能,KV缓存传输库需要与各GPU后端保持兼容。
数据驻留要求及其他监管合规需求使本地AI部署对部分企业更具吸引力,但从商业价值角度来看,主权AI与掌控技术栈同样具有充分的理由。
经过合理配置,llm-d可以提升服务容量、减少不必要的支出。企业无需购置最新、最昂贵的硬件,而是可以将AI工作负载分散部署在多种GPU上,包括现有的存量设备。用户也能从中受益,获得更快速的响应与解决方案。
NxtGen董事总经理兼首席执行官A. S. Rajgopal表示:"此次基准测试充分展示了印度主权基础设施与世界级开源创新相结合的巨大潜力。llm-d相较于传统Kubernetes配置的显著优势,验证了我们所选择的发展方向。"
Red Hat亚太区首席技术官Vincent Caldeira表示,这是开源协作帮助企业创造价值、避免厂商锁定的又一典范。他说:"借助llm-d的社区驱动架构,印度企业现在可以将多厂商的异构硬件池统一整合起来。"
Q&A
Q1:llm-d是什么?它主要解决什么问题?
A:llm-d是一个由开源社区构建的推理编排框架,用于协调vLLM、SGLang等高性能推理引擎。它主要解决大语言模型在大规模部署时面临的两大瓶颈:高内存需求和GPU利用率低下。通过缓存感知路由和预填充/解码阶段分离,llm-d能帮助企业在混合GPU集群上提升吞吐量、降低延迟,同时控制运营成本。
Q2:llm-d在混合GPU集群上的实际性能提升有多大?
A:根据IBM Research、Red Hat和NxtGen Cloud Technologies在印度主权云上的实验,在由20个GPU Pod组成、跨越三家不同厂商的集群中,传统Kubernetes配置峰值吞吐量约为每秒9,600个Token,而使用llm-d后可达每秒14,200个Token,响应时间缩短近半分钟。总体而言,llm-d可让模型运行速度提升3至5倍,潜在服务用户数量提升至原来的2倍。
Q3:使用llm-d能节省多少成本?
A:研究人员测算,以每小时3美元的GPU成本为基准,使用vLLM和llm-d同时为1,000名用户提供Sarvam-30B模型服务,每年平均可节省高达525万美元。此外,企业无需购置最新最贵的硬件,可以充分利用现有的存量GPU设备,进一步降低硬件采购成本。