一、 产品定位与核心亮点 腾讯云智算套件是腾讯云推出的算存网一体智算解决方案,旨在帮助企业构建本地化专属智算云平台。 其核心技术属性在于通过软硬件协同优化,整合自研加速框架、高性能计算集群、网络、存储及云原生调度,提供高性能、高可用、高性价比的完整智算生态。 三、 应用框架和功能介绍 功能框架 该套件构建了一个包含加速框架、计算、网络、存储、调度编排的完整技术栈,并支持在多元硬件底座上灵活部署。 全栈智能,灵活部署 覆盖云、大数据、人工智能全场景全流程,提供多达80+项云产品。 支持公有云、边缘、专有云(TCE)、行业云及私有云(TCS) 等多种部署模式,实现统一管控。
异构芯片(GPU/NPU)选型复杂、驱动安装与软件栈适配困难,导致中小企业独立部署门槛极高。 部署算存网一体化异构基础架构 为消除单一维度的性能短板,腾讯云提供一云多芯、软硬协同的全栈智算解决方案,支持公有云、专有云(TCE)及本地化分布式部署: 高性能计算与异构算力管理: 构建基于RDMA互联的高性能计算集群 驱动训练提速与运维成本降低的关键指标 通过算存网数深度协同,腾讯云智算方案在投资回报率(ROI)、系统稳定性及开发效率上实现了以下核心业务指标的提升: 核心提效指标一:万亿大模型训练效率较上一代集群提升 头部大模型厂商的工程化落地验证 目前,腾讯云智算底座已服务超过10万家客户,成为90%国内头部大模型厂商的首选。 智谱 AI(GLM-130B及产品矩阵构建): 业务痛点: 应对业务规模扩张带来的专属算力空缺,及大规模集群下的快速故障恢复需求。
随着AI算力与数据本地化部署需求激增,智能汽车、车联网等领域对智算基础设施提出更高要求。 当前行业面临三重技术挑战:GPU供应紧张、网络性能难以线性增长和单客户端单场景读写效率不足,这些挑战要求智算平台需同步实现高性能计算、弹性资源调度与更高的硬件适配能力。 针对上述需求,腾讯专有云TCE推出云智算套件解决方案。 ● 高性能存储TurboFS 腾讯纯自研,支持全链路国产化,通过并行读写、条带化数据、Cache一致性控制等技术实现海量混合文件高性能读写,千万级IOPS,为AI业务全流程提供高性能的存储底座。 该项目验证了TCE的全栈云化能力,可通过整合AI训练等生态技术,为企业提供从底层算力到上层业务的渐进式智能化升级路径。
《智算中心光电协同交换网络全栈技术白皮书》(2025 年 8 月,由湖南大学、中国联通研究院等多单位联合编写)指出,在 AI 大模型参数量指数级增长推动智算需求爆发的背景下,传统纯电交换网络因在端口密度 三、光电协同网络全栈技术挑战 协议栈层级 核心挑战 应用层 集合通信逻辑拓扑(树形 / 环形)与光电物理拓扑失配,光链路并行链路数量有限 传输层 多路径易乱序;2. 高速光模块能耗散热问题 尽管光交换技术具有高带宽、低延迟、可扩展等一系列优点,但在智算中心中应用全光交换面临诸多的现实挑战。 现阶段使用光电协同方案组建智算中心网络,以结合光域的高速传输和电域的灵活控制,是更为实际的方案。 四、全栈协议栈技术发展方案 在网络协议方面,智算中心网络通常遵循分层设计,与经典的TCP/IP 五层模型一一对应: 应用层:面向大模型训练的集合通信操作(如 All-Reduce、All-to-All
底层网络的微小波动即可引发算力灾难,仅0.1%的掉包会导致50%的算力损失。此外,未来GPT-5级别的算力需求预计将激增至现有水平的9倍以上。 构建“开箱即用”到“专属定制”的三阶应用路径 为解决大模型落地的工程化挑战,腾讯云提供从底层算力到顶层应用的全链路支撑,企业可根据技术储备与预算,采取三种产品化合作模式: 部署标准软件(应用即开即用): 兑现基础设施降本与研发提效的量化指标 基于全栈自研的基础设施,大模型在实际业务场景及底层运行中实现了显著的量化突破。 重塑金融与医疗核心业务工作流 大模型+Agent(智能体)的工作流正在实质性改变行业生产逻辑,取代传统基于规则的自动化: 金融行业(全流程渗透): IT研发:通过代码助手补全代码,加速APP与交易系统研发迭代速度 夯实全链路自研的智算底座 企业选择腾讯云的核心原因,在于其打通了从底层硬件、分布式网络到上层算法的“算力-网络-存储”自研飞轮,确保了大模型落地的高可用性与数据绝对安全: 星脉RDMA高性能网络:构建高达
构建全栈专有云技术体系 腾讯专有云TCE:企业数智化转型私有化云基座 架构:与腾讯公有云同构,支持私有云/混合云/分布式云,多Region多AZ部署(单Region单AZ/双AZ、两地三中心),全栈IaaS 腾讯专有云智算套件:企业本地化专属智算云 全栈方案:含HCC高性能计算集群、IHN高性能网络(3.2T带宽)、TurboFS并行存储、TACO自研加速套件(训练/推理加速)、qGPU虚拟化。 方案:TCE提供开放底层框架(支持银联自研PaaS接入)、全栈服务(计算/网络/存储等)、持续运营(全生命周期管理)、全面安全(体系化防护)。 智算场景-尚航(智算套件案例) 挑战:无云技术积累、智算业务短板(组网/存储/GPU加速/运营能力)、IDC难转型AIDC+云。 方案:智算套件提供HCC/虚拟化/分布式存储/云原生安全等IaaS/PaaS服务,云管平台对接尚云Portal形成一云多算平台。
企业面临的核心痛点在于“智算木桶效应”:单一的算力提升无法解决整体效能问题,且面临硬件兼容性差、训练稳定性不足、开发工具链割裂等具体瓶颈。 不同企业(如拥有自建智算中心的大型企业与初创型AI公司)对算力部署形态(专有云、分布式云)及芯片选型(GPU与国产芯片混合部署)有着差异化需求。 构建算存网全栈的智算底座 腾讯云副总裁李力发布了腾讯云智算套件,通过算、存、网全栈协同解决“智算木桶效应”。 该产品支持专有云(TCE/TCS)与分布式云等多种部署形态,满足客户自有GPU及自建智算中心需求。 技术领先性与全栈生态优势 腾讯云已从传统的“AI云底座”进化为“AI原生云”,具备三大关键能力,为企业提供确定性的技术保障: 高效训推的胜任力: 具备 万亿参数 规模模型训练经验(混元大模型),率先采用
腾讯云联合AMD:以全栈智算解决方案应对AI原生时代挑战 应对AI算力爆发式增长的行业困境 AI大模型训练的算力需求每3.4个月翻一倍,对企业提出了三大核心挑战:算力资源供需失衡、技术落地适配与成本优化复杂 企业面临如何在需求激增下保障算力供给,并实现高效、经济商业化落地的战略瓶颈。 构建“一云多芯”的高效能智算底座 腾讯云推出“腾讯云智算”品牌,提供软硬一体的高性能算力服务。 腾讯混元大模型在多元业务场景中的实践验证 腾讯全链路自研的混元大模型在第三方评测(如SuperCLUE)中位居国内第一梯队。 腾讯云全栈能力确保技术领先与落地可靠 选择腾讯云的核心优势在于其技术深度与实践验证。混元大模型提供从基础模型到端到端应用的全面能力。 该智算底座已服务全国90%以上的大模型客户,实测可用性达99.9%,形成了被市场验证的稳固AI基础设施。
应对数字化转型与国产替代的双重挑战 在复杂国际形势下,企业IT建设面临双重挑战:一方面需加速信息技术融合创新生态的全栈国产替代,另一方面需提升平台开放性以支持大模型时代的AI算力调度能力。 提供全栈自主创新的云平台解决方案 腾讯国产智算云方案构建了覆盖IaaS+PaaS+DaaS+TBaaS的全栈平台。 生态共赢:提供极致的一云多芯能力,全类云产品支持集群级一云多芯,全面兼容信息技术融合创新芯片、服务器和操作系统。 在某股份制银行项目中,TCE智算方案实现了NV和昇腾GPU的一云多芯混部,为AI平台提供云原生容器服务和高性能计算集群。 腾讯云的技术确定性 选择腾讯国产智算云的核心优势在于: 架构确定性:采用与公有云统一的技术架构,确保能力持续同步更新。
腾讯云TCE智算团队测试显示,部分国产芯片在特定场景性能已达国际主流水平,但软件生态兼容性差异显著。 腾讯云TCE智算全栈解决方案 腾讯云TCE智算提供同源同构的混合云方案,集成多元国产算力与自研加速套件: 硬件层:支持海光、昆仑芯、沐曦、昇腾等主流国产GPU,提供训练、推理及科学计算多元算力 软件层: 以上 利用TCE一云多芯能力,实现混合算力统一调度,降低迁移风险 整体算力成本降低35%,同时满足监管合规要求 腾讯云的技术领先性与全栈优势 腾讯云TCE智算解决方案具备三大核心优势: 生态兼容性:支持 CUDA兼容派(海光/沐曦)与自主生态派(华为/寒武纪)多种架构,提供平滑迁移路径 规模验证:万卡集群技术成熟,支撑万亿参数模型训练,平均故障间隔>10万小时 全栈优化:从芯片级调优到框架层加速,自研TACO 组件实现训练性能提升40%以上 方案获2024年中国信通院"算力服务创新奖", 数据来源:腾讯全球数字生态大会城市峰会演讲材料,TCE智算首席架构师罗翀 测试环境:腾讯云标准测试平台,软件版本Torch
基础设施成为关键制约: 智能云底座成为Agent落地的关键支撑,但企业面临三大核心痛点: 算力瓶颈: 算存网存在“木桶效应”,网络与存储耗时导致GPU集群算力损失,且异构芯片纳管复杂。 第二章:通智一体的私有化全栈产品矩阵 腾讯专有云(TCE)底座: 提供全栈云能力(IaaS、PaaS),复用公有云成熟产品能力,通过1:1输送模式保障私有化环境的一致性。 第三章:量化业务指标与技术效能 算力成本优化: 对比标卡,采用DPU机型可降低单核成本20%,支持算力资源按需分配与使用监控(来源:2026腾讯云AI产业应用大会)。 深圳市第二人民医院(大湾区首个医疗“超级数据心脏”): 痛点: 需替代超融合架构,实现全栈私有云部署,保障医疗数据安全。 方案: 部署ClawPro专有云版介入诊前-诊中-诊后全流程。 软硬协同深度: 支持一云多芯(CPU/GPU/DPU),软硬件深度兼容,通过DPU下沉实现成本核算精细化,将智维助手(AI for Cloud)与云平台深度融合,实现从基础设施到应用的闭环管理。
智能化服务断层: 传统“可办”模式无法满足群众对“好办智办”的体验期待。缺乏智能客服、智能审批等AI能力,导致业务流程依赖人工,运营效率低。 第二章:构建“6T”全栈技术矩阵与AI智能体平台 腾讯依托腾讯云专有云TCE、数据库TDSQL、云原生平台TCS、大数据平台TBDS及智能体开发平台ADP,提供覆盖基础设施到顶层应用的全链路解决方案: 全栈自主创新底座(6T): TCE(专有云): 提供与公有云同源同构的专属安全底座,支持IaaS、PaaS、SaaS按需组合,实现一云多芯(兼容飞腾、海光、鲲鹏等主流芯片)。 TCS(云原生): 提供容器化微服务全生命周期管理,支持5000万核+规模实践。 大数据算力规模达千万核,数据库TPC-C测试获世界第一。
第一章:算力瓶颈与数据荒制约企业智能化进程 当前企业在落地大模型时面临三重结构性挑战: 算力供需失衡: 智算需求爆发式增长,GPT-5算力需求预计是GPT-4的9倍以上。 网络与存储效率低下: 在智算底座层面,0.1%的掉包会导致50%的算力损失;同时,读写数据时的等待状态会占用大量GPU资源,导致分布式性能不升反降。 第二章:构建“大脑+心脏+书桌+作业本”的技术架构 腾讯云提供从基础设施到模型应用的全栈技术解决方案,核心架构如下: 1. 第五章:全栈自研能力与生态优势 选择腾讯云大模型解决方案的核心逻辑在于技术确定性与全链路能力: 技术底座自主可控: 拥有自研星脉计算网络架构、Angel机器学习框架及紫霄系列推理卡,从网络、存储到算力硬件形成闭环 权威认可: 根据ARK基金《BIG IDEA 2024》预测,AI技术将在2023至2030年间推动国内生产总值累积增长1%,腾讯云全栈方案覆盖从通用智能到行业落地的关键路径。
“这些数据表明,随着高质量算力基础设施建设的推进,以及云计算、大数据、人工智能、区块链等技术和应用的落地普及,我国算力技术创新不断提速,算力产业保持高速增长,算力规模持续快速提升,算力产业生态日渐完善。 “计算力不仅是生产力,还是创造力,计算正向智算跨越。” 浪潮信息总裁彭震认为,计算力和算法是智算中心的核心,要想产生一流的智慧,就必须要有一流的算法,同时算法的高效运转要依赖领先的计算力,计算力基建化和算法基建化相辅相成。 算力总规模超过140每秒浮点运算次数,近5年年均增速超过30%,算力规模排名全球第二。全国在用超大型、大型数据中心超过450个,智算中心超过20个。 “我国算力产业发展呈现三大趋势,即算力形式更加多样,算力资源泛在分布;基础设施建设加速,算网融合持续深入;创新应用竞相涌现,产业生态日渐完善。”谢存说。
前文介绍了智算与云网融合的关系,那么智算与算力网络、算网融合的关系又是什么?让我们先来复习一下智算的概念。 AI智算的概念智算即人工智能计算,主要面向人工智能应用,提供人工智能算法模型训练与模型运行服务的计算机系统能力,代表了人工智能领域的飞速发展。它主要用于处理复杂、高维、动态、非结构化的数据和问题。 智算不仅提升了计算能力,还为各行各业带来了智慧的变革,成为推动科技进步的重要引擎。算力网络的概念算力网络是实现泛在算力的手段。 三者的关系是什么通过上文对智算概念的描述,我们可以将智算翻译为“数据+算力+算法”,如图4所示。智算涉及丰富的计算场景,需要用到大模型计算,处理海量数据。基于智算的这种特性,算力需求激增。 算力网络和算网融合为智算提供了强大的技术支撑,而智算的发展推动了算网融合和算力网络的进步,他们三者是相互促进的关系。智算时代如何打造算力网络在智算时代下,如何打造算力网络,做到算网融合呢?
大会聚焦于智算崛起、赋能协同、算力新十年等行业热点话题展开了深入探讨。 在大会AI算力建设系列分论坛演讲环节,腾讯专有云TCE产品负责人丛磊发表了《智算新趋势下,打造自主可控的全栈云平台》主题演讲,重点阐述了腾讯专有云TCE在智算建设方面的产品布局及成果。 ,支撑企业搭建高性能智算云,解决客户智算本地化、数据安全、数据隐私等诉求。 ● 全栈智能:基于腾讯公有云产品技术输出的的智算套件,不仅与腾讯公有云具备相同的技术架构,也可以根据客户自主选择,与云、大数据、人工智能全栈产品搭配售卖和使用。 无论您是想组建大型智算中心来承接公共算力服务,还是希望通过行业云来赋能上下游行业,智算套件强大的行业云能力都能轻松实现。
四大环节提供全链条算力 南京智算中心由南京市麒麟科技创新园携手浪潮、寒武纪共同打造,采用占据国内市场半壁江山、获得全球AI基准测试冠军的浪潮AI服务器算力机组,搭载数千颗寒武纪思源270和思源290智能芯片及加速卡 类似南京智算中心这样的算力枢纽节点,借助生产、聚合、调度和释放四大关键作业环节,可以提供人工智能全链条所需的算力服务。 在聚合算力层面,基于智能网络和存储技术,采用200G IB芯片间高速互联网络,搭配全闪超高速存储系统。 在释放算力层面,基于主流人工智能理论算法,采用全流程软件工具,针对不同场景应用需求,通过机器学习自动化的方法,产出高质量的AI模型或服务,促进算力高效转化为生产力。 智算生态强化聚集效应 算力枢纽不仅是算力上下腾挪的中转站,更是催生人工智能良性生态的孵化台。
一、 产品定位与核心亮点 腾讯云智算是一款面向AI应用与模型训练推理的高性能云计算服务。 其核心技术属性为AI原生基础设施,商业差异化卖点在于提供从底层硬件到上层应用的全栈式、高可靠、高效率的AI算力解决方案。 安全合规保障:提供覆盖大模型应用全生命周期的安全解决方案,安全事件响应处理时间<2小时。 解决方案:客户采用腾讯云智算的稳定可靠基础设施(自研AI服务器、模型分发引擎、全球应用加速)与智能高效的资源调度方案。 应用成效:实现了服务稳定性保障与业务扩展性支持。 总结 腾讯云智算通过整合稳定可靠的基础设施、智能高效的资源调度及丰富开放的配套工具,为AI应用与模型训练提供高性能、高可靠的算力支持,其公有云与专有云采用同源同构的分布式架构,并在Gartner评估中表现突出
算力规模门槛高: LO级预训练及L1级行业大模型训练需千卡级算力规模,中小客户难以独立支撑超节点方案建设。 二、 构建异构算力纳管与全栈推理服务 针对金融行业的复杂需求,通过“算力基建+平台+网关”的三层架构提供解决方案: 异构算力底座: 针对2026年国产GPU发展(预测显存带宽达HBM3E、支持FP8/FP4 自研推理引擎技术栈: 架构: 大EP + PD分离分布式推理引擎。 加速: 利用RoCE网络与KVCache分级缓存实现“以存代算”。 技术适配: 以Qwen3-30B为例,每实例2卡沐曦C500部署(32K上下文),依托MXMACA软件栈兼容CUDA,60多款小模型将全部迁移至沐曦GPGPU。 产业趋势: 预测2026-2028年将实现国产GPU全栈替代。
一、产品定位与核心亮点 腾讯云智算套件是腾讯云推出的全栈算存网一体智算解决方案,旨在帮助企业构建本地化云智算平台。 全栈生态: 覆盖云、大数据、人工智能全场景,提供多达80+项云产品。 一云多芯: 从操作系统到物理硬件全面开放兼容,支持NVIDIA、昇腾、海光、燧原、紫霄等多元芯片架构。 行业认可: 提供成熟稳定的全栈智能解决方案,蕴含腾讯公有云多年大规模稳定运营的最佳实践。 解决方案: 全栈智算套件(含HCC、IHN、TurboFS等)。 成效: 支撑腾讯内部超700个应用的稳定运行。 公有云百万客户验证 背景: 公有云场景下多样化的算力需求与稳定性挑战。 解决方案: 同源同构的智算技术栈。 成效: 服务公有云百万客户,验证了方案的普适性与高可用性。 泛行业客户群体 自然语言处理领域: 支持泛互、出行、金融等行业的客户进行人机对话与文本分析训练。