
• 报告标题:基于第五代英特尔® 至强® 可扩展处理器的新一代腾讯云服务器加速乐元素游戏 AI 推理白皮书
• 发布机构:腾讯云、英特尔(Intel)、乐元素
• 发布时间:2024 年
• 行业标签:游戏
• 产品标签:#腾讯云实例S8, #云服务器, #第五代英特尔至强可扩展处理器, #英特尔AMX, #英特尔oneAPI, #英特尔oneDNN
伴随游戏业务中 AI 技术的广泛应用,乐元素旗下游戏(如《开心消消乐》)面临着严苛的 AI 算力考验,其平均每天需运行超过 1 亿次自动打关任务,推理次数超过 30 亿次。本白皮书旨在阐述乐元素如何通过引入搭载第五代英特尔® 至强® 可扩展处理器的新一代腾讯云实例 S8,构建高性能、低成本且高灵活性的 AI 算力平台,从而有效解决 AI 模型推理在游戏研发与运营中的性能瓶颈。
• 概述
• 挑战:AI 模型推理需要强大的算力作为支撑
• 性能挑战
• 成本挑战
• 灵活性挑战
• 解决方案:基于第五代英特尔® 至强® 可扩展处理器的腾讯云实例 S8
• 为 AI 加速而生的处理器
• 性能验证:实现显著的代际性能提升
• 自研打关模型
• 消消乐新春扫龙字活动
• 收益
• 展望
• 关于乐元素
• 关于腾讯云
• 关于英特尔
• 研究方法:采用定量分析与定性分析相结合的方式。定性分析聚焦于乐元素在关卡设计、个性化体验及 PvP 对战中的 AI 应用痛点;定量分析基于腾讯云服务器 S6 与 S8 实例的基准性能比对。
• 核心分析模型:
• 乐元素自研 AI 打关模型。
• 视觉深度学习模型 ResNet-50。
• 硬件架构模型:英特尔® AMX 架构(包含二维寄存器文件 "tile" 与专属加速器模块)。
• 数据库来源:测试数据均来自乐元素内部测试环境以及英特尔内部建模性能评估,参考 SPEC CPU rate、STREAM Triad 和 LINPACK 等行业标准基准。
• 调研时间范围:数据采集与内部性能测试截至 2024 年 2 月。
• 痛点分析:游戏用户基数与内容的持续增长导致 AI 模型推理面临三大挑战:性能挑战(需更高算力及低精度格式转化支持)、成本挑战(需降低模型推理的单位 TCO)以及灵活性挑战(需适应不断变化的工作负载切换)。
• 架构优化与技术下沉:通过腾讯云实例 S8 结合英特尔® AMX 及英特尔® oneDNN 软件库,可直接利用 CPU 内置加速器处理复杂的深度学习矩阵乘法运算,避免了部署独立 AI 加速器(如 GPU)带来的高昂成本和系统复杂性。
• 核心性能指标提升:
• 整体基础性能:第五代英特尔® 至强® 可扩展处理器相比上一代,带来 21% 的整体性能提升,42% 的推理性能提升,以及高达 10 倍的每瓦性能提升。
• 自研打关模型推理:在启用英特尔® AMX 并将模型精度从 FP32 转化为 BF16 后,腾讯云 S8 实例的推理吞吐性能是上一代 S6 实例的 3.44 倍。
• 图像识别场景(新春扫龙字活动):基于 ResNet-50 模型,腾讯云 S8 实例(BF16, AMX)的推理吞吐性能相较于 S6 实例提升高达 5.19 倍。
• 先进的底层虚拟化与网络技术:新一代腾讯云实例 S8 基于全新优化的虚拟化平台,内存采用最新 DDR5,最高内网收发能力达 4500 万 pps,最高内网带宽可支持 120Gbps,为高负载游戏 AI 推理提供强劲的网络与数据吞吐支持。
• 算力经济性与弹性扩展:乐元素无需采购昂贵的专用 AI 服务器即可满足算力需求。依托公有云的弹性特征,业务可按需扩展,有效降低游戏运营的总体拥有成本 (TCO)。
• 全球化领先的算力规模:腾讯云是中国首家、全球仅有的五家服务器数量超过百万台的云计算企业之一。其基础设施覆盖全球五大洲 26 个地理区域,70 个可用区,在全球范围内部署超过 2800 个加速节点,带宽储备达 200T,具备支撑跨国游戏发行的国际化实力。
• 权威专家与客户联合背书:该方案的有效性与技术领先性获得了多方高层的明确认可,包括乐元素开心消消乐制作人钱晓东、腾讯云副总裁许华彬,以及英特尔数据中心与人工智能集团副总裁、中国区总经理陈葆立的联合推荐。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。