首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏泛互云原生

    qGPU云原生最佳实践

    图片文章分为两部分,第一部分为qGPU云原生化安装,提供全量qGPU和混用nvidia+qGPU两种不同的安装方式,以供实际场景选用。 第二部分为qGPU能力验证,分别从调度、隔离和在离线混布三个方面,提供操作用例。----qGPU云原生环境安装1. 模式A:全量部署qGPU节点创建TKE集群,开启【qGPU共享】选项TKE集群创建,参考:https://cloud.tencent.com/document/product/457/32189部署qGPU 模式B:混合部署qGPU及Nvidia节点创建TKE集群不要开启【qGPU共享】,否则无法混合开通节点,(开启后,后面开启的任何节点,都是qGPU节点)图片开通Nvidia方案节点选择【公共镜像】,可选 插件通过TKE控制台,添加【qGPU组件】插件图片图片开通qGPU方案节点选择【市场镜像】 —— 选择标识为“混部”的机器,OS里已经安装GPU驱动,无需重复安装注意:在这种混用模式下,qGPU只能用【

    1.9K40编辑于 2022-11-04
  • 来自专栏腾讯云原生团队

    GPU虚拟化,算力隔离,和qGPU

    而是,我们将聚焦在英伟达 GPU + CUDA 计算领域,介绍下我们最新的技术突破 qGPU,以及它的意义究竟是什么。关于 GPU 虚拟化的历史性介绍,我将直接摘抄当时的讨论。 这也不是一篇介绍 TKE qGPU 产品特性的文章。而是,我们将潜入到前所未有的深度,去探索 GPU 调度和 QoS 的本质。本文也不是巨细靡遗的系统性探索,但你可以在这里看到别处不曾出现过的知识。 原理: Ditto. 3.5 腾讯云 qGPU 简介 qGPU == QoS GPU。它是目前业界唯一真正实现了故障隔离、显存隔离、算力隔离、且不入侵生态的容器 GPU 共享的技术。 3.5.1 qGPU 基本架构 qGPU 基本架构: ? 3.5.2 qGPU QoS 效果 ? 注释 【1】 测试数据来自 T4(chip: TU104)。 qGPU 是十几年来在英伟达 GPU 上实现 QoS 的最大突破。

    15.3K158发布于 2021-06-02
  • 来自专栏腾讯云原生团队

    TKE qGPU 通过 CRD 管理集群 GPU 卡资源

    背景 目前 TKE 已提供基于 qGPU 的算力/显存强隔离的共享 GPU 调度隔离方案,但是部分用户反馈缺乏 GPU 资源的可观测性,例如无法获取单个 GPU 设备的剩余资源,不利于 GPU 资源的运维和管理 我们的方案 我们通过 GPU CRD 扫描物理 GPU 的信息,并在 qGPU 生命周期中更新使用到的物理 GPU 资源,从而解决在共享 GPU 场景下缺少可见性的问题。 :       containers:       - container: test         resource:           tke.cloud.tencent.com/qgpu-core :     tke.cloud.tencent.com/qgpu-core: "100"     tke.cloud.tencent.com/qgpu-memory: "31" 每个 GPU 物理卡对应一个 控制台安装 qGPU 插件时选择使用 CRD 即可开启。

    1.5K40编辑于 2022-05-26
  • 来自专栏腾讯云原生团队

    qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能

    qGPU 已服务内外部大量客户,帮助众多 AI 企业节省大量 GPU 成本。qGPU 容器虚拟化产品现已在腾讯云 TKE 全量上线。 qGPU 算力可以实现 1% 的细粒度限制,并且保证严格按照配比分配和限制算力资源,即使在 GPU 资源非常紧张时,各业务所分配算力资源依然保证不受影响。 通过这种创新技术,qGPU 解决了故障、显存和算力全维度的隔离问题。 可以说,腾讯云 qGPU 在离线混部是提升 GPU 利用率的创新性的突破技术。 qGPU 容器虚拟化: (扫码了解 qGPU 容器虚拟化) 重磅介绍 【燎原社】推出了专业而又系统的线下云原生技术实战营,需要系统化深入学习的同学,可扫码报名云原生技术实战营课程,腾讯云技术专家现场教学

    1.5K30编辑于 2022-03-10
  • 来自专栏腾讯云原生团队

    TKE qGPU 通过两层调度解决 GPU 资源碎片问题

    TKE qGPU 支持单个容器的百分比算力及显存 MB 级调度,同时支持分配单卡或者多卡,满足业务同时使用 GPU 共享及整卡独占的场景。 节点调度 TKE qGPU 定义了算力和显存两种 GPU 资源。TKE qGPU 调度器将每张卡算力切分成 100 份,每个算力单位代表 1% 整卡算力。显存为 MB 级切分。 这些资源会在节点 TKE qGPU device plugin 启动时自动发现和上报。TKE qGPU Scheduler 会在内存 cache 中维护节点与 GPU 卡的分配信息。 resources:     limits:       tke.cloud.tencent.com/qgpu-core: <100|200|300|...> // 整卡 TKE qGPU Scheduler 在预选阶段,qGPU Scheduler 会遍历每个节点找到最合适的 GPU 卡进行调度,具体由 GPU 卡调度器决策。在优选阶段,qGPU Scheduler 会根据两个资源分配率的加权平均打分。

    2.4K20编辑于 2022-05-30
  • 来自专栏腾讯云原生团队

    今晚19:30|TKE 下的 qGPU 容器虚拟化技术实践

    qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能】 该篇文章由腾讯云容器技术专家徐蓓所写,分享并介绍了腾讯云推出的 GPU 共享技术—— qGPU,支持在多个容器间共享 GPU 卡资源, 【云原生正发声】第十五期,我们邀请到了该篇文的作者——腾讯云容器技术专家徐蓓,来和大家分享 TKE 下的 qGPU 容器虚拟化技术实践。 本次直播主要介绍 TKE 如何凭借 qGPU 容器虚拟化技术为客户带来更高的业务部署密度及极致的 GPU 利用率。3月15日下周二晚19:30,【云原生正发声】等你一起探索、学习。 点击底部【阅读原文】或关注【腾讯云原生视频号】即可预约 直播主题:TKE 下的 qGPU 容器虚拟化技术实践 直播时间:3月15日 19:30—20:30 · 讲师介绍 · 徐蓓 腾讯云容器技术专家 本次直播主要介绍 TKE 如何凭借 qGPU 容器虚拟化技术为客户带来更高的业务部署密度及极致的 GPU 利用率。

    93540编辑于 2022-03-16
  • 来自专栏腾讯云原生团队

    直播报名中|TKE 下的 qGPU 容器虚拟化技术实践

    qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能】 该篇文章由腾讯云容器技术专家徐蓓所写,分享并介绍了腾讯云推出的 GPU 共享技术—— qGPU,支持在多个容器间共享 GPU 卡资源, 【云原生正发声】第十五期,我们邀请到了该篇文的作者——腾讯云容器技术专家徐蓓,来和大家分享 TKE 下的 qGPU 容器虚拟化技术实践。 本次直播主要介绍 TKE 如何凭借 qGPU 容器虚拟化技术为客户带来更高的业务部署密度及极致的 GPU 利用率。3月15日下周二晚19:30,【云原生正发声】等你一起探索、学习。 本次直播主要介绍 TKE 如何凭借 qGPU 容器虚拟化技术为客户带来更高的业务部署密度及极致的 GPU 利用率。 · 直播流程 · 19:30-20:15 讲师分享 20:15-20:30 互动问答 · 听众收益 · 了解业界 GPU AI 算力现状及主要问题; 了解业界 GPU 虚拟化技术现状 了解基于 qGPU

    72640编辑于 2022-03-10
  • 来自专栏腾讯云原生团队

    使用 Elastic GPU 管理 Kubernetes GPU 资源

    以 TKE qGPU 为例,在 GPU Sharing 方式下,扩展资源从 GPU 卡数量变为百分比的 qGPU Core 与 MB 的 qGPU Memory。 比如在 TKE qGPU 中,我们自研了 tke-qgpu-scheduler 用于 GPU 细粒度算力与显存分配调度,配套的 tke-qgpu-manager,用于节点初始化、注册上报 qGPU 资源及 qGPU 容器虚拟化。 qGPU 资源创建 qgpu-manager 会 watch ElastciGPU CRD 变化,在绑定节点成功后,会执行创建 qGPU 设备的操作。 最后,我们依赖 qgpu-container-runtime 进行 qGPU 设备与容器的绑定工作。

    4K60编辑于 2022-04-21
  • 来自专栏云服务业务

    腾讯云代理商:腾讯云 qGPU 实战 低成本部署Stable Diffusion 方案

    一、为什么选择腾讯云 qGPU 部署 SD? 随着 AIGC 应用爆发式增长,GPU 资源利用率低、成本高成为痛点。 腾讯云 qGPU 技术通过 GPU 算力 / 显存隔离,实现单卡多容器共享,显著提升资源利用率: · ✅ 50% 成本下降:单张 A10 显卡可同时服务 2-4 个 SD 实例 · ✅ 灵活扩缩容:按需分配算力 控制台操作: · 容器服务 → 目标集群 → 组件管理 → 添加 qGPU 组件 · 调度策略选择 binpack(提升 GPU 碎片利用率) 2. 开启共享: 集群开启 qGPU 共享qgpu 3.阶段三:部署 SD 工作负载 核心 YAML按需配置: 避坑指南: · qgpu-core <100 时必须显式指定 qgpu-memory · 镜像需提前上传至 腾讯云 TCR 镜像仓库 三、方案价值总结 通过腾讯云 qGPU + TKE + CFS 组合: 1.

    5020编辑于 2026-04-15
  • 来自专栏腾讯云原生团队

    qGPU on TKE - 腾讯云发布下一代 GPU 容器共享技术

    qGPU on TKE 依托腾讯云 TKE 对外开源的 Nano GPU 调度框架[1],可实现对 GPU 算力与显存的细粒度调度,并支持多容器共享 GPU 与多容器跨 GPU 资源分配。 同时依赖底层强大的 qGPU 隔离技术,可做到 GPU 显存和算力的强隔离,在通过共享使用 GPU 的同时,尽最大可能保证业务性能与资源不受干扰。 qGPU 直接采用英伟达 GPU 底层硬件特性进行调度,实现细粒度算力隔离,打破传统上 CUDA API 劫持方案的只能以 CUDA Kernel 为粒度进行算力隔离的限制,提供更好的 QoS 保证。 客户收益 多任务灵活共享 GPU,提升利用率 GPU 资源强隔离,业务共享不受影响 完全面向 Kubernetes,业务使用零成本 未来规划 支持细粒度资源监控:qGPU on TKE 将支持对 Pod qGPU 算力池化:基于 qGPU 的 GPU 算力池化,实现 CPU、内存资源与异构计算资源解耦 内测申请 qGPU 已经开放免费内测,欢迎添加腾讯云原生小助手备注”qGPU内测申请“进行试用!

    3.2K52发布于 2021-09-10
  • 来自专栏用户5909132的专栏

    Stable Diffusion 腾讯云云原生容器部署实践

    根据部署对 GPU 共享的需求,可选择开启 qGPU,本文第四部分会介绍 TKE+qGPU 的使用。 采用 qGPU 方式,需要先将 Pod 的资源申请方式进行修改。 /qgpu-memory 的数值设置为 A10 显存的一半。 注意,在 tke.cloud.tencent.com/qgpu-core 为100的整倍数时,可以不写 qgpu-memory,默认分配整卡显存。 qGPU 参考:容器服务使用 qGPU

    2.1K21编辑于 2023-06-07
  • 来自专栏腾讯云原生团队

    Stable Diffusion 腾讯云云原生容器部署实践

    根据部署对 GPU 共享的需求,可选择开启 qGPU,本文第四部分会介绍 TKE+qGPU 的使用。 采用 qGPU 方式,需要先将 Pod 的资源申请方式进行修改。 /qgpu-memory 的数值设置为 A10 显存的一半。 注意,在 tke.cloud.tencent.com/qgpu-core 为100的整倍数时,可以不写 qgpu-memory,默认分配整卡显存。 qGPU 参考:容器服务使用 qGPU

    3.4K21编辑于 2023-05-16
  • 来自专栏AI智韵

    云原生技术赋能AI绘图:Stable Diffusion在腾讯云的部署与应用新篇章

    根据部署对 GPU 共享的需求,您可以选择开启 qGPU,如何开启qGPU接下来的步骤会讲。 将 GPU 资源的卡数设置为1,如果开启了 qGPU,您还可以填写0.1-1之间的数值,对 GPU 卡进行虚拟化切分。 在这里,我们采用 TKE qGPU 能力,将多个实例 Pod 运行在同一张 A10 卡上。在保障业务稳定性的前提下,切分显卡资源,降低部署成本。 采用 qGPU 方式,您需要先将 Pod 的资源申请方式进行修改。 同时,您还需要将 tke.cloud.tencent.com/qgpu-memory 的数值设置为 A10 显存的一半。

    62310编辑于 2024-10-22
  • 来自专栏腾讯云原生团队

    11月腾讯云容器产品技术月报|转发集赞抢腾讯周边

    TKE虚拟节点池 支持sidecar启动保障,确保sidecar ready后再启动业务Pod 提供wasm部署工具,支持按照label筛选,批量部署二进制或镜像格式的wasm filter 腾讯云qGPU 容器 提高 GPU 使用率、降低客户成本 腾讯云 TKE 联合虚拟化团队推出 qGPU 容器共享产品,支持在多个容器间共享 GPU 卡并提供容器间显存、算力强隔离的能力,从而在更小粒度的使用 GPU 卡的基础上 qGPU 支持单容器多卡,可支持绑定多张整卡或一张分数卡 qGPU 支持 GPU 监控,可支持 GPU 卡 / Pod / 容器 级利用率监控 qGPU 支持 TKE 黑石集群,并支持 ampere 架构 GPU 卡 qGPU 支持离在线混部功能,可支持在线推理与离线训练的原生优先级调度 TKE qGPU 目前处于免费内测阶段,扫码立即申请 更多详情见: https://cloud.tencent.com

    5.4K51发布于 2021-12-01
  • 来自专栏深度学习与python

    算力稀缺时代,如何把 GPU 用“满”

    在此基础上,qGPU 把这些被分割的 GPU 资源纳入云原生调度体系,让 GPU 成为可让调度系统理解的细粒度资源单元。 在 ResNet50 推理测试中,qGPU 在多 Pod 场景下实现了严格的算力隔离,实际性能与预设配比有着高度一致性。 qGPU 在这一阶段解决的问题 处于这一阶段,qGPU 关注的重点不再只是资源切分,而是怎样在稳定隔离的状况下支持混部运行。 更关键的一点是,qGPU 让 GPU 成为调度系统可理解和管理的资源。GPU 不再被固定绑定到某个应用,而是可以依照业务优先级及负载变化做动态分配。 结合腾讯云 TencentOS qGPU 的实践经验,一旦 GPU 能在底层实现算力与显存的硬隔离,多个推理任务便可在同一块 GPU 上并行运行,而不会彼此干扰。

    39510编辑于 2025-12-31
  • 来自专栏腾讯云原生团队

    5月腾讯云容器产品技术月报|容器给大小儿童发礼物啦~

    使用 eBPF 代替 iptables 优化服务网格数据面性能 性能提升40%: 腾讯 TKE 用 eBPF绕过 conntrack 优化K8s Service Istio 中的多集群部署与管理 qGPU 系列文 TKE qGPU 通过两层调度解决 GPU 资源碎片问题 TKE qGPU 通过 CRD 管理集群 GPU 卡资源 qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能 GPU虚拟化 ,算力隔离,和qGPU 腾小云邀请你参加我们的最新活动, 小礼品等你来取哦~ 云游新活 薅羊毛的福利来啦! 腾讯云正式成为 FinOps 基金会顶级会员 最佳实践 | 作业帮云原生成本优化实践 技术分享 | 云原生多模型 NoSQL 概述 ‍‍‍TKE qGPU 通过两层调度解决 GPU 资源碎片问题

    1.5K20编辑于 2022-05-31
  • 云原生技术赋能AI绘图:Stable Diffusion在腾讯云的部署与应用新篇章

    如下图所示:根据部署对 GPU 共享的需求,您可以选择开启 qGPU,如何开启qGPU接下来的步骤会讲。 在这里,我们采用 TKE qGPU 能力,将多个实例 Pod 运行在同一张 A10 卡上。在保障业务稳定性的前提下,切分显卡资源,降低部署成本。 采用 qGPU 方式,您需要先将 Pod 的资源申请方式进行修改。 同时,您还需要将 tke.cloud.tencent.com/qgpu-memory 的数值设置为 A10 显存的一半。 /qgpu-memory: "10"Deployment YAML 文件更新完成后,调整 Pod 数量为2个,即可实现负载均衡的 Stable Diffusion 轮询模式。

    79010编辑于 2024-04-01
  • 来自专栏【腾讯云开发者】

    Stable Diffusion 腾讯云云原生容器部署实践

    第三,根据部署对 GPU 共享的需求,可选择开启 qGPU,本文第四部分会介绍 TKE+qGPU 的使用。 采用 qGPU 方式,需要先将 Pod 的资源申请方式进行修改。 /qgpu-memory 的数值设置为 A10 显存的一半。 注意,在 tke.cloud.tencent.com/qgpu-core 为100的整倍数时,可以不写 qgpu-memory,默认分配整卡显存。 当 tke.cloud.tencent.com/qgpu-core小于100时,也就是按比例切分GPU资源时,必须显示指定tke.cloud.tencent.com/qgpu-memory。

    3.7K51编辑于 2023-05-29
  • 来自专栏腾讯云原生团队

    9月月报|腾讯云容器女团邀你共祝祖国生日快乐!

    容器 提高 GPU 使用率、降低客户成本 腾讯云 TKE 联合虚拟化团队推出 qGPU 容器共享产品,支持在多个容器间共享 GPU 卡并提供容器间显存、算力强隔离的能力,从而在更小粒度的使用 GPU 卡的基础上 qGPU 方案通过对 NVIDIA GPU 卡上任务的有效调度,达到给多个容器共享使用的目的,功能优势如下: 灵活性:用户可以自由配置 GPU 的显存大小和算力占比。 Nano GPU 支持精细化 GPU 资源调度能力,并支持接入不同 GPU 容器方案,包括主流的 gpushare、nvidia docker 及 qGPU,同时提供 GPU 卡 / Pod / 容器 依托该项目的 TKE qGPU 容器产品已在腾讯云上线,并已支持内外部数千节点和 GPU 卡调度。 Nano GPU scheduler:  (扫码可了解更多详情内容) 2.  K8s Informer实现机制浅析 qGPU on TKE - 腾讯云发布下一代 GPU 容器共享技术 斗鱼直播云原生实践之注册中心篇 腾讯云与 Grafana Labs 达成深度合作, 推出全新

    1.2K20发布于 2021-10-08
  • 来自专栏腾讯云原生团队

    腾讯云原生年度精选文章,读这一篇就够了!(内送红包!)

    Crane-scheduler:基于真实负载进行调度 Crane 0.7版本发布:通过控制台一键节省云成本 一文学透Crane DSP预测算法 50+腾讯云原生产品应用实践 qGPU 容器产品全量上线, 重磅发布 GPU 在离线混部功能 使用 Elastic GPU 管理 Kubernetes GPU 资源 TKE qGPU 通过 CRD 管理集群 GPU 卡资源 TKE qGPU 通过两层调度解决 GPU 技术原理及最佳实践系列 腾讯云百万容器镜像安全治理运营实践 最佳实践|Kubernetes集群利用率提升的思路和实现方式 Caelus全场景在离线混部的思考与实践 最佳实践|云原生方式管理GPU资源和通过qGPU

    1.6K20编辑于 2023-01-18
领券