对于系统开发人员来说(比如云数据库,云 AI 平台),云原生的趋势也会产生相应的影响。 具体的例子比如我们可以通过用户的数据查询看到经常使用的过滤维度,来重新安排数据的排序和分区,这样在同样的数据量情况下,系统可以花更少的计算资源来完成查询,增加系统的利润 :) 云原生+AI 最后再来看下跟 AI 相关的部分。 而前面讲的“云原生语言”,则更关注在程序具体执行层面的关注点分离。 把两者结合起来看,云原生时代的 AI 平台开发会是一片巨大的未开垦之地,对于云和算法各自都有很宽很长的路可以走。 目前云原生跟 AI 结合的一个比较好的学习样例是 Kubeflow,之前春节期间读了一本《Kubeflow for Machine Learning[3]》,感觉收获还是挺多的,如Istio,CRD的应用等
第一章:报告基础信息 报告标题:AI原生云建设与加速指南 发布机构:腾讯云计算(北京)有限责任公司 发布时间:未明确标注 行业标签:通用SaaS,技术服务 产品标签:#异构计算 #高性能计算集群HCC 报告旨在解析从Cloud for AI向AI Native Cloud转型的技术要求,为企业在AI原生时代构建全栈能力云平台提供架构指南。 腾讯云平台已完成基于生成式AI的全面升级,提供覆盖基础设施、模型、工程工具、应用及安全的五大核心能力。 第三章:报告目录 背景 从Cloud for AI到AI Native Cloud,云平台能力要求对比 新型AI云平台需要解决的挑战 为AI加速而生,腾讯云(AI Native Cloud)平台架构能力全景解析 全栈能力:从基础设施(HCC集群、EdgeOne边缘平台)到应用层(数智人、智能客服),提供端到端AI原生云解决方案,支持公有云、专属云、本地化多态部署。
第一章:报告基础信息 • 报告标题:AI 原生云建设与加速指南 • 发布机构:腾讯云计算(北京)有限责任公司 • 发布时间:2024年 • 行业标签:教育,零售,汽车,交通出行,医疗,物流,农林牧渔,文旅 腾讯云大数据检索Copilot ChatBI #腾讯云Cloud Studio #腾讯云AI代码助手 #腾讯云媒体处理Copilot #数智人 #智能客服 #腾讯会议 #腾讯文档 本报告旨在解析AI原生云的全栈能力要求,并提供基于腾讯云架构的落地路径,帮助企业在AI原生时代实现价值、成本和风险的最佳平衡。 第三章:报告目录 背景 01 从Cloud for AI到AI Native Cloud,云平台能力要求对比 03 新型AI云平台需要解决的挑战 05 为AI加速而生,腾讯云(AI Native Cloud ),分析AI原生应用的落地痛点。
背景云原生(CloudNative)是一个组合词,“云”表示应用程序运行于分布式云环境中,“原生”表示应用程序在设计之初就充分考虑到了云平台的弹性,就是为云设计的。 腾讯云也制定了自己的云原生成熟度模型:图片图片腾讯云的成熟度模型,主要从研发效能和资源效能2个方面引导内部云原生建设。 云小微团队结合云小微现状以及公司云原生成熟度标准1.0和2.0的导向,横向对比业界做法,重点在云原生5大核心能力上进行了建设:服务化、可观测性、韧性、弹性、自动化能力,并逐步提升可调度能力。 图片图片特色与沉淀AI大数据模型服务启动速度慢是个行业通性问题。通过上述的建设,云小微的AI大数据模型服务,扩容速度从10分钟左右,优化到5分钟以内,命中缓存时可以达到1分钟左右。 当然随着对云原生的实践越来越多,我们也发现云小微在云原生的资源利用率、可调度性等方面建设和实践相对比较薄弱。接下来我们也将继续云原生的实践,不断完善自身的薄弱点,更好地服务客户和合作伙伴。
张望,腾讯高级工程师,从事云上 GPU 和分布式训练加速,负责腾讯云 TKE 在 AI 场景的研发和支持工作。 不仅各大公有云厂商都已经基本收录或集成了 Kubeflow 的训练 operators,社区上其他与深度学习训练相关的项目(如用以自动机器学习的 Katib,又如提供自动化编排功能的 Flyte)都对接了 我们希望未来利用 Kubeflow Training Operator 来构建 AI 平台的开发者可以方便地将其与其他模块对接,实现诸如任务队列、流水线、超参数搜索等功能。 资源利用率提高67%,腾讯实时风控平台云原生容器化之路 Getting Started and Beyond|云原生应用负载均衡选型指南 被集群节点负载不均所困扰?
Kagent 架构详解 ❝本文档阐述 Kagent 的云原生设计理念——将 Agent 定义为 Kubernetes CRD,使其成为集群的一等公民❞ 目录 1. 这不是简单地"把 Agent 跑在 K8s 上",而是深度融入 Kubernetes 的资源模型,让 Agent 天然具备云原生基础设施的所有能力。 AI Agent 框架,它将 Agent 定义为 Kubernetes CRD(Custom Resource Definition),让用户可以像管理 Deployment 一样管理 Agent。 /Secret 安全可审计 权限控制 RBAC 原生支持 企业级安全 服务发现 Service/DNS 自动注册 故障恢复 Controller 自动协调 秒级自愈 监控告警 Prometheus 生态 自动接入 Kubernetes 可观测性生态: ┌─────────────────────────────────────────────────────────┐ │ 云原生可观测性栈
: ---- 前言:12月19日,在 Cloud Native Days China -云原生AI大数据专场,腾讯技术事业群高级工程师薛磊发表了《云原生AI平台的加速与实践》主题演讲。 ? 演讲主要包含五部分的内容: Kubernetes介绍 AI离线计算 AI场景下Kubernetes的不足 Kubeflow 星辰算力平台的架构 Kubernetes介绍 K8s是生产级的容器编排系统,它也是云原生应用最佳的一个平台 因此,对于我们而言在AI平台上面也可以基于K8s的架构进行额外的开发。 AI离线计算 ? 典型的AI场景 ? ? 分布式AI计算 为什么要分布式AI计算? 提供TensorFlow原生PS-worker架构 的多机训练 推荐将PS和worker一起启动 通过service做服务发现 在社区中最早期的Operator 星辰算力平台的架构 它为私有云的一个离线计算平台
EdgeOne #云联网 #DBbrain #Elasticsearch服务 #商业智能 #Cloud Studio #AI代码助手 #媒体处理服务Copilot 报告背景和目标 生成式AI驱动技术变革 本报告旨在系统分析AI原生云平台需具备的五大核心能力架构,为企业在价值、成本与风险间提供平衡框架。 Requirements Challenges Facing the AI-Native Cloud Born for AI Acceleration: A Panoramic Analysis of 技术领先性:自研TACO加速框架(TACO Train/TACO Infer)实现训练性能提升30%,推理密度增加20%;云联网CCN具备300T带宽与10微秒级延迟 规模验证:管理1.5亿计算核心,AI 专有云、混合云及本地化部署,TCS/TCE双技术基座适配多架构需求
什么是云原生? 云原生(Cloud Native)是由 Pivotal 的Matt Stine在2013年提出的一个概念,是他多年的架构和咨询总结出来的一个思想的集合。 云原生应用 云原生应用是天然适合云特点的应用,云原生应用系统需要与操作系统等基础设施分离,不应该依赖Linux或Windows等底层平台,或依赖某个云平台。 CNCF给出了云原生应用的三大特征: 容器化封装:以容器为基础,提高整体开发水平,形成代码和组件重用,简化云原生应用程序的维护。 云原生应用和本地部署应用程序之间的差异 云原生应用程序开发采用与传统企业应用程序完全不同的体系结构。 可更新 云原生应用程序始终是最新的,云原生应用始终可用。 本地部署应用程序需要更新,并且通常由供应商按订阅提供,并且在安装更新时需要停机。 弹性 云原生应用程序通过在峰值期间增加的资源来利用云的弹性。
一、产品定位与核心亮点 腾讯云全链路原生AI服务是一套覆盖从基础设施到应用软件的全栈式人工智能解决方案。 三、应用框架和功能介绍 功能框架 应用软件层:腾讯会议、腾讯乐享、企业微信、企点客服、数智人、AI代码助手、腾讯云ChatBI 大模型工具平台:智能体开发平台、TI平台大模型开发平台 大模型基础设施:高性能计算 竞争格局巨变背景下,体现了腾讯云在"科技平权"之战中的技术实力,相关技术已应用于深度求索、宇树科技、强脑科技、云深处科技等行业领先企业。 40% 技术生态合作伙伴 深度求索:DeepSeek模型合作 宇树科技:机器人机器狗技术应用 强脑科技:脑机接口技术合作 云深处科技:"山猫"机器狗项目合作 总结 腾讯云全链路原生AI服务通过完善的产品矩阵和量化效果验证 ,致力于让AI成为推动社会进步的普惠力量,在2025年全球AI竞争格局巨变的背景下,通过"科技平权"重塑全球AI竞争版图。
一、产品定位与核心亮点 腾讯云TAPD(Tencent Agile Product Development)是一款基于容器化技术的云原生研发协作平台,核心定位为面向开发团队的高性能、智能化研发基础设施。 其差异化优势在于深度融合项目管理(需求/任务/缺陷跟踪)与工程实践(代码管理/持续集成/自动化测试),通过云原生架构与AI能力提升研发全流程自动化与协作效率。 计算资源:云原生构建CPU资源 6,400核时/月,云原生开发资源 64,000核时/月。 云原生构建能力:基于容器化技术,支持高并发构建与缓存优化,提升编译效率。 自动化流水线:通过规则引擎自动触发流程(如代码提交→构建→测试→部署),减少手动操作。 数据来源:腾讯云TAPD官方产品介绍文档 特权说明:企业版用户(购买License ≥ 10)可申请长期有效的云原生构建与开发资源特权,需通过在线咨询核实后发放。
给近半年做的云原生AI算力平台做一个回顾, 思考和实践参考了云溪大会上的分享:为大模型工程提效,基于阿里云 ACK 的云原生 AI 工程化实践[1],全文很长,我这边做一个牵引和解读。 1. 面对LLM和GAI这类对算力和数据都有极高需求的新负载,云计算也迎来了“智算”时代, 一方面以服务化资源池的概念提供万卡算力、PB级存储、和单机TB级高速网络互联,另一方面以云原生标准化交付算力给大模型的生产者和使用者 大模型带来的挑战 AI有工程化的要求,同时也对基础设施提出挑战。 3. 云原生AI的能力 最近在做的“AI大模型基础设施”, 宏观目标也是帮助AI工程从小作坊向端到端云原生解决方案演进。 云原生AI的架构实践 我们的云原生AI算力平台, 有参考上面的实践,针对企业业务的现状和侧重, 技术调研上做了调整和裁剪。 糟糕,我实现的k8s informer好像是依托答辩 参考资料 [1] 为大模型工程提效,基于阿里云 ACK 的云原生 AI 工程化实践: https://developer.aliyun.com/article
云原生概念12个因素 简介 如今,软件通常会作为一种服务来交付,它们被称为网络应用程序,或软件即服务(SaaS)。 适合部署在现代的云计算平台,从而在服务器和系统管理方面节省资源。 将开发环境和生产环境的差异降至最低,并使用持续交付实施敏捷开发。 可以在工具、架构和开发流程不发生明显变化的前提下实现扩展。 云原生应用的12要素,原文 The Twelve Factors I. 相反的,应该借助操作系统的进程管理器(例如 Upstart ,分布式的进程管理云平台,或是类似 Foreman 的工具),来管理 输出流 ,响应崩溃的进程,以及处理用户触发的重启和关闭超级进程的请求。
而率先完成 DevOps 转型 的企业在进行 云原生 应用改造和技术革新过程中也面临着同样的问题。 这就对 DevOps 在云原生环境下的应用提出了新的课题和实践诉求,我们如何在云原生的环境下实践 DevOps 以达到更有生产力的表现? 本文将结合最新一期的技术雷达,试图勾画出 DevOps 在云原生的环境下的特性、未来的趋势以及相应的实践。 背景:不断蔓延的云环境复杂性 本期技术雷达主题之一是:不断蔓延的云环境复杂性。 但在云原生的场景下,我们无需去构造工具链,因为工具链本身是为最佳实践服务的。我们只需要根据自己的实践选择对应的服务就可以了,不光包含云平台自身的,也包括外部的。 在云原生的场景下,全球的竞争加速了技术实践的淘汰,有生命力的工具和服务在市场上生存了下来。并和它们所服务的客户一起创造了更加有生命力的技术实践。
什么是云原生 设计目的 云原生软件的设计目的是预测故障,并且即使当它所依赖的基础设施出现故障,或者发生其他变化时,它也依然能够保持稳定运行。 定义 云原生软件是高度分布式的,必须在一个不断变化的环境中运行,而且自身也在不断地发生变化 不适合使用云原生架构的情形 不需要云计算的软件,例如嵌入到家电中的软件。 云原生提供的是最终一致性,但如果需要数据强一致性的话,云原生架构就不适用了。 用云原生架构重写软件时并没有提供新的价值 云原生的价值 云原生的绝妙之处在于它最终是由许多不同组件组成的,即使其中一些组件的模式不是最新的,云原生组件也可以与他们进行交互。 云原生平台 云原生平台的发展 AWS:软件架构、开发和运维并没有太多的改变。
云原生安全发展可谓方兴未艾,云原生环境中的各类安全风险日益频发,云上的对抗也成为现实,越来越多的企业开始探讨如何设计、规划云原生环境中的安全架构,部署相应的安全能力。 云原生安全的现在和未来如何,笔者不妨从一个较高的视角进行探讨。 与云计算安全相似,云原生安全也包含两层含义:“面向云原生环境的安全”和“具有云原生特征的安全”。 笔者看来,前者是必经之路,可以说是阶段1,而随着面向云原生的安全越来越成熟,将会迸发出极大的驱动力来构建具有云原生特征的安全能力,进入阶段2,当然这还远不够,原生安全才是云原生安全的终篇。 1 面向云原生环境的安全 总体而言,云原生安全的第一阶段是安全赋能于云原生体系,即构建云原生的安全能力。 面向云原生环境的安全,其目标是防护云原生环境中的基础设施、编排系统和微服务等系统的安全。 既然未来云安全等价安全,而云计算的下半场是云原生,那不妨也做个推论,云原生的未来也会等价于原生安全。
在本节课程中,我们将开始学习如何从攻击者的角度思考,一起探讨常见的容器和K8s攻击手法,包含以下两个主要内容: 云原生环境的攻击路径: 了解云原生环境的整体攻击流程。 云原生攻防矩阵: 云原生环境攻击路径的全景视图,清晰每一步采取的攻击技术。 目前,多个云厂商和安全厂商都已经梳理了多个针对容器安全的威胁矩阵,我们可以参考这些成熟的模型,结合个人对云原生安全的理解,构建自己的攻防矩阵。 针对云原生环境的攻击技术,与传统的基于Windows和Linux的通用攻击技术有很大的不同,在这里,我们梳理了一个针对容器和K8s常见攻击技术的云原生攻防矩阵。 视频版:《云原生安全攻防》--云原生攻防矩阵
云端存储和微服务架构以及现在的云原生技术都是在实现编程范式的设计理念。云原生是设计师的技术定义规范。云原生技术的具体实现方式在不同的区域会有不同的实现产品落地。 云桌面在现在的大众社会并不存在。互联网社会网络交通十分发达,本地存储可以节省很多的人力物力资源空间。云端存储的数据需要有大型的服务器集群提供服务。无服务架构是一种服务端节点部署机器的集群搭建。 云原生技术是现在很多的不同互联网公司的产品发布定义。Springboot的启动框架构建需要有原生开发团队的维护支持。AI的技术实现在海量数据存储和实现服务方面为当地的社区提供不同的数据技术团队。 构建项目的云服务需要在项目组本地部署实现。云原生技术在远程,在本地部署推广。领域驱动模型的设计构建方式是产品设计是的一种云原生的实现方案。 本地部署的方式有利于系统的原生落地。不同的区域的服务和数据都会根据用户的使用反馈进行变更和迁移。数据服务的开发需要有大型的机器集群和数据节点的服务基础设施的搭建。
本文主要分享了 VContainer 云原生相关基础组件的自动化实践,从半工具化人工维护,到白屏化流程的实践和落地。 和其他云原生项目一样,rke 也使用 golang 开发,是一个命令行工具。 白屏化阶段实现变更云原生组件平台化,制定标准流程,降低变更门槛和风险。 后续计划 自动化初期实现了云原生基础组件日常运维管理工作的白屏化功能,提高了工作效率,降低操作风险,一定程度上提高了基础组件的稳定性。 在今后自动化建设过程中,我们希望丰富自动化的功能,探索半智能化方向,重点关注云原生基础组件稳定性和可用性方面的自动化建设。
译者序 云原生是一种行为方式和设计理念,究其本质,凡是能够提高云上资源利用率和应用交付效率的行为或方式都是云原生的 云原生应用追求的是快速构建高容错性、弹性的分布式应用,追求极致的研发效率和友好的上线与运维体验 ServiceMesher社区 ---- 第1部分 云原生上下文 1 什么是“云原生” ChaosKong演习 Netflix如何能够恢复得如此之快? 区域对应地理地区,而可用区在单个区域内提供进一步的冗余和隔离 云原生软件的设计目的是预测故障,并且即使当它所依赖的基础设施出现故障,或者发生其他变化时,它也依然能够保持稳定运行 让面向失败的设计成为它们构建 这些需求,以及对一个运行这些软件的新平台的需求,直接导致了一种新的软件架构风格的出现,即云原生软件 图1.4用户对软件的需求推动云原生架构和相应管理方式的发展 图1.5从架构和管理方面我们理解了云原生软件的核心特征 这是云原生软件的口头禅,我希望你在阅读本书的过程中能够时刻谨记 面向失败设计最基本的模式之一,是实现回退的方法,即当主逻辑失败时执行的代码。