人工智能是数据的消耗大户,对存储有针对性的需求。这次我们讲讲面向AI场景的存储性能优化思路。 谈优化之前,我们先分析一下AI访问存储的几个特点: 海量文件,训练模型的精准程度依赖于数据集的大小,样本数据集越大,就为模型更精确提供了基础。 综上,对于AI场景来说,分布式存储面临三大挑战: 海量文件的存储 小文件的访问性能 目录热点 海量文件的存储 首先讨论海量文件存储的问题。海量文件存储的核心问题是什么,是文件的元数据管理和存储。 但在AI场景中情况则不同,我们前面分析到,AI场景中80%以上是小文件,一个文件只有几十KB,文件数量动辄就几十亿,文件的数量成为了文件系统要解决的首要矛盾。 针对这个问题,该如何解决呢? 总结 本文针对海量文件存储、小文件访问性能、热点访问三个维度,分析了面向AI场景下,分布式文件系统面临的挑战,以及我们的应对思路,也希望借此文和更多技术专家交流如何对AI场景下的存储方案进行针对性的优化
MLPerf:AI场景的存储测试标准-Fig MLPerf:AI场景的存储测试标准-Fig-1 AI系统中的数据管道 • AI的存储范围广泛且复杂。 • 基准测试AI系统需要昂贵的加速器。 MLPerf:AI场景的存储测试标准-Fig-2 关于MLCommons[1] MLCommons 是一个致力于推动机器学习技术标准化和性能提升的开源社区组织。 MLPerf:AI场景的存储测试标准-Fig-6 队列深度对IO行为的影响 • 队列深度是应用程序或存储层(如文件系统)并行性的结果。 MLPerf:AI场景的存储测试标准-Fig-10 • 为 AI 进行存储基准测试成本高昂,并且寻找数据集十分困难。 • MLPerf 存储使得测试 AI 应用程序的存储变得更容易。 现在推出了存储场景的测试标准,说明行业已经关注到存储IO在实际业务场景的复杂性。 2.
的场景下整套存储系统会直接卡死,用户体验不太好。 因此我们采用 Alluxio + Fluid 进行 IO 加速,分布式缓存给我们带来了 AI 模型训练速度上的提升以及存储系统总带宽的下降。 收益一:加速 AI模型训练 语音降噪测试 降噪场景模型的测试中使用的是散文件,每个数据都是 wav 格式的小于 100k 的语音小文件,在降噪场景我们测试了数据 dataload 阶段的 I/O 数据 收益二:加速 AI模型开发 在算法工程师将 AI 模型训练任务正式提交到超算集群之前,其模型需要经过大量的调试,我们为用户提供了调试环境,Dev Node 跟 Atlas 正式训练集群一样都是使用相同的存储 未来展望与规划 最后归纳下 Lustre 与 JuiceFS 的特点与适用场景,企业可以根据自身的业务场景、运维能力以及存储规模做出相应的选择。
金融企业中,“数据”扮演着重要的角色,因此其对数据的存储、使用也格外重视。本文将对典型金融企业中的存储场景进行分析,并针对不同场景的技术现状及未来发展进行简要说明。 强调下,以下内容仅代表个人观点。 01 核心数据库 该场景是以典型的大型传统商业数据库为主,例如Oracle、DB2等。其存储是以集中式块存储为核心,重点关注于数据安全、高性能、扩展能力及存储独有能力(快照、去重、压缩、双活等)。 特别是随着近些年来,SATA SSD、NVMe SSD等技术逐步成熟,性价比优势也愈发突出,为此场景下的优选方案。 03 虚拟化 虚拟化场景下,存储层需提供共享存储并需具备一定的性能。 传统方式是通过集中/分布式文件系统解决此问题,未来非常看好分布式对象存储解决此场景。目前比较大的障碍是接口问题,文件系统对于应用更加友好,因此也出现一些存储网关类方案,降低对象存储的使用门槛。 06 本地存储 这部分就很简单了,HDD已逐步被SSD所取代,特别是在对性能有较高要求的场景。NVMe标准协议的推广,又为更高性能要求、更大存储空间的场景,提供了可行的方案。
在自动驾驶、AIGC等场景中,传统存储架构无法满足百万级并发访问、亚毫秒延迟与TB级带宽需求,严重制约AI训练效率与业务创新。 构建智能数据平台的全栈解决方案 腾讯云存储Data Platform提供端到端能力矩阵: 对象存储COS采用自研Yotta存储架构,单集群支持百EB级容量与Tbps级带宽,通过智能分层将存储成本降低40% 技术领先性与市场认可 腾讯云存储获12项国际权威认证(ISO27001/BS10012等),在沙利文「中国云存储解决方案市场报告」测评第一,并通过中国信通院云原生存储能力认证。 自研Yotta存储架构、星海4U60高密服务器与软硬件深度适配技术,支撑起全球3200+加速节点与55个可用区的数据服务体系,为AI时代提供确定性存储基础设施。 数据来源:腾讯云对象存储解决方案手册(2024),客户成功案例数据经企业授权公开
其中,GooseFS 2.0为 AI 场景深度优化,提供 GBps 单链接性能,数据访问性能逼近硬件资源极限;文件存储 CFS Turbo 打通多云数据形成端到端的解决方案,提升 AI 场景运转效率;数据万象 、企业网盘、日志服务等存储产品与 DeepSeek 大模型深度集成,帮助企业应对 AI 时代数据井喷下的成本和性能压力。 GooseFS 2.0 性能全面提升,为 AI 场景化深度优化,兼顾性能与效率 AI 应用对云存储的弹性和扩展能力提出了更高要求。 腾讯云全面升级 GooseFS 2.0,专为 AI 场景深度优化,对计算端、元数据、服务端进行升级加速,在计算端和服务端极大提升数据访问性能,拓宽在数据湖这类高性能需求的业务场景。 CFS Turbo , 面向 AI 搭建全平台、全场景、平台级存储解决方案 为了更好支持 AI 场景(如大模型训练、自动驾驶)中,文件量级尤其是小文件总量快速攀升、数据源跨云多云分布的特点,腾讯云 CFS
因此,其整个架构与海量小文件场景的需求是背道而驰的。 第三部分:为人工智能构建存储:满足现代机器学习/深度学习工作负载的需求 将抽象的存储原理与具体的应用场景相结合,才能真正体现其价值。 一个高效的AI存储系统必须能够胜任从数据引入到模型训练和推理的整个生命周期的需求。 3.2 为何传统存储在AI场景中失效 面对AI训练独特的I/O特征,传统分布式文件系统显得力不从心。 NFS:AI训练中对海量小文件的随机读取,恰好触发了NFS最糟糕的性能场景:一场由高延迟元数据操作和网络往返组成的“风暴”,导致GPU长时间处于I/O等待状态,性能急剧恶化 12。 存储系统将不仅仅是“AI-Ready”,而是变得“AI-Aware”。
以下部分主要来源于: https://blog.csdn.net/zgrgfr/article/details/74455547 MyISAM存储引擎 MyISAM基于ISAM存储引擎,并对其进行扩展 它是在Web、数据仓储和其他应用环境下最常使用的存储引擎之一。MyISAM拥有较高的插入、查询速度,但不支持事务。 它的CPU效率可能是任何其他基于磁盘的关系型数据库引擎锁不能匹敌的 3、InnoDB存储引擎完全与MySQL服务器整合,InnoDB存储引擎为在主内存中缓存数据和索引而维持它自己的缓冲池。 InnoDB表可以是任何尺寸,即使在文件尺寸被限制为2GB的操作系统上 4、InnoDB支持外键完整性约束,存储表中的数据时,每张表的存储都按主键顺序存放,如果没有显示在表定义时指定主键,InnoDB会为每一行生成一个 MEMORY存储引擎 MEMORY存储引擎将表中的数据存储到内存中,未查询和引用其他表数据提供快速访问。
、服务监控、日志审计等场景问题。 对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。 腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。 访问日志介绍 COS访问日志记录了源存储桶,用户id,请求方法等信息。 场景2:运营统计 需求 统计当天访问量Top10热门的bucket 统计当天某个bucket的访问趋势 错误请求Top10的访问者 失败操作的bucket分布 用户请求有效率趋势 解决方法 统计当天访问量
主要可应用在以下几个场景:应用场景一:工服识别TSINGSEE青犀AI智能网关V3可以对施工人员防护用品穿戴情况实时检测,当检测到人员未穿戴安全帽、反光衣、安全带时,及时预警并抓拍,通知后台管理人员,并可联动现场语音提示 应用场景二:区域入侵检测TSINGSEE青犀AI智能网关V3可对施工场地进行区域划分,如发现有可疑人员进入违禁区域,就会立即抓拍并触发告警,同时将告警信息推送至管理中心,提高了工地安全生产的智能化管理水平 应用场景三:睡岗/离岗检测TSINGSEE青犀AI智能网关V3可对人员工作状态进行智能识别,对监控范围内的人员抽烟、打电话、睡岗、离岗、玩手机等安全行为隐患进行识别,实现施工人员的行为规范、安全作业监控 应用场景四:烟火识别TSINGSEE青犀AI智能网关V3还配备了烟火识别算法,可对作业区域进行烟雾、火焰实时识别,一旦发生火灾,立刻就能通知管理人员,管理人员还可在监控大屏中实时查看,判断火情大小,及时进行分析解决 硬件可实现的 AI 检测包括:人脸结构化数据、车辆结构化数据、场景检测类算法、行业类检测算法、人员行为类检测算法等。
适用场景1 使用BLACKHOLE存储引擎的表不存储任何数据,但如果mysql启用了二进制日志,SQL语句被写入日志(并被复制到从服务器)。 适用场景 数据归档 压缩比非常高,存储空间大概是innodb的10-15分之一,所以存储历史数据非常适合,由于不支持索引也不能缓存索引和数据,不适合作为并发访问表。 MySQL用户是不能创建存储引擎为PERFORMANCE_SCHEMA的表。 场景: DBA能够较明细得了解性能降低可能是由于哪些瓶颈。 Federated存储引擎可以使你在本地数据库中访问远程数据库中的数据,针对federated存储引擎表的查询会被发送到远程数据库的表上执行,本地是不存储任何数据的。 场景: dblink。 ? Cluster/NDB 该存储引擎用于多台数据机器联合提供服务以提高整体性能和安全性。适合数据量大、安全和性能要求高的场景。 CAP理论。
值得一提的是,为了应对复杂的用户场景,腾讯云原生数据湖存储首创性地设计了,由元数据加速器、AZ加速器和数据加速器GooseFS组成的数据湖“三级加速体系”。 目前,腾讯云原生数据湖存储已服务了多个业务场景。 会上,来自腾讯云存储多款产品的负责人分享了各自场景下的实践理念,为企业进一步降本增效提供参考。 腾讯云文件存储CFS作为可拓展的共享文件存储服务,提供高性能、大容量、低成本的数据管理方案。 依托腾讯云COS,腾讯云数据万象涵盖了图片处理、内容审核、媒体处理、AI识别等功能,为用户提供一站式的专业数据处理解决方案。 会上,腾讯云存储高级产品经理王靓提到,腾讯云数据万象打造了“存+管+数据处理”一站式生产力平台,大幅降低了用户的研发成本和使用门槛,其还聚焦电商、文创、生活互联等行业场景做出了能力优化,进一步帮助用户提高生产力
摘要 在游戏开发中,会话存储是保障玩家实时体验的核心环节。 本文从高并发、低延迟、数据持久化等需求出发,对比主流Redis产品,推荐腾讯云数据库Redis作为游戏会话存储的最优解,并结合其功能特性与活动政策提供选型建议。 一、游戏会话存储的核心需求 超低延迟:玩家操作响应需控制在1ms内,避免卡顿影响体验。 高并发支持:千万级玩家同时在线时,系统需稳定处理读写请求。 成本优化方案 双12活动特惠:新人用户购Redis标准版2G 享2.1折; 存储分级:冷数据自动压缩至SSD,存储成本降低40%。 结语 在游戏会话存储场景中,腾讯云Redis凭借超低延迟、弹性扩展能力和企业级安全防护,成为开发者应对高并发挑战的最优选择。
这些挑战对企业的数据存储和处理能力提出了越来越高的要求。为满足不同应用场景的需求,数据库存储引擎的选择变得尤为重要。 YashanDB的存储引擎概述YashanDB支持多种存储引擎,包括HEAP、BTREE、MCOL和SCOL。这些存储引擎不仅具有各自特有的存储结构和实现机制,同时也适用于不同的应用场景和业务需求。 MCOL存储引擎可变列式存储(MCOL)是一种新型存储解决方案,通过段页式管理组织数据。MCOL引擎以列为单位存储数据,对于需要频繁进行分析和聚合计算的场景尤其有效。 SCOL存储引擎稳态列式存储(SCOL)通过切片式存储提供高性能的数据分析能力。SCOL专注于存储稳定且大规模的数据,适合进行在线分析处理(OLAP)的场景。 查询性能需求:不同的场景对查询的性能要求也各不相同,采用合适的存储引擎能够显著提升整体性能。结论在不同行业和应用中,数据库的存储引擎起着至关重要的作用。
: GB级别的顺序写 推理和RAG过程中: TB级别的随机读 归档过程中: PB级别的随机写 典型 AI 集群的存储剖析(按存储性能分层存储) 图片 左边绿色GPU服务器集群通常只能提供8个U.2的插槽 中间采用高性能全闪存,通过是TLC, 弥补机械盘性能, 总容量比HDD少 右边采用对象存储, 存储集群或JBODS, 包含大量机械盘, 总容量占比高 AI集群中的数据移动 图片 1.数据采集阶段,原始数据按顺序写入对象存储层 RAG 还可以创建额外的 I/O 活动 5.归档流程: 模型输入和输出被捕获并写入对象存储层的磁盘 旨在优化 AI 存储效率的产品组合 QLC 提升新型 AI DC(数据中心) 构建的电源效率 每个 DGX 有关建模详细信息,请参阅附录“QLC 功率效率与 HDD” 模型训练与数据存储 AI 数据穿越存储层之旅 最近的检查点基本在SSD上 早期的检查点数据在HDDS AI数据量级和性能 检查点:提高存储容量和吞吐量 Blob 存储层一次性访问可实现高吞吐量 AI负载中的存储扩展性 总结 AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求 AI行业也会带动存储行业发展,
Fig-2 AI训练工作流对应的存储方案定性说明。 Fig-3 图示 AI训练工作流中存储层动态交互过程。 数据转移到HDD层做长时保留 • 存储层的性能/容量,随GPUs数量及训练次数弹性扩展 AI模型训练前,要完成数据Tokenization/ Vectorization,用什么专用软件来实现? 核心要点:GPU从Blob存储层同时访问会驱动高吞吐量 Fig-6 从AI系统存储带宽需求,看HDD和SSD发展现况和机遇: • 当前系统使用SSD能满足训练和Checkpoint的性能读取(但成本较高 总结 作为运营主要AI训练资源云厂商,”巨硬“对AI应用层系统实践,应该说是富有经验的,从这篇分享中可以总结以下几点: • 和新兴存储厂商(WEKA/VAST/Infidant)等普遍拥抱闪存基础设施& (Fig-5); • HDD/SSD介质发展趋势,AI场景要兼顾容量和性能(Fig-7)。
SuperMicro:AI存储硬件方案-Fig-1 云厂商 AI存储方案 大规模 AI/GPU 集群基础设施。按可扩展单元 (SU,也称为 Pod,例如 256 个 GPU) 进行扩展。 最高性能的 AI 训练和推理。 存储需求: • 全部为 NVMe 存储。 • 每个 SU 的性能要求:读取 125 GBps / 写入 62 GBps。 SuperMicro:AI存储硬件方案-Fig-2 企业级AI存储方案 Pod 级别的部署(较云厂商规模、性能要求降低) 企业用例,推理与训练的比较 存储需求: • 全 NVMe 或 PB 级别的分层存储 • 并行文件系统,高性能对象存储。 SuperMicro:AI存储硬件方案-Fig-3 基础计算硬件方案 在执行 AIOps 和 MLOps 时: • GPU 密集型服务器加速 AI 训练和推理。 SuperMicro:AI存储硬件方案-Fig-5 计算+存储(性能层)+容量层 方案 所有训练数据集和模型都存储在本地 • 数据湖使用容量优化的存储。
这种结合不仅打破了传统内容管理在效率、精准度和扩展性上的局限,更催生出一系列创新的功能场景,从内容的创作生成到审核分类,从搜索应用到网页管理,AI 的赋能让 MassCMS 在各个环节都展现出强大的潜力 AI内容审核与分类内容审核内容上传至 MassCMS 后,AI 会自动对文本、图片、视频等内容进行多维度审核。 MassCMS 与 AI 的融合在内容创作、管理、推荐、搜索等多方面展现出巨大潜力,将为内容管理领域带来深刻变革,创造更多创新应用场景,提升用户体验和内容运营效率 。4. AI翻译MassCMS 的 AI 翻译功能可对平台内的各类内容进行精准、快速的多语言转换。 用户在创建多语言版本的内容时候,AI一键翻译就可以将内容新增一个新的语言版本,用户可以自行校对和修改。同时,AI 翻译还能适配不同的语言风格。
AI口语练习的场景模拟是利用人工智能技术,特别是自然语言处理(NLP)、语音识别(ASR)和语音合成(TTS),构建各种虚拟的对话场景,让用户能够像在真实生活中一样进行口语练习。 以下是AI口语练习场景模拟的一些关键方面:1. 场景设计的原则:真实性: 场景应尽可能贴近现实生活,使用户能够将练习应用到实际交流中。 例如,初学者可以从简单的日常对话开始,而需要准备商务英语考试的用户则可以选择商务场景进行练习。互动性: 场景应具有一定的互动性,用户可以根据自己的意愿进行回答和提问,而不是被动地听取AI的讲解。2. 场景模拟的未来发展趋势:更逼真的虚拟环境: 借助VR/AR等技术,构建更逼真的虚拟环境,提供更沉浸式的学习体验。更智能的AI交互: 提高AI的理解能力和回复能力,使对话更加自然流畅。 更个性化的学习内容: 根据用户的学习数据和偏好,提供更个性化的场景推荐和练习内容。通过不断地技术创新和应用,AI口语练习的场景模拟将会在未来发挥更大的作用,帮助更多的人有效地提高口语水平。
AI 的历史与现状 本文将介绍 AI 的由来、现状和趋势,让大家能够了解 AI 应用的由来与趋势,为后面理解 AI 系统的设计形成初步的基础。 AI 场景与行业应用 随着人工智能技术的发展与推广,人工智能逐渐在互联网、制造业、医疗、金融等不同行业和场景涌现大范围的应用。 金融行业:金融行业一直是人工智能技术的重要应用场景。 医疗行业:医疗行业一直是人工智能技术的重要应用场景。通过深度学习技术,可以实现对疾病诊断、药物研发、病历管理等方面的智能化分析。 教育行业:教育行业一直是人工智能技术的重要应用场景。通过深度学习技术,可以实现对学生的个性化教育、智能辅导、智能评估等方面的智能化分析。 同时,深度学习还能够提高自动驾驶车辆的适应性和智能化水平,使其能够更好地应对复杂的交通环境和多种驾驶场景。