腾讯云数据湖存储 GooseFS：大模型存储基础设施技术解析与应用实践

原创

gawain2048

发布于 2026-05-30 18:25:00

1240

主讲人信息：林楠（腾讯云高级产品经理）

发布机构/场景：2024 腾讯全球数字生态大会 (Tencent Global Digital Ecosystem Summit)

一、产品定位与核心亮点

GooseFS 是一款定位为“大模型存储基础设施”的统一数据湖存储服务。

其核心技术属性在于打通对象存储（COS）与计算节点之间“最后一公里”的数据流通。在 AI 模型“Scaling Law（缩放定律）”主导下，算力（2020至2024年增长 32倍）与网络（同期增长 10倍）快速迭代，而存储性能成为制约算力效率的瓶颈。GooseFS 的商业差异化卖点在于：通过自研底层引擎与计算/服务端双向加速架构，化解了大模型场景下海量数据规模需求与极致读写性能需求之间的核心矛盾，为企业提供跨越基础设施性能鸿沟的统一存储池。

二、产品应用场景

适用受众与场景：

主要面向运行大模型训练、机器学习（如 PyTorch、TensorFlow 框架）以及大数据分析（如 Spark、Hadoop、Delta Lake、Iceberg）的企业级计算集群。

业务痛点：

数据源与质量困境：企业面临数据源多样（52% 使用11种数据源）、模式变化快（60% 每月更新表字段）、质量不可靠（90% 过去1年遇到脏数据）及处理耗时长（68% 没时间分析结果）的问题。（数据来源：Fivetran data analyst survey, 2020 & DataBricks Lakehouse）
算力与存储的性能鸿沟：大模型训练的原始数据规模已从 TB 级跃升至 百 PB 级。在数据采集、清洗、训练、推理等环节中，传统存储在规模、性能和稳定性上无法匹配 GPU 的吞吐需求，导致计算资源闲置等待数据 IO。
协议与架构割裂：不同计算框架和业务模型需要多样化的访问协议，传统架构缺乏高内聚、松耦合的统一存储底座。

三、应用框架和功能介绍

1. 功能框架

GooseFS 构建于对象存储（COS）之上，作为接入层连接上层计算节点。其架构分为：

计算端加速：通过数据亲和性调度，将热点数据下沉至 GPU 本地盘。
服务端加速：部署高性能分布式元数据引擎与分布式缓存。

2. 硬核指标

扩展能力：基于腾讯云自研 YOTTA 存储引擎，单集群最多可扩展至 100 EB（百 EB 级） 数据规模。
可靠性：数据持久性最高可达 12 个 9（99.9999999999%），数据可用性最高可达 99.995%。
API/读写延迟：平均时延可达 亚毫秒级。
吞吐量（TPS/带宽）：元数据 IOPS 可达 百万级；PB 级集群可提供 Tbps 级 读写带宽。
元数据规模：支持平行扩展至 百亿级。
支持协议/挂载能力：支持 HDFS、POSIX 协议，以及 CSI、LocalPath 等挂载能力。

3. 产品优势能力（全量提取）

海量低成本存储底座：提供覆盖数据热、温、冷和离、在线存储能力，满足数据全生命周期需求，降低边际存储成本。
元数据规模平行扩展：通过元数据 Hash 散列存储和分层压缩技术，结合使用多个 RocksDB 实例进行内存优化，打破海量小样本数据训练导致的单集群规模上限。
元数据性能平行扩展：通过 Master 备机读扩展和流量均衡技术，均匀分配读取流量，减小单机 RPC 请求压力，消除高并发读取文件时的长尾现象。
数据亲和性调度（数据本地性）：热点数据直接缓存到 GPU 本地 NvmeSSD 盘，大幅缩短数据 IO 距离；支持多种数据缓存淘汰策略，支持缓存数据同步/异步写入 COS。
生态系统无缝统一：支持对接 TKE、EMR、THPC 等不同计算框架；提供统一命名空间，支持对接 COS、本地 HDFS、TStor 等多种存储系统；打通腾讯云日志（CLS）、监控、鉴权等服务。
云原生管控与敏捷运维：支持多种托管部署模式；业务集群可无感知加速 COS，且对业务集群无侵入；支持通过腾讯云 API 快速创建和配置集群；支持用户侧通过 GFS client 发送指令进行增删查改配置及文件操作。

4. 荣誉背书

底层依托腾讯云 YOTTA 自研存储引擎 提供核心支撑（注：原文材料中未列出外部颁发的特定奖项或荣誉名称）。

四、典型案例

案例 1：某客户大模型集群

背景：该客户原始数据量多达 数十 PB 级别，业务困境在于需要从海量数据中快速提取出有效信息以减少计算消耗。同时，技术瓶颈表现为 GPU 节点存在大量本地 NvmeSSD 盘未被利用，导致整体资源利用率极低。
解决方案：
1. 资源复用与扩展：将 GooseFS Worker 节点直接部署在 GPU 节点上，利用 GPU 节点的本地盘作为缓存介质，充分利用闲置资源，并实现跟随集群规模的线性扩展。
2. 高可用保障：GooseFS Master 节点通过 Raft 协议部署 3 节点 以保证服务高可用。
3. IO 压缩：充分利用本地 NvmeSSD 盘的大吞吐、低延迟特性，减少数据跨节点、跨机架的数据传输，压缩 GPU 读取数据的时间。
成效：作业性能实现数倍提升。在核心指标上，底层 COS 读带宽峰值约为 50GBps，而通过该方案加速后，GooseFS 集群读带宽峰值飙升至 1.8Tbps。