首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏凯云实验室

    谷歌Colossus文件系统的设计经验

    Colossus,巨人,谷歌第二代GFS文件系统。与GFS相比,Colossus相关的文章和信息却零星稀少。 @ Google》,透露了Colossus设计的深层思考。 从 GFS 到 Colossus:谷歌的集群存储,如何使用Colossus提高存储效率。 Colossus客户端与Colossus对话,以确定从哪个D服务器读取/写入数据,然后直接与D服务器对话,以执行读取/写入操作。如下图所示。 2007年,Colossus开始在一些集群中替换GFS作为BigTable的后端。 2008年1月,Colossus的开发者搭建了第一个产品级Colossus 单元部署。

    2.5K30编辑于 2022-04-02
  • 一文读懂马斯克10万卡xAI Colossus超级AI集群组网!

    PART 01 算力引擎:解构Colossus的计算核心 1.1 GPU计算节点:定制化Supermicro液冷系统 有点让人意外的是xAI Colossus集群并没有采用新房交钥匙产品——NVIDIA 图1: xAI Colossus数据中心大规模部署的计算集群 图2: xAI Colossus数据中心单个POD模块(8个计算柜+1个网络柜) Colossus最小模块化构建单元是定制化的Supermicro Colossus为此构建了一套多供应商、分阶段演进的EB级存储集群。 图5: xAI Colossus数据中心内的Supermicro 1U NVMe存储节点 2.2 软件定义:VAST与DDN的双雄战略 Colossus的存储软件层采用了业界领先的软件定义存储方案,其核心是 xAI的长期目标是将Colossus 2的规模扩展到100万个GPU,将Colossus 2打造成AI领域发展最快、算力最强的数据中心,为Grok大模型、下一代特斯拉全自动驾驶系统和Optimus机器人训练提供支持

    1.9K10编辑于 2025-12-22
  • 来自专栏云云众生s

    X的巨型计算机改变了SC500性能游戏

    X.AI刚刚安装完成Colossus,这是世界上最大的AI超级计算机。微软、谷歌、Facebook、亚马逊和Oracle等超大规模云服务提供商也正在投入数十亿美元。 译自 X's Colossus Supercomputer Changes the SC500 Performance Game,作者 Agam Shah。 X.AI刚刚完成了Colossus的安装,它是世界上最大的AI超级计算机。Colossus用于训练Grok 3。它拥有的GPU数量超过世界上任何已知的传统超级计算机。 X尚未公布Colossus的系统性能,但如果将其作为传统计算机进行基准测试,它很容易进入前十名。 X.AI的Colossus超级计算机将成为讨论的重要内容。 英伟达将Colossus归类为世界上最大的加速系统。

    26610编辑于 2024-12-17
  • 来自专栏新智元

    马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

    Colossus 2的用电,要比旧金山全市用电峰值还要高。 预计在今年4月,升级到1.5GW,约等于一座大型核电站的输出。 更夸张的,是他们的执行速度: Colossus 1:从零到全面上线,只用了122天 Colossus 2:刚突破1GW门槛,目标直接冲着总共2GW去 Epoch AI此前一份报告称,Colossus 外界对于Colossus 1的了解,要比Colossus 2系统得多。 从0开始仅用122天就拔地而起,拥有大约20万张H100/H200,以及约3万张GB200 NVL72。 据介绍, Colossus 2造价高达数百亿美元。而xAI现在基本没外部收入,主要靠母公司X输血。 这栋新建筑——MACROHARDRR,延续了Macrohard命名,位于Colossus 2旁,占地面积超80万平方英尺。

    67510编辑于 2026-01-26
  • 来自专栏彭旭锐

    一套用了 70 年的计算机架构 —— 冯·诺依曼架构

    到了 1943 年,Colossus Mark I 计算机(巨人 1 号)在英国 Bletchley 公园(二战时的密码破译机构)被建造出来,以破解纳粹通信,好家伙一口气造了 10 台。 Colossus Mark I 被认为是第一台可编程的电子计算机,编程方法就是使用大量的开关和插线板(PlugBoards)。 但 Colossus Mark I 并不是通用计算机,它只被设计用于执行密码分析相关的计算。 Colossus Mark I —— 图片引用自 Wikipedia 直到 1945 年,John Mauchly 和 J. 但是,ENIAC 和 Colossus Mark I 一样都使用插线板编程,虽然不需要拆掉整台计算机来重新编程,但是编程效率依然非常低,据说一个简单程序在 ENIAC 上编程最多要花费三个星期。

    3.5K82编辑于 2022-12-22
  • 来自专栏安徽开发者圈

    马斯克亲手杀死了xAI,把算力卖给了"邪恶"的Anthropic

    更让人意外的是接下来发生的事:xAI旗下的Colossus 1超级计算机——拥有22万块NVIDIA GPU、300兆瓦算力、堪称世界最大AI训练集群之一—全部租给了Anthropic。 现在,Colossus 1的算力立刻帮Anthropic翻倍了Claude Code的使用限额。 TechCrunch发出灵魂拷问:"xAI现在是不是变成了一个云服务商?" Colossus 1建得快、建得大,但Grok根本用不满。The Information报道,xAI的GPU利用率只有11%。一边是数十亿美元的闲置芯片资产,一边是即将到来的IPO。 主角变成了Colossus—那座22万块GPU堆起来的超级计算机,以及围绕它运转的金钱、权力和上市梦。

    491104编辑于 2026-05-08
  • 来自专栏VRPinea

    4.27VR行业大事件:Oculus.com已被Meta Store取代;日本公司用VR控制机器人建铁路

    Meta将长期运营的Oculus.com重定向到其新的Meta Store网站;日本JR West公司用VR驱动巨型机器人建铁路;开发商Helifax发布了《Wolfenstein II:The New Colossus 04 《Wolfenstein II:The New Colossus》 VR Mod已发布 《Wolfenstein II:The New Colossus(德军总部2:新巨人)》是由Machine

    67020编辑于 2022-06-08
  • 来自专栏鸿的学习笔记

    分析 Google Cloud Spanner 的架构

    Colossus Colossus 是从 GFS 演化而来的分布式文件系统。一个厉害的数据库需要一个高性能的文件系统支持。 Colossus 项目由 BigTable 团队发起的,并且 Colossus 也为 BigTable 提供了支持。因此,Spanner 也成为了文件系统 Colossus 的使用方。

    4.2K10发布于 2020-02-19
  • 来自专栏安徽开发者圈

    600亿美元!SpaceX的Cursor豪赌

    交易结构分两层: 第一层:100亿美元合作 双方联合开发下一代编程与知识工作AI,Cursor 贡献产品和分发能力,SpaceX 旗下 xAI 贡献 Colossus 超级计算机的算力。 让这个故事更完整: 航天业务:SpaceX 猎鹰火箭、星舰 卫星互联网:Starlink AI 业务:xAI(Grok)、Cursor 社交媒体:X(原 Twitter) 超级算力:Colossus 有了 SpaceX 的 Colossus 算力支持,Cursor 的 Composer 模型可能迎来质变。 3.

    1.2K20编辑于 2026-04-27
  • 马斯克:xAI将在5年内部署等效5000万个H100 GPU

    目前马斯克 的 xAI 已经部署最新 AI GPU 加速器,以提高该公司的AI训练能力,其 Colossus 1 超级集群使用了 200,000 个基于 Hopper 架构的NVIDIA H100 和 此外,xAI接下来的目标是构建由 550,000 个 GB200 和 GB300 节点组成的 Colossus 2 集群(每个节点都有两个 GPU,因此该集群将配备超过 100 万个 GPU)。 假设Feynman架构使BF16/FP16的每瓦性能比Robin架构翻了一番,一个50 ExaFLOPS集群仍将需要4.685 GW的电力,这远远超过了xAI的Colossus 2数据中心所需的1.4

    45010编辑于 2026-03-19
  • 亨利笔记:一周AI要闻回顾(2026.5.10.)

    SpaceX向Anthropic开放Colossus算力合作 SpaceX与Anthropic围绕Colossus算力平台达成合作,Anthropic将获得额外算力支持Claude服务。

    23110编辑于 2026-05-15
  • 来自专栏萝卜要加油

    【译】如何通过 Google Spanner 实现万亿级数据存储与5个九的高可用性

    Colossus 文件系统Tablets 存储在 Colossus 上,这是 Google 的分布式文件系统。 Colossus 提供了容错性和高性能存储,使得 Spanner 能够实现存储与计算资源的独立扩展。 Splits表中的数据依据连续的键值范围进行划分,这些范围称为 splits。 所有数据均存储在 Colossus 上,该系统为分布式、复制的文件存储而设计,通过在多台物理机器间复制数据来确保高耐久性,从而在硬件故障时能够恢复数据。 所有写操作的数据均存储于 Google 的 Colossus 分布式文件系统中,该系统通过将数据复制到多台物理机器上,即使部分机器或区域出现故障,也能从其他副本中恢复数据。

    90500编辑于 2025-03-07
  • 来自专栏云计算D1net

    谷歌对决亚马逊 在云中运行Hadoop

    最新的成果是Colossus。 今天的发行版本提供了准确的——使用了一个简单的连接器库,Hadoop现在可以直接地在Google Cloud Storage运行——一个对象存储创建在Colossus上。

    1.7K30发布于 2018-03-15
  • 来自专栏低代码平台

    马斯克xAI解散,22万张GPU租给Claude,算力增加会对中国解封吗?

    JeecgBootAI专题研究|xAI并入SpaceX、Anthropic拿下Colossus1全部算力背后,对Claude用户和中国市场意味着什么? 昨天,AI行业发生了一件几乎没有人预见到的事情:Anthropic与SpaceX签约,拿下了马斯克孟菲斯超算Colossus1的全部算力——超过22万张NVIDIAGPU、300兆瓦电力容量。 Colossus1不仅仅是推理算力——它的集群架构最初就是为大规模训练而设计的。 在这个格局下,Anthropic拿到大规模低成本算力(Colossus1的GPU已经过了初始折旧高峰期,租赁成本相对新建数据中心要低得多),完全有可能在未来几个月推出更有竞争力的API定价。

    54310编辑于 2026-05-07
  • xAI坐拥55万张GPU加速卡,但利用率仅11%

    xAI的算力基础设施建设速度本身就是一个“神话”:其孟菲斯Colossus超算集群从动工到投入运营仅用了122天,从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“通常需要四年”。 △xAI孟菲斯Colossus超算集群 然而,惊人的速度似乎也让xAI“欠下”了技术债。扩张越快,支撑大规模并行训练的软件系统复杂度就越大。

    14210编辑于 2026-05-06
  • 当 AI 学会「作弊」,Post-Training 正在重写游戏规则

    马斯克在 X 上发了条推文,配图是 SpaceX 的 Colossus 2 算力集群。这条推文被转发了几万次,但大多数人没看懂他在说什么。 SpaceX 火箭发射长曝光:Cursor 已官宣调用 Colossus 2 百万级 H100 等效算力训练下一代模型 定向反馈:给模型装一个 GPS RLHF 有一个老问题,叫 Credit Assignment 分层神经网络结构:1T 参数的分片 Muon 优化器,将通信与计算完全重叠 Cursor 已经官宣,下一步将调用 SpaceXAI Colossus 2 的百万级 H100 等效算力训练下一代模型,总计算量达到现在的

    8410编辑于 2026-05-26
  • 来自专栏深度学习与python

    浅析三款大规模分布式文件系统架构设计

    这里不得不提一下,GFS 的下一代产品: Colossus。由于 GFS 的架构设计存在明显的扩展性问题,所以 Google 内部基于 GFS 继续研发了 ColossusColossus 不仅为谷歌内部各种产品提供存储能力,还作为谷歌云服务的存储底座开放给公众使用。Colossus 在设计上增强了存储的可扩展性,提高了可用性,以处理大规模增长的数据需求。 下面即将介绍的 Tectonic 也是对标 Colossus 的存储系统。篇幅关系,这篇博客不再展开介绍 Colossus,有兴趣的朋友可以阅读官方博客 [2] 。 wiki/File_system [2] 官方博客: https://cloud.google.com/blog/products/storage-data-transfer/a-peek-behind-colossus-googles-file-system

    97320编辑于 2023-04-14
  • 来自专栏服务端技术杂谈

    这是什么组合?

    核心算力资产是Colossus超算集群,号称百万级H100等效算力。马斯克的算力蓝图很宏大——计划把AI数据中心搬上太空,靠星链做算力分发,靠太阳能供电,彻底突破地球上的能耗和散热瓶颈。 公告写得很直白:“Cursor的领先产品及其面向专业软件工程师的分发渠道,结合SpaceX的百万级H100等效Colossus超级计算机训练系统,将使我们能够构建世界上最有用的模型。” 他有一套清晰的算力架构:地面用Colossus超算集群,天上用星链做算力分发和边缘计算,能源靠太阳能无限供电,形成闭环。

    14710编辑于 2026-04-30
  • 来自专栏大数据文摘

    Google Spanner原理:地球上最大的单一数据库

    Colossus(GFS II) Colossus也是一个不得不提起的技术。他是第二代GFS,对应开源世界的新HDFS。GFS是著名的分布式文件系统。 ? 初代GFS是为批处理设计的。 Colossus是第二代GFS。Colossus是Google重要的基础设施,因为他可以满足主流应用对FS的要求。 Colossus的重要改进有: · 优雅Master容错处理 (不再有2s的停止服务时间) · Chunk大小只有1MB (对小文件很友好) · Master可以存储更多的 Metadata(当Chunk从64MB变为1MB后,Metadata会扩大64倍,但是Google也解决了) Colossus可以自动分区Metadata。 每个数据中心会运行一套Colossus (GFS II) 。每个机器有100-1000个tablet。Tablet概念上将相当于数据库一张表里的一些行,物理上是数据文件。

    13.6K92发布于 2018-05-21
  • 来自专栏Juicedata

    浅析三款大规模分布式文件系统架构设计

    这里不得不提一下,GFS 的下一代产品: Colossus。由于 GFS 的架构设计存在明显的扩展性问题,所以 Google 内部基于 GFS 继续研发了 ColossusColossus 不仅为谷歌内部各种产品提供存储能力,还作为谷歌云服务的存储底座开放给公众使用。Colossus 在设计上增强了存储的可扩展性,提高了可用性,以处理大规模增长的数据需求。 下面即将介绍的 Tectonic 也是对标 Colossus 的存储系统。篇幅关系,这篇博客不再展开介绍 Colossus,有兴趣的朋友可以阅读官方博客。

    1K20编辑于 2023-03-11
领券