【洗地机】乐鱼平台赞助大巴黎生产厂家:专注于全自动洗地机等清洁设备研发生产,精工制作,执行国际生产标准、品质保障【厂家直销】现货价格实惠,欢迎您的来电!
乐鱼平台赞助大巴黎
乐鱼平台赞助大巴黎邮箱cdhongwen@163.com      客服热线028-84592489
乐鱼平台赞助大巴黎:拥有20万GPU的集群建好了只用了122天

拥有20万GPU的集群建好了只用了122天

来源:乐鱼平台赞助大巴黎    发布时间:2025-06-23 07:26:26

  埃隆·马斯克的 xAI 孟菲斯超级集群一期项目刚刚达到满负荷运营,现场变电站已投入运营并连接到主电网。据大孟菲斯商会称,该站点将从孟菲斯电力、燃气和水务局 (MLGW) 和田纳西河谷管理局 (TVA) 获得 150 兆瓦的电力。除此之外,xAI Colossus 超级计算机还拥有另外 150 兆瓦的 Megapack 电池作为备用电源,使其能够在断电或用电需求增加时持续供电。

  马斯克于去年 7 月首次启动他的 AI 集群,该集群在单一架构上搭载了 10 万块 Nvidia H100 GPU。这台 xAI 超级计算机的搭建速度很快,公司只用了 19 天就将其投入运行——而 Nvidia 首席执行官黄仁勋表示,这常常要四年时间。然而,如此快的速度意味着它不得不走一些捷径,比如在没有电网供电的情况下启动,因此该站点使用了大量天然气涡轮发电机来满足其电力需求。初步报告称,该站点内停放了 14 台发电机,每台输出功率为 2.5 兆瓦,但一些居民最近抱怨说,附近发现了超过 35 台涡轮机。

  这一开发意味着该基地一期工程现在可以完全依靠田纳西河谷管理局(TVA)的电力运行,TVA约60%的发电量来自水力发电、太阳能、风能和核能等可再次生产的能源。因此,xAI现在将停用约一半曾临时用于为Colossus项目供电的发电机——但另一半仍将保留,以满足孟菲斯超级集群二期工程的电力需求。

  不过,我们预计这样的一种情况不会持续太久,因为第二座变电站预计将于今年秋季投入到正常的使用中,该变电站将提供另外150兆瓦的电力。这在某种程度上预示着Colossus变电站的总发电量将达到300兆瓦,足以为30万户家庭供电。这是一个巨大的电力需求,此前曾有人担心田纳西河谷管理局(TVA)是否有足够的发电能力来满足这一需求。电力供应商已向各利益相关方保证,它能够在不影响其他电力供应的情况下满足这一需求。

  Colossus 最初于 2024 年 7 月推出,搭载 10 万块 Nvidia H100 芯片,到 2025 年 2 月,其 GPU 数量将翻一番,达到 20 万块。据报道,马斯克希望将孟菲斯超级集群的 GPU 数量扩大到 100 万块,并且他已经在努力筹集资金,以实现这一梦想。然而,在同一地点部署如此多的 GPU 意味着需要更加多的电力——希望田纳西河谷管理局 (TVA) 能够在不影响孟菲斯超级集群附近居民电力质量的情况下满足这一需求。

  埃隆·马斯克对各科技领域的宏伟愿景如今已聚焦于人工智能 (AI),他创立了xAI公司,致力于 AI 开发。这项努力的核心是 Colossus,它是全球最强大的超级计算机之一,能够彻底重新定义 AI 的能力。

  Colossus 的诞生不仅标志着马斯克 xAI 的一项重要成就,也标志着整个人工智能社区的一项重要成就,该社区希望在该技术的应用中发挥主导作用。

  xAI 由特斯拉和 SpaceX 首席执行官马斯克于 2023 年中期正式成立,目标是 “发现现实世界是怎样的”。

  根据其使命宣言,“xAI 是一家致力于构建AI以加速人类科学发现的公司。我们的使命是增进我们对宇宙的集体理解。”

  据马斯克称,他创立此公司是因为他开始担心不受监管的人工智能的危险。xAI 的既定目标是利用人工智能进行科学发现,但方式不具有剥削性。

  xAI 超级计算机旨在推动从机器学习到神经网络的尖端AI研究,计划使用 Colossus 训练大型语言模型(如 OpenAI 的 GPT 系列),并将框架扩展到自动机器、机器人和科学模拟等领域。

  Colossus 于 2024 年 9 月在田纳西州孟菲斯市启动。该数据中心位于南孟菲斯工业园区内一处前伊莱克斯制造基地。

  这些 GPU 在 19 天内完成部署,凸显了 xAI 对快速扩展其 AI 基础设施的关注。

  考虑到配置如此广泛的基础设施常常要数月甚至数年的时间,部署本身引起了媒体和数据中心/AI行业的极大关注。

  最初设置的 100,000 个 GPU 使其能达到高水平的解决能力,使 xAI 能够以尖端速度处理高度复杂的 AI 模型。

  鉴于当代人工智能模型的复杂性和规模持续不断的增加,这种速度和效率至关重要,因为现代人工智能模型要输入大量数据集并使用巨大的计算能力。

  LLM 设计非常类似于“如果你建造它,他们就会来”的模型,其重点是利用可用的处理能力。

  2024 年 11 月,xAI 宣布将通过一笔数十亿美元的交易将 Colossus 的容量提高一倍。

  该公司计划在未来几年筹集 60 亿美元,其中大部分来自中东主权财富基金。

  H200 GPU 在性能和效率方面提供了显著的提升,并将使 xAI 能够更快、更准确地训练 AI 模型。

  这些 GPU 针对深度学习和神经网络训练进行了优化,因此很适合 xAI 的大型 AI 项目。

  由于 Nvidia 发现并修复了一些设计缺陷,下一代芯片的交付时间已经推迟了一个季度。

  据报道,Nvidia 定制设计的服务器机架中的 72 GPU 配置过热,因此出现了新的延迟。

  据雅虎财经报道,尽管尚未确认 GB200 的 2025 年交付是否会延迟,而且 Nvidia 也不愿评论服务器机架的最终设计是不是已经完成,但该问题的宣布导致 Nvidia 股价下跌近 3%。

  它们旨在挑战甚至超越目前占主导地位的AI系统,例如 OpenAI 的 GPT-4 和谷歌的 Bard。

  Colossus 与其他超级计算机的不同之处不仅在于其底层计算能力,还在于其量身定做的人工智能基础设施。

  该系统旨在满足人工智能训练的特殊需求——处理大量数据并运行必须并行化的高度先进的算法。

  Nvidia H100 和 H200 GPU 的组合将使 Colossus 在速度和效率方面占据明显优势。这些 GPU 还配备专用的张量核心,有助于加速深度学习算法。

  此外,这些 GPU 的内存带宽足够强大,可以有效处理训练最新 AI 模型所需的大数据集。

  服务器被组织成机架,每个机架包含八台 4U 服务器,每个机架总共 64 个 GPU。

  每个 4U 服务器之间都有一个用在液态物体冷却的歧管,占用 1U 的机架空间,每个机架的底座包含一个 4U CDU 泵送系统,提供冗余冷却和管理单元。

  这些服务器使用 NVIDIA 的 Spectrum-X 以太网网络站点平台进行互连,实现了 AI 训练所必需的高带宽、低延迟通信。

  每台服务器都配备多个 400GbE 连接,运行在支持 800 GBE 的电缆上,而不是Nvidia 也支持用于大规模部署的Infiniband 选项。

  在当前架构中,集群中的每个 GPU 都配备一个专用的 400 GB 网络接口卡,其他的还有一个专用于服务器的 400 GBE NIC,每个服务器的潜在总带宽为 3.6 TB。

  每个阵列有 512 个 GPU(8 个机架,每个机架 64 个 GPU),总共有近 200 个阵列。

  10 月份,NVIDIA 负责人黄仁勋宣布,最初的 100,000 个 GPU 超级计算机仅用 19 天就搭建完成,而他所说的普通数据中心的建设过程常常要四年时间。

  Grok 系列大型语言模型是 xAI 的重点关注对象。这类模型能够解释和创建类似人类的文本,就像 OpenAI 的 GPT 系列一样。

  由于 Colossus 的计算能力,Grok 模型应该比当前的语言模型更有效、更强大。

  除了语言模型之外,xAI 还计划探索其他 AI 应用,例如无人驾驶汽车、机器人技术和科学模拟。xAI 计划通过 Colossus 挑战 AI 在这些领域的能力。

  例如,该公司正在探索在科学领域利用人工智能寻找新材料、节约能源,甚至帮助寻找新药。

  (如果您认为所有这些能力都是为了让特斯拉无人驾驶汽车成为现实,那么还有一全不同的 AI 超级计算机专门用于这项任务,即位于特斯拉 GigaTexas 工厂的拥有 50,000 个 GPU 的 Cortex AI 超级集群。)

  Colossus 还采用了所谓的“尖端冷却系统”,确保 GPU 以最稳定、最佳的温度运行,以实现稳定性和性能。

  对于这种类型的机架密度,最佳冷却绝对至关重要,并且使 Blackwell 服务器基础设施因过热而导致的潜在延迟变得更容易理解。

  由于像 Colossus 这样的客户都急于大量推出下一代设计,因此冷却系统从一开始就必须正常工作。

  正如我们之前报道的那样,许多供应商正在与 Nvidia 合作,专门为 Nvidia GPU 服务器开发冷却系统。

  虽然我们已报道了数据中心液体冷却领域的许多供应商,但该领域另一家加快速度进行发展的公司Boyd上周宣布,他们推出了一款产品,可以“借助 Nvidia 的 GB200 NVL72 增强 AI 部署的简易性和速度”。 这是为 72 GPU 集群中的下一代 Blackwell GPU 设计的服务器硬件。

  Boyd 首席执行官 Doug Britt 指出,他们的液冷技术专为AI设计,解决了如何冷却这些高要求应用程序和硬件的问题,同时简化了部署并使其更快地启动和运行。Britt 补充道:

  我们看到,下一代大型语言模型的参数已超过 1 万亿,需要先进的计算能力,例如 NVIDIA GB200 NVL72 平台所提供的能力,而更高水平的冷却技术则可逐渐增强其性能。AI 系统架构师依靠 Boyd 冷却技术,以最节能的方式有效扩展计算密度,而无需扩大数据中心和机架空间。

  过去几年,创建最有效的AI系统的竞争日益激烈,谷歌、微软和 OpenAI 大力投资超级计算机和人工智能研究。

  通过对 Colossus 的投资,xAI 具有潜在的竞争优势,使其能快速训练其 AI 模型,并可能比竞争对手更快地取得突破。

  大规模模型训练不仅缩短了构建新 AI 技术所需的时间,而且还能够在一定程度上帮助 xAI 深入研究由于计算限制而没办法实现的新 AI 研究领域。

  通过筹集资金来扩大 Colossus 的规模,xAI 正在为未来准备好。新增的 10 万块 GPU 将使系统的物理容量几乎翻倍,这将使 xAI 能够应对更大的挑战。

  与此同时,Nvidia 声称 GB200 GPU 的性能提升远超现有的 H100 部件,这并非简单的数学意义上的性能提升。这可能会对 AI 社区产生深远的影响,xAI 的发展将为重新定义 AI 技术的应用提供机会。

  Colossus 项目并非一帆风顺。为一个拥有 20 万个 GPU 的系统提供冷却和供电的成本非常高昂,尤其是在可持续性成为首要关注点的当下。

  此外,马斯克表示,他预计 Colossus 扩建所需的资金将依赖于主权财富基金,尤其是来自中东的基金。

  该计划受到了一些方面的批评,有的人觉得,外国拥有新的人工智能技术可能会产生地理政治学后果,特别是如果它被应用于研究角色之外的实际用途。

  *免责声明:本文由作者原创。文章的主要内容系作者本人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

  马斯克创立公司公司实际上没什么技术,无论xai的20万卡,和spaceX星链7000颗卫星都是想暴力出奇迹,想通过量大引发质变,一点都没有技术可言。这一些企业一点技巧性技术都没有。

  随着以色列与伊朗冲突持续,以色列多次呼吁美国总统特朗普加入对伊朗的军事打击。围绕特朗普会否同意“参战”,美国国内猜测与担忧日盛。陆续有特朗普的重量级支持者表明“反战”立场,强调特朗普竞选时曾承诺不会让美国卷入外国冲突。这也让特朗普政府至今仍未正式敲定是否发动对伊朗的打击。

  突发!美军动手了,特朗普:已完成对伊朗福尔多等3个的攻击!此前6架B-2轰炸机出动,可能携带巨型钻地炸弹

  据央视新闻报道,当地时间6月21日,美国总统特朗普在其社会化媒体“真实社交”上发文称,美国已完成对伊朗福尔多、纳坦兹和伊斯法罕三处的袭击。

  6月20日晚,成都市公安局青羊区分局发布警情通报:针对近日网传“成都百花潭公园发生聚众行为”的信息,经公安机关依法调查,现查明:网传所述违法事件未发生于百花潭公园及成都市行政区域内。

  当地时间6月21日,美国总统特朗普在社会化媒体上发文称,美国实施了对伊朗福尔多、纳坦兹和伊斯法罕三处的袭击。伊朗确认遭袭,其中称福尔多部分受损且可以修复,革命卫队誓言打击所有美在中东利益。以色列升级全国戒备状态。联合国对此强烈呼吁,避免陷入混乱循环。

  突发!伊朗议会赞成关闭霍尔木兹海峡,该海峡是“海湾地区石油输往世界各地的唯一海上通道”,全球约三分之一海运原油贸易都要途经此地 #伊朗 #霍尔木兹海峡 #石油 #交通枢纽 #突发

  34岁教授王虹回北大开讲座 韦东奕坐第一排听课 有观点认为王虹或成首位 获得菲尔兹奖的中国籍数学家

  许家印前妻5亿港元购伦敦33套豪宅,与儿孙居住在其中一套,被指通过“技术性离婚”获恒大数百亿分红(红星新闻 证券时报)#恒大#许家印前妻

  湖南省常德市委常委、市人民政府常务副市长谢胜涉嫌严重违纪违法,目前正接受湖南省纪委监委纪律审查和监察调查。

  据河北日报报道,6月18日,体彩大乐透第25068期开奖,本期中奖号码为:前区01、04、17、20、22,后区04、10。

  特朗普:已彻底摧毁伊朗;伊朗:损失不大,美在中东所有人员都是目标

  据新华社、央视报道,美国总统特朗普当地时间21日晚间发表全国电视讲话时表示,美国刚刚“彻底清除”了伊朗三处,美国的目标是摧毁伊朗核能力。

  2025年6月20日,国家体育总局训练局举行聘任仪式:周继红被国家体育总局游泳中心返聘,担任国家跳水队总教练。

相关产品推荐

在线客服 :     服务热线:028-84592489     电子邮箱: cdhongwen@163.com

乐鱼平台赞助大巴黎地址:成都龙泉驿区东洪路319号

乐鱼平台赞助大巴黎是电动环保科技型企业,本司总部基地现于合肥瑶海区新站区铜陵北路和龙子湖路交叉口...

Copyright © 乐鱼平台赞助大巴黎 版权所有