热点排行
    边缘云论坛»论坛 云计算 GPU云主机 查看内容

    0 评论

    0 收藏

    分享

    马斯克欲打造xAI算力超级工厂,数万H100 GPU投入组成巨型超算!

    本帖最后由 any 于 2024-5-29 09:40 编辑

    本月下旬,特斯拉创始人马斯克在一场投资者演讲中发言,表示为了发展他旗下的人工智能初创公司xAI,他计划将数万张专用芯片串联到一台巨型的超级计算机中,并将这台超级计算机称为“算力超级工厂”。马斯克向投资者透露,这台超级计算机预计连接10万块英伟达H100 GPU组成巨型超算,它的规模将至少是目前最大GPU集群的四倍。


    据悉,马斯克自退出OpenAI团队,于去年7月创立了人工智能企业xAI,专注于人工智能技术的研发,公司创立的初衷正是挑战OpenAI和谷歌。去年11月,xAI推出旗下首款AI大模型聊天机器人Grok,能实时连接到其名下的的社交媒体平台X(原名:推特)。

    目前,Grok的最新版本为3月底发布的Grok1.5,版本实现了长上下文理解和高级推理能力,可以处理128K token的长上下文窗口。马斯克称,为了让Grok“更加智能”,急需大量高性能的GPU投入训练下一版本的对话式 AI 聊天机器人 Grok。


    据悉,xAI正在训练的Grok 2已经耗费了约2万块H100 GPU,训练进程一度因芯片短缺受阻,预计于今年5月训练完成。未来进阶版本的Grok 3可能需要高达10万块H100 GPU

    AI大模型训练是一个对计算资源要求极高的过程,它依赖大量的GPU计算单元来提供必要的算力支持。由于GPU在AI训练和推理中的关键作用,拥有大量GPU的集群成为了高性能计算资源的标志。

    因此不少人工智能企业正在加速布局GPU算力集群,为自家的AI大模型训练和运行提供充足的算力来源。

    在今年4月初,微软和OpenAI表示,合作建设一个名为「星际之门」的AI超级计算机,配备数百万专用的服务器芯片,为OpenAI旗下的AI模型训练推理提供算力支持,预计投入成本高达1150亿美元。这将是微软未来六年内计划建造的一系列设施中最大的一个。


    在2022年初始,Meta和英伟达发布了一个大型AI研究超级计算机,其连接了6080个A100 GPU,可以提供五百亿亿次级的AI计算性能。全面部署后,这一超级计算机成为最大的英伟达DGX A100客户系统,用于训练具有超过1万亿个参数的AI模型。

    然而,大部分的中小型人工智能初创公司,难以负担高昂且持续的GPU支出成本,AI大模型训练和推理的一度因GPU短缺、算力匮乏而难以推进。因此小编建议中小型创业公司可以选择像算力云(SuanLiX)这样的算力租赁平台,通过租用GPU、显卡或GPU云主机的形式,为模型训练提供充沛的算力资源。目前,算力云(SuanLiX)已在香港、福州、广东、甘肃区域部署算力服务,已上线RTX2080Ti、RTX3080、RTX3090、RTX4090、Tesla V100S、Tesla T4等显卡,型号齐全,价格实惠,用户可按需租赁。

    在全球人工智能一波又一波的浪潮下,对高性能算力的需求无疑促成了英伟达的成功。根据英伟达发布的2025财年第一财季报告显示,总营收和数据中心收入连续多个季度创新高,分别同比增长262%和427%,净利润增超620%。

    正如网友所说,人工智能时代下的英伟达就好比在淘金时代向一众科技巨头(唯一)出售挖黄金的铲子。

    以上是算力云(SuanLiX)今日内容分享,欢迎读者们参与评论区互动!



    回复

    举报

    全部回复
    暂无回帖,快来参与回复吧
    any
    超级版主
    主题 313
    回复 0
    粉丝 0