热点排行
    边缘云论坛»论坛 云计算 GPU云主机 查看内容

    0 评论

    0 收藏

    分享

    Blackwell Ultra+Dynamo 框架:Agentic AI 时代的算力生存法则

    在2025年GTC大会上,英伟达CEO黄仁勋用一场长达2小时的演讲,向全球展示了AI算力市场的全面革新。从新一代GPU架构到颠覆性数据中心网络技术,再从桌面级AI设备到开源推理框架Dynamo,英伟达正试图回答一个核心命题:当AI行业从“训练竞赛”转向“推理战场”,算力市场如何重构?

    #深度解读黄仁勋GTC演讲#
    首提Agentic AI,AI发展进入新阶段
    GTC 2025一开场,英伟达CEO黄仁勋就谈到自己对“AI发展”的看法,他表示我们正处于Generative AI(生成式 AI )阶段,即将迈入Agentic AI(代理式 AI)阶段,随后是Physical AI(物理 AI )阶段,即具身智能时代。



    黄仁勋还表示,每一波 AI 能力提升都为我们开辟了新的市场机遇,并称“市场机遇万岁”

    算力架构升级:推理时代的硬件突围
    黄仁勋在演讲中明确Blackwell Ultra(GB300)是为更高数量级计算性能的代理式AI设计,其性能参数直击行业痛点:

    HBM3e内存堆叠:12层288GB容量,内存带宽提升至8TB/s,解决大模型参数加载延迟问题 。

    NVL72超节点架构:72颗GPU互联设计,在运行DeepSeekR1等复杂推理模型时,token生成速度达每秒1000个,较前代提升10倍。

    能效比优化:尽管单卡功耗增至1.4kW,但通过液冷方案和动态电源调度,单位算力能耗下降30%。



    值得关注的是,英伟达首次将“推理经济性”作为衡量AI芯片的重要指标。以HGX B300 NVL16系统为例,其推理速度较Hopper架构提升11倍,计算能力提升 7 倍、内存容量扩大 4 倍,这对需要长期的AI推理计算需求至关重要,单位时间内的算力成本显著下降。

    对于中小型企业,直接采购Blackwell Ultra集群成本过高。通过接入云算力租赁平台,例如在算力云平台可按需调用算力资源,在零硬件投入下实现复杂模型推理,尤其适合需要突发性算力需求等场景。

    端侧算力革命:桌面AI设备改写游戏规则
    英伟达推出的DGX Spark与DGX Station,本质是将数据中心算力“微型化”

    DGX Spark:仅Mac Mini大小,1PetaFLOPS算力支持本地运行200B参数模型,适合开发者快速迭代。

    DGX Station:企业级私有推理系统,20PetaFLOPS性能+784GB统一内存,可处理视频生成、3D渲染等高强度任务。

    这两款设备的价值在于打破算力部署的地域限制。例如,制造业企业可在工厂内部署DGX Station,实时处理设备传感器数据,实现预测性维护,避免因云端传输导致的延迟问题。

    对于需要混合部署的企业,可通过算力租赁平台将部分推理任务分流至云端DGX集群,形成“端侧轻量化模型+云端重型模型”的弹性架构,平衡成本与效率。

    软件生态重构:Dynamo框架释放闲置算力
    开源框架Dynamo的推出,直击传统推理系统的三大痛点:

    资源碎片化:通过分离式服务架构,将输入处理与生成阶段分配至不同GPU,可将大语言模型推理的token生成效率提升 3 倍。

    动态负载均衡:智能路由器自动合并重复请求,以减少的无效计算。

    弹性扩展:GPU规划器根据流量波动自动调整资源,释放闲置算力。



    在实测中,Dynamo运行Llama模型时,在GPU数量相同的情况下,每小时处理的用户对话量比Hopper平台翻倍,这对需要高并发的在线教育、电商推荐等场景极具吸引力。

    数据中心网络重构:CPO技术如何降低30%算力成本
    英伟达与台积电联合开发的硅光交换机(SpectrumX/QuantumX),标志着光通信从“可插拔”走向“芯片级集成”:

    能耗优化:据Nomura测算,CPO可降低 50% 功耗,成本节省30%以上。

    带宽密度:144个800Gb/s端口支持百万级GPU集群互联。

    对于算力租赁平台而言,CPO技术的渗透意味着,同等电力预算下,数据中心可部署的GPU数量翻了不止一倍,将能够向客户提供更高性价比的推理算力套餐。

    算力租赁:AI普惠化的重要拼图
    面对Blackwell Ultra集群动辄千万美元级的投入,算力租赁正在成为企业的最优解:

    计费模式革新:按token计费模式让中小企业可用“用多少付多少”。

    技术门槛消除:预置Dynamo框架+NIM微服务,用户无需自行优化资源调度

    混合云架构:本地轻量设备+云端重型算力的组合,兼顾数据安全与弹性扩展

    算力云平台为例,大语言模型训练和推理匹配最优GPU组合(如8卡/16卡/72卡) ,助力AI初创企业的算力成本优化。



    英伟达通过GTC 2025释放了一个重要信号:AI推理将成为比训练更庞大的市场。从芯片架构到网络拓扑,从端侧设备到开源框架,这一系列创新正在重构算力规则。

    对于绝大多数企业而言,通过算力租赁服务获取随取随用的推理算力,远比自建基础设施更符合商业逻辑——毕竟,面对即将来临的Agentic AI时代,持续产生价值的是AI模型或AI应用,而非硬件资产。

    以上是算力云今日内容分享,感兴趣的朋友请多多关注!


    回复

    举报

    全部回复
    暂无回帖,快来参与回复吧