百度智能云完成Cosmos3系统性AI Infra工程优化单机吞吐提升 99.3%

2026/6/30 18:04:34 来源：之家网站作者：- 责编：-

评论：

6 月 30 日，百度智能云宣布旗下 AI 计算平台百度百舸针对 NVIDIA 最新开源的全模态世界模型 Cosmos 3 完成系统性 AI Infra 工程优化。在不依赖 NVLink 与 HPN 的条件下，基于国内主流 GPU 型号，Cosmos3-Nano-Policy-DROID 训练启动速度提升 89 倍，单机吞吐提升 99.3%，MFU 达到 0.42，显著超越官方论文中 GB200 的 0.23-0.3 基准；12 节点扩展效率达 98.3%，集群算力得到充分释放。

从 " 能跑 " 到 " 好用 "：工程优化是必答题

Cosmos 3 是当前具身智能后训练的重要基座模型之一，其 Nano-Policy-DROID 版本在机器人方向备受关注。然而，官方论文中的训练环境基于 1024 张 NVIDIA GB200 GPU 的超大规模集群，依赖 NVLink 与 HPN 实现高效扩展 —— 这对国内企业和研究机构而言并不现实。如何在通用 AI 算力环境下充分释放模型训练性能，成为落地的关键挑战。

百度智能云围绕数据加载、I/O 流水线、显存利用、编译优化及多机扩展等环节，系统性解决了社区版本在生产环境中的性能瓶颈，并针对国内主流 GPU 特性进一步释放了训练性能。

五大核心优化成果

任务启动优化：社区代码在加载 Cosmos3-DROID 数据集时，因冗余字段读取导致峰值内存飙升至 1734 GB 并触发 OOM Kill，8 卡训练任务直接失败。百度智能云通过 Parquet 列裁剪与数据拷贝路径重构，将启动时间从 37.2 分钟缩短至 25 秒，峰值内存降至 46 GB，降幅达 97%。

百度智能云完成Cosmos3系统性AI Infra工程优化单机吞吐提升 99.3%

I/O 吞吐瓶颈突破：Profiling 定位到 ColorJitter（图像数据增强）占 CPU 端 78.5% 耗时，是 GPU 空闲等待的根因。百度智能云将 ColorJitter 算子从 CPU 迁移至 GPU 执行，单样本数据处理时间从 2.12 秒降至 0.52 秒，训练吞吐提升 50%。

百度智能云完成Cosmos3系统性AI Infra工程优化单机吞吐提升 99.3%

torch.compile 适配：社区默认算子融合策略超出国内主流 GPU 的 Shared Memory 资源限制，导致编译功能失效。百度智能云通过配置调整禁用 mix-order reduction 策略，成功解锁编译加速，训练吞吐再提升 28.6%。

分层 Activation Checkpointing：社区默认对全部 36 层 Transformer 开启 Full AC，造成显存闲置。百度智能云开发分层 AC（Layer-wise AC）策略，在显存占用与重算开销之间找到更优平衡点，吞吐提升 3.1%。

百度智能云完成Cosmos3系统性AI Infra工程优化单机吞吐提升 99.3%

多机集群扩展：依托百度百舸弹性 RDMA 互联（ERI）网络，配合 HSDP 并行策略与计算通信 Overlap 精细调优，12 节点（96 卡）扩展效率达 98.3%，支撑训练资源的多样化布局。

精度无损，MFU 超越旗舰基准

所有优化均为精确等价变换或 Pipeline 优化，Loss 曲线对比显示优化后版本与官方 Baseline 呈现完全一致的收敛趋势。在百度智能云实例上的 MFU 达到 0.42，超过了官方论文中 GB200 基准的 0.23-0.3。

持续深耕具身智能训推加速

目前，除 Cosmos 3 外，百度智能云面向具身智能场景已交付 OpenPI、DreamZero、GR00T N1.6、Lingbot-VLA、Motus、AHA-WAM、FastWAM、Wan2.2 等众多模型的训推加速成果。百度智能云表示，本次优化只是释放 Cosmos 3 性能的第一步，后续将在集群层面通过计算资源与模型结构的协同设计，进一步释放集群潜力、降低训练成本。

免责声明：本文为本网站出于传播商业信息之目的进行转载发布，不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺，亦不构成任何购买、投资等建议，据此操作者风险自担。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

欧宝官方站网站相关的文章

关键词：业界动态

软媒旗下网站： IT之家最会买 - 返利返现优惠券 Win7之家 Win10之家

软媒旗下软件： 软媒欧宝官方站网站-Opel ob（中国）APP应用魔方

欧宝官方站网站

百度智能云完成Cosmos3系统性AI Infra工程优化 单机吞吐提升 99.3%

欧宝官方站网站相关的文章

百度智能云完成Cosmos3系统性AI Infra工程优化单机吞吐提升 99.3%