6 月 30 日,百度智能云宣布旗下 AI 计算平台百度百舸针对 NVIDIA 最新开源的全模态世界模型 Cosmos 3 完成系统性 AI Infra 工程优化。在不依赖 NVLink 与 HPN 的条件下,基于国内主流 GPU 型号,Cosmos3-Nano-Policy-DROID 训练启动速度提升 89 倍,单机吞吐提升 99.3%,MFU 达到 0.42,显著超越官方论文中 GB200 的 0.23-0.3 基准;12 节点扩展效率达 98.3%,集群算力得到充分释放。
从 " 能跑 " 到 " 好用 ":工程优化是必答题
Cosmos 3 是当前具身智能后训练的重要基座模型之一,其 Nano-Policy-DROID 版本在机器人方向备受关注。然而,官方论文中的训练环境基于 1024 张 NVIDIA GB200 GPU 的超大规模集群,依赖 NVLink 与 HPN 实现高效扩展 —— 这对国内企业和研究机构而言并不现实。如何在通用 AI 算力环境下充分释放模型训练性能,成为落地的关键挑战。
百度智能云围绕数据加载、I/O 流水线、显存利用、编译优化及多机扩展等环节,系统性解决了社区版本在生产环境中的性能瓶颈,并针对国内主流 GPU 特性进一步释放了训练性能。
五大核心优化成果
任务启动优化:社区代码在加载 Cosmos3-DROID 数据集时,因冗余字段读取导致峰值内存飙升至 1734 GB 并触发 OOM Kill,8 卡训练任务直接失败。百度智能云通过 Parquet 列裁剪与数据拷贝路径重构,将启动时间从 37.2 分钟缩短至 25 秒,峰值内存降至 46 GB,降幅达 97%。

I/O 吞吐瓶颈突破:Profiling 定位到 ColorJitter(图像数据增强)占 CPU 端 78.5% 耗时,是 GPU 空闲等待的根因。百度智能云将 ColorJitter 算子从 CPU 迁移至 GPU 执行,单样本数据处理时间从 2.12 秒降至 0.52 秒,训练吞吐提升 50%。

torch.compile 适配:社区默认算子融合策略超出国内主流 GPU 的 Shared Memory 资源限制,导致编译功能失效。百度智能云通过配置调整禁用 mix-order reduction 策略,成功解锁编译加速,训练吞吐再提升 28.6%。
分层 Activation Checkpointing:社区默认对全部 36 层 Transformer 开启 Full AC,造成显存闲置。百度智能云开发分层 AC(Layer-wise AC)策略,在显存占用与重算开销之间找到更优平衡点,吞吐提升 3.1%。

多机集群扩展:依托百度百舸弹性 RDMA 互联(ERI)网络,配合 HSDP 并行策略与计算通信 Overlap 精细调优,12 节点(96 卡)扩展效率达 98.3%,支撑训练资源的多样化布局。
精度无损,MFU 超越旗舰基准
所有优化均为精确等价变换或 Pipeline 优化,Loss 曲线对比显示优化后版本与官方 Baseline 呈现完全一致的收敛趋势。在百度智能云实例上的 MFU 达到 0.42,超过了官方论文中 GB200 基准的 0.23-0.3。
持续深耕具身智能训推加速
目前,除 Cosmos 3 外,百度智能云面向具身智能场景已交付 OpenPI、DreamZero、GR00T N1.6、Lingbot-VLA、Motus、AHA-WAM、FastWAM、Wan2.2 等众多模型的训推加速成果。百度智能云表示,本次优化只是释放 Cosmos 3 性能的第一步,后续将在集群层面通过计算资源与模型结构的协同设计,进一步释放集群潜力、降低训练成本。
免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。