欧宝官方站网站

设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld,可在七大领域中模拟智能体交互环境

2026/6/24 11:45:09 来源:IT之家 作者:远洋 责编:远洋
感谢IT之家网友 的线索投递!

IT之家 6 月 24 日消息,阿里巴巴千问大模型今天正式发布 Qwen-AgentWorld,官方称这是首个原生语言世界模型,能够在七大领域中模拟智能体交互环境,提供两种规模(35B-A3B 与 397B-A17B)。

  • 原生世界建模:环境建模从继续预训练(CPT)阶段起即为训练目标,贯穿 CPT → SFT → RL 全流程,而非对通用大语言模型的事后适配。

  • 七大领域,一个模型:单一模型同时覆盖文本类环境(MCP、Search、Terminal、SWE)与 GUI 类环境(Web、OS、),实现跨领域知识迁移。

同步发布的还有 AgentWorldBench—— 覆盖七大领域的语言世界模型评测基准,每条测试样本均配备真实环境执行所得的真实环境观测数据。模型与评测基准可从 Hugging Face 和 ModelScope 获取。

IT之家附官方介绍如下:

Qwen-AgentWorld 代表了我们的核心探索:基于语言模型的世界建模,能否进一步拓展通用智能体能力的边界。

我们从两个方向探索如何实现语言世界建模,以及如何将其应用于推进通用智能体:

  • 首先,我们构建了智能体环境模拟的基础模型:Qwen-AgentWorld 是首个在单一模型中覆盖七大智能体交互领域(MCP、Search、Terminal、SWE、Web、OS、Android)的语言世界模型,基于超过 1000 万条真实环境交互轨迹,经由 CPT → SFT → RL 三阶段训练而成。在 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得了最高的整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。

  • 其次,我们探讨世界建模在智能体训练中的作用,并通过两种互补范式加以验证:作为解耦的环境模拟器,它为智能体强化学习提供了更优的可扩展性与可控性 —— 可控的模拟 RL 能够以真实环境无法实现的方式塑造智能体行为,且显著优于仅在真实环境中训练的 RL;作为统一的智能体基础模型,LWM 预热训练可有效迁移至涵盖七个基准(其中三个完全未出现在训练集中)的多轮智能体任务,且无需在智能体任务上进行任何 RL 微调,初步验证了语言世界模型能够作为构建更强智能体模型的基础。

通过三阶段训练范式 —— 持续预训练(CPT)注入环境知识、监督微调(SFT)激活下一状态预测推理、强化学习(RL)打磨模拟真实性 —— 自底向上逐步构建世界建模能力。我们探索了世界模型赋能通用智能体的两种互补范式:作为解耦的环境模拟器,我们在 Tool Decathlon、MCPMark 和 WideSearch 上验证了可控模拟的有效性,其表现超越了无控模拟与真实环境训练;作为统一智能体基础模型,语言世界模型(LWM)的预热训练可迁移至涵盖七个基准(其中三个完全属于域外)的多轮智能体任务,初步验证了语言世界模型能够作为构建更强智能体模型的基础。语言世界建模开辟了一条互补的扩展路径,使通用智能体的能力边界得以突破真实环境交互所能提供的上限。

AgentWorldBench 已在 Hugging Face 上发布,以按领域划分的 JSONL 文件形式提供,每个文件包含来自真实环境的交互轨迹及对应的真实观测数据。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

欧宝官方站网站相关的文章

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 Win7之家 Win10之家

软媒旗下软件: 软媒欧宝官方站网站-Opel ob(中国)APP应用 魔方