阿里千问发布首个原生语言世界模型 Qwen-AgentWorld，可在七大领域中模拟智能体交互环境

2026/6/24 11:45:09 来源：IT之家作者：远洋责编：远洋

评论：

感谢IT之家网友的线索投递！

IT之家 6 月 24 日消息，阿里巴巴千问大模型今天正式发布 Qwen-AgentWorld，官方称这是首个原生语言世界模型，能够在七大领域中模拟智能体交互环境，提供两种规模（35B-A3B 与 397B-A17B）。

原生世界建模：环境建模从继续预训练（CPT）阶段起即为训练目标，贯穿 CPT → SFT → RL 全流程，而非对通用大语言模型的事后适配。
七大领域，一个模型：单一模型同时覆盖文本类环境（MCP、Search、Terminal、SWE）与 GUI 类环境（Web、OS、），实现跨领域知识迁移。

同步发布的还有 AgentWorldBench—— 覆盖七大领域的语言世界模型评测基准，每条测试样本均配备真实环境执行所得的真实环境观测数据。模型与评测基准可从 Hugging Face 和 ModelScope 获取。

IT之家附官方介绍如下：

Qwen-AgentWorld 代表了我们的核心探索：基于语言模型的世界建模，能否进一步拓展通用智能体能力的边界。
我们从两个方向探索如何实现语言世界建模，以及如何将其应用于推进通用智能体：
首先，我们构建了智能体环境模拟的基础模型：Qwen-AgentWorld 是首个在单一模型中覆盖七大智能体交互领域（MCP、Search、Terminal、SWE、Web、OS、Android）的语言世界模型，基于超过 1000 万条真实环境交互轨迹，经由 CPT → SFT → RL 三阶段训练而成。在 AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得了最高的整体模拟质量，超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。
其次，我们探讨世界建模在智能体训练中的作用，并通过两种互补范式加以验证：作为解耦的环境模拟器，它为智能体强化学习提供了更优的可扩展性与可控性 —— 可控的模拟 RL 能够以真实环境无法实现的方式塑造智能体行为，且显著优于仅在真实环境中训练的 RL；作为统一的智能体基础模型，LWM 预热训练可有效迁移至涵盖七个基准（其中三个完全未出现在训练集中）的多轮智能体任务，且无需在智能体任务上进行任何 RL 微调，初步验证了语言世界模型能够作为构建更强智能体模型的基础。
通过三阶段训练范式 —— 持续预训练（CPT）注入环境知识、监督微调（SFT）激活下一状态预测推理、强化学习（RL）打磨模拟真实性 —— 自底向上逐步构建世界建模能力。我们探索了世界模型赋能通用智能体的两种互补范式：作为解耦的环境模拟器，我们在 Tool Decathlon、MCPMark 和 WideSearch 上验证了可控模拟的有效性，其表现超越了无控模拟与真实环境训练；作为统一智能体基础模型，语言世界模型（LWM）的预热训练可迁移至涵盖七个基准（其中三个完全属于域外）的多轮智能体任务，初步验证了语言世界模型能够作为构建更强智能体模型的基础。语言世界建模开辟了一条互补的扩展路径，使通用智能体的能力边界得以突破真实环境交互所能提供的上限。

AgentWorldBench 已在 Hugging Face 上发布，以按领域划分的 JSONL 文件形式提供，每个文件包含来自真实环境的交互轨迹及对应的真实观测数据。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

欧宝官方站网站相关的文章

关键词：阿里巴巴，千问大模型，千问，语言世界模型

软媒旗下网站： IT之家最会买 - 返利返现优惠券 Win7之家 Win10之家

软媒旗下软件： 软媒欧宝官方站网站-Opel ob（中国）APP应用魔方