从“预测下一个词”到“预测下一个物理状态” 智源研究院发布全球首个通用世界基座模型

当全球人工智能还在为多模态大模型的能力边界争论不休时,中国科研机构已经率先叩响了下一代AI技术的大门。6月12日在北京开幕的2026智源大会上,智源研究院正式发布全球首个通用世界基座模型悟界・Physis-v0.1,标志着人工智能从“预测下一个词元”向“预测下一个物理状态”的范式革命迈出重要一步。这场被誉为“AI内行学术盛会”的大会,不仅集中展示了中国在AI前沿领域的原创性突破,更勾勒出了一条从数字世界迈向物理世界的清晰技术路径。

世界模型:AI下一个十年的核心赛道

本届智源大会格外引人注目的成果,无疑是悟界・Physis-v0.1的发布。这款全球首款通用世界基座模型,打破了传统AI垂类场景专用的技术瓶颈,以“预测下一物理状态”为核心,实现了物理正确、动作因果可溯、长程一致和通用泛化四项能力。

智源研究院院长王仲远指出,现有世界模型技术路线可分为四类:以语言为中心的VLM、VLA模型、以像素为中心的视频生成模型、以三维结构为中心的重建模型,以及以视觉表征为中心的JEPA系列模型。这些模型要么只能理解语言描述的世界,要么只能学习像素或几何结构,无法真正掌握物理世界的运行规律。

悟界・Physis-v0.1的突破在于,它以物理隐空间表征替代了传统的像素、帧级预测方案,通过专属物理状态编码器将视频、深度RGB、3D点云、力触反馈等全模态信息统一转化为标准化隐空间物理状态。目前,该模型已支持五十余个复杂物理场景的长程推理,可广泛应用于严肃工业、具身智能、物理仿真和科学研究等领域。

事实上,智源研究院是国内最早提出并开展世界模型研究的科研机构。2023年智源大会上,当时担任Meta首席人工智能科学家的杨立昆首次系统阐述了新一代世界模型的概念;2024年,智源作出世界模型是下一代大模型技术路线的预判;2025年发布的悟界・Emu3.5,以纯自回归框架原生实现了文本、图像、视频的统一理解与生成,打破传统多模态技术路线的模态孤岛与架构割裂。

多领域突破:从基础研究到产业应用的全链条创新

本届智源大会上,智源研究院集中发布了一系列具有国际影响力的原创性成果,覆盖基座大模型、智能体和基础软硬件生态三大领域,展现了中国AI科研的全链条创新能力。

在基座大模型方面,除了悟界・Physis-v0.1,智源还推出了全球首个理解与生成统一的多模态神经科学大模型悟界・Brainμ1.0。该模型可将人类、猕猴、小鼠跨物种的全模态脑信号统一编码为标准Token,并与语言、图像、视频等通用模态对齐,解决神经科学领域数据孤岛(复杂、稀疏、不对齐等)问题,降低神经疾病诊断成本,辅助筛查诊断阿尔茨海默病、抑郁症、帕金森等疾病。

同时发布的还有下一代AI驱动药物发现模型悟界・OpenComplex2.5。该模型解决了固有无序蛋白动态构象难以解析的行业难题,以单一模型覆盖了口袋识别、反向筛选、结构预测和亲和力预测四大制药关键步骤,为神经退行性疾病等难成药靶点研究开辟了新路径。

在智能体领域,智源针对具身智能面临的四大挑战,构建了自底向上的全栈技术体系,并推出了悟界・RoboBrainOrca具身大脑。这款以下一个物理状态预测为核心的具身大脑,实现了“想、看、动”三位一体,能够支撑具身智能机器人在物流、酒店服务等真实环境中的长期自主作业。

基础软硬件生态:破解“多模型×多芯片”适配难题

在基础软硬件生态方面,智源研究院牵头打造的众智FlagOS迎来了2.1版本的升级。作为当前全球支持芯片种类最多的智算系统软件栈,FlagOS2.1统一适配了18家芯片品牌的32款芯片型号,覆盖NVIDIA、NPU、GPGPU、DSA、RISC-V AI、ARM等多种架构。

企业面临的M款模型与N款芯片适配难题,一直是制约中国AI产业发展的重要瓶颈。王仲远介绍,FlagOS将这个复杂的矩阵问题简化为“多模型+多芯片”的统一接入解决方案,支持90%以上主流开源大模型的多芯片部署。

据了解,FlagOS的算子总数已超过600个,实现了从“大模型专用”到“科学计算”的能力延伸。

发表评论

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息