光明实验室主任田奇：世界模型—

光明实验室主任田奇：世界模型——初步的探索和思考

发布时间：2025-12-05
作者：光明实验室
浏览：167次

光明实验室主任田奇在光明科学城论坛·2025分享了题为《世界模型——初步的探索和思考》的主题报告，系统阐述了人工智能从多模态大模型向世界模型演进的发展路径，并分享了其团队在基础模型研发与复杂场景交互等方面的前沿进展。

趋势前瞻世界模型成为下一代AI探索焦点

田奇指出，当前人工智能正处于从自然语言走向多模态、再从多模态走向世界模型的阶段。AI大模型正在重塑千行百业，成为新时代人工智能的标配。AI大模型的下一步是世界模型，其作为AI发展的下一代关键方向，已成为行业前沿探索焦点。OpenAI发布的Sora、Meta的V-JEPA2、谷歌DeepMind的Genie 3等，均被视为世界模拟器的初步重要实践，但目前对世界模型的探索仍处于早期阶段，技术路径尚未形成形成统一认知。
尽管仍然面临重要挑战，世界模型仍然是一个螺旋式迭代增长的过程，从无交互环境，到专用视觉任务，再到现在4D可交互、动态生成、通用视觉任务。田奇表示，“结合终端产业需求，我们认为世界模型必须实现与物理世界的有效交互，完成从简单感知到复杂交互的跨越。”

基础突破轻量化端侧模型与多模态编码器性能领先

在基础模型研发方面，田奇团队已实现多项重要突破：

基于昇腾芯片从零训练的0.56B端侧语言模型，通过15T高质量token的筛选训练，性能全面超越同规模主流模型；
自研多模态视觉编码器，在零样本分类、长文本检索等任务中达到业界第一梯队水平，仅使用1/10的SFT数据，性能已比肩甚至超越1.7B规模的千问3模型；
创新提出的EMMA架构，实现多模态理解与生成的能力统一，4B参数版本性能超过字节跳动7B模型，在图像编辑、视频处理等场景表现突出。

交互攻坚长视频理解与3D生成推动世界模型闭环构建

复杂场景交互被视为构建世界模型的核心环节。田奇表示，长视频将取代过去的图像，成为多模态理解的主要研究对象。为提升长视频语义理解的质量，田奇团队研发了三模态协同理解大模型，通过对视频进行分层标题化的数据打标，实现深度语义解析——每小时视频可生成约10万字的文字描述。为了提升搜索效率，团队在推理阶段进一步构建了三模态复杂推理大模型，通过智能信息整合显著降低搜索开销，从而在精度与速度之间取得有效平衡。
在3D技术领域，团队首创了UniLat3D预训练模型，单张图片输入、单卡3秒内即可生成高质量3D资产（加速版本可实现单卡1秒以内），研发的WorldGrow能生成可无限扩展的3D仿真环境。
“长视频理解与无限生成场景的融合，将是我们构建世界模型逻辑闭环的关键一步。”田奇说道。

大会背景

本届光明科学城论坛由深圳市人民政府主办，深圳市发展改革委、市教育局、市科技创新局、市工业和信息化局、市港澳办、市外办、市科协、光明区政府、深业集团、光明科学城公司共同承办。在“光明·筑梦未来”的永久主题下，光明科学城论坛·2025以“开放”“智创”“领航”为年度主题词，汇聚行业顶尖科学家、产业领军人才与政策制定者，共同探讨前沿科技发展趋势，发布重大科技创新成果，为我国实现高水平科技自立自强贡献“光明力量”。

上一篇：光明实验室学术沙龙丨Why is it so hard to make self-driving cars?

下一篇: 光明实验室智慧城市团队荣获两项2025地理信息科技进步奖