Landing AI 本期论点:空间智能,是 AI 走向通用化过程中的下一个关键前沿。

语言模型让我们对话世界,图像模型让我们感知世界,而空间模型将决定我们能否在世界中行动。李飞飞与 World Labs 的新冒险,或许将决定下一个 AI 平台级变革的起点。

当大语言模型风靡全球、生成式 AI 深度嵌入日常生活,从搜索、写作到编程,无一不在改变人类的思维与表达方式。然而,在 AI 社区的一场炉边对谈中,李飞飞却抛出了一个更具挑战性的问题:“我们有没有忘了,AI其实生活在世界里?”

近期,在 YC 举办的一场线下活动,作为到场嘉宾,斯坦福大学教授、前 Google Cloud 首席科学家李飞飞分享了她的最新判断:真正的通用人工智能(AGI),不仅要能处理语言和图像,还必须具备理解和模拟物理世界的能力。她将这个能力称为“空间智能”(spatial intelligence),并将其定义为未来 AI 最关键、也是最艰难的一道关卡。

注:本文由ChatGPT 4o整理

从 ImageNet 到 World Labs:她始终走在数据前面

李飞飞的技术理想从未脱离现实世界的结构。早在 2007 年,她便在普林斯顿大学发起 ImageNet 项目,几乎“下载了整座互联网”的图像,用于构建一个千万级规模的图像识别数据库。她在对谈中回忆:“那时候所有人都在研究算法,我选择去研究数据,因为我们需要世界的样本。”

ImageNet 成功激活了深度学习的潜力,也让“数据即燃料”的范式成为主流。AlexNet 在 2012 年 ILSVRC 比赛中的惊艳表现,证明了大规模有标签数据与神经网络结合的威力。

如今,十五年过去,李飞飞再次投身“数据建模”的一线,但这次瞄准的是一个维度更高、结构更复杂的对象——三维世界。她创立的创业公司 World Labs,正致力于构建新一代“世界模型”(world models),目标是在虚拟空间中重建、模拟甚至生成一个可供 AI 感知、理解与操作的三维环境。“我称它为第三代基础模型:语言是第一代,图像是第二代,世界才是终极场景。”她说。

空间智能为何如此艰难?

在对谈中,李飞飞以极简的方式解释了空间智能的根本难题:“语言是一维的序列,图像是二维的像素网格,而世界,是 3D + 时间的连续体。”

她将挑战总结为三个层级。首先是“维度爆炸”,语言模型处理的是 token 序列,而空间建模需要理解三维结构及其随时间变化的动态属性,数据维度与计算复杂度指数上升。

第二个挑战是“感知病态性”。我们的视觉系统只能获取二维投影,例如摄像头拍下的是一幅图像,但 AI 却要基于这个图像还原出完整场景的三维结构,包括被遮挡的部分、物体之间的相对位置与大小。这在数学上就是一个“病态问题”——小误差会被无限放大。

第三个层级是“生成与重建的统一”。李飞飞指出,空间智能模型既要能重建已知场景,也要像生成模型那样“幻想”未知结构,从扫描现实到虚拟合成,两端之间是一个连续谱。语言模型可以靠大规模爬虫数据做训练,但世界数据“藏在人类大脑里”,难以抓取、组织与标注。

因此,World Labs 选择采用“混合式数据策略”——人工采集现实场景数据、合成训练数据,并引入物理与语义先验,用小而精、结构性强的数据替代纯粹的规模驱动。

World Labs 要解决什么问题?

在对谈中,李飞飞强调,World Labs 的目标是构建一种“既能看见世界、又能想象世界”的 AI 能力。她将这种能力称为“生成-感知一体化”(generative-perceptual symmetry),区别于过去那种将计算机视觉与生成模型分离对待的做法。

她举例说,在一个真实的厨房里,AI 不仅要识别出“锅”“勺子”“灶台”,还要理解空间结构,比如“锅在灶台上,勺子在锅里”,并推理“如果移动锅的位置,勺子也会被带动”。这些空间逻辑不仅依赖图像识别,更需要物理模拟能力和空间推理能力。

World Labs 因此不是在做“图像模型的升级版”,而是在打造一个真正用于智能体(agents)运行的世界模型底座——无论是机器人、自动驾驶系统,还是沉浸式 XR 环境,通通需要它。

她也明确提到,World Labs 的第一代产品可能会聚焦“场景级 3D 模型生成”与“任务导向式世界模拟平台”,服务方向包括家庭机器人、工业制造、空间教学与虚拟现实等多个垂直领域。

为什么 AGI 离不开空间智能?

在当前 AI 技术热点依然集中在语言模型的背景下,李飞飞的判断显得尤为清醒:“LLM 只解决了智能的一部分,那是抽象层。真正的智能,还要落地。”她指出,几乎所有的通用智能应用——无论是自动驾驶、送餐机器人,还是未来的 AI 助理——都涉及对空间环境的理解与应对。

她分析称,通用语言模型解决的是知识表达问题,而空间智能解决的是生存与行动问题。后者才是构建 Agent 的关键基底。如果没有空间建模,所有的“行动建议”都只是纸上谈兵。

她进一步援引当前几项趋势作为佐证:OpenAI 与 Jony Ive 合作开发的新一代 AI Agent 产品,正在探索具备感知能力的硬件形态;DeepMind 推出的 DreamerV3 模型强调从感知到想象到行动的闭环学习;而 GNN(图神经网络)与 RLHF(人类反馈强化学习)正在强化 AI 对“物理世界中关系”的理解力。

“AGI 的下一步,不在于更聪明的语言模型,而在于更可靠的世界模型。”她总结道。

从科研到创业:她为何总走“最难的那条路”?

对李飞飞来说,World Labs 并非她第一次站在未知前沿。她在分享中坦言,从读博时期在几乎没有导师支持的环境中坚持计算机视觉,到 ImageNet 建设初期几乎没人相信数据驱动方法,她早已习惯了“没有人铺路的地方自己开一条路”。

“我尊重知识,也尊重勇气。”她说。在 World Labs,她坚持的唯一标准是:“找那种不怕困难、不怕没人认同的人。”她称之为“intellectual fearlessness”,一种在没有路线图的情况下也能长期投身于构建工作中的精神。