李飞飞:单图生成无限空间算法突破;空间智能是AI的关键;AI不仅是为了理解,而是为了更好的行动和互动

Z Highlights:
空间智能的突破:斯坦福的研究团队开发了能够从单张图片生成无限可能空间的算法,为数字世界的探索带来了革命性的变化。
从视觉到行动:李飞飞强调了视觉和空间智能在AI发展中的重要性,指出看到不仅仅是为了理解,而是为了更好的行动和互动。
AI在医疗领域的应用:智能传感器和机器人技术在改善患者护理和减少医疗人员倦怠方面展现了巨大的潜力,例如检测手部卫生、手术器械跟踪和预防患者跌倒。
从看到到行动: 人工智能的演变和未来
大家早上好。非常高兴来到这里。我今天不打算展示产品或进行现场演示,而是想和大家分享一个未来的愿景,这个愿景不仅仅是理解语言。我把它称为“从看到做到”。让我开始给大家展示一些东西。实际上,请把我的字体放大一点。事实上,我什么都不会展示。
这不是故障。这是我们五亿四千万年前的世界,纯粹的无尽黑暗。那时黑暗是由于光线的匮乏以及视力的缺失。实际上,阳光透过海洋表面一千米以下,来自热液喷口的光照到了海底。尽管海底生机勃勃,但没有任何眼睛,没有视网膜,没有角膜,没有晶状体。所以所有的光和生命都未被看到。曾经,视力的概念并不存在,直到某种原因促使三叶虫这种能感知光线的生物出现。它们是第一个发现自我之外存在世界的生物,这种视觉能力被认为是促成寒武纪大爆发的关键因素,当时大量动物物种进入了化石记录。

最初的视觉体验是被动的,仅仅是让光线进入,但很快就变得更加丰富和积极。神经系统开始进化,视力转化为洞察力,看到转变为理解,理解引导行动,这一切催生了智能。所以五亿年后,我们不再满足于自然赋予的智能。人类现在在探索如何创造能够像我们一样甚至更智能地“看到”的机器。

九年前,我在TED上做了一次演讲,介绍了计算机视觉的早期进展,这是人工智能的一个子领域。大约十年前,三种强大的力量首次出现:一种叫做神经网络的算法家族,快速的专业硬件称为图形处理单元(GPU),你稍后会听到Jensen的演讲,以及我的实验室花费多年策划的5000万张照片的集合——ImageNet。当这些因素结合在一起时,不仅使计算机的视觉能力前所未有地提高,还开启了现代人工智能的时代。

我们已经走了很长的路。十年前,仅仅标记物体就是一个突破,就像那些早期三叶虫第一次看到光一样。但神经网络算法的速度和准确性每年都在迅速提高。由我的实验室领导的年度ImageNet挑战赛衡量了这些算法的性能,每年的提交记录都被打破。从这个图表中可以看到年度进展和一些里程碑模型,真的非常了不起。但我们并不满足于此。自那以后,我们的实验室以及其他实验室进一步开发了能够分割物体并在视频中识别它们之间动态关系的模型,如这里所示。

图片
图片来源:Databricks
但这还不是全部。我记得当我第一次向世界展示第一个能够用自然语言描述图像和照片的计算机视觉算法时,这是一种自动图片字幕生成的方法,这是我与之前出色的学生Andre Kathy的合作成果。当时,我冒险要求Andre反过来,给一句话,然后让计算机生成照片。Andre笑着说,这不可能。然而如你所见,几年后,不可能变成了可能。这要归功于最近在生成式AI中使用的扩散模型的发展。现在,AI程序可以根据任何人类输入的句子创建全新的照片或视频。你们中的许多人最近已经看到了OpenAI和其他公司推出的Sora的美丽成果,但即使没有大量的GPU,我的学生和合作伙伴在Sora发布前几个月就已经能够创建一个名为Wolt的生成模型。这里展示了其中的一些结果。

图片
图片来源:Databricks
当然,你可以看到我们还有成长的空间,我们确实会犯错。看看那只猫的眼睛吧,对吗?它竟然没湿透就浸入了水下。我称之为“灾难猫”。希望有人能为我编写更好的AI笑话,但如果过去是序幕,我们将从这些错误中学习,创造我们想象的未来。在那个未来,我们希望充分利用AI的全部潜力。

为人工智能和机器人技术利用空间智能

多年来,我一直说拍照并不等同于看到和理解。现在我要补充一点,仅仅看到是不够的,看到是为了行动和学习。当我们在三维空间和时间中行动时,我们学习,并且我们学会更好地看到和行动。大自然创造了一个以空间智能为动力的视与行的良性循环。为了说明你的空间智能不断在做什么,我们来看这张照片,如果你觉得这张照片让你想做点什么,请举手,如果这在现实生活中真的发生过,请继续举手。在刚刚的一秒钟内,你的大脑观察了玻璃杯的几何形状、在三维空间中的位置、它与桌子、猫以及周围一切的关系,并预测接下来会发生什么,然后你会冲向玻璃杯以拯救你的地毯。

图片
图片来源:Databricks
这种行动的冲动是具有空间智能的生物的天性,它将感知与行动联系在一起。因此,要使AI超越今天的能力,我们需要的不仅仅是能够看或说的AI。我们需要能够像大自然对我们一样行动的AI。确实,我们在这方面取得了令人兴奋的进展。我们最近在空间智能方面的里程碑正在催化这种良性循环,教计算机看、做、学习,然后看得更好、做得更好。但这并不容易。动物花了数百万年的时间进化出空间智能。相比之下,人类进化出语言只用了几十万年的时间,而这种进化依赖于眼睛利用光线将二维图像投射到视网膜上,然后大脑将这些图像转换为三维。

最近,谷歌的一组计算机视觉研究人员做到了这一点。他们创建了一种算法,可以仅通过一组照片将数据转换为三维形状或三维场景。这里有更多的例子。同时,我在斯坦福的学生和同事们受到了这一工作的启发,更进一步,创建了一种只需要一张图像就能生成三维形状的算法,就像你在这里看到的那样。这里还有一些最近工作的例子。回想一下,我们以前使用文本输入来创建视频。密歇根大学的一组研究人员找到了如何将一行文本翻译成三维房间布局的方法。你现在看到的就是一个例子。

图片
图片来源:Databricks
同时,我在斯坦福的同事和他们的学生开发了一种算法,可以从一张图像生成无限可能的空间供观众探索。这些原型是未来可能实现的第一个萌芽迹象,在这个未来,人类能够以数字形式捕捉整个世界,并能够模拟我们世界的丰富性和细微差别。大自然能够在我们个体大脑中隐含完成的事情,现在空间智能AI希望在我们的集体意识中实现。随着空间智能的发展加速,这种良性循环的新时代正展现在我们眼前。

这种来回推动了机器人学习,这是任何需要直接理解和与三维世界互动的具身智能系统的关键组成部分。十年前,我的实验室推出的ImageNet数据库包含数百万张高质量图像,帮助计算机学习如何看。现在,我们正在用行为和动作教计算机如何在三维世界中行动。我们不再手动创建训练样本,而是使用像Nvidia Omniverse提供的模拟环境,这些环境由三维空间模型驱动,提供无尽的变化和互动。你现在看到的是我们实验室领导的一个名为Behavior的项目中的一小部分示例,展示了在模拟环境中训练机器人无尽的可能性。在机器人语言智能方面也有令人兴奋的进展,结合了视觉和空间智能,使用基于大语言模型的输入。我的学生和合作伙伴是第一批展示机器人臂根据口头指令执行各种任务的团队之一。

比如这个,要求机器人打开抽屉,但要小心花瓶,或者拔掉手机充电线。虽然拔线的方式有点特别,但也还可以。还有这个,制作三明治。虽然我通常喜欢三明治里多放点东西,但这已经是个不错的开始了。所以,在五亿四千万年前的原始海洋中,看到和感知环境的能力引发了与其他生物形式的寒武纪大爆发。今天,这种光芒开始照亮数字智能,就像它曾经照亮我们的祖先一样。

空间智能技术正在使机器能够相互互动,与人类互动,并与真实或虚拟的三维世界互动。随着这个未来逐渐成形,我们可以想象它将对许多人的生活产生深远的影响。

让我们以医疗为例。在过去的十年里,我的实验室迈出了将AI技术应用于影响患者结果和医疗人员倦怠的挑战的第一步。与斯坦福医学院和合作医院的学生和同事们一起,我们正在试验智能传感器,可以检测临床医生进入病房时是否正确洗手,跟踪手术中的器械,或在患者有跌倒等身体风险时提醒护理团队。我们认为这些技术是环境智能的形式,这些额外的“眼睛”可以带来不同,但我希望能看到更多为患者、临床医生和护理人员提供互动帮助的技术,他们也急需一双额外的“手”。想象一下,自动机器人运输医疗用品,使护理人员能够有更多的时间与患者相处,或增强现实技术引导外科医生进行更安全、更高效和更少创伤的手术,想象那些严重瘫痪的患者用他们的脑电波控制机器人,没错,就是用脑波,这样他们就能完成你我认为理所当然的日常任务。你现在实际上看到的是我实验室的一项试点研究中的未来一瞥。正如你在视频中看到的,一个机器人手臂仅通过脑电信号控制在制作日本寿喜烧餐,这些信号是通过EEG帽非侵入性地收集的,所以没有芯片或电极插入到人的大脑中。整个机器人动作都是由远程脑控完成的。

图片
图片来源:Unsplash
五亿四千万年前,视力的出现不仅颠覆了一个黑暗的世界,还开启了动物界最深刻的进化过程——智能的发展。过去十年中,AI的惊人进展同样令人震撼,但真正的数字革命要实现其最大潜力,只有当计算机和机器人具备了自然赋予我们的那种空间智能时才会实现。现在是时候训练我们的数字伙伴学习如何在我们称之为家的这个令人难以置信的三维空间中推理和互动,并为我们所有人创造许多新的世界供我们探索。实现这个未来并不容易,这需要我们所有人采取深思熟虑的步骤,开发始终以人为中心的技术。如果做得对,由空间智能驱动的计算机和机器人不仅会成为有用的工具,还会成为值得信赖的伙伴,能够在尊重我们个人尊严和提升我们集体繁荣的同时,增强和提升我们的生产力和人性。最令我兴奋的是这样一个未来:随着AI变得越来越有洞察力、空间感知能力,它将加入我们,满足我们的好奇心,追求更好的方法,从而创造一个更美好的世界。谢谢大家。

原视频:Fei Fei Li, Professor, Stanford University on the History and Future of AI at Data + AI Summit 2024

https://www.youtube.com/watch?v=Ctuhh8VqtfI