我们对“计算机视觉”一词并不陌生,它指的是让计算机通过相关设备模拟生物视觉来处理采集到的图片或视频,以实现对相应场景的多维理解。那么,我们是否能够更进一步?本期TED大会邀请人工智能领域先锋李飞飞,分享她的科研成果。
李飞飞(图源:《知识就是力量》杂志)
“看见”——
理解世界的重要一步
生命诞生初期,世界对它们来说是一片“虚无”,此时的生物还未进化出视觉,也没有“看”这一概念存在。慢慢地,生物感光系统开始出现,经历了数千万年的进化,世界上终于诞生了第一只眼睛。生命发现这世上除了自己还有别的存在,海洋从此有了样貌。
(图源:《知识就是力量》杂志)
视觉的产生极大地推动了生物进化的进程,使生物拥有了更加敏捷、强大的身体和更加复杂的神经系统。看见变成理解,理解带来行动,而这一切都促进了智能的发展。
现在,在好奇心的驱使下,人类正在为计算机视觉赋予更多智能。十几年前,人们因大型神经网络能够在1500万张图片中识别目标对象而备受鼓舞,现在,生成式人工智能已经可以将人们输入的句子转换为图片和视频,计算机视觉的智能时代已经到来了。
但是,现有的计算机视觉系统依然只能“看见”,它可以让系统生成一只在水中玩耍的猫,却不能合理地让猫的皮毛变湿,计算机视觉需要新的突破。
让计算机
不只是“看见”
现实生活中,当我们身处三维空间,我们会进行观察、学习、判断和预测。例如,当看到猫推杯子的影像时,我们的大脑会观察杯子的形状和位置,判断杯子与周围物体的关系,产生它即将被打碎的推断,并情不自禁地想要伸出手扶它。
猫推杯子(图源:《知识就是力量》杂志)
采取行动是拥有空间意识的生物与生俱来的冲动,它能够将感知与行动联系起来,我将这一概念称作“空间智能”。生物用数百万年进化出了空间智能,将眼睛捕捉到的二维图像投射进大脑,转化为三维的认知。现在,我将这种视觉与行动的良性循环引入了人工智能领域。
研究人员正在开发各种各样的新算法——让机器将一组照片转换成三维空间、将单个图像转换为三维形式、将词句所描述的三维空间布局转换为真实的房间图像、根据单个图像生成无限延伸的空间……这是一个可能性的萌芽,这种进步正在加速机器的学习,空间智能会成为所有需要理解并与这个世界互动的人工智能系统的关键组成部分。
未来,人工智能系统会拥有更强的理解能力、洞察力和空间感知能力,它将和我们一起追求更好的生活方式,创造更美好的世界。
撰文 | 王治钧
责任编辑 | 牛一名、段阳阳
运营编辑 | 段阳阳
质量审核 | 业蕾
❖ 文章来源:《知识就是力量》杂志
《空间智能——让计算机感知和理解世界》 ❖
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有