旷视(Face++)孙剑:视觉计算中的革命和挑战

旷视(Face++)孙剑:视觉计算中的革命和挑战
2017年07月11日 16:36 互联泛观察

7月7日,由中国计算机学会(CCF)主办、雷锋网 (公众号:雷锋网)与香港中文大学(深圳)全程承办的 AI盛会 --「全球人工智能与机器人峰会」(CCF-GAIR)在深圳顺利召开,即便多地连日暴雨的恶劣天气并没有削减人工智能各界人事奔赴这一盛会的热情。作为学术界和产业界的先锋人物,旷视(Face++)首席科学家、旷视研究院院长孙剑博士受邀来到了大会现场,并围绕「AI产业前沿」向在座的1200多位专家、学者以及行业从业者分享了旷视(Face++)的最新研发成果和人工智能商业化之路中的心路历程。

  计算革新的本质

  人工智能几起几落,我们普遍认为是大数据、计算力和算法的共同繁荣才有了今天人工智能爆发式的崛起。然而孙剑在演讲一开始就提出了这样的疑问:到底是什么更本质的变革带来了人工智能的复兴?他认为从根本上来说,主流观点中的 AI 三大支柱并不是这一次人工智能跨步成长最本质的原因,因为实际上,在中小数据上也能很好的研究和使用深度学习技术、计算力也不是一定要非常大才行、算法的大框架多年来并未显著革新。那么这一波人工智能浪潮的起源在哪?孙剑博士认为是计算方式的变革(或复兴),即从冯诺依曼的计算结构到神经网络计算带来的变革。

  传统冯诺依曼体系结构中有一个”冯诺依曼瓶颈“:CPU 和内存之间的分离以及相对低速的数据传输是传统计算结构的巨大瓶颈,而相比神经网络则能够突破带宽限制,实现数据和计算的并行处理。“神经网络拥有激活向量、非线性处理、权重矩阵三个要素,”孙剑阐述,“每一个激活向量的元素可以类比为人类人脑中神经元。一个神经网络的每一层基本上是对激活向量完成一次非线性变换,整个神经网络就是不停做这样的变换从而形成非常高维的非线性函数。”

  旷视(Face++)很早就意识到这样的运算会带来的计算革命,现在这种具有超高并行计算能力的计算方式已经被人们熟知并衍生为“深度学习”,旷视早在2012年就构建了依托于神经网络的计算平台,并搭建了自研的深度学习框架——Brain++。

  解构世界的突破与挑战

  “然而,深度学习从开始到现在不是一帆风顺的,中间经历了非常多的曲折,”孙剑博士表示,“今天终于可以很自由的训练任意深度的网络。”早期的计算机视觉研究中,研究者们主要采用手工设计图像特征描述和使用例如 SVM 等分类器设计来进行图像理解,而深度学习彻底颠覆了这种“人造特征”的研究方式,开启了数据驱动的“表示学习”范式。

  可以说正是深度学习在视觉领域的成功应用同时成就了深度学习本身、打破了学术界对于“神经网络很深无用论”的魔咒。“从最早只有 8 层的 AlexNet,到 19 层的 VGG 再到今天超过 1000 层的 ResNet,甚至还有层出不穷的新的网络结构设计中,我们可以看出视觉计算正在进行从特征设计转到网络设计的变革。”

  如果说技术革新需要逐个击破一些魔咒,那么更重要的是需要从实际需求出发,解决一些现实问题、输出商业价值,因此,旷视研究院同时也非常注重科研的“实用性”。在大会现场,孙剑博士向观众们展示了一张计算谱图,一边是打造越来越强的计算网络的主流趋势,而另一边是给定计算力约束下的网络。“在一些实际场景中,当计算量很小的时候,如果我们想把网络应用在一些嵌入设备上应该怎么做?怎么得到最好的效果?”孙剑表示,“做研究的一个重要思路就是填补空白。”

  7月4日,旷视研究院在 ArXiv 上发布了一个名为 ShuffleNet 的新型网络架构,这是一款专为计算能力有限的移动设备而设计的高性能卷积网络,它的计算目标在 10-150 MFLOPs,和之前的 AlexNet 相比在相同精度下实际运行速度可以提升15-20 倍。

  在计算机视觉领域即便做简单的检测也会碰到更深层的认知问题。一张定格图像中可能蕴含着成千上万的信息点,对于人来说可以一目了然,但是对于机器来说却非常困难:比如,我们如何才能教会机器识别一把椅子,是四条腿有靠背形态的就可以称为椅子吗?但实际生活中的很多椅子并不满足这样的描述;再比如很多图像中的人、物会在特殊的角度、光照、遮挡、远距离的条件下出现,人类可以根据场景中微弱的信号或者常识和想象就可以轻松的判断出来,但是机器并不是。

  我们需要让机器理解图像中有什么、发生了什么,甚至能够预测出可能发生什么——这些是图像更深层次的理解任务,也是人工智能中视觉计算面临的巨大困难。而针对这些问题,孙剑博士和旷视(Face++)研究院正在从图像分类、物体/文字检测、语义分割和序列学习四大核心技术研究方向展开,并致力于推进计算机视觉领域有更大的突破。

  除此之外,孙剑认为视觉计算还有更大的挑战:“计算机视觉的任务不是能够观察世界就可以了,我们做研究的目的是解决计算机的感知、认知问题的同时,让机器能够与世界实现交互,解决人工智能中手眼协调的连续决策问题;以及在一些涉及生命财产安全的应用中(如无人驾驶、AI驱动的新金融和新医疗领域等)做到无限接近 0 风险。”

  伟大的时代 与 乐观的科学家

  最后,孙剑博士在演讲中表示,虽然科研之路上充满了挑战和未知,但他却有着无比的自信。“这是一个剧烈变革的时代,我们看到世界上最聪明的脑力都投入到了人工智能的事业中,我相信人工智能的道路会是非常光明的。”

  在旷视(Face++)以及全球众多杰出人工智能企业的推动下,视觉计算的革命正在让机器逐渐看懂世界、形成对人和事物的认知。如果说这场智能革命是一场破除万难的长征,那么作为行业先手就越是应该发挥引领作用,从刚需出发开拓出一片能够孕育无机生命的土壤,并通过行业的积累实现“算法-软件-方案-数据-算法”的螺旋式升级。

  身为旷视(Face++)首席科学家,孙剑博士正在带领旷视(Face++)的研究团队推进计算机视觉技术的进步和探索其在工业和商业上的实践。目前,旷视的人工智能云开放平台的 API 已经服务了超过 10 万开发者;旷视的 FaceID 产品在全球范围内已为 2.1 亿人提供了身份验证服务,覆盖了 80% 的金融市场智能化应用,同时其智慧安防和智能地产产品也已经覆盖全国 25 个省份

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部