解析联想人工智能实践

解析联想人工智能实践
2017年07月03日 20:08 科技看门道

古人云,“工欲善其事,必先利其器”。

不久前,谷歌AlphaGo2代3:0击败围棋世界冠军柯洁后,宣布未来焦点将从围棋转向行业应用领域,其实也宣布了人工智能(AI)开始成为企业计算解决方案提供商的下一个重点领域。

众所周知,人工智能领域的三大基础是计算、算法和数据。数据角度,各种手持终端包括物联网传感器的广泛使用,使得数据量呈几何级数增长态势;在算法层面,AlphaGo 2代以策略网络和深度学习、增强学习算法叠加的技术日臻成熟。这时候,针对AI在计算力上面的开发,就成为了重点——所谓“工欲善其事,必先利其器”。

“联想是包括BAT,百度,阿里,腾讯在内的众多互联网企业的AI GPU服务器的主要供应商。”在2017联想全球超算峰会上,联想集团高级副总裁、数据中心业务集团中国区总经理童夫尧举了个例子,“比如,在京东,联想优化GPU架构后的5000个计算节点,正在被用于京东深度学习等应用。利用它进行的消费者购买习惯分析等算法,这套系统现在已经广泛服务于京东6000万客户。”

联想集团高级副总裁、数据中心业务集团中国区总经理童夫尧

AI GPU服务器是个啥

为什么AI总是和GPU挂钩?据联想集团副总裁、企业服务云计算研究室、无线研究实验室黄莹博士介绍,谷歌做翻译训练的时候,一般的训练要在12台带8个GPU的机器上算一周。

实际上,AI和GPU挂钩是因为AI等类类神经网路的处理更多会牵涉到矩阵乘法和加法,使用并行运作的GPU效率较高且成本较低,是目前主流的计算引擎,比如NVidia的P100、V100,但缺点是耗能较高;而内建DSP区块和本地存储器的FPGA可获得较佳的能源效率,但价格比较昂贵;CPU则更多用于控制和参数同步,目前专门用于机器学习的Intel Phi在奋起直追。

如果用GPU进行深度学习训练,很重要的一点就是如何来做好并行化,与AI算法相匹配,因此优化设计GPU集群是目前的重点之一。联想的方法是,在NV GPU主力引擎配合CPU、Phi、PFGA各种处理器之上做一层高效任务调度软件,调用各种不同的主流深度学习框架如谷歌的TensorFlow、Facebook的Caffe、微软的MXNET以及torch、theano等,进行更快速的并行化处理,达到更高效运行的目的,来支持基于深度学习的各种人工智能应用。

多维技术人才储备

这样的多服务器、多GPU的中大型规模训练,需要人工智能专家在深度学习模型和设置框架方面,网络系统工程师和存储系统工程师在分布式存储和网络设置方面,分布式计算专家在模型平行化方面通过协同工作来设定模型,进行训练。

而联想在人才储备方面具备很好的优势,包括从微软亚洲研究院常务副院长位置上加盟联想的芮勇博士等,使得联想从基础架构、计算力到算法到数据的积淀,都具备了真正的AI研发实力和核心竞争力。

据黄莹博士介绍,目前业界比较领先的GPU集群,性能可以达到理论峰值的90%左右,而联想的GPU集群能够达到97%,而且可以支持大规模集群,这相当于可以带领用户更快速地进入到AI的环境中。

实际上,联想也因此成为BAT等互联网企业的AI GPU服务器的主要供应商。

联想集团副总裁、企业服务云计算研究室、无线研究实验室黄莹博士

联想AI应用探索

据介绍,联想目前在AI方面已经做了的一些尝试和探索,包括京东、淘宝、微博、亚马逊上的评论等自然语言,采集回来进行理解处理,可以达到90%以上的准确率。

而联想的AI还应用于自家的电脑、手机零售门店系统,譬如在门店里采集到的图像数据,通过深度学习,可以看到人们在店面环境中最喜欢访问的区域在哪个区域,路线如何进行优化,从而更好地服务顾客。

另外,在智慧医疗方面,联想也已经和国内的一些大型医院合作,比如医生在拿到CT图像以后,可以通过联想的深度学习一体系统来辅助判断,哪些图像可能会是早期癌症病人,接下来要做哪些工作。

所谓联想的深度学习一体系统,其实就是把多机分布式训练变得像单GPU一样简单。但其背后,是联想对深度学习一体系统在性能方面的多节点并行训练,使得模型训练时间成倍缩短,加速比达到87%,同时支持大规模集群。

ABCD理论实践

在联想看来,人工智能成功要素主要有四个,可以归纳为ABCD。A就是Algorithms算法,B就是Business商业,C就是Computing Power计算力,而D则是Data数据。

对于联想来说,在算法方面,联想的自然语言理解可达90%以上的准确率,在视频分析方面也已经成功用于自身的门店智能化管理;在商业方面,联想在行业领域已经成功进行了很多合作,包括医疗领域的温州第一医院,制造业的宝钢集团,教育领域的贵阳理工等等;在计算力方面,联想具备整套的HPC高性能计算方案和人工智能软硬一体系统;最后在数据方面,联想自研了Ceph分布式存储和大数据平台LEAP,可以处理12PB以上规模的数据量。

不仅如此,联想还在2017联想全球超算峰会上宣布推出新一代自主研发、并拥有多项AI关键技术的HPC解决方案深腾8810,包括搭载的超算平台LiCO集成了深度学习应用,以及Tensorflow,Caffe,MXNET等AI框架,涉及数据预处理,训练,参数调整,过程监控等解决方案。而在生态层面,联想除了在硬件领域加强与英特尔,英伟达,Mellanox等厂商的合作,还会在软件领域开放生态系统,并且会投资一些科技创新公司,包括Face++等。

这些,都将在即将成立的联想位于中国北京、美国莫里斯维尔和德国斯图加特的全球三大AI创新中心中,与行业生态伙伴进一步合作,帮助人工智能在各行各业的应用普及。

在笔者看来,联想目前已经在人工智能领域加快布局——除了已有的高性能计算商用领域的优势外,还在相关AI人才的积累方面投入了巨大的研发资源,同时通过全球创新中心的生态建设,来帮助行业客户形成更接地气的场景化人工智能落地应用,从而形成AI领域的基础架构优势地位。

文/余文

《科技看门道》坚持深度报道,希望能通过资深媒体人对IT产业热点新闻的深入思考,挖掘其背后的商业逻辑和创新模式——不仅看热闹,更要看门道!

《科技看门道》主笔在行业渠道媒体拥有超过15年的从业经历,不仅对IT消费类和企业级软件、硬件、云计算、大数据、人工智能均有较深入的理解,同时见证了中国IT产业链上下游合作生态圈包括分销、零售、SI、ISV和CSV的进化历程,见证了金融、能源、制造、医疗、教育、政府、零售、高科技等行业的信息化之路。

《科技看门道》相信,IT产业在供给侧的改革——包括云计算、大数据、移动互联、人工智能等,将会成为推动各行各业发展进步的核心力量。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部