这是我有嘉宾发布的第555篇文章

2993字 | 阅读5分钟

也许你并不认同人工智能威胁论，但是不可否认的是，机器人的行为越来越智能，图灵测试已经挡不住它们了。点击视频，看嘉宾派帮主徐景明的分享，感受过去20年人工智能的突飞猛进。

摘自徐景明在嘉宾派的分享，有删减

我们今天看到了人机交互的很多展示，其实整个大的背景，也就是现在所说的IT产业发展五次浪潮六次浪潮，人机交互在其中起到了非常重要的引领作用。

人工智能还处在认知智能的初级阶段

我们现在还在不断演进。从2014年我们就启动了讯飞超脑计划，从能听会说到能理解会思考，从感知智能走向认知智能。

人工智能的三个阶段，运算智能、感知智能和认知智能。

运算智能很容易理解，机器的能存会算。

感知智能就是使机器具备能听会说，能看会认的能力，而机器的感知智能其实是一定会超过人类的。因为机器可以听到超声波、次声波，人是肯定听不到的；机器可以看到红外、紫外，人是肯定看不到的。

而且就在人类的交流语言里，机器也会远远超过人类。人类能力再强，一般可能学会三种五种语言，但是机器可以学会十种二十种语言，以后甚至更多小语种，我们也都可以让它学会，只是时间问题，而且它可以听到更细微的声音，可以讲出更复杂的语种。

第三是认知智能。

阿尔法狗下围棋下赢李世石，跟当年的1997年IBM计算机深蓝下赢国际象棋大师卡斯帕罗夫，是完全不同的挑战。下赢卡斯帕罗夫属于计算智能的胜利，但是阿尔法狗是属于认知智能的胜利。因为围棋是不能穷尽的，它的做法是，像人一样学习了人类有史以来的上百万棋谱，学过之后它可以进行自我训练，自我的逻辑推理和自主决策，非常像人的认知能力的发展，所以这是一个非常大的挑战。

现在我们在人工智能的发展阶段处在感知智能的高级阶段和认知智能的初级阶段，所以我们不要去夸大，但是也不要去贬低。

人工智能的发展有两个主线，一个是以DNN为代表的深度神经网络算法的进步。现在随着算法的进步，它已经在逐步深入到各个行业，比如医疗、教育、司法、智慧城市等等领域都有非常多的应用。

另一块就是脑科学和类脑科学的进展，它研究的是人神经元传递信息的机理。这个东西实际上确实有很大的挑战，我们跟相关机构成立了实验室在进行合作。但是，即便我们在脑科学和类脑科学方面没有大的突破的情况下，现在的算法进步已经可以深入地改变我们各个行业了。

嘉宾派帮主、讯飞产投董事长徐景明在分享

认知智能在常识推理方面的挑战

人类的智慧是怎么产生的？赫拉利的《人类简史》里面做了分析，在200万年以前，就有各种各样大脑容量相同的直立行走的人类了，但直到7万年以前，智人才开始统治全球。

为什么？因为智人在语言上取得了突破，语言上的突破使得人类不仅可以反馈周边的环境信息，更重要的是，它可以传递虚构的概念，可以形成更大的组织，去做更复杂的协同性工作。

所以人自从语言上有了突破之后，我们就从生物进化，进化到了文化进化的层次，这是非常大的突破。

这就是为什么讯飞会从语音交互走到人工智能领域。讯飞超脑计划就是以语音和语言为入口的认知革命。

嘉宾传媒创始人吴婷在科大讯飞访学

科技部启动的首个人工智能重大项目，就是类人答题机器人，讯飞作为组长单位牵头，全国大概30多家研究机构共同参与，就是要让机器具备语言的理解、知识表示、联想推理和自主学习能力，目标就是让机器人能够考上大学。

我们在这方面也有蛮多的进展。以前人工智能的测试是图灵测试，图灵测试就是把人和机器都放在一个布的后面，然后让这个机器跟你对话，如果你能够区别出它是个机器还是个人，那它就没有通过图灵测试；如果你区别不出来，把机器当成人了，就说明它通过了图灵测试。

但是随着算法的进步，随着数据的不断积累，这种测试已经越来越容易被通过了，已经不具有代表性了。现在Winograd测试是大家比较公认的新一代测试。

里面有一些问题，对人类来说非常简单，六岁的小孩就可以回答出来这个问题，但是对于机器来说就是非常难的问题。

这里面有一个六龄童智商的事儿。对于人类来说，六岁以前的学习，只要在一个正常的成长环境，他的认知推理能力会自然而然的形成，不需要特别去教。他真正的挑战是六岁以后上学了，开始无比痛苦地接受知识的灌输过程。

对于机器来说，它的挑战是达到六龄童的智商和能力。它如果达到了六龄童的能力，后面的事情对它来说是非常简单的，它只要把知识给灌进去就行了，所以认知智能在常识推理方面是非常大的挑战。

还有就是在自然语言理解和知识推理方面新的突破。知识图谱构建怎么理解？比如一个句子里面的很多名词，它可以很清楚地抓到它背后的指代关系，这是知识图谱。它的构建过程是非常复杂的，而且非常有价值。

所以我们经常会说机器很傻，但你跟它讲一句话的时候，话里面其实有很多很复杂的关系，有很多的指代关系。它必须要把名词后面的这种关系，还有后面再一层的关系，一层一层的抓取出来，才可能真正做到自然语言理解能力。

现在整个趋势，人工智能确实比想象中来得更快。麦肯锡的报告认为45%的人类活动可以被当前的技术替代，对于在座的各位CEO可能是20%。我们都面临这样的挑战。

对于创业企业来说，一个优秀的算法完全不等同于技术，优秀的技术完全不等同于优秀的产品，优秀的产品完全不代表你能去卖出去。所以这里面都是非常大的跨越，在这些跨越里面，我觉得每一个都有非常多的挑战。

嘉宾派帮主们在科大讯飞访学

未来每个人都会有一个个性化的声库

从大型机到小型机到PC机整个的交互模式，从原来的纸带打孔到键盘输入，到视窗的操作系统，再到苹果出的触屏交互技术，它把触摸技术真正做到了极致实用。接下来，大家公认一定会进入到万物互联时代。

万物互联时代，我们是一个什么样的交互方式？

移动互联网时代是一个以触屏为主，其它交互方式为辅的时代，但是到万物互联时代，我们的眼镜，我们的手表，我们的身上各种各样的终端设备，都可以具备交互能力。我们认为一定是语音为主，键盘触摸为辅的人机交互时代，而且它正在来临。

我们回到家里面，机器人一定是用语音，就像自然的交互一样，它来迎接我，跟我去交互，而不是我跑到它身边，在它身上指指点点，所以这是一个大趋势。

语音技术包括合成、识别、自然语言理解。合成就是让机器说话的技术。识别就是让机器听懂人说话的技术，不仅听懂你说的是什么，而且能听懂你是谁，你说的是哪一种语言，甚至哪一种方言。自然语言理解，就是让它进行语义的理解，并且给出适合的指令集，相当于给它赋予一个人工的大脑。

语音合成有很多的评价指标，可懂度、清晰度、自然度等等，最关键的指标是自然度的指标。

1995年当时不足三分的系统效果，很像卡通片机器人的说话声音，当时单纯采用单词拼接，把不同的词拼到一起，中间的能量、时长、音高等等一系列的复杂参数，要解决好，本身就是非常难的。

2001年的系统效果，技术有很明显的进步，但是还是能听出来是机器在说话，没有真人发声抑扬顿挫的感觉。

现在的中文合成效果，进步非常明显，讯飞是业界第一个把中文的语音合成技术做到超过普通人说话水平的。除此以外，自90年代中期以来，科大讯飞在历次的国内外语音合成评测中，各项关键指标均名列第一。第一次参赛的时候，整个语音学界非常震惊，外国人说，讯飞是一匹黑马。我们的英文合成效果是有情感有语气的，表达非常丰富。

这里面其实有非常大的应用空间。

我相信，你可以把你的声音作为礼物送给恋人、父母、孩子，当你去上班的时候，你的孩子听的朗读故事可能有他爸爸妈妈的声音特征；等我们老了，孩子出国了，孩子可能把他的声音给我们，听报刊听新闻等等都是孩子在给我们在念书。

年轻人开车的时候，车载导航用的不是那种通用设备，当然林志玲的声音是我们做的，郭德纲的声音也是我们做的，但是以后可能就是我的恋人发的声音，给我语音导航和提示，这样的应用是无所不在的。

还有机器翻译，我非常相信，以后人机沟通的无障碍，一定是可以实现的。这应该只是一个时间问题。