本文作者为BT美股团队高级分析师 SK老师
Google CEO劈柴哥(Sundar Pichai)在今年I/O全球开发者大会展示的谷歌人工智能新应用Duplex语音AI预约了一趟理发服务。下图这位:
谷歌母公司Alphabet董事长John Hennessy在事后接受采访时确认,Duplex已经通过了图灵测试 (商业预定部分)
谷歌人工智能新应用Duplex通过图灵测试的消息引发了业界广泛热议。有人说此次事件是AI领域的新里程碑,因为从AlphaGo到Duplex两次证实了现行人工智能技术进程的线路是正确的,业界确实找到了AI向人类智能演进的方法;也有人认为这次Duplex更加注重拟人化的表现,让一些人有了细思极恐的体验,这或许将“AI伦理论”推向一个高潮。
来回顾一下Duplex在I/O大会上的高光表现。任务一是预定理发服务,预订过程中出了状况,AI想要的时间理发店没空,一番复杂的交流后AI改期完成预约。理发店店员在查询可预约时间时,Duplex发出了那声惊艳的“嗯哼”,像一个真实在等待的人一样,而店员从头到尾没有发现他们的电话对象是AI。任务二,一个预定就餐的电话遇上了接听员误解,以及小于5人无法预订的困难,不过Duplex应答得体,完全是真人级别表现。
John Hennessy是斯坦福大学前校长,由他来确认Duplex通过图灵测试令人信服,不过他也强调,Duplex只是在一个特定的领域通过了图灵测试,它还只有拨打预订电话的能力,无法在其他的通话场景中像真人一样说话。
什么是图灵测试?
这个是图灵当年的惊世论文:
图灵测试(The Turing test)由艾伦·麦席森·图灵发明,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。 进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
很显然在智能助理领域,Google Assistant 原本就领先于亚马逊 Alexa 和苹果 Siri 等一众竞争对手。但在 Duplex 智能语音技术推出之后,谷歌再一次将竞争对手远远抛在了身后。这里不得不重新提醒各位,人工智能是基于大数据的反复训练而获得的智能,正是因为Google的海量搜索数据加上各种大家帮助贴的标签才成就了Google今日的成功。
Google Duplex:个人助理任务型AI
长期以来,人类和计算机之间交互的目标都是希望两者之间可以进行自然的对话,就像两个人之间讲话那样。近几年来,计算机理解和生成自然语音的能力出现了革命性的提高,谷歌语音搜索、WaveNet 之类基于深度神经网络的技术功不可没。
即便如此,当前最先进的人机对话系统仍然只有生硬的电子声音,而且也不理解人类的自然语言。具体来说,自动呼叫系统即便只是识别简单的单词和控制指令都不令人满意,更不用说跟人进行自然的对话了。打电话的人需要调整自己的说法方式来适应系统,系统却没办法适应打电话的人。
而这次发布的 Google Duplex 就包含了新的技术,它可以打电话给人类,通过自然的对话完成一系列真实世界的任务。这项技术目前针对的是执行一些特定的任务,比如为某几类活动约定时间。在这些任务中,Duplex 能让对话过程尽可能地自然,电话另一头的人类可以像和另一个人说话一样自然地交流,无需做任何调整(实际上对方可能根本就没有发现这通电话不是人类打来的)。
在这项技术的研究中,一个重要的研究要点是把 Duplex 的功能限制在封闭的场景(任务)中,这些场景涵盖的内容足够少,以至于 AI 系统可以充分地探索学习。相对应地,Duplex 经过这些场景的深入训练后,也就只能执行这些场景内的自然对话任务,还不能和人进行一般的对话。
不过,根据开头的视频我们已经感受到了,在这些任务中 Duplex 带来了令人惊喜的表现,对话过程对人类来说非常舒适。
如何展开自然对话
展开一段自然的对话有这么几个难点:自然语言难以理解,人类的自然行为很难建模,人类对延迟的耐受性很低所以需要高处理速度,以及生成听起来自然的语音,其中还要适当地夹杂一些语气词,但是最重要的是要遵循人的逻辑说话。
有别于计算机对话,人类之间对话会使用更多的复杂句子。他们经常一个句子说到一半然后更正一部分表述,会啰啰嗦嗦的,会依赖上下文然后省略一些单词,还有时候会在一个句子里表达好多个意思。比如:「我妈小时候喂我吃了好多奶粉」「星期二到星期四我们从上午 11 点开门到下午 2 点,然后下午 4 点到 9 点重新开门,然后星期五六日我们,哦不对,星期五星期六我们 11 点开门到 9 点,星期天 1 点到 9 点。」
在天然的、自发的对话中,相比与计算机讲话,人类会讲得更快、讲得更不清晰一些,这时候的语音识别也更难,单词错误率更高。在打电话的时候这个问题会更明显,经常会遇到背景噪音,通话质量也不好。
在较长的对话中,根据上下文的不同,同样的句子也可以有不同的含义。比如,「ok for 4」在预订座位的时候就有可能指人的数目,也有可能指时间。相关的上下文句子可能会在好几个句子之前,而受到电话中单词错误率的影响,这个问题又会变得愈发难解。
识别了对方的语义之后,AI 系统要说的内容就是由当前要执行的任务和对话进行的状况共同决定的。除此之外,自然语言的对话中还有一些常见的语言习惯;这些约定俗成的句法模式包括:重复时说得更详细一些(-「时间是下周五。」-「什么时候?」-「下周五,18 号。」),同步语句(「你听得清吗」),打断(-「数字是 212…」-「对不起你能重新说一遍吗」),以及停顿(「你可以稍等一下吗 [停顿] 谢谢!」,1 秒的停顿和 2 分钟的停顿又有不同的含义)。
Duplex 原理
借助语言理解、交互、时间控制、语音生成方面的最近技术发展,Google Duplex 的对话听起来相当真实且自然。
为了处理上面提到的挑战,Duplex 的核心是一个 Recurrent Neural Network (RNN)网络,它是由 TensorFlow Extended(RFX)构建的。为了达到高精度,谷歌用匿名的电话对话数据训练了 Duplex 的 RNN 网络。这个网络会使用谷歌自动语音识别(ASR)的识别结果文本,同时也会使用音频中的特征、对话历史、对话参数(比如要预订的服务,当前时间)等等。谷歌为每一种不同的任务分别训练了不同的理解模型,不过不同任务间也有一些训练语料是共享的。最后,谷歌还利用 TFX 的超参数优化进一步改进了模型。
生成自然的语音
谷歌联合使用了两种文本转语音引擎,根据不同的情境控制语音的语调。
这个系统还可以生成一些语气词(比如“hmmm”、“uh”),这也让语音变得更自然。当文本转语音引擎需要组合变化很大的语音单元,或者需要增加生成的停顿时,语气词就会被添加到生成的语音中,这就让这个系统可以以一种自然的方式向对方示意“是的我听着呢”或者“我还在考虑”(人类说话的时候就经常在思考的同时发出一些语气词)。谷歌的用户调查也确认了人类觉得带有语气词的对话更熟悉、更自然。
另一方面,系统的延迟也要能够符合人类的期待。比如,当一个人在电话里讲了“你好”这样的简单句子之后,他们会希望很快听到一个简短的回复,这种时候会对延迟更加敏感一些。当 AI 系统检测到了需要短延迟的情境时,就会使用更快但精度也更低的模型来处理。在某些极端情况下,系统甚至都不会等待 RNN 运行,而是直接使用快速逼近模型(通常也会和更慢的正式回应搭配起来使用,就像人类不完全理解另一方的时候会犹豫一样)。这样的做法就可以让系统达到 100ms 之内的极短延迟。有趣的是,谷歌发现在某些情况下要增加一些延迟来让对话听起来更自然,比如回复一个很复杂的句子的时候。
系统运行
Google Duplex 系统可以进行复杂的对话,它可以完全自动地完成大多数任务,不需要任何人类参与。系统也有一个自动监控机制,不仅成功完成一个任务后可以给用户弹出提醒,也可以识别出没能成功完成的任务(比如处理某个异常复杂的预订)。在这种情况下,它会给一个人类操作员发出指令,转交给人类完成任务。
为了在训练系统处理新的情境,谷歌也使用了实时监督训练。这种训练方式和许多事情的教学方法类似,都有一个教学者指导一个学生,边做边提供必要的指导,确保任务的执行效果达到了教学者的质量要求水平。在 Duplex 系统中,有经验的人类操作员就可以作为这样的教学者,当系统打电话处理新的、不熟悉的情境时,人类操作员就可以实时影响系统的行为。这样的边做边学的过程可以一直持续到系统达到了理想的表现为止,然后系统就可以全自动地打电话了。
总结以及对未来的展望
最近AI的崛起着实让一些人害怕:Google出清了真实机器人Boston Dynamic、Elon Mask反复提及AI威胁论,不知道原理的大众竟然在怀疑阿尔法狗输的那局是不是故意输的?而真正追踪整个行业的我们却感到的是人们生活水平将大幅提高,生产效率将大幅提升,人的认知和技能会随着AI的进步与时俱进。
当AI能够在某一领域比人类做的更好的时候,我们要做的并不是阻止而是适应接纳。就像大禹治水一样,只用填堵只能缓得一时,而引导才是千年大计。如果AI做的比人类好,只能说明人类有更多需要提高的地方,我们做的是要去研究决策生成的机制并为我所用,而AI做的是要提供给我们更多的资料和信息。
如果有一天AI可以在拼速度之外的股票交易上做的比人类好的话,那肯定会有一堆人争着抢着去了解其中的原理,学来为我所用来赚钱。那为什么就不能在其他领域也这样做呢?
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有