业界 | 最初语音识别率只有60%,如今坐拥5亿用户,这款AI产品是怎么做到的?

业界 | 最初语音识别率只有60%,如今坐拥5亿用户,这款AI产品是怎么做到的?
2017年11月15日 19:15 机器之心

机器之心原创

作者:微胖

很多人说,相比技术人员的匮乏,人工智能领域更迫切需要新型产品经理。进而我们也开始琢磨,什么才是人工智能产品?启动一个 AI 类产品必要因素有哪些?新型产品经理必备的素质是什么?技术之外,那些被我们忽略的挑战又是什么?如何用产品创新跑赢技术变迁速度?

由此,我们在半年前启动了关于产品的系列报道计划,讯飞输入法由于可见的用户规模成为首先进入我们视野的案例,欢迎持续关注并提供线索及想法。

在技术趋势、公司基因和互联网产品方法论相互作用下,讯飞输入法成为科大讯飞迄今为止最成功的消费级产品。如今,人工智能即将给输入法带来二次变革,讯飞基因将输入法推上了一条不同于其他竞争对手的道路。

「方池非常爱吃琵琶。」 朱萧木输入这样一句话。

纳尼?「琵琶」明显是一个同音错词。

「吃枇杷的枇杷。」朱萧木说出修改指示,讯飞输入法自动将句子中的「琵琶」修改为正确的「枇杷。」

语音修改同音错字并不是个新概念,讯飞一直在尝试,最终做出满意效果

这是 11 月 7 日,锤子坚果 Pro2 发布会上的一幕。

目前,讯飞输入法语音识别率已达 98%。以自然语言交互的方式修改同音错字来提高识别率, 部分有效解决了技术也束手无策的 2% 问题。

「3 年内,个性化语音用户的语音识别率可以达到 99%。」讯飞输入法产品总监翟吉博告诉我。

发布会的第二天,我打开谷歌搜索,输入「锤子手机,讯飞输入法」。与一年前的刷屏级反响不同,首页大部分新闻还停留在 2016 年的那场发布会上。如今,讯飞输入法累积用户已达 5 亿,或许人们已经熟悉了这款曾让他们惊讶不已的产品。

「一夜爆红」的开始

整个过程中最难的地方在于,当你不知道这件事情是否可行时,你要能证明它可行。——胡郁

科大讯飞总部位于合肥市高新区。讯飞输入法设在公司总部大厦 7 楼,占据整个楼层。拜访时,正值公司午饭时间,满载员工的四部电梯正忙上忙下。我们只好直达 8 楼,再从楼梯下到 7 楼。推开门,迎面而来的电脑屏幕实时显示着输入法关键数据指标,键盘声此起彼伏。偌大办公室的一角摆着几张小圆桌和椅子,几个年轻人正在做头脑风暴,身后不远的墙壁上贴着几张员工旅拍照片,笑起来还像是学生。

讯飞输入法七楼办公室

2016 年 10 月锤子手机发布会后,「蹿红」、「一夜爆红」、「网红」成为各大媒体报道讯飞输入法的标配。不过,我们很难将眼前的景象和这些机会主义字眼联系起来。

早在 2014 年,讯飞输入法语音识别率已达 97%。数字背后,是累积超过 2 亿的用户,约占中国居民 15%。「当采用创新的人数扩大到居民的 10%~25% 时,扩散进展会突然加快,曲线迅速上升并保持这一趋势,进入 『起飞期 』」。E.M.罗杰斯在《创新的扩散》中写道。两年后,2016 年,输入法累积用户就翻了一番。

但在七年前,「一切几乎从零开始。」讯飞输入法研发项目负责人程坤说,「苹果和安卓系统也刚刚出来。」

当时,讯飞从事业部抽调了三名员工攻关输入法,程坤是其中之一。「吉博当时在研究院,我在通信增值事业部,还有平嵌部同事。」除了翟吉博有输入法方面的经验,其他人从未涉足过这个领域。

讯飞输入法研发项目负责人程坤,也是输入法创始团队成员之一

没有明确分工,每人身兼数职,白天写代码,晚上做测试。通宵达旦两个月后,讯飞输入法诞生。因为主打语音技术,最初版本仅配备了最为常见的拼写、手写基本功能,键盘只有 26 格,取名讯飞语音输入法。

环顾办公室四周,一面墙上贴满了专利复印件,紧靠另一面墙的书架上,摆放着大大小小的奖杯。很难想象,最初版本的语音识别率只有 60% 左右,「刚开始大家都觉得难用。」科大讯飞执行总裁胡郁曾在一次公开讲座中坦言。当时,输入法使用的隐马尔科夫模型最早可追溯到上世纪七十年代。

60% 的识别率,意味着输入 100 个单词会有 40 个以上的错误,即使提高到 80%,也仅仅是勉强可用。用户对识别出错的忍受范围临界点是什么?会不会接受这样一款产品?语音识别技术何时迎来爆点?没有人知道确切答案。「整个过程中最难的地方在于,当你不知道这件事情是否可行时,你要能够证明它可行。」胡郁说。

何况,前浪和后浪都容易死在沙滩上。

「产品即服务」

没有人能打败趋势。

2007 年,一片简单的多点触控玻璃开始改变世界。1 月 9 日,苹果发布第一代手机,首次推出多点触控技术。同年,微软推出 Surface 平板电脑。

「这就是未来。」乔布斯第一次见到这项技术时预言道。想拨号,屏幕会显示数字,想写东西,调出打字键盘。当用户想观看视频时,这些键盘都会消失。「你想想,我们能在这个基础上做多少创新。」乔布斯曾说。

「iPhone4 才真正引起国人追捧,但苹果推出第一代手机时,我就开始关注它了。」翟吉博回忆说。一份创新研究显示,77% 的创新来自领先用户,处在组织结构基层的员工更加具有创新性。坐在对面的翟吉博,眼睛明亮有神,思维敏捷但语速平缓。2008 年从上海交大硕士毕业后,翟吉博进入上海的摩托罗拉中国研究中心,从事模式识别方面的研究。

讯飞输入法产品总监翟吉博

「基于触屏的全键盘输入体验不太好。屏幕太小,手指粗。」翟吉博说。当时,苹果手机的多点触控触摸屏 3.5 英寸,市场手机屏幕平均大小 3.2 寸。屏幕变化会影响信息交互。「我习惯从用户角度看技术。」他说。

实体键盘向触摸屏幕输入的转变,给输入法带来新的机会。输入法是一种用户粘度很高的工具应用,约 80% 的用户不会主动更换主要输入法,70% 用户不会尝试其他输入法。搜狗输入法在 PC 端市场处于绝对主导地位,这一相对优势帮助搜狗从 PC 端顺利迁移了大量用户到智能手机端。对于新入局的创新者来说,在输入方式上做文章,机会更大。

2008 年,初创公司触宝迅速对市场反应,推出日后大受欢迎的滑行输入。讯飞的语音基因,促使翟吉博选择在既有输入键盘上增加一个麦克风图标。

但是,一个老问题摆在面前:语音识别率久久得不到突破。

尽管,IBM 早在 1995 年就开始尝试语音识别技术商业化,并在两年后开发出日后名声大噪 Via Voice 的前身——世界第一个中文连续语音识别产品 Via Voice 4.0。但在当时,轰动也多半停留语音技术圈。「刚推出,我就满怀希望地试用了这个软件,但感到很失望,远没有达到解放双手的愿望,使人感到实用的语音识别系统还在路上。」《环球科学》杂志社社长陈宗周曾在一篇文章中感叹道。

2006 年,在当时识别准确率还不高的情况下,摩托罗拉「明」系列手机开山之作 A1200 就尝试提供语音技术服务。「无异于刀尖上起舞,」云知声 CEO 黄伟事后回忆道,当时他也是摩托罗拉语音技术服务团队的成员之一。

不过,多点触控技术被推向主流后,谷歌等巨头做语音的思路开始发生变化。成熟的多点触控技术、2-5 年后有望进入主流视野的云计算与智能手机人口红利交织在一起,为变革语音产品思路奠定了坚实基础。

2008 年,谷歌把语音识别和搜索相结合推出了 Google Voice Search,这是一个具有里程碑意义的事件。先将语音转成文字,利用文字调动搜索引擎,丰富的用户数据就能不断优化这个语音系统,形成一个快速迭代的反馈闭环。相比之下,IBM ViaVoice 之所以失败的重要原因之一就在于其本地化方式,不是互联网产品思路。

巨头示范无异于一剂强心针。「基于大数据、云计算和机器学习的系统框架可以满足语音输入大规模应用的需要。」翟吉博说。主打语音输入,以最快速度进入市场,讯飞输入法赢得先发优势。2012 年,国内其他输入法才陆续支持语音输入。

跨越鸿沟

细节,还是细节。

「这个我们有专利。」讯飞输入法运营经理袁章一边演示,一边说。点击键盘,即可进行拼写输入,如果想变成手写,无需其他操作,直接在屏幕上写字即可。点击工具栏上的麦克风图标,就能进行语音输入。

作者苹果手机上的讯飞输入法界面

「赞!」对于我这种很容易在不同输入方式切换中迷路的小白用户来说,「无缝切换」设计带来的体验超乎预期。体验的基础是用户需求,「超出用户预期才有可能形成传播。」翟吉博说。

讯飞输入法运营经理袁章

「现在,你给讯飞输入法打多少分?」我问道。

「75 分。」翟吉博想了想说,「通用词汇还行。但不够个性化,不够智能,没有真正与用户融为一体。」

坐拥庞大用户群,离不开过去几年里智能手机大盘的上扬。一份百度移动趋势报告数据显示,2012、2013 年国内智能手机大盘增速高达 36% 和 14% 。但是,输入法被装进手机,仅是体验之旅的开始。一款能够立足市场的输入法,仍需要遵循产品规律,即使它采用了先进的人工智能技术。

初入市场,首先要找到典型用户,低成本做出试验品,交由早期采用者使用。幸运的是, IBM ViaVoice 虽然失败,但教育了早期市场、培养出一定规模的语音产品用户。

讯飞输入法的种子用户中,有不少人在电脑上体验过 IBM 的语音技术。这些早期采用者愿意率先尝试创新事物,对初期产品的种种不足有较高忍耐力。「偏极客,是我们种子用户典型特征之一。」翟吉博说,「这与我们的预期很一致。」

「早期输入法广泛吸收了种子用户的意见。」李强军回忆道,他是讯飞输入法市场团队负责人。输入法成立伊始就成立了市场团队,李强军稍晚一点加入。

讯飞输入法市场部总监李强军,2016 年那场轰动的锤子发布会项目负责人

当时,用户全天候、不停测试我们的系统,提出各种设想和改进意见。团队昼夜驻扎在微博、论坛,力求第一时间给用户反馈。李强军说。

「当时主要的反馈是什么?」我后来问程坤。

「语音效果,识别不准。」他解释称,双拼也是根据用户要求加上去的。

找到并维系高质量的种子用户,对引爆一款新产品的作用不言而喻。大多数产品的种子用户看起来「势单力薄」,占比很少,但在传播、数据沉淀、产品迭代、建立社群等方面都存在不同的价值点。不过,种子用户与早期用户的产品需求存在「鸿沟(chasm)」,前者更具实验性,后者注重实用。而能否跨越这条鸿沟,决定了产品能否进入主流市场。

翟吉博认为,「目前讯飞输入法应该处于早期使用者向大众用户过渡的阶段,接下来,用户量还会持续攀升。」不过,距离跨越鸿沟,还有一段距离

两年后,语音识别率从最初的 60% 左右上升到 90% 左右。随后,结合使用大数据训练及深度学习,识别率提升进入新突破期——从 2013 年的 92% 快速跨越到 2014 年的 97%。输入法的基础指标就是「又准又快」,翟吉博说,因为它是一种人际沟通工具。

虽然手写和拼音只是输入法的一个业务,由于 CNN 可以很好改善手写识别率,提高用户在移动设备上的体验,讯飞也推出了使用 CNN 的「鹰眼」手写引擎,将手写识别准确率提升了 30% 以上。连写功能让手写抬笔等待时间最少短至0.15 秒。

「很多功能和交互都是我们最先想出来的。」程坤说,「推出后,再引导用户。」

比如翻译功能的迭代。那时候的翻译功能的确复杂,用户的使用需要完成复制、插入等 4 步以上的工序。当团队从用户调研中发现,不少人对翻译功能交互方式的便捷性提出了要求,便迅速启动了「随声译」的研发,集合了语音识别、机器翻译等关键技术,效果目标是「同声传译」。 在自动转文字时,「随声译」还能智能标注标点符号。

2015 年「随声译」发布后,「远超过用户预期,口碑传播为讯飞输入法带来不少新用户。」翟吉博说。

值得一提的还有离线语音识别功能。运营商刚推出 3G 网络服务时,套餐主打语音和流量,资费不菲,网络也不够通畅,不得不说这些都极大阻碍了用户对语音产品的使用频率。发现这一痛点后,输入法团队请研究院设计离线语音识别方案,并迅速将方案落地到产品中。

版本上线后,他们又开始考虑如何把离线、在线语音识别优势结合起来,同时让系统智能识别。于是就有了现在这个离线语音版本:输入法会自己识别离线、在线状态,无缝切换。一份网上公开数据显示,69% 的用户对讯飞的离线识别功能感到满意。

除了「10 倍以上的用户体验」,分清需求的强弱也很重要。需求强弱,就是要考虑用户需求的数量、频次和重要性。

方言,一直是语音识别的痛点之一,也是语音类产品在国内最需要突破的识别区之一。2011 年上线粤语方言输入之前,团队的用户调查和数据分析发现,需求最高的方言排名分别为粤语、四川话和河南话。翟吉博说,人口大省通常也拥有大量的方言用户。于是,讯飞决定先研发上线粤语( 2011 ),紧接着上线四川和河南话。

有时,判断需求的强弱并不容易。输入法上线初期,用户反馈希望可以在输入法中加入翻译功能。贸然上线,万一失败了怎么办? 最常见的情况莫过于,在没有足够清楚用户需求的情况下定制过多功能。

和最初发布一个版本就推向所有用户不同,讯飞做了灰度发布,在小范围内上线翻译功能。所谓灰度发布,是指抽出核心需求,在满足用户基本要求的情况下快速上线。通过限制流量、白名单等机制让一部分用户试用,收集用户意见,甄别用户潜在需求,制定更有针对性的设计方案。「正式上线后,我们发现使用人数和频次都超出预期。」翟吉博说。

输入法花了一两年时间建立起一个数据收集系统,通过自己的大数据系统和用户反馈这两个方面来评价版本迭代升级是否成功。「有了这样一些底层技术工作,我们对于问题的分析迭代效率是有了非常明显的提升。」翟吉博说。

比如,输入法的基础体验(卡顿、闪退)往往直接导致用户流失。灰度发布系统会对发生崩溃、卡顿的时候,做一个采点和记录。现在,重点需要优化的崩溃问题从原来接近 0.3% 下降到 1‰ 以下。

灰度发布系统

采访过程中,翟吉博双手不时摆弄着胸牌,部门一栏仍然写着「研究院」。研究院位于大楼四层,输入法楼下,也是最核心研发部门。

「人工智能研究院和输入法部门的一些负责人会定期碰头,互通有无。」翟吉博说。「研究院的同事告诉我们最近有些新的研究,输入法可能用得上。我们也会反馈一些产品体验方面的问题,看技术上能不能解决。」

虽然大多数时候,输入法团队根据自己发现的问题,向研究院要解决方案。有时研究院也会建议输入法尝试一些新的研究成果。

比如 VAD(Voice Activity Detection)。「2010 年,研究院有了这个技术就推荐给我们。我们用在了输入法上。」程坤说。智能 VAD 检测技术可以分析用户说话的起点、尾点,同时计算出声音强度, 只传输有效数据,节约流量,帮助实现良好的语音识别性能。「现在,这块儿已经是行业标配了。」

站在变革的潮头

一个公司的基因早在它最初的 18 个月就被决定了。此后公司不可能再有什么大的改变。——Michael Moritz

「输入法有两次比较大的变革。」翟吉博说,「第一次是从单机的输入法到互联网输入法。第二次是从互联网输入法到人工智能的输入法。」

如果说讯飞的语音基因决定了它在第一次变革中先「声」夺人,那么在人工智能时代,讯飞的另一个「基因」——「平台式嵌入」战略促使输入法走上一条不同于竞争对手的路。

打开输入法,我们会立刻发现界面设计上的关键不同。一把放大镜图标,被置于搜狗、百度输入法工具栏的醒目位置。讯飞输入法工具栏(以及其他位置)却不见这样的搜索功能。位于讯飞输入法工具栏正当中的,是一支麦克风图标。

作者苹果手机的百度输入法界面

在搜狗输入法中,输入「麦当劳」,输入栏下方会立刻显示麦当劳餐厅信息。如果选择屏幕底端新闻图标,就会出现麦当劳相关新闻。开启「智能分享」后,输入「周末去看电影」,系统会自动导出附近影院信息。

作者在苹果手机的微信中,使用搜狗输入法的服务功能

人工智能时代输入法会从工具走向服务,搜狗输入法认为。除了满足文字输入需求,还需要增加日常搜索等多种服务,提升用户黏性。如果说第一次变革当中,数据、用户和技术形成一个快速迭代的闭环,那么人工智能时期,还需形成另一个闭环:打通语音交互与服务,形成语音到服务的闭环。这正是搜狗和百度最擅长的地方。

然而,翟吉博并不认同这一模式。「从用户使用层面来说,输入法中加搜索不是用户习惯的路径。」他说,「在输入法中加入搜索功能不是未来的趋势,搜狗有自己商业上的诉求。」事实上,通过输入法内嵌的搜索功能直接进行的搜索量,确实占据了搜狗手机搜索流量的相当一部分份额。

采访中,翟吉博很少用「入口」定义输入法产品的价值。讯飞输入法接下来会怎么做?我心存好奇。

目前,讯飞输入法日语音用户占比为 12%,其他输入法可能不会超过这个数字。很明显,用户在很多时候不需要调用语音输入。即使调用这项服务,也多半为了追求速度。一份发布于 2014 年的第三方输入法调查报告显示,最常见的语音输入法场景中,前三位分别是:「微信、QQ 聊天」、「多人聊天时来不及打字」,以及「输入内容太多」。「打字不方便」仅位居第四。

但是,语音输入的本质(或者说颠覆性)或许正在于解放双手。在搜狗语音交互技术中心总经理王砚峰看来,「不适合用触摸或键盘式交互的环境,」语音识别技术才更有价值。

智能手机需要手持、离不开触屏(未来属于全面屏)等因素,决定了手机输入法仍然以触摸(视觉)为主,语音输入(听觉)为辅,尽管这是一个技术含量很高、只有大公司才做得了的辅助。

只有在万物互联、所有电子设备及终端没有屏幕的场景下,语音识别才迎来自己的时代。「未来交互将会更多地以感官方式进行。」谷歌 CEO Pichai 曾说。

2015年,讯飞推出 AIUI,为用户提供物联网底层语音技术服务,要做物联网时代的「操作系统」。在这一平台战略背景下,讯飞输入法更像是一家「技术体验店」和「金字招牌」。目前输入法正作为试点,针对一些注册用户灰度体现个性化语音输入功能。讯飞现有技术已经可以帮助用户建立自己的个性化声学模型。

「对于 2% 的识别率问题,我们会通过个性化语音输入解决。」翟吉博说。这也是讯飞输入法接下来的发力点。「我们正在做一些尝试。个性化语音输入推出后,个性化语音用户的语音识别率能达到 99%。」

不过,在很多行业人士看来,技术成为拉开与其他公司差距的绝对壁垒,越来越成为一件小概率事件,更大变数应该是技术转化成产品和商业模式的优势。事实上,在通用识别率上,包括科大讯飞、云知声、思必驰的几家语音类公司,在公布的识别率上没有明显差别。

加入思必驰的语音行业专家初敏在接受机器之能(almosthuman2017)采访时曾分析称,「在自己着重突破的方向上,BAT 跟讯飞不相上下」,另一方面,随着十年前的技术正逐渐被淘汰,留下最新技术,如今讯飞的先发优势主要集中在数据收集上,「维度更宽,覆盖面也更广」。

或许还可以再看看乔布斯的想法:后 PC 时代,真正的创意和简洁来自产品的一体化——硬软件以及内容,而不是让这些部分各自为政。这或许也是 Echo 作为一个新品类全新智能硬件品类迅速站稳脚跟的原因之一。

三年多来,Echo 的应用场景爆炸性增长。从同步语音数据、播放音乐发展到几十种智能家居设备控制,再到语音购物、支付、叫外卖等场景应用,语音购物品种已经扩大到百万种,还可以语音切换账户、追踪商品物流情况。即使是手机端语音控制的 Siri 也正在打通服务。不少业内人士认为,这种模式非常重要,也有可能获得成功。

然而,输入法产品的商业化还不在讯飞计划表上。科大讯飞副总裁江涛在接受媒体专访时曾表示,「(输入法)短期内不会有直接可变现的商业模式。」

不过,不同基因的讯飞已经成为输入法行业最重要的玩家之一,与搜狗、百度输入法一起领跑国内市场份额。从四人搭档到如今 100 多人,覆盖了研发、开发到后端等完整职能分工,70% 以上是研发。从他们所在的 7 楼向外望去,两座新建大楼拔地而起,其他建筑也在陆续建设中。「2011 年刚搬到这里时,还不是现在这个样子,有点荒凉。」 袁章告诉我。现在,写有「中国声谷」的大楼已成地标性建筑。

从输入法所在 7 楼望出去的景象。据媒体报道,明年上半年之前,这家公司的人员预计还将在目前基础上,增加50%,届时这支近8000人的人工智能公司员工总数将逾万

「未来,这种键盘形态的输入法会消失吗?」我问。

「有可能。」翟吉博说,「输入法将融入人机交互中。」它们会比现在更智能。每个人都有自己专属的个性化输入法,能够识别个性化的声音,输出个性化内容。

本文为机器之心原创,转载请联系本公众号获得授权。

------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部