语音交互只是说话？相比自动驾驶它还在L1级！

demi 在周五, 11/02/2018 - 16:52 提交

作者简介：李智勇，声智科技合伙人、副总裁。

2017 年可以看做是智能语音交互的元年，在这一年里小爱同学、天猫精灵纷纷上市。2018 年里语音交互的落地突然加速，落地的产品从大公司关注的智能音箱扩展到其它品类，比如电视盒子、闹钟、灯、智能马桶等。那接下来语音交互会如何发展？

语音交互的终极目标

语音交互的便利程度正好与人工智能的发展程度成正比，智能程度越高语音交互的等级也就越高，所以其终极形态与人工智能的终极形态类似。

如果抛弃特别夸张的想象来说，那语音交互要能达成《她》或者《黑镜》里描述的样子：
• 当你输入数据给它后，它能够根据输入数据表现出不同的个性。
• 在数据的处理上它近乎是全能的，只受个人权限的限制。
• 如果真的赋予实体，那它可以感知周围环境并作出与人类似但很多方面会更优秀的反应。

今天的智能音箱和未来相对终极的语音交互方式以及设备相比，其差距要远大于 X86 电脑和今天 Pad 的差距。

一旦发展成以上这样的程度，那语音交互就会彻底地打开边界，而不只是我们使用数据的一种方式，甚至会成为生活的必须品。我们不会对 iPhone 产生依恋，但语音交互则会。

回顾下《黑镜》里描述的场景，可以对此有更好的理解：

女主人公的丈夫去世，过于思念自己丈夫的女主人公通过公开的自己丈夫的数据创建了一个有性格的，属于自己的语音交互机器人。这个机器人在绝大多数方面表现和女主丈夫一致。女主使用一段时间后，就升级了这服务，为这语音交互机器人赋予了和自己丈夫一样的形体。

这看着非常科幻，但实际上一旦语音交互达到上述程度，那这类事情几乎一定发生。既然我们能接受很宅并愿意躲在家里，那就一定能接受这样一种非真实、但更完美的电子助手进入心灵的世界。《她》这部电影虽然没拍，但如果有为个性化语音交互系统塑形的服务，主人公也一定会接受。

在这里反倒是互联网限制了我们的想象力，因为互联网更多体现的只是工具的属性，但实际上语音交互系统所涵盖的范围要比互联网大的多。当前之所以能做的还不多，主要是层级还不够。

语音交互的L1、L2、L3

我们可以这样定义语音交互的 L1 阶段：

能以极高的准确率，在典型的环境下响应用户的语音输入。极高的准确率最低应该在 90%+。这时承载语音交互的设备主要负责功能性的提示与反馈（灯与屏幕等）。

当前所有与语音相关的公司，事实上都是在达成 L1 的路上。L1 的出口为语音交互习惯彻底树立，人们面对每款设备的时候会首先想到用语音操作，而不是遥控器或者屏幕。

在 L1 阶段语音交互更像是自动化程度、精准程度更高的搜索，但搜索的范围扩大了，不单是局限于已有的数字内容，也扩展到家电、视频通话等正常搜索不会覆盖的领域。

我们可以这样定义 L2 阶段：

能以极高的准确率识别出交互的当事人和环境，然后进行个性化的交互。这时承载语音交互的设备通过摄像头等传感器能够实时感知，进行适当移动，初步拟人。

L2 阶段体现的是个性化，不再是千人一面。如果 L2 得以达成，那《她》所描述的场景是可以实现的。语音交互可以定制出性格，而这种性格很可能确实满足某个人的心理期待。

在 L2 阶段，语音交互会打破工具的边界，尝试走入从来没被搜索等介入的领域，比如排遣寂寞。现在的各种 App 是按照领域来切分的，而在 L2 阶段，所有 App 的边界会被打破，信息的输出是按照人来切分的。也就是说不再有 BAT、头条、美团等，只有张三的语音交互助理，李四的语音交互助理。

我们可以这样定义 L3 阶段：

只要有数据，语音交互系统的能力就可以无边界扩展（包括个性和能力）。交互设备可以进行拟人化输出。

L3 阶段体现的是后端内容扩展的无边界特性，不再是有多少智能就有多少人工，以及拟人化输出。拟人化输出包括移动、说话的语调、风格、姿态等。

如果 L3 阶段得以实现，那《黑镜》描述的场景是可以实现的。只要有一个人充分的数据描述，就可以立刻模拟这个人，然后赋予他一个真实的身体。

在 L3 阶段，语音交互及其载体，将是社会生活、甚至家庭的一部分。

本质上，从 L1 到 L3 体现的是数字化和智能程度不断加深，同时数字和智能又按照人类的理想形态进行物化的过程。这一过程也是完全颠覆基于手机的移动互联网的过程。

语音交互发展的核心障碍

整个行业迫切需要彻底解决下面的问题：
• 解决前端声学适配问题，否则变成每个设备都需要调整，但真正能对其调整的人员很少。
• NLP 整合足够全的内容资源，开发出缺省的 Killer App，因为产品公司不可能系统地在产品周期内整合所有内容。
• 落地方式多样化（包括纯软件、模组的）。语音交互和移动应用的根本不同是需要面对多种多样的设备，所以其自身的落地形态必须是灵活的。

眼下不同产品公司的诉求差别很大，小公司希望的是 turn-key 的方案，有内容的公司希望的是自己做部分 NLP，偏行业的公司希望的是有带硬件可贴牌的产品、但自己开发手机 App，诸如此类。

因为用户需求的复杂性，落地是一个相对长跑且需要保持灵活的过程，不同产品公司需求的内核是一样的，但处理大品牌客户总是需要灵活处理很多细节。这对于创业公司难度不大，但对巨头会形成难以跨越的障碍。

未来三年必然会达成的成绩

现在与语音交互相关的公司，核心在做的就是 L1 阶段的事。这个阶段虽然在人工智能的大趋势里面，但本质上智能并没那么关键，关键的是便利以及能输出的内容。这两者会推动树立语音交互这种习惯。

如果要在数量级上进行判断的话，那三年后可以达成的目标是：

• 每年有 10 亿台支持语音交互的设备售出。

至少故事机、电视机、电视盒子、汽车前后装、白色家电、灯、闹钟等会加入这种特性。手机、Pad、电脑这些大品类上语音交互的能力则会变成标配，但使用频次估计需要更长的时间进行提升。在最初，交互频次会很差（这点在前文已提及），语音交互本身并非一种独立的交互方式，而是同其背后的内容深度绑定，我们很多的应用实际上是针对手机和键盘鼠标操作优化过的。

• 凡是电子设备都可以用语音来进行交互。

语音交互不会挑设备，同之前的交互相比，它可以更加低廉，理论上只要麦克风并且能联网就足够了。相较于给设备加入键盘鼠标或者屏幕，这个成本要低很多。这点上做出表率的仍然是亚马逊，亚马逊不停地推出新的设备，如微波炉、车载设备等。当然不同设备上语音交互的层次是不同的，有些设备如白色家电，语音交互会限制在一到三轮以内。

在更高一级的视角下，当前的所有努力本质作用就一个：通过便利性树立语音交互的习惯。但是，习惯背后跟随的是用户时间，二者又会为下面的进一步发展提供试验田。只有达成了这一目标，从技术到产品再到用户这一循环才算真正完成了第一次迭代。

结语

语音交互看着太简单了，不过是说话而已，所以很容易被误解为，像说话一样的交互就是现在语音交互设备所应该能干的事。其实不是，语音交互的从 L1 到 L3 有可能比自动驾驶从 L1 到 L5 还要漫长。

本文为作者（李智勇）独立观点，转载此文目的在于传递更多信息，版权归原作者所有。
转自：微信号 - AI科技大本营