专访阿里达摩院聂再清：不能让每个人无差别享受AI，是程序员的耻辱

如果技术不能让每个人无差别使用，不能帮助人去适应变化……

成都创新互联服务项目包括成安网站建设、成安网站制作、成安网页制作以及成安网络营销策划等。多年来，我们专注于互联网行业，利用自身积累的技术优势、行业经验、深度合作伙伴关系等，向广大中小型企业、政府机构等提供互联网行业的解决方案，成安网站推广取得了明显的社会效益与经济效益。目前，我们服务的客户以成都为中心已经辐射到成安省份的部分城市，未来相信会继续扩大服务区域并继续获得客户的支持与信任！

这是程序员的耻辱。

这就是阿里达摩院技术大牛、天猫精灵首席科学家、程序员聂再清，在被问及近期热议话题时的表态。

最近，一则讨论引发了两种认知的割裂。

智能手机给多数人的生活带来了种种便利，但也有少数人被落下 ——许多老人不会用、不善用智能手机，没有健康码，技术的快速铺开，反而给他们的生活造成了一定困扰。

于是问题来了：在这个科技日新月异的时代，如果有人跟不上技术迭代的节奏，怎么办？

有人言辞激烈：科技倒逼人类进步，跟不上发展就要被淘汰，这是时代在惩罚不主动学习的人。

也有人坚决反对：技术的发展，不应该让每个人能无差别使用吗？

而阿里达摩院的大神程序员聂再清，就是后者的坚定支持者。

作为前微软亚洲研究院首席研究员、如今的阿里天猫精灵首席科学家，聂再清当前正在不断推进的正是新一代人机交互方式—— AI 语音交互。

所以在他看来，让所有人无差别使用最新技术，技术应该帮助人去适应变化，是每一个程序员、工程师再正常不过的使命。

当然，体现到他带队的最新技术和产品应用中，聂再清也是这样做的。

技术应该让每个人能无差别使用

7 月 5 日，天猫精灵刚好迈过三周年。

对于聂再清而言，过去半年，疫情改变了工作形态，但没有改变工作目标——一种新的语音模组正在加快冲刺。

每天清晨，他习惯在自家小区 400 米一圈的院子里，跑到汗水浸透全身，再回到家中，与各种家用设备改装的 AI 实验仪器为伴。

而这新一代语音模组的关键算法，正是要实现云端一体化后，让不同用户无差别使用。

所以在刚过去的 618 消费季中，虽然天猫精灵孵化的智能家居设备，出现了 100 个千万级销售爆款。

但让聂再清最开心的一则新闻，则是这样一则社会新闻 ——在杭州，一位孙女为自己奶奶打造了无障碍的家。

视频中，这位 70 多岁的老人通过智能音箱，语音操控家中的空调、窗帘、电视。

这也是对聂再清团队持续无差别实验，尤其是特殊疫情环境下坚持的回报。

新冠疫情发生后，聂再清和天猫精灵产品团队的无差别实验，险些面临停摆。

首先，天猫精灵自身对新算法的测试流程，过去有大量外包设备厂商和测试员完成，新冠疫情导致 2 月基本无法复工。

更困难的是，预计要在 618 成为新品的扫地机、跑步机、按摩仪、水果榨汁机、集成灶等等智能设备，正处在厂商与天猫精灵智能语音模组对接测试，即将量产的关键阶段。这些家电普遍运行声量偏大，对智能语音识别颇有挑战。

由于疫情影响，人们也在家居环境中更高频购买和使用这些产品。让技术的门槛持续降低，让先进科技能够覆盖到更多人群。

这是天猫精灵三周年的目标之一，也是聂再清整个职业生涯，希望以语音助手作为一个突破点去实现的无差别价值。

因为语音对话、眼神手势交流，无疑是更为自然的交互方式，这就在技术层面，降低了用户触达前沿科技的门槛，用更简单的方式满足人们的科技需求，让科技普惠到更多人的生活。

去年，聂再清曾用业余时间打造了一个爆款，阿里反骚扰电话 AI** 二哈。

而这半年以来，聂再清团队则投入精力，针对老人、儿童这样的弱势群体，尝试进一步扩宽智能语音助手的基站覆盖范围，降低使用门槛。

比如，天猫精灵上线的方言功能，让不会说普通话、普通话不标准的老人也能方便地和语音助手交互。甚至还能合成四川话语音，实现与老人的乡音交流。

一般来说，一个智能产品的推出，往往会选择先覆盖最主流、最具购买力的群体。但这一次，聂再清团队却是着重针对老人、儿童的功能进行了优化，背后的考量，与商业价值有关，却也与商业价值无关。

聂再清认为，智能音箱，应该是智能网时代的助手，其实是第三代的互联网。

他打了这样一个比方，在移动互联网时代，手机的通信依靠基站，哪个地方有基站覆盖，信号连上了，这个地方的人就能够享受到手机的服务。

而对于语音技术来说，能否发挥价值，最终也是要看覆盖多少人群。

解决覆盖人群的问题，就像是在建基站。最终，只有百分百的覆盖，才能说，智能语音真正成为了第三代互联网助手。

音素编码上的语义理解

单纯站在技术的角度，聂再清说，科研的出发点很简单，就是让用户在使用的过程中，感受到的是人工智能，而非人工智障。

核心需要解决的问题，就是如何让数字世界里天猫精灵这样的语音助手，听懂物理世界里用户的需求。

传统的做法，分为三个阶段：

首先，把语音信号接入，做语音识别，将语音转化成文本；

然后，对文本进行语义理解；

最后，用抽取出关键词，在知识库里做实体链接。

这样的方法，其实存在很多问题。比如，一旦语音识别阶段出现决策失误，在后续的流程中就没有办法纠正，就会影响到识别的精度。

另外，实体链接也是很大的挑战。因为实体的名字经常是反语言模型的。比如说陈奕迅的《圣诞结》，在正常的语言模型中，就很容易被识别成圣诞节。

那么，能不能不转成文字，直接根据语音做语义理解呢？

答案是，可以。聂再清介绍，语音语义一体化的关键，在于音素。

音素，是根据语音的自然属性划分出来的最小语音单位，基于人的发音动作来分析，一个动作构成一个音素。

聂再清解释，比如输入 liangzhu 这个语音信号，通过声学模型，就可以计算出一个音素后验矩阵。在这个时候，模型并不需要马上判断 liangzhu 到底是指音乐里的梁祝，还是建筑里的梁柱，而是可以在音素后验的基础上去做意图分类、语义分类。

这样，就避免了一步错步步错的情况。

也就是说，基于音素，语义理解、实体链接都可以放到一个统一的优化模型中进行优化。

这一成果发表在了 ICASSP 2020 上。聂再清介绍，实验表明，该方法在公开数据集上超越了此前的 SOTA 模型，同时在天猫精灵上线解决了大概 30% 的语义实体链接错误。

这就真正让智能语音助手在听懂人类的道路上更进一步。

语音 + 眼神，让交互更自然

而聂再清思考的另一个问题，是如何让新一代语音助手跟人们之间的交互更自然。

交互方式越自然，学习成本就越低，使用的门槛就越低，越能服务到更多的人。

当带屏音箱越来越受到市场的认可，视觉技能点的点亮，就给智能语音助手带来了更多可能性。

比如，多模态唤醒。

比起每次都要喊天猫精灵这样的唤醒词，如果给智能音箱一个眼神，它就能知道你是在跟它对话，那这样的交互就更符合人们的习惯，更加自然直接。

聂再清介绍，这其中的难点在于，智能音箱需要判断一段语音到底是不是在跟它进行对话，如果反复出现误唤醒，那就太人工智障了。

于是，他们采用了视觉 + 声音 + 全双工自然对话三管齐下的方式，来对唤醒这个动作进行优化。

并且，这三个条件只要有两项满足，多模态唤醒就能够实现。也就是说，即使是在无屏音箱上，这项技术也能让对话更加自然。

就像这样：唤醒智能音箱，要求它打开空调后，无需再次唤醒，只要说调到 20 度，语音助手就能结合上下文，判断出这句指令是对它说的。

云端一体化，让每个人都享受同样智能

从实验室到落地终端，用户最终的体验又是如何保证的呢？

天猫精灵产品部资深专家孙尧介绍说，一方面，是针对特定用户的样本测试。

比如，老人可能存在语言能力退化、口音重的问题，就需要定向采集相关的语料和录音，来提升老年人语音识别的准确性。

另一方面，则是聂再清提到的关键词，云端一体化。

依靠云端的能力，就可以把硬件端的产品做到更便宜，让更多人用得起，但在智能体验上并不会有所损失。

这样的方式，也降低了 AI 能力接入硬件的门槛。

去年，天猫精灵就推出了 AI 语音模组，把实现智能功能的一些设备集成到一个板子上。这样，电器厂商只要在产品中留出标准接口，就能轻松把天猫精灵的 AI 能力接入到产品中。

就在疫情期间，天猫精灵工程师们还用这样的 AI 语音模组打造了一个有趣的业余项目 ——

给园区里的电梯接入语音助手。

他们把天猫精灵的智能模组抽出来，业余时间自己买电路板进行了一番 DIY、离线算法优化，以便接入电梯。大概两周时间，这个方案就上线到了园区电梯里，喊一声我要去 XX 楼，电梯就能无接触式完成操作。

甚至还能更酷。

孙尧介绍了这样一个新的应用场景：小区接入天猫精灵后，高层住户只需在家中让语音助手叫一下电梯，语音助手就能帮你隔空按电梯。

这样换完鞋子出门时，电梯差不多也就到了。

科技的发展，当然会给人们的生活带来改变。但在这种变化之中，人们的习惯和技术本身也不应该是对立的。

聂再清表示：

我的观点是，科技发展的目标是让每个人都能得到帮助。

即使是在改变的过程中，技术也能够辅助人们适应变化，而不是跟人对立起来，造成所谓的淘汰。

做智能助手，遵循的就是这样的逻辑：用跟人一样打交道的模式，为更多人提供前沿科技带来的便利。

聂再清还打了个比方：

比如你需要招一个私人助手，Ta 告诉你你必须要适应我的节奏，那你肯定就不招了。

千人千面的 AI

从端到端的口语理解，到多模态的自然交互，聂再清也坦承，从技术的角度上，语音助手的进步空间还很大。

谈及语音交互的未来形态，聂再清描绘了这样一个场景：

身处北京的你有一个智能音箱，当你飞到杭州出差，在另一台设备上，智能助手依然能一眼就认出你，按照你的习惯调出所有需求。

届时，终端便只是一个载体，而你的定制语音助手，将如影随形。

何时能够实现？

聂再清笑答：5 年可以有，3 年也是可以期待的。

本文系网易新闻网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

本文名称：专访阿里达摩院聂再清：不能让每个人无差别享受AI，是程序员的耻辱
网址分享：http://cqcxhl.cn/article/cjedjj.html

重庆分公司，新征程启航

专访阿里达摩院聂再清：不能让每个人无差别享受AI，是程序员的耻辱

其他资讯