我们体验了宝马自然语音识别,还给它出了几道「附加题」

宝马在设计iDrive (智能驾驶控制系统)时,始终坚持的一个原则是「不分心」。2011年,当时的宝马人机界面负责人Bernarhd Neidermaier在一…

宝马在设计iDrive (智能驾驶控制系统)时,始终坚持的一个原则是「不分心」。2011年,当时的宝马人机界面负责人Bernarhd Neidermaier在一次交流中提到,设计师们心里其实有一条水平参考线——显示相关的都在线上,控制相关的在线下。他们努力将两者剥离,目的是尽可能地减少低头看屏分散注意力的时间,并且保证驾驶员用按钮控制时,不用倾斜身体或者抬起手臂。

这种把显示与控制剥离的设计,一直被沿用了下来。这种把显示与控制剥离的设计,一直被沿用了下来。

另一种让驾驶员避免分心的办法,就是在车内引入语音交互。毕竟语言最接近人类的交流习惯,如果和你说话的系统足够聪明,一句指令就能清楚地指向一个功能,反复查看屏幕和手动操作的时间,都可以节省下来。

2016年CES(消费电子展)时,宝马带来了为中国用户开发的自然语音识别系统(NLU,Natural Language Understanding)。这项技术最先在3系和7系上应用,之后又延伸到了品牌旗下的更多车型。过去几天,车云菌体验了一辆宝马320i的自然语音识别,对这项功能的表现也有了更加直观的体会,在这套语音系统常规表现之外,还给它布置了几道小有挑战的「附加题」,大家也可以看看这套系统的表现。

先来认识一下宝马的这套自然语音系统

自然语音技术不是一蹴而就,宝马引入车载语音技术已经有很多年了。因为语音识别本身就是iDrive系统的一部分,所以语音控制体验和整个车载娱乐信息系统以及一些车辆辅助(比如空调等)紧紧联系在了一起。

据资料显示,第一代iDrive就可以用语音来控制导航和音乐,随后宝马又分别在2007年加入了语音拨号,2011年增加了文字转语音读电邮、短信等功能。

这个阶段,宝马使用的还是「条目式语音」,控制模式很像用鼠标去逐个点开系统页面,而且每次该说什么都要严格遵守规定。假如你要听手机上ColdPlay演唱的Viva la Vida,那就请依次说出「USB-按艺术家-ColdPlay-按歌名-Viva la Vida」吧。

2012年,语音功能迎来了一次大更新。宝马宣布开始使用Nuance的Dragon Drive(声龙驾驶)。这是一套「本地+云端」的混合系统。因为获得了云端强大的运算能力,语音交互不再受限于本地的存储和算力,语音识别率和速度都有了显著提升。

当时视频展示的语音交互已经开始简化,虽然依旧需要先说出「导航」这个命令大类,但用户已经可以在地址页面按要求,一次性输入完整的目的地地址。

2018款宝马320i的iDrive系统,用户可勾选是否通过服务器进行语音识别,来提升语音交互的体验2018款宝马320i的iDrive系统,用户可勾选是否通过服务器进行语音识别,来提升语音交互的体验

更重要的是,云服务让语义理解变得更加容易。在2016年宝马揭晓最新一代自然语音系统时,交互已经在努力接近人与人之间的对话。导航时,系统已经可以根据「附近的加油站」这类模糊指令,给出一个非常接近答案的地址列表。

而且交互逻辑中,完成某个任务期间的多轮语音沟通不用多次唤醒。只要界面左上角的语音标识一直处于点亮状态,你就可以一直顺着引导,把任务完整布置给系统。因此在用户端体验上,宝马早期语音交互的那种机械感已经被大大稀释。

2016年发布的宝马自然语音识别通过方向盘上的语音按钮唤醒,可以用于导航,搜索POI,打开音乐广播,拨打电话,发送信息,查询车辆和生活信息等。在每个大类中,语音还可以控制更加细分的小功能。

上面这个视频可以让你直观感受一下整个语音交互过程,系统对答和提醒的女声语音听起来较为舒心,理解任务的成功率也比较高。在连接服务器的情况下,语音识别和语义理解的延迟可接受,系统思考的时间几乎不易觉察。

4道语音考试「附加题」

除了常规体验之外,我们为这套语音系统准备了几道附加题,更像是有趣的极限挑战,可以让大家对系统有更深入的发现。

1. 打断和修改

在熟悉和机器交谈后,系统的语音回复显得过于冗长。你会在机器说完所有内容之前,就下意识地打断它。宝马的自然语音识别在一些环节支持打断,可以兼顾需要解说和简化沟通的需要。

同时在语音识别、语义理解难免出错的时候,手动修改错误结果也是一个比较苦恼的问题。删除和重输入过程十分繁琐,使用宝马自然语音识别系统的语音修改,可以提高沟通效率。

在拨打电话这个任务中,我们随机测试了连续打断和修改方面的表现,测试时是车窗关闭的驻车状态,同时云端识别开启。

2. 强噪音

对于车载环境,降噪是一项很重要的命题。因为行车时特有的发动机声,开窗时的风噪,车内其他人的说话声,都会干扰最终的语音交互效果。

常规测试车载语音系统的降噪能力,是在高速行驶时开窗测试。我们选择了更苛刻的条件——在驻车状态空调风力全开的时候,随意使用车载语音功能。因为空调最大风量时发出来的噪声非常大,而车机和空调出风口临近,会受到很大的干扰。

下面是一个一镜到底的视频,云端识别处于开启状态。其中,打开关闭空调、按距离筛选POI结果是车载语音原本不支持的功能,返回结果失败的原因不是噪音导致。总体看来,在非常恶劣的环境下,宝马这套车载语音的表现不错。

3. 不连网

这款车载语音产品是一个混合导航。目前这套系统的导航POI(兴趣点)数据优先从云端获取。为了避免车处在隧道、停车场等信号不佳区域导致的体验欠缺,车辆本地也会存放一部分导航数据,但一般而言输出结果需要更长的时间。

我们关闭网络,测试了非联网状态POI搜索的表现。结果发现,本地处理时间有了明显增加,系统思考的每个步骤都在屏幕上展示了出来。首先非联网带来的时延,车云菌觉得对驻车状态的搜索不会造成太大困扰,但如果在行车过程操作,很有可能会导致错过路口,路线重新规划。对于把每一步都展示给用户的做法,车云菌认为反倒对用户理解系统是一种帮助,毕竟在本地状态下,语音识别过程的拉长,很容易造成「功能不可用」的误解。

4. 多意图指令

单一意图的语言指令,宝马的这套系统已经有不错的识别表现。但这并没有满足我们的好奇心。根据习惯,我们常常会使用多意图的语音指令,比如「提醒我明天下午给车云菌打电话」,对系统来说,挑战就是分辨该「打电话给车云菌」还是「给备忘录中增加一个提醒」。

在下面这个视频,我们试了这样一组指令。通过不同地名的排列组合,让系统试着去分辨我们的真实意图。对于这道题,系统没能成功给出逻辑上正确的结果。语义理解是目前语音技术在重点突破的方向,要让语音系统真正识别驾驶员的意图,还需要更多的数据和更强大的神经网络架构。

– 导航到天安门
– 导航到西单
– 我要去天安门,不要去西单
– 我要去西单,不要去天安门
– 我不要去天安门,我要去西单
– 我不要去西单,我要去天安门
– 我不要去天安门,也不要去西单
– 我要去天安门和西单

小结

宝马最早开始在量产车上使用语音交互的车企之一,并且这项功能已经普及到了品牌旗下的众多车型。语音技术的持续发展,为驾驶员创造了更智能化,情景化,以及更加主动的体验。随着智能汽车角色的转变,语音会发挥的作用一定会越来越大。

欢迎转载,请注明来源:汽车氪 » 我们体验了宝马自然语音识别,还给它出了几道「附加题」

相关推荐

telugu heroines sex justindianporn.net tumblr desi ass
kollam sex indianfuck2.com savithabhabi
www nxnncom bananocams.com pukusex
kamasutra porn movie desipornx.mobi xvideo first night
masalamms freeindianporn3.com hentaihand
swimming pool xnxx indianpornmovies.info beeg tamil
indianfucked 2beeg.me manipuri girls sex
marathi sixe video onlyindianporn2.com pornspark
poron sex anybunny.mobi desinet
sapna chaudhary ki bf arabysexy.mobi shriya saran hot videos
salgira tubepatrol.org bra sex videos
ema porn mobiporno.info odia bp sexy
video english picture sexy apacams.com panjabi women sex
kerla porn anybunny.tv xvideo indian bhabi
telugusex. com newindiantube.mobi hot videos kerala