摘要:作为汽车智能化的重要组成部分,智能座舱的感觉体验是最直接的,近年来,其智能化程度在肉眼上有所增加。未来智能座舱将发展成为我们的第三大生活空间。“大型全高清数字仪表盘 + 大型高清浮游娱乐中的大屏幕控制”已不能满足部分汽车企业的胃口,汽车屏幕、副驾驶座娱乐屏幕增长态势明显。智能飞屏、车机联动功能不断扩展,物理按键交互逐渐取代,与娱乐化的结合越来越紧密。除了驾驶舱娱乐系统、信息系统、通信系统、人机交互、驾驶员监控、乘员状态检测等之外,基于感知了解驾驶舱内外场景,为驾驶舱或用户提供更多场景、新服务、可以提供一种新的人机交互方式。
关键词:汽车智能化;智能座舱;人机交互;发展趋势
作者:李函遥 王馨 郁淑聪
1、引言
目前,汽车不仅在动力源、驱动方式和驾驶体验上发生了变化,驾驶舱也告别了传统的枯燥机械和电子空间,智能化水平飙升,成为继家庭和办公室以外人们生活之后的“第三空间”。通过人脸;指纹识别、语音 / 手势交互、多屏联动等高新技术,使当今汽车智能座舱在环境感知、信息采集和处理方面的能力显著增强,成为人类驾驶的“智能助手”。智能座舱告别简单的电子化,进入智能助理阶段的显著标志之一是人与驾驶舱的相互作用从被动式进入主动式,这种“被动的”和“主动的”是以驾驶舱本身为中心定义的。过去的信息交流主要由人发起,现在人和机器都可以启动,人和机器的交互水平已经成为定义智能座舱产品水平的重要标志。
2、人机交互发展背景
从电脑与手机的历史可以折射出机械与人互动方法的发展脉络,并从繁杂到单纯简约从抽象的动作到自然的互动。未来最主要的人机交互发展趋势,便是将机械由被动响应进入了主动式交互。沿着这种趋势的延长线来看,人与机器相互作用的终极目标是将机器拟人化,使人与机器的相互作用像人与人的交流一样自然顺畅。也就是说,人机交互的历史就是人从适应机器到通过机械适应人的历史。
智能座舱的发展也有类似的过程。随着电子技术的进展和车主的期望,汽车内外的电子信号和功能也越来越多,以便让车主降低对注意力资源的浪费,从而降低行车分气,汽车互动方法也因此而逐步改变:物理旋钮 / 键盘——数字触摸屏——语言操控—自然状态互动。
2.1 自然交互是下一代人机交互方式的理想模型
2.1.1 什么是自然交互?
简而言之,即通过动作、目光追踪、语言等实现交流。这里的意识模态更具体地说类似于人的 " 感知 ",其形态中混合着各种感知,并对应了人的视野、聆听、触觉、嗅觉、味觉等五大感知。相应的信息介质包括各种传感器,例如声音、视频、文字和红外、压力、雷达。智能汽车实质上就是一个载人机器人,其最关键的二个功能就是自己控制的以及与人互动的功能,没有其中之一,将无法高效的工作于人。所以,一种智慧的人机交互系统是十分必要的。
2.1.2 自然交互的实现方式
座舱内融合了越来越多的传感器,传感器提高了形态多样化、数据丰富性和准确性的能力。一方面使驾驶舱内的计算力需求飞跃,另一方面也提供了更好的感知能力支持。这一趋势使更丰富的驾驶舱场景创新、更好的互动体验成为可能。其中,视觉处理是驾驶舱人机交互技术的关键。而且融合技术才是真正王道,比如在嘈杂条件下的语音识别时,光靠麦克风是没有的。人在这种情况下能选择性地听某人讲话,不仅靠耳朵,还靠眼睛。因此,通过视觉上确定音源并阅读唇语,能够得到比单纯的声音识别更好的效果。如果传感器是人的五感,那么计算力便是一个自动交互的人脑,AI 算法把视觉与语音结合到一起,通过各种认知方法,能够进行人脸、动作、姿态、语音等多种信号的辨识。由此,可以实现更智能的人的目标交互,包括眼球追踪、语音识别、口语识别联动和驾驶员的疲劳状态检测等。
座舱人员交互的设计通常需要通过边缘运算,而非云运算来完成。三点:安全性、实时性和隐私安全性。云计算依赖于网络,对于智能汽车来说,依赖于无线网络无法保证其连接的可靠性。同时,数据传输延迟不可控,不能保证交互平滑。要确保面向自动运行安全域的完整用户体验,破局之道在于边缘计算。但是,个人信息安全也是面临的问题之一。驾驶室内的私密空间,安全性保障方面尤为明显。现在的个性化声音识别主要都是依靠在云上实现的,里面的声纹等私人生物信息能够更方便的显示私人身份信息。而利用在汽车端的边缘 AI 设计,就能够把图片、声音等私人生物信息,转变成汽车语义信息,再上传到云端,从而有效地保障了汽车的个人信息安全。
2.1.3 自动驾驶时代,交互智能必须跟驾驶智能相匹配
在可预期的未来,无人机协同飞行将成为一个长期存在的现象,座舱的无人机交互成为人掌握主动飞行技能的第一个界面。目前,智能驾驶领域面临进化不均衡的问题,人机交互水平落后于自动驾驶水平的提升,造成自主行车问题的频出,阻碍自动驾驶的发展。人机交互合作行为的特点是人的操作回路上。所以,人机交互功能必须和自动驾驶功能保持一致。否则将导致严重的预期功能安全风险,绝大多数自动驾驶致命事件与此有关。一旦人机交互接口可以提供自己行车的认知结果,可以进一步了解自动驾驶系统的能量边界这将大大有助于提高 L + 级自动驾驶功能的接受度。
当然,目前智能座舱的交互方式主要是手机安卓生态的延申,主要是通过主机屏幕支持。现在的显示器也越来越大,而这其实是由于低优先级的功能占用了高优先功能的空间,带来额外的信号干扰,影响运行安全。在未来,虽然实物显示屏仍然存在,但我相信在未来,取而代之的将是自然人机交互+AR-HUD。如果把智能驾驶系统发展到 L四以上,人将从枯燥疲劳的驾驶中解放出来,汽车也将成为 " 人的第三生活空间 "。这样,未来驾驶室内的娱乐区和安全功能区(人机交互和自动操纵)的位置会进行改变,安全区则变成为主控制区。自动驾驶是汽车与环境的互动,人与人的互动是人与汽车的互动,两者融为一体,完成人、车、环境三者的协同,形成完整的驾驶闭环。第二,自动对话方式+AR-HUD 的对话界面更加安全,在用语言或者手势沟通的情形下,可以避免对驾车者视线的转移,从而提高了行驶安全。在驾驶舱大屏幕上根本就无法实现这一点,而 ARHUD 则能够在显示自动行驶感知信号的同时规避了这一问题。第三,自然交谈方法是一个隐性的、简洁的、具有感情的自然交谈方法。你不能过分占有车里宝贵的物理空间,但你可以随时随地陪伴自在者周围。所以,未来智慧行车和智慧驾驶舱的域内结合是一种更加安全的发展方式,最后发展的是汽车中央的系统。
2.2 人机交互实战原理
2.2.1 触控交互
早期的中控台屏幕只是显示收音机的信息,大部分面积都容纳了超多的物理交互按钮,这些按钮基本上都是通过触觉交互来实现与人类的沟通。
随着智能交互的发展,出现了中央控制的大屏幕,物理交互按钮开始逐渐减少。中控大屏幕越来越大,占据越来越重要的位置。中控台的物理按键已经减少到没有了,此时乘员已经无法用触觉与人进行交互,但在这个阶段逐渐转变为视觉交互,人们不再用触觉与人进行沟通,而是主要用视觉进行操作。但如果只用视觉与智能座舱的人类进行对话,人们将绝对不方便。特别是在驾驶过程中,90% 的人类视觉注意力必须投入到路况的观察中,才能长期将视线投入到画面之上,与智能座舱对话。
2.2.2 语音交互
(1)语音交互的原理。
自然语音的理解——语音识别——语音转化语音。
(2)语音交互需要的场景。
语音控制的场景应用主要有二个要素,一是能够代替在触摸屏上没有提示的功能,与人机界面自然对话,二是最小化了人机界面手动控制所带来的影响,提高安全性。
第一,当你下班回家的时候,你想在开车的过程中快速控制车辆,查询信息,查询空调、座椅等。在长途旅行中,中途调查服务区和加油站,调查日程。第二个是用语音把一切链接起来。车上的音乐、子屏幕娱乐都能迅速唤起。所以我们要做的就是快速控制车辆。首先就是对汽车实现快速操控,基本功能包括调整车内氛围灯光、调整音量、调控车内空调温度控制、调节窗户、调节后视镜,快速控制车辆的本意是让驾驶员更快速地控制车辆,减少注意力分散有助于增加安全运行系数。远程语言交互是实现整个系统的重要入口,因为系统必须了解司机的语音指令,提供智能导航。我们不但能够被动接受任务,而且还能够为您提供关于目的地介绍和日程安排等的附加服务。接着,是车辆和驾驶员的监视,在实时运行中,能够随时询问轮胎压力、箱的温度、冷却剂、发动机油等车辆的性能和车辆的状态。实时信息查询有助于驾驶员提前处理信息。当然到达警戒临界点的时候也要实时注意。除了对内监控外当然也需要对外监控,生物识别和语音监控的混合监控可以监控驾驶员的情绪。在适当的时候提醒驾驶员打起精神来避免交通事故的发生。以及长时间行驶的疲劳声音的注意事项。最后,在多媒体娱乐方面,开车的场景、播放音乐和广播是最高频的操作和需求。除了简单的播放、暂停、歌曲切换等功能外,还等待着收藏、账号注册、播放历史的开启、播放顺序的切换、现场互动等个性化功能的开发。
2.2.3 容纳错误
语音对话中必须允许容错机制。基本的容错也按场景进行处理。一是听不懂,此时让用户再说一遍,二是听了但没有处理问题的能力,三是识别为错误信息,这可以再确认。
2.2.4 人脸识别
(1)人脸识别的原理。
驾驶舱的人脸特征识别技术一般包含以下三方面:人脸特征检查、模式识别。随着互联网整体信息的生物化,多平台输入人脸信息,汽车作为万物互联的一个重点,随着更多移动终端使用场景移动到车内,账户注册、身份认证需要在车内进行。
(2)人脸识别使用场景。
行驶前,必须上车验证车主信息,注册应用 ID。行走中,面部识别是行走中闭眼疲劳的主要工作场景,电话提醒,无眼前,打哈欠。
单纯的相互作用可以让驾驶员更不方便。例如,仅凭语音,容易发生误指令、单纯触摸操作,驾驶员无法满足 3 秒的原则。只有语音、手势、视觉等多种交互方式融合在一起,智能系统才能更加准确、方便、安全地在各种场景中与驾驶员进行沟通。
2.3 人机交互挑战与未来
2.3.1 人机交互的挑战
理想的自然互动是从使用者感受入手,创造安全、顺畅、可预见的互动感受。但不管人生如何丰富,总要脚踏实地的从事实出发,目前的挑战依然很多。
目前自然交互的误认仍然很严重,全工况、全天候的可靠性、准确性还远远不够。因此,在手势辨识中,依靠视觉的手势识别率目前仍很低,所以必须研发各种算法来提高辨识的精度与速率。无意中打手势,或许会被人误认为是命令动作,但其实这只是无数误认之一,在移动情况下,对光线的投射、振动、遮挡等都是重大技术的问题。因此,配合运转场景,采用多传感器融合验证方式、声音确认等方式,为了降低误识别率,需要综合性地加持各种技术手段。其次,目前自然交互的流畅性问题仍是当前必须克服的困难,要求更先进的传感器、更强大的能力、更高效率的计算。同时,自然的语言处理能力与意图表达还处在起步阶段,还需算法技术的深入研究。
2.3.2 未来,座舱人机交互走向虚拟世界与情感连接
消费者愿意为汽车移动之外附加的智能化功能买单的原因之一是对话和体验。我们在上面提到,未来智能座舱的发展是以人为本的,它将在人们的生活中演化为第三个空间。
这种人机交互绝不是简单的呼叫响应,而是多渠道、多级、多模式的交流感觉。从乘员视角,未来的智能座舱人机交互系统将以智能语言为主要交流手段,并以触摸、手势、动态、表情等为辅助交流手段,解放乘员手与眼睛,以减少驾驶员操控风险。
随着驾驶舱内传感器的增加,人机交互服务对象以驾驶员为中心向全车乘客服务转移是一种确定性趋势。智能座舱构建虚拟空间,人与人的自然互动将带来全新的沉浸式扩展现实娱乐体验。强大的配置,结合驾驶舱强大的互动设备,可以构建车内的元宇宙,提供各种沉浸式游戏。智能座舱可能是原太空的好载体。
人机的自然互动也带来情感上的联系,驾驶舱成为人的伴侣,更智能的伴侣,学习车主的行为、习惯、偏好,感知驾驶舱内的环境,结合车辆当前的位置,在需要时积极提供信息和功能提示。随着人工智能的发展,在我们有生之年,有机会看到人类的情感联系逐渐渗透到我们的个人生活中,确保技术向善,也许是那时我们必须面对的另一个重大问题。但无论如何,技术都会朝这个方向发展。
3、智能座舱人机交互总结
在当前惨烈的汽车产业竞争中,人工智能座舱系统已然变成了实现整机厂功能差异性的关键问题,因为驾驶舱人机交互系统和人的交流行为、语言文化等都息息相关,所以需要高度本地化。智能车辆人机交互是中国智能车辆企业品牌升级的重要突破口,是中国智能车辆科技引导世界技术发展趋势的突破口。
这些相互作用和相互作用的整合,未来将提供更全面的沉浸体验,继续推动新的互动方式和技术的成熟,期望从目前的体验提升功能演化为未来智能座舱的必备功能。未来智能座舱交互技术无论是基本安全需求还是更深层次的归属感、自我实现心理需求,都有望涵盖多种多样的出行需求。
【参考文献】
[1] 人机交互的人类工效学 . 第 210 部分:交互式系统用以人为主的设计:ISO 9241-210-2010[S].
[2] 谭浩,赵江洪,王巍 . 汽车人机交互界面设计研究 [J]. 汽车工程学报,2012,2(5):315-321.
[3] 李璟璐,孙效华,郭炜炜 . 基于智能交互的汽车主动响应式交互设计[J].图学学报,2018,39(4):668-674.
[4]DE LUSIGNAN S,LIYANAGE H,SHERLOCK J,et al.Atrial fibrillation dashboard evaluation using the think aloud protocol[J].BMJ Health & Care Informatics,2020,27(3):1-7.
[5]Bourguet M L. 2003.Designing and prototyping multi-modal com-mands/ /Proceedings of the IFIP TC13 International Conference onHuman-Computer Interaction.Zurich,Switzerland:IOS Press:717-720.
[6]BACH K M,JGER M G,SKOV M B,et al. Interacting with in-vehicle systems:understanding,measuring,and evaluating attention[C]//People and Computers XXIII Celebrating People and Technology. New York:ACM Press,2009:453-462.
[7]Fei Z C,Li Z K,Zhang J C,Feng Y and Zhou J. 2021. Towardsexpressive communication with internet memes:a new multi-modalconversation dataset and benchmark[EB/OL].[2022-01-20].
[8]Gong Y,Chung Y A and Glass J. 2021a. PSLA:improving audio tag-ging with pretraining,sampling,labeling,and aggregation.IEEE/ACM Transactions on Audio, Speech, and Language Processing,29:3292-3306.
本篇内容来源于网络,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。