人形机器人的触觉与语音能力正在飞速提升

用型人形机器人需要所有感官协同运作,且各项能力均衡发展;视觉和运动能力目前最为成熟,但其他感官也在快速追赶。


2026年5月7日 - 作者:Liz Allan

核心要点

  • 在人工智能和传感技术进步的推动下,人形机器人正迅速从工厂和物流领域扩展到更广泛的通用型应用场景(包括家庭辅助)。
  • 与视觉和语言能力相比,真实环境中的触觉(力觉感知)和听觉/语音仍然是最具挑战性、同时也是商业价值最高的传感难题,需要快速的传感器融合和边缘处理能力。
  • 市场采用度和产品需求因地区和应用场景而异,在精度、成本、功耗、隐私(边缘计算与云计算)和用户体验之间需要权衡取舍,这些因素将决定人形机器人和物联网语音接口的成熟路径。

人形机器人借助生成式和智能体AI,在执行各类任务方面正取得显著进展,而且时机恰到好处。当前预测表明,这类系统将在未来几年内成为人类生活中不可或缺的一部分。

如今,人形机器人主要应用于电子和汽车工厂、仓库与物流领域,以及专业清洁场景。[1] 中国预计2026年人形机器人产量将增长94%。[2] 不久之后,人形机器人有望作为伴侣或助手进入家庭,尤其服务于老年人群。

而这仅仅是开始。“机器人技术可能是人类历史上最大的产品类别,”Cadence首席执行官Anirudh Devgan在最近的一次演讲中表示。“预计规模达25万亿美元。而全球GDP总额为110万亿美元。因此,如果这一愿景实现,其影响将是巨大的。”

各项技术实现的时间框架。
图1:各项技术实现的时间框架。来源:CadenceLIVE Silicon Valley 2026

虽然人形机器人外形类人,但它们并不需要在各方面都完全复制成年人类。例如,它们可以像孩子一样小巧,或者只有三根手指。人类感官与人形机器人传感器之间有许多相似之处。每一种感官及其相关传感器都在发展中,各自面临特定的挑战,且进展程度不一。嗅觉和味觉相对落后,而视觉和语言则处于领先地位。

“我们在自然语言技术方面已经做得不错,因为它不仅用于机器人,而是广泛应用于各个领域,因此受益于规模化发展,”新思科技产品营销总监Marc Swinnen表示。“视觉技术也发展得很成熟,但它面临着与自动驾驶汽车相同的挑战。它需要解读物体,这可不是一个简单的问题。至于触觉技术,人们在压力传感器甚至纹理感知方面已经取得了进展。每个研究人员都会声称自己负责的感官是最难的,但也许真正的难点在于整个系统的整合。”

任何与物理AI相关的内容都需要进一步研究,包括触觉或压力感知,但AI正在让人形机器人学得更快。“我们一直都有传感器,”西门子EDA产品负责人Sathishkumar Balasubramanian表示。“我们一直都有方法通过感知某些东西并将其转换为数字图像或数字足迹来区分触摸A和触摸B的不同。我们一直具备这些能力。但我们不知道如何让它像人类一样运作。借助大语言模型(LLMs),你可以让人形机器人做到这一点。它可以成为驱动一切的大脑——语音解读、触觉、你做的任何物理动作、你如何推理以及如何反应。正因为有了LLMs和Transformer架构,我们可以非常快速地做到这一点。”

在触觉方面,人形机器人正在从工业机器人中汲取经验。

“在人形机器人的手部方面,现实世界中的触觉研究仍然很少,”Synaptics高级产品营销经理Sam Toba表示。“但工业机器人的机械臂末端装有手爪。机械臂的应用范围非常非常广泛。”

另一个正在发展的领域是语音识别和语音交互。无论是连接到LLM的人形机器人与人类对话,还是人形机器人与家中的智能家电互动,应用场景都在不断增长。

“这方面的研究正在迅速变化,”Synaptics物联网和边缘AI处理器业务副总裁兼总经理John Weil表示。“你我所感知的几年前的语音模型,与今天所能达到的水平相比,能力上可能有100倍的差距。”

德州仪器机器人与工业自动化总经理Giovanni Campanella认为触觉和听觉是最具挑战性的感官。“这两者是人们理解较少的,”他说。“摄像头很好理解,因为人们很容易将其与眼睛联系起来。这方面的文献非常多,摄像头和软件方面的生态系统也很强大。但在听觉和触觉方面,目前的研究很少,这也是客户理解最少的方面。同时,这也是他们最希望关注的领域。客户正从仅仅在机器人中安装摄像头,转向增加更多其他感官来使其更智能。”

在中国,机器人公司正在研发具备视觉和AI功能的吸尘器。“在边缘端,它们对房间进行了大量的视觉解读,例如判断是否有水渍,是木地板还是地毯,”英飞凌科技功率与传感器系统部门总裁Adam White表示。“它们还利用AI对房间进行建模,以节省电池电量,确保高效清洁地板。在此基础上,当它们清洁地板时,还会分析灰尘颗粒,以判断房间中哪些区域使用最频繁。这就是从生成式AI到智能体AI,再到物理AI的发展路径。”

觉技术虽复杂,但已得到充分理解。
图2:视觉技术虽复杂,但已得到充分理解。来源:英飞凌OktoberTech

随着这些进步持续加速,先进的传感和处理能力的整合正在重塑人形机器人的可能性边界。

在此领域,英伟达正致力于解决精度和操控问题。“在物理AI及大多数机器人应用中,精度要求是99后面的多少个9?”英伟达机器人与边缘AI副总裁兼总经理Deepu Talla表示。“在某些情况下,可能是两个9。对于自动驾驶汽车,可能需要十个9。在手术机器人领域,要求甚至更高。这是我们面临的巨大挑战。”

简单的操控包括用两根手指抓取或吸盘吸附。“最终的目标是实现通用性,能够进行精细、灵巧的操控,这就需要以安全、实时的方式集成先进的传感器、执行器和控制能力,”Talla说。“我们需要将通用型大脑数据收集与机器人内部的所有物理组件结合起来,共同发挥作用。”

英伟达还在与Cadence合作,为物理AI嵌入智能体AI,将物理AI芯片IP与机器人仿真库相结合,以帮助缩小机器人(包括人形机器人)和自主机器从“仿真到现实”的差距。AI代理通过虚拟训练、物理模型和任务级场景仿真在整个工作流程中进行协调,以帮助解决复杂的现实世界场景。

这类解决方案正是解决推理和物理运动这两大挑战所必需的。“人形机器人的复杂性首先是一个极其复杂的机械问题需要解决,”Imagination Technologies产品管理总监Matthew Bubis表示。“你还需要解决如何将AI模型的输出用于控制所有这些极其复杂的机械系统的问题。因此,机器人技术需要解决两个问题,而汽车领域只有一个。机器人技术既是AI问题,也是机械技术问题,而汽车领域的机械和传感器技术已经就位。对人形机器人而言,关键在于控制输出这最后但极其困难的一步。”


触觉

人形机器人最具挑战性的输出之一就是手部和手指的运动。

在手部感知方面,触觉意味着接触,需要传感器来测量力、剪切力、滑动和温度。通常,系统还会包含一个IMU(惯性测量单元)。触觉传感器采用不同的技术来解决这一问题,包括电容感应、压电、光学、磁性、电感和电阻式——各有其优缺点。

“传感方法类似,但连接到芯片上的物理传感器会看起来非常不同,”Synaptics的Toba表示。

所有原始数据随后会被汇总,转化为有意义的事件。“我们的触控芯片运行支持机器学习的算法,”Toba说。“我们已经将其用于噪声检测,但它们也可用于力检测,因此需要大量处理来提供这些数据。我们提供电容感应技术,其最大优势在于速度非常快。当你触摸某物时,你需要能够快速感知运动。你需要快速感知力,尤其是剪切力。例如,当你握着一个罐子,而它正在滑动时,这就是剪切力。你需要对此做出反应,以免它从手中滑落。”

基于Grinn和Synaptics技术的AI驱动机器人手部压力传感器。
图3:基于Grinn和Synaptics技术的AI驱动机器人手部压力传感器。来源:Synaptics Tech Day

在手掌内的MCU或MPU上进行边缘预处理,可以避免CPU过载。“如果每根手指都单独连接主机,会给机械设计带来物理负担,”Toba指出。“我们对数据和噪声进行过滤,从而减少传输到主机的数据量,因为手指产生的数据量非常庞大。四种不同的传感模式持续且高频率地进行感知。如果将所有数据都传给主机,会导致主机过载。我们还可以实现节能——‘触摸检测’功能进入低功耗模式,有事件发生时再唤醒并通知主机。这里涉及不同层级的处理、功耗和CPU配置,这是一个普遍的设计思路。”

Synaptics战略与业务发展高级总监Nebu Philips解释称,来自不同类型触觉传感器数据的聚合属于传感器融合的一种,但传感器融合通常指不同模态的融合,例如雷达、激光雷达、触觉和语音输入的融合,而不是同一模态下不同类型触觉传感器的融合。网格传感器中使用的最小尺寸传感器为5×5毫米,支持60个通道。根据通道数的不同,也有小至3×3毫米的型号。

手部闭环处理有助于加快手指的反应速度,但如果通信协议足够快,处理也可以在中央端完成。

“手掌周围分布有多达30个传感器,”TI的Campanella表示。“在手指中,磁性或电容式传感器形成了一种矩阵,可以定位触摸的来源,同时还能检测或感知触摸的强度。这一点很重要,因为你可以将此反馈给电机控制系统。例如,如果你握玻璃杯的力度不当,就可能捏碎杯子。这就形成一个闭环反馈回路,处理必须非常迅速。目前有不同的实现方式——有些人希望在边缘直接处理,并尽快与电机控制形成闭环;但如果你拥有足够快的通信(通常达到千兆位/秒以上),你也可以将数据传回机器人的‘大脑’。目前已有以太网,还有像FPD Link这样的SerDes(串行解串器)技术——该技术也用于汽车领域——其速度甚至可以超过千兆位。”

不过,不同的应用场景需要不同的方案。“在人形机器人或各类机械臂中,并不一定需要完整的五根手指,”Grinn所有者、嵌入式物联网专家Robert Otręba表示。“可以只有两根手指或一根手指来提供触觉功能。人们常常认为人形机器人必须在外观上完全像人,但实际上我们可以通过触控控制器和小型化芯片的组合,将人类行为迁移到机器人领域。在这类小型芯片上,已经可以进行部分数据采集、预处理、噪声滤除以及信号预调理。这颗微型芯片可以尽可能贴近传感元件,这是最合理的做法,因为这样就不需要通过较长的线路传输信号,从而避免额外的信号干扰。数据的第二级计算可以在手部本地完成,而不必全部交由系统核心处理。这相当于为手部增加了智能,在将数据卸载到主系统(机器人的‘心脏’)之前,先对来自多个传感器的数据进行预处理。”

在工业应用场景中,机械臂上的触控控制器可以与视频处理结合,用于检测真实手势并提供数据。“根据应用需求,通过Wi-Fi将处理转移到外部系统是最经济的方案,”Otręba说。“但实现方式有多种,每一步的智能化都很重要。”


听觉与自然语言对话

人形机器人需要能够以自然语言进行聆听和回应,理想情况下要求实时响应并带有合适的口音。但不同语言和地区口音可能带来问题。

“从理念上讲,语音技术并不困难,”Synaptics的Weil表示。“关键在于界定问题范围并明确:是用一个通用模型还是十个模型?你可以做一个通用的英语模型,也可以在系统中加入更多智能,识别用户所在地域,然后动态切换为更本地化的英语模型,从而提高速度和响应质量。如果你试图用一个模型解决全球所有英语使用场景,模型会变得非常庞大,可能在成本上难以承受——你需要更强的芯片或更大的内存。这正是我们目前帮助客户权衡的问题。”

例如,在日本,用户对模型的母语能力印象深刻,但仍然存在一些抱怨。“有人说它用词听起来太年轻,或者敬语程度不符合期望,”Weil说。“他们说,‘我们不希望它听起来像18岁,我们希望它听起来像35岁。’”

模型通常能够理解俚语。“归根结底,这只是词语匹配的问题,”Weil说。“首先,系统需要将英语转换成描述事物的词元,然后通过最近邻算法进行匹配。为了帮助客户直观理解其工作原理,我们采用三维空间视图来展示这些词语如何在空间中分布、彼此之间的关联性,以及与问答集之间的相关性——这就是RAG(检索增强生成)的概念。整个过程是:将语言从口语转为书面语,再转为字母,然后以数值方式处理问题,匹配数据库——这是真正的核心环节——最后再转换回语音并读出。这就是日本用户遇到的情况——他们反馈说,‘系统能听懂我,这很好,但它在回应我时,用词不够准确。’”

上下文理解对于AI模型判断何时回应或保持沉默也至关重要。“当我或我的配偶说话时,孩子们能理解上下文和意图,”Weil说。“他们甚至不需要看我,就能根据我的语气或说话方向判断对话是在他们被点名之前就已经指向他们。对于一台意式浓缩咖啡机,业界已经知道如何实现语音唤醒和语音反馈。但如果我在房间另一头和我妻子讨论她想让我为她做杯咖啡,我并不希望咖啡机提前开始响应。我们需要教会机器理解上下文。”

对于厨房台面上的嵌入式产品(如恒温器),同样存在类似的权衡问题,机器人也是如此。“你是使用像Google Voice这样的云服务,在每个设备上部署一个小型代理?”Weil说。“这是大公司希望你做的方案。但那些生产专用设备的产品公司并不愿意与谷歌或苹果共享数据,就像汽车OEM厂商可能不想用Apple CarPlay或Android系统一样。他们希望拥有自己的高品质、具备上下文感知能力的系统——这正是大家正在探索的方向。我们在CES上做了一个演示,使用了波束成形麦克风,设备不仅能听取用户指令,还能判断音频来源方向。如果我走近并面对设备,它就能识别出更多上下文信息。”

OEM厂商正在讨论人形机器人与烤箱、微波炉或冰箱的交互。“物联网设备可能会发出提示,”TI的Campanella说。“比如‘食物已准备好’,然后机器人会去取出食物并为你端上。但家庭环境中存在大量噪声——可能有孩子说话声或吸尘器运行声——因此它必须能够区分噪声和语音的来源方向,这一点至关重要。”

对于边缘语音应用,需要多项功能来确保系统能够正确区分目标声音并隔离有效音频。“关键在于拥有良好的信号链路,以及通过音频编解码器从噪声中放大真实信号的能力,”Campanella说。“目前已经集成了大量智能功能,配合边缘端的硬件加速器,可以在部署前就对模型进行训练,使其能够区分特定的语音指令,并能从众多声音中辨识出特定的语音集。这需要模拟和EP(嵌入式处理)相结合——具备高SNR(信噪比)的优质信号链路,以及配备硬件加速器的MCU来完成这项工作,这是解决该挑战的关键。”


结论

不同市场对机器人、人形机器人和人机界面的采用速度各不相同。“在中国,看看那里生产的汽车,他们正将领先的创新融入车内体验,包括语音界面、大尺寸显示屏等,”Imagination Technologies产品管理高级总监Rob Fisher表示。“那里的消费群体对用户体验的这种进步有着强烈需求。在欧洲,我们相对保守一些,更受安全功能的影响。但在中国和亚洲,用户体验和这类创新才是真正推动汽车和机器人销售的关键。”

在最近的一份报告中,Kearney分析了当前机器人应用及各场景使用的机器人类型,指出人形机器人的采用率仍然有限,相比关节型机器人和协作机器人仍有差距。此外,在九个潜在应用场景中,人形机器人仅出现在其中四个场景。专业清洁是其中一个应用,人形机器人的应用率高于其他类型的机器人。[4]

“机器人无处不在,执行各种任务,因此面临的挑战也很多,”新思科技产品管理高级总监Matt Commens表示。“在CES上,我们看到许多公司试图模仿人类。这需要大量复杂的软件来进行决策,需要大量电机、传感器,它们之间的无线通信,以及整个环境的感知。这正是客户目前正在开发的内容,希望我们很快能看到更多商业化产品,用于家务劳动。”

工业4.0已经遍布机器人。“过去由人工完成的汽车制造工序,现在都由机器人完成,”Commens观察到。“一切都与自动化和重复性任务相关——‘我希望机器人来做这个。’我们的电脑里已有AI代理,所以我们也希望在现实世界中拥有同样的能力。但在现实中,这不仅仅是软件问题,还涉及硬件。”


参考文献
[1] 中国人形机器人产量预计2026年激增94%,宇树科技与智元机器人将占据近80%市场份额(TrendForce)
[2] Olaf:将动画角色带入物理世界(迪士尼研究幻想工程部)
[3] 美国人形机器人的内在:中国技术(华尔街日报)
[4] 运营现代工业的机器人(Kearney)


最新文章