本篇学习报告基于CoRL 2023的《NOIR: Neural Signal Operated Intelligent Robots for Everyday Activities》,作者是来自斯坦福大学的Ruohan Zhang, Sharon Lee, Minjune Hwang, Ayano Hiranaka等研究人员。这篇论文提出了一种通用的智能脑-机器人接口系统 ——神经信号操作智能机器人(NOIR),这使人类能够通过大脑信号命令机器人进行日常活动,通过EEG将感兴趣的目标和行动传达给机器人,增强了人类与机器人互动的方式。
背景
现有的许多Brain-Robot Interface (BRI)研究都集中在大脑信号解码的基本问题上,而一些现有的研究则集中在如何使机器人更加智能和适应性强。受这一系列工作的启发,利用小样本策略学习算法使机器人能够学习人类的偏好和目标。这最大限度地减少了大量大脑信号解码的必要性,从而简化了交互过程并提高了整体效率。研究基于大脑信号解码和机器人学习领域的重大进步。目前,许多现有的BRI系统仅针对一项或少数特定任务。之前的工作还没有提出能够成功执行各种复杂任务的智能、多功能系统。
原理
人类充当规划代理来感知、规划并向机器人传达行为目标,而机器人则使用预定义的原始技能来实现这些目标。构建通用 BRI 系统的总体目标是通过将两种设计协同集成在一起来实现的。首先,提出了一种针对人类意图的新型模块化大脑解码管道,其中人类预期目标被分解为三个组成部分:什么、如何和在哪里。其次,为机器人配备了参数化的原始技能库,以实现人类指定的目标。这种设计使人类和机器人能够协作完成各种具有挑战性的长期日常任务。最后,展示了 NOIR 的一个关键特征,为了让机器人能够更有效地行动并能够适应个人用户,我们采用了来自人类的小样本模仿学习。
NOIR系统
NOIR 由两个部件组成,一个用于从人脑信号解码目标的模块化管道,以及一个具有原始技能库的机器人系统。机器人具有学习预测人类预期目标的能力,从而减少了解码所需的人力。
从脑电图EEG中解码人类意图
系统通过稳态视觉诱发电位和运动想象来解码特定用户意图脑电图信号,采用模块化的思想,将人类意图分解为三个组成部分:(a)要操纵什么对象;(b) 如何与物体互动;(c) 在何处交互。并设计了用于从 EEG 信号解码人类预期目标的模块化管道来解码特定用户意图脑电图信号。
用于从 EEG 信号解码人类预期目标的模块化管道:(a) 使用 CCA 分类器从 SSVEP 信号解码要操纵的对象;(b) 如何与物体交互,使用 CSP+QDA 算法从 MI 信号解码; (c) 在何处交互,从 MI 信号解码。使用捕捉下颌咬紧时的肌肉张力的安全机制来确认或拒绝解码结果。
参数化原始技能的机器人
机器人必须能够在人类的指导下解决一系列不同的操作任务,这可以通过为它们配备一组参数化的原始技能来实现。使用这些技能的好处是它们可以跨任务组合和重用。人类的意图可以映射到 14 种参数化的机器人技能,如 Pick(x,y,z)、Place(x,y,z) 和 Push(x,y,z,d)。人类发现了这些技能的新用途,并将其结合起来完成艰巨的任务。
利用机器人学习提高 BRI 效率
受基于检索的模仿学习的启发,论文提出的方法从观察到的状态中学习潜在状态表示。给定一个新的状态观察,它会找到潜在空间中最相似的状态以及相应的动作。该方法在任务执行期间,我们记录由图像和人类选择的对象技能对组成的数据点。这些图像首先由预先训练的 R3M 模型进行编码,以提取对机器人操作任务有用的特征,然后通过几个可训练的全连接层。这些层使用对比学习和三元组损失进行训练,鼓励具有相同对象技能标签的图像更紧密地嵌入到潜在空间中。学习到的图像嵌入和对象技能标签存储在内存中。
参数选择需要大量的人力,因为它需要通过 MI 进行精确的光标操作。为了减少人类的努力,我们提出了一次性技能参数学习算法,用于预测给定对象技能对作为光标控制初始点的参数。在给定训练图像中的参考点的情况下,在测试图像中找到语义对应点。特征可视化显示了所使用的 768个DINOv2 令牌中的3个。
实验与结果
任务
从BEHAVIOR benchmark和Activities of Daily Living中选择任务来捕捉人类的实际需求。由16个桌面任务和4个移动操作任务组成。这些任务涵盖多种类别,包括八项备餐任务、六项清洁任务、三项个人护理任务和三项娱乐任务。
结果
NOIR 显示的结果:平均而言,任务只需 1.83 次尝试即可完成,任务完成时间为20.29分钟。人类花在决策和解码上的时间相对较长(占总时间的 80%),部分原因是安全机制。
系统解码大脑信号准确率SSVEP上的CCA的准确率高达 81.2%,对于MI上的CSP + QDA进行参数选择,2分类模型的准确率达到73.9%,4分类模型的准确率约为 42.2%。尽管这看起来并不高,但考虑到由于任务持续时间长而导致的不一致(因此校准和任务时间精度之间的差异),它具有竞争力。系统的校准时间仅为 10 分钟,与典型 MI 校准和培训课程的持续时间相比明显缩短了几个数量级。
对象和技能学习,每次对象技能选择所需的平均时间从 45.7 秒减少到 18.1 秒,减少了 60%。
参数学习算法在 SetTable 实际任务执行中的有效性,以控制光标移动所节省的人力来量化。如果不学习,光标将从所选对象或屏幕中心开始。将预测结果作为光标控制的起始位置,导致光标移动量大幅减少,平均距离减少了41%。
结论
提出了一种通用的智能 BRI 系统,该系统允许人类用户使用大脑信号控制机器人来完成一系列多样化的、具有挑战性的现实世界活动。NOIR 通过少量学习实现人类意图预测,从而促进更有效的协作交互。具有增强人类能力并为需要日常支持的个人提供关键辅助技术的巨大潜力。代表了该领域的一项开创性努力,揭示了潜在的机遇。
原文链接
https://www.scholat.com/teamwork/showPostMessage.html?id=14728