更新时间:2024-11-09 10:01:50
由KatieDriggs-Campbell教授领导的诺伊大学厄巴纳-香槟分校和斯坦福大学的一组研究人员最近开发了一种新的基于深度强化学习的方法,该方法可以提高移动机器人在拥挤空间中安全导航的能力。他们的方法在arXiv上预先发表的一篇论文中进行了介绍,该方法基于使用机器人周围的人作为潜在障碍指标的想法。
“我们的论文建立在‘人作为传感器’的研究方向之上,用于在存在遮挡的情况下进行映射,”进行这项研究的研究人员之一MashaItkina告诉TechXplore。“关键的见解是,我们可以通过观察互动的人类行为来对环境进行空间推断,从而将人视为传感器。例如,如果我们观察到司机急刹车,我们可以推断出行人可能已经跑到路上了在那个司机面前。”
Afolabi等人在2018年首次引入了使用人及其交互行为来估计是否存在遮挡障碍物的想法,特别是在自动驾驶汽车的背景下。在他们之前的工作中,Itkina和她的同事在该小组的努力基础上,推广了“人作为传感器”的想法,以便它考虑多个观察到的人类驾驶员,而不是单个驾驶员(正如Afolabi团队的方法所考虑的那样)。
为此,他们为自动驾驶汽车周围环境中的所有不同驾驶员开发了一个“传感器”模型。这些模型中的每一个都将驾驶员的轨迹映射到驾驶员前方环境的占用网格表示。随后,使用传感器融合技术将这些占用估计纳入自主机器人的地图。
“在我们最近的论文中,我们通过在强化学习管道中考虑遮挡推断来关闭循环,”Itkina说。“我们的目标是证明遮挡推断对下游路径规划器是有益的,特别是当空间表示具有任务感知能力时。为了实现这一目标,我们构建了一个端到端架构,该架构同时学习推断遮挡和输出一项成功且安全地达到目标的政策。”
大多数以前开发的将人视为传感器的模型都是专门设计用于在城市环境中实施的,以提高自动驾驶汽车的安全性。另一方面,新模型旨在提高移动机器人在人群中导航的能力。
人群导航任务通常比自治系统的城市驾驶任务更困难,因为人群中的人类行为结构较少,因此更加不可预测。研究人员决定使用与变分自动编码器(VAE)学习的遮挡感知潜在空间集成的深度强化学习模型来解决这些任务。
“我们首先在局部占用网格图中表示机器人的周围环境,就像机器人周围障碍物的鸟瞰图或自上而下的图像,”这项研究的第一作者Ye-JiMun告诉TechXplore。“这张占用网格图使我们能够在网格区域内捕获丰富的交互行为,而不管物体和人的数量或大小和形状如何。”
研究人员的模型包括一个遮挡推理模块,该模块经过训练以提取观察到的社会行为,例如减速或转弯以避免从收集的地图输入序列中发生碰撞。随后,它使用此信息来预测被遮挡的对象或代理可能位于的位置,并使用VAE架构将此“增强感知信息”编码为低维潜在表示。
“由于我们的遮挡推理模块仅提供对周围人类代理的部分观察,我们还有一个监督模型,其潜在向量在训练期间对观察到的和被遮挡的人类代理的空间位置进行编码,”Mun解释说。“通过将我们的遮挡模块的潜在空间与监督模型的潜在空间相匹配,我们通过将观察到的社会行为与被遮挡的人类代理的空间位置相关联来增强感知信息。”
由此产生的遮挡感知潜在表示最终被馈送到深度强化学习框架中,该框架鼓励机器人在完成任务时主动避免碰撞。Itkina、Mun和他们的同事使用移动机器人Turtlebot2i在模拟环境和现实世界中对他们的模型进行了一系列实验。
“我们成功地实施了‘人作为传感器’的概念,以增强有限的机器人感知并执行遮挡感知人群导航,”Mun说。“我们证明了我们的遮挡感知策略比有限视图导航实现了更好的导航性能(即更好的避免碰撞和更平滑的导航路径),并且与全知视图导航相当。据我们所知,这项工作是第一个使用社会遮挡推理进行人群导航。”
在他们的测试中,Itkina、Mun和他们的同事还发现,他们的模型生成的地图并不完美,其中不包含观察到的智能体和估计的智能体的确切位置。相反,他们的模块学习专注于估计附近可能被遮挡并可能阻止机器人前往所需位置的“关键代理”的位置。
“这一结果意味着,完整的地图不一定是在部分可观察、拥挤的环境中更好的导航地图,而是更重要的是关注一些潜在的危险因素,”Mun说。
这组研究人员收集的初步发现非常有前景,因为它们强调了他们的方法在减少机器人在拥挤环境中与障碍物碰撞方面的潜力。未来,他们的模型可以在现有和新开发的移动机器人上实施,这些机器人旨在导航商场、机场、办公室和其他拥挤的环境。
“这项工作的主要动机是在人类周围导航时捕捉类似人类的直觉,特别是在封闭环境中,”Itkina补充道。“我们希望更深入地研究捕捉人类洞察力以提高机器人能力。具体来说,我们对如何同时对环境进行预测和推断遮挡感兴趣,因为这两项任务的输入都涉及对人类行为的历史观察。我们也在思考关于这些想法如何转移到不同的环境中,例如仓库和辅助机器人。”