苏州昊瓦智能装备有限公司

您现在的位置:新闻首页>3D相机资讯

不用3D视觉工具,靠“幻觉”场景就能训练机器人识别物体空间位置

2024-01-01 09:27编辑:admin人气:665


  随着越来越多的机器人进入各种复杂的环境,研究人员正在努力使它们与人类的交互尽可能流畅自然。训练机器人对口头指令立即做出反应,例如“拿起玻璃并向右移动”,在许多情况下都是理想的,因为这最终会使人类和机器人之间的交互更加直接和直观。然而,这并不总是容易的,因为它需要机器人理解用户的指令,还需要知道如何根据特定的空间关系移动对象。

  德国弗赖堡大学的研究人员最近设计了一种新方法,通过对“幻觉”场景的表征进行分类,教会机器人根据人类用户的指令移动物体。他们预先发表的关于arXiv的论文将于今年6月在IEEE机器人和自动化国际会议(ICRA)上发表。

  “在我们的工作中,我们专注于相关对象的放置指令,如‘将杯子放在盒子的右侧’或‘将黄色玩具放在盒子的顶部’。”参与这项研究的研究人员之一Oier Mees告诉TechXplore。“为了做到这一点,机器人需要考虑将杯子相对于盒子或任何其他参考对象放在哪里,以再现用户描述的空间关系。”

  训练机器人理解空间关系并相应地移动物体是非常困难的,因为用户的指令通常不会在机器人观察的更大场景中描绘特定位置。换句话说,如果一个人类用户说“把杯子放在手表左侧”,机器人应该把杯子放在手表左侧多远,不同方向之间的确切界限在哪里(例如,右、左、前、后等。)?

  “由于这种固有的模糊性,没有可用于学习空间关系建模的基本事实或‘正确’数据。”Mees说,“我们从辅助学习的角度解决了空间关系的基于事实的像素标注不可用的问题。”

  Mees和他的同事设计的方法背后的主要思想是,更容易确定两个物体和代表它们被发现的环境的图像之间的空间关系。这使得机器人能够检测一个物体是否在另一个物体的左侧、上方、前方等等。

  虽然识别两个对象之间的空间关系并不能指定这些对象应该放在哪里来重现这种关系,但是在场景中插入其他对象可以让机器人推断出在多个空间关系中的分布。将这些不存在的(即虚幻的)物体添加到机器人所看到的东西中,将允许它在执行给定动作(即在桌面上的特定位置或其前方放置一个物体)时评估场景的外部环境。

  “最常见的情况是,在图像中实际‘粘贴’一个对象需要访问3D模型和轮廓,或者仔细设计一个优化过程来生成对策网络(GANs)。”米斯说,“此外,简单地‘粘贴’图像中的对象会产生微妙的像素伪像,导致明显不同的特征,并使训练错误地专注于这些差异。我们使用一种不同的方法,将物体的高级特征植入卷积神经网络生成的场景特征图中,从而对场景表征产生错觉,并将其归类为辅助任务,以获得学习信号。”

  在训练卷积神经网络(CNN)学习基于错觉物体的空间关系之前,研究人员必须确保它能够根据单个图像对单个物体对之间的关系进行分类。随后,他们“欺骗”了这个名为RelNet的网络,通过在不同的空间位置植入高级别的物体特征,对“幻觉”场景进行分类。

  “我们的方法允许机器人在最少的数据收集或灵感的情况下,遵循人类用户给出的自然语言放置指令。”米斯说,“每个人都希望家里有一个服务机器人,它可以通过理解自然语言指令来执行任务。这是机器人更好地理解公共空间的意义的第一步。”

  现有的训练机器人移动物体的方法大多是利用与物体三维形状相关的信息来模拟成对的空间关系。这些技术的一个关键限制是它们通常需要额外的技术组件,例如可以跟踪不同物体运动的跟踪系统。另一方面,Mees和他的同事提出的方法不需要任何额外的工具,因为它不是基于3D视觉技术。

  研究人员在一系列涉及真实用户和机器人的实验中评估了他们的方法。这些测试的结果非常有希望,因为他们的方法可以使机器人根据人类用户语音指令描述的空间关系,有效地识别出在桌子上放置物体的最佳策略。

  “幻觉场景代表我们的新颖方法也可以应用于机器人和计算机视觉社区,因为机器人通常需要能够估计未来状态的良好程度,以便推断它们需要采取的行动。”米斯说。“通过使用幻觉场景表示作为数据增强的一种形式,它还可以用于提高许多神经网络的性能,如对象检测网络。”

  Mees和他的同事可以可靠地建立一组自然语言空间单词的模型(如右、左、上等。)而不使用3D可视化工具。未来,他们研究中提出的方法可以用来提高现有机器人的能力,使它们能够更有效地完成简单的物体移动任务,并遵循人类用户的语音指令。

  同时,他们的论文也可以为开发类似技术提供参考,以增强人类和机器人在其他物体操作任务中的交互。如果加入辅助学习方法,Mees和他的同事开发的方法也可以减少机器人研究数据集编译相关的成本和工作,因为它可以在没有大型标注数据集的情况下预测像素概率。

  米斯总结道:“我们认为这是人类和机器人达成共识的充满希望的第一步。”“未来,我们希望将我们的方法扩展到包括对参考表达式的理解,以便开发一个遵循自然语言指令的拾取和放置系统。”


参考资料
(来源:未知)

  • 凡本网注明"来源:的所有作品,版权均属于中,转载请必须注明中,http://www.propolki.com。违反者本网将追究相关法律责任。
  • 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。






返回首页