谷歌最近发布了一个全新的移动3D识别方案Objectron,它可以在2D图像中找到物体,并通过AI模型估计它们的位置、方向和大小。谷歌表示,Objectron对机器人技术、自动驾驶汽车、图像检索和ar技术有着深远的影响。例如,它可以帮助工厂车间的机器人实时避开障碍物。
目前,跟踪三维物体是一个棘手的问题,尤其是在处理有限的计算资源时。由于数据的缺乏以及物体外观和形状的多样性,当唯一可用的图像是2D时,情况会变得更糟。
为此,Objectron R&D团队开发了一种图片标记工具,可以从分屏视角显示2D视频帧,并支持记者以分屏视角显示2D视频帧,以标记对象的3D边界框(即矩形边框)。这些3D边界框将叠加在点云数据、相机屏幕和识别的平面上。
在3D视图中标记3D包围盒后,记者可以在2D视频帧中验证,而对于静态图像,记者只需在单帧中标记目标对象。标记工具还使用AR会话数据中的实际摄像机信息来确定对象在所有帧中的位置。
为了补充现实世界中的数据,提高AI模型预测的准确性,谷歌R&D团队开发了一个引擎,将虚拟物体放置在包含AR会话数据的场景中,这样相机图像检测到的平面区域和预测的光线就可以用来生成与物理中的场景相匹配的光照位置,从而产生高质量的合成数据。在验证测试中,综合数据的准确率提高了10%左右。