公司新闻

谷歌用MediaPipe实现手机高效实时3D对象检测

  目标检测是一个广泛研讨的核算机视觉问题,但大多数研讨都会集在2D目标猜测方面。2D猜测仅供给2D鸿沟框,但经过将猜测扩展到3D,咱们可以捕获目标的实践国际巨细,方位和方向,然后在机器人技能,自动驾驶轿车,图画检索和增强实践等范畴完成一系列的用例。虽然2D目标检测相对老练并已在职业中广泛使用,但因为缺少数据,以及目标外观和形状的多样性,依据2D图画的3D目标检测仍然是一个十分具有挑战性的课题。zqv

  针对这个问题,谷歌日前发布了用于日常目标的实时3D目标检测管道MediaPipe Objectron。所述东西可以检测2D图画中的目标,并运用由新建3D数据集进行练习的机器学习模型来估量其姿势和巨细。MediaPipe是一个开源代码跨渠道结构,首要用于构建用于处理不同办法的感知数据的管道,而Objectron在MediaPipe中完成,并可以在移动设备中实时核算面向目标的3D鸿沟框。zqv

  依据单张图画进行3D目标检测。MediaPipe Objectron可以支撑确认移动设备实时确认日常目标的方位,方向和巨细。zqv

  1. 获取实在国际3D练习数据zqv

  因为依赖于3D传感器(如LIDAR)的自动驾驶轿车研讨日益遍及,业界存在用于街景的很多3D数据,但包含面向日常目标的ground truth 3D注释的数据集仍然十分有限。为了战胜这个问题,谷歌团队运用移动增强实践会话数据开发了一种全新的数据管道。跟着ARCore和ARKit的到来,数亿智能手机现在现已具有AR功用,而且可以在AR会话中捕获更多信息,包含camera姿势,稀少3D点云,估量照明和平面。zqv

  为了符号ground truth数据,团队构建了一个新颖的注释东西以调配AR会话数据,然后答应Annotator可以快速符号目标的3D鸿沟框。东西运用分屏视图来显现2D视频帧,在左面叠加3D鸿沟框,并在右侧显现3D点云,camera方位和检测平面。Annotator在3D视图中制作3D鸿沟框,并经过检查2D视频帧中的投影来验证其方位。关于静态目标,咱们只需求在单帧中注释目标,并运用来自AR会话数据的ground truth camera姿势信息将方位传播到一切帧。这可以大大进步进程的功率。zqv

  用于3D目标检测的实在数据注释。右:在3D国际中检测外表和点云标示3D鸿沟框。左:带注释3D鸿沟框的投影叠加于视频帧,然后便以验证注释。zqv

  2. 增强实践组成数据生成zqv

  为进步猜测的精度,一种盛行的办法是用组成数据弥补实践国际的数据。但这种办法做通常会带来糟糕的,不实在的数据,或许在图画实在感烘托时需求很多的精力和核算量。所以谷歌提出了一种名为AR Synthetic Data Generation(增强实践组成数据生成)的新颖办法。它可以将虚拟目标放置到具有AR会话数据的场景中,答应你运用camera姿势,检测平面和估量照明来生成物理或许的方位,以及具有与场景匹配的照明。这种办法可生成高质量的组成数据,其包含的烘托目标可以尊重场景的几许形状并无缝地适配实践布景。经过结合实践国际数据和增强实践组成数据,谷歌表明精度进步了约10%。zqv

  增强实践组成数据生成的一个示例:虚拟白褐色谷物盒烘托到实在场景中,紧邻实在蓝皮书。zqv

  3. 用于3D目标检测的机器学习管道zqv

  为了从单个RGB图画猜测目标的姿势和物理尺度,谷歌构建了一个单阶段模型。所述模型骨干具有依据MobileNetv2构建的编码器-解码器架构。团队选用多使命学习办法,经过检测和回归来一起猜测目标的形状。形状使命依据可用的ground truth注释来猜测目标形状信号。这归于可选选项,可用于练习数据中缺少形状注释的状况。关于检测使命,团队运用带注释的鸿沟框并将高斯拟合到框,中心坐落框质心,标准偏差与框巨细成正比。回归使命估量八个鸿沟框极点的2D投影。为了取得鸿沟框的终究3D坐标,团队运用了完善的姿势估量算法(EPnP)。它可以康复目标的3D鸿沟框,无需事前知晓目标的尺度。给定3D鸿沟框,团队可以轻松核算目标的姿势和巨细。下图是详细的网络架构和后处理。所述模型十分轻盈,可以支撑移动设备实时运转(在Adreno 650移动GPU为26 FPS)。zqv

  用于3D目标检测的网络架构和后处理。zqv

  网络的样本成果:左面是带有估量鸿沟框的原始2D图画;中心是高斯分布的目标检测;右边是猜测的切割蒙版。zqv

  4. MediaPipe中的检测和盯梢zqv

  当将模型使用于移动设备捕获的每个帧时,因为每帧中估量的3D鸿沟框的歧义性,模型或许会遭受颤动影响。为了缓解这种状况,谷歌选用了最近发布在2D object detection and tracking(2D目标检测和盯梢)解决方案中的检测+盯梢结构。所述结构可以减轻在每帧运转网络的需求,然后支撑核算量更大但因此更为精确的模型,一起在移动设备坚持管道实时进行。它一起可以跨帧保存目标身份,并保证猜测在时刻方面保持共同,然后削减颤动。zqv

  为了进一步进步移动管道的功率,团队仅仅每隔几帧运转一次模型揣度。接下来,谷歌运用曾经介绍过的办法进行猜测并随时刻进行盯梢。作为出新的猜测时,他们将依据堆叠区域把检测成果与盯梢成果兼并。zqv

  鼓舞开发者和研讨人员依据其管道进行试验和原型规划,谷歌将在MediaPipe中发布所述的机器学习管道,包含端到端的移动演示使用,以及针对鞋子和椅子这两个类别的练习模型。谷歌表明:“咱们期望经过与广泛的研讨和开发社区同享咱们的解决方案,这将可以影响新的用例,新的使用和新的研讨工作。咱们计划在未来将模型扩展到更多类别,并进一步进步设备功能。”zqv

联系我们

CONTACT US

联系人:张先生

手机:

电话:

邮箱:

地址: