更新时间:2024-11-04 18:06:15
研究人员开发了一种名为 MonoCon 的新技术,该技术使用二维 (2D) 图像提高了人工智能 (AI) 程序识别三维 (3D) 物体的能力,以及这些物体在空间中如何相互关联.例如,这项工作将帮助自动驾驶汽车中使用的人工智能使用从车载摄像头接收到的 2D 图像相对于其他车辆进行导航。
“我们生活在一个 3D 世界中,但是当你拍照时,它会以 2D 图像记录那个世界,”该论文的通讯作者、北卡罗来纳州立大学电气和计算机工程助理教授吴天福说大学。
“人工智能程序接收来自摄像头的视觉输入。因此,如果我们希望人工智能与世界互动,我们需要确保它能够解释 2D 图像可以告诉它关于 3D 空间的信息。在这项研究中,我们专注于一个部分挑战:我们如何让 AI 准确识别 2D 图像中的 3D 对象(例如人或汽车),并将这些对象放置在空间中。”
虽然这项工作可能对自动驾驶汽车很重要,但它也适用于制造和机器人技术。
在自动驾驶汽车的背景下,大多数现有系统依靠激光雷达(使用激光测量距离)来导航 3D 空间。然而,激光雷达技术价格昂贵。而且由于激光雷达价格昂贵,自治系统不包含太多冗余。例如,在量产的无人驾驶汽车上安装数十个激光雷达传感器成本太高。
“但如果自动驾驶汽车可以使用视觉输入在空间中导航,你就可以建立冗余,”吴说。“由于摄像头比激光雷达便宜得多,因此在经济上增加额外的摄像头在经济上是可行的——在系统中建立冗余并使其更安全、更健壮。
“这是一个实际应用。但是,我们也对这项工作的基本进展感到兴奋:可以从 2D 对象获取 3D 数据。”