Google AI的最新3D数据集，15,000张移动图片，400万张图像，让AR统治您的生

来源：未知作者：admin 日期：2023/03/18 22:20 浏览：

　　Quefei Temple量子报告的小肖FA 公共帐户QBITAI

　　您是否看到过3D对象数据集，您是否看到了动员的3D对象数据集？

　　每个动态视频都是由目标拍摄的，不仅包含整体边界框架，而且每个视频还带有相机位置和稀疏的云。

　　这是Google的开源3D对象数据集Objectron，其中包括15,000个简短的视频样本，以及来自五大洲和十个国家的400万条评论。

　　Google认为，3D目标理解的领域缺少2D中的Imagnet之类的大数据集，并且Objectron数据集可以在一定程度上解决此问题。

　　启动数据集后，1.6K网络人喜欢它。

　　一些网民嘲笑了Google想“ Google”时刚刚寄出了它。

　　该团队的一些成员还说，他们很高兴看到这样的数据集和模型，这使进步的可能性达到了AR。

　　此外，Google还宣布了鞋子，椅子，杯子和使用Objectron数据集的鞋子，椅子，杯子和相机的3D目标检测模型。

　　让我们看一下该数据集所包含的内容，Google提供了3D目标检测解决方案〜（在文章末尾查看项目地址）

　　9种类型，对AR非常友好

　　目前，此数据集包含3D对象样品，包括自行车，书籍，瓶子，相机，燕麦片，椅子，椅子，杯子，笔记本电脑和鞋子。

　　当然，此数据集不仅是对象拍摄的一些视频和图像，还具有以下特征：

　　注意AR数据的标签（3D目标立体边界框）数据（相机位置，稀疏点云，两个维表面）数据预处理（图像格式为tf。数据加载和可视化Tensorflow，Pytorch和Jax的可视化。它包含“ Hello World”示例支持Apache Beam，用于处理Google Cloud Infrastructure上数据集中可用的所有索引。包括培训/测试零件，易于下载

　　图像部分的样式基本上是这种情况，也标有非常详细的标记：

　　在视频中，不仅从所有角度（从左至右，从下到顶部）获取的剪辑：

　　还有不同数量的视频类型（一个目标，或两个以上的目标）：

　　Google希望通过此数据集，研究行业可以进一步突破3D目标理解的领域，以及在无监督学习方向上的研究应用程序。

　　如何使用？ Google“与身体一起示范”

　　我不知道在数据集的第一刻是否易于使用，而且我总是觉得无法启动？

　　不用担心，Google已为我们尝试了此数据集的培训效果。

　　看起来还不错：

　　此外，Google还提供了培训3D目标检测模型。（请参阅文本的结尾）

　　该算法主要包括两个部分。第一部分是TensorFlow的2D目标检测模型，用于“发现对象的位置”；

　　第二部分被剪裁以估计3D对象的边界框架（同时，计算下一个帧的2D切割，因此您无需运行每个帧）。总体结构如下：

　　在模型评估方面，Google使用Sutherland-Hodgman多边形切割算法来计算两个三维边界框架的相交，并计算两个立方体的交点，最后计算3D目标检测模型的IOU。

　　简而言之，两个立方重量的重叠越大，3D目标检测模型越好。

　　该模型是Google启动的MediaPipe的一部分，后者是开源交叉平台框架，用于构建PIPLINE来处理不同形式的感知数据。

　　它启动了MediaPipe Oojectron Real -Time 3D目标检测模型，可以使用移动设备（手机）实时检测。

　　看，（他们在玩得多么开朗）真实目标检测的效果还不错：

　　其他零件3D数据集

　　除了Google启动的数据集外，Visual 3D目标领域中还有许多类型的不同类型的数据集，并且每个数据集都有其自身的特征。

　　例如，斯坦福大学提出的ScannETV2是室内场景数据集，Scannet是RGB-D视频数据集。有21个目标类别。共有1,513个集合方案可用于语义分割和目标检测任务。

　　自动驾驶领域中非常流行的Kitti数据集也是3D数据集。目前，它是当前最大的自动驾驶场景中最大的计算机视觉算法评估数据集，包括城市，农村和公路以及其他方案收集的真实图像数据。本质

　　此外，还有数据集，例如Waymo，Semantickitti，H3D和其他数据集，它们也用于不同的情况。（例如，Semantickitti通常由专门用于自动驾驶的3D语义分开）

　　无论是视频还是图像，这些数据集的单个示例基本上都包含多个目标，并且使用方案也与Google的Objectron不同。

　　报告/反馈

主页 > 新闻中心 > 公司动态 >

Google AI的最新3D数据集，15,000张移动图片，400万张图像，让AR统治您的生