热门的计算机视觉方向数据集十大合集

demi 在周五, 07/26/2024 - 17:54 提交

1、SA-1B(segment anything)

发布方： Meta AI Research

发布时间：2023-05-01

简介：分割任何10亿 (SA-1B) 是一个数据集，旨在训练来自开放世界图像的通用对象分割模型。

SA-1B 由 1100 万张多样化、高分辨率、隐私保护图像和使用我们的数据引擎收集的 1.1B 高质量分割掩码组成。它旨在用于我们的数据许可允许的计算机视觉研究。

这些图像是从一家大型图片公司获得许可的。1.1B 掩码是使用我们的数据引擎生成的，所有这些都是由 Segment Anything Model (SAM) 完全自动生成的。

下载地址：
https://ai.facebook.com/datasets/segment-anything/

论文地址：
https://arxiv.org/pdf/2304.02643.pdf

2、OmniObject3D

发布方：上海人工智能实验室

发布时间：2023-06-07

简介：

OmniObject3D是一个大词汇量的 3D 物体数据集，包含大量高质量真实扫描的 3D 物体，旨在促进现实世界中 3D 感知、重建和生成技术的发展。每个物体都通过 2D 和 3D 传感器捕获，提供纹理网格、点云、多视角渲染图像以及多个环绕实拍的视频。

下载地址：
https://omniobject3d.github.io/

论文地址：
https://arxiv.org/abs/2301.07525

3、LAION-5B

发布方：LAION

发布时间：2022-03-31

简介：

LAION 5B 是一个用于研究目的的大规模图文数据集。由58.5亿个CLIP过滤的图像-文本对组成，其中包含23.2亿的英语，22.6亿的样本来自100多种其他语言，及12.7亿的未知样本。此外，发布方提供了几个最近邻索引、用于探索和子集创建的改进Web界面以及水印和NSFW的检测分数。OpenDataLab 网站提供了处理好的parquet文件，研究者可以下载，根据这份元数据下载对应的图片文件。现在，我们也开源了LAION-5B图片下载代码，github开源地址如下：https://github.com/opendatalab/laion5b-downloader

下载地址：
https://laion.ai/blog/laion-5b/

论文地址：
https://openreview.net/pdf?id=M3Y74vmsMcY

4、RenderMe-360

发布方：上海人工智能实验室

发布时间：2023-05-24

简介：

RenFace是一个大规模多视角人脸高清视频数据集，包含多样的人脸表情、丰富的细粒度发型发色，同时也包含音素均衡的说话视频。可应用于：2D/3D数字人脸生成、人脸重建捕捉等领域。

亮点：

· 大规模数据（ID>500，视频帧>80M）

· 多样的表情（自然表情+11种夸张表情）

· 多样的发型发色 (自然发型/发色+各类假发+头套)

· 音素均衡的话术

· 多样的视角（60个）

· 高清的图像（2k）

· 丰富的标注 (前背景分割、相机参数、2D/3D人脸关键点、FLAME模型拟合系数、人头稠密重建、外观与显著特征、文本动作描述、AU)

下载地址：
https://renderme-360.github.io/; https://openxdlab.org.cn/home

5、Kinetics 400

发布方：DeepMind

发布时间：2017-05

简介：

Kinetics 数据集是用于视频中人体动作识别的大规模、高质量数据集。该数据集由大约 500,000 个视频片段组成，涵盖 600 个人类动作类别，每个动作类别至少有 600 个视频片段。每个视频剪辑持续约 10 秒，并标有单个动作类。这些视频是从 YouTube 收集的。

下载地址：
https://www.deepmind.com/open-source/kinetics

论文地址：
https://arxiv.org/pdf/1705.06950v1.pdf

6、MovieNet

发布方：Chinese University of Hong Kong

发布时间：2020-08-02

简介：

用于电影理解的整体数据集近年来，视觉理解取得了显着进展。然而，如何理解具有艺术风格的基于故事的长视频，例如电影，仍然具有挑战性。在本文中，我们介绍了 MovieNet——一个用于电影理解的整体数据集。MovieNet 包含 1,100 部电影，包含大量多模态数据，例如预告片、照片、情节描述等。此外，MovieNet 提供了不同方面的手动标注，包括 110 万个带有边界框和身份的字符、42K 场景边界、 2.5K 对齐的描述句子，65K 地点和动作标签，以及 92K 电影风格标签。据我们所知，MovieNet 是最大的数据集，具有最丰富的注释，可用于全面的电影理解。基于 MovieNet，我们设置了多个基准，用于从不同角度理解电影。在这些基准上进行了广泛的实验，以展示 MovieNet 的不可估量的价值以及当前方法在全面理解电影方面的差距。我们相信这样一个整体的数据集将促进基于故事的长视频理解及其他方面的研究。

下载地址：
https://movienet.github.io/

论文地址：
https://arxiv.org/pdf/2007.10937v1.pdf

7、ImageNet-22K

发布方：斯坦福大学·普林斯顿大学·北卡罗来纳大学教堂山分校·Facebook·Shopagon

发布时间：2015-01-01

简介：

ImageNet-21K数据集包含更多的图片和类，用于预训练的频率较低，这主要是由于其复杂性以及与标准ImageNet-1K预训练相比低估了其附加值。本文旨在缩小这一差距，并为每个人提供高质量的有效ImageNet-21K预培训。通过专用的预处理阶段，利用WordNet层次结构和称为语义softmax的新颖训练方案，我们展示了不同的模型，包括面向移动的小型模型，显著受益于对众多数据集和任务的ImageNet-21K预训练。我们还表明，对于ViT等著名的新模型，我们的表现优于以前的ImageNet-21K预训练方案。注意，ImageNet-21K数据集和ImageNet-22K是同一个数据集，由于理解上的差异，名称发生了变化

下载地址：
https://github.com/Alibaba-MIIL/ImageNet21K

论文地址：
https://arxiv.org/pdf/1409.0575.pdf

8、CVPR2023-3D-Occupancy

发布方：商汤科技·上海人工智能实验室·清华大学

发布时间：2023-03-01

简介：

世界上第一个用于自动驾驶场景感知的 3D 占用基准。了解包括背景材料和前景物体在内的 3D 环境对于自动驾驶非常重要。在传统的 3D 物体检测任务中，前景物体由 3D 边界框表示。但是物体的几何形状比较复杂，不能用简单的3D盒子来表示，并且缺乏对背景的感知。此任务的目标是预测场景的 3D 占用。在此任务中，我们提供了一个基于 nuScenes 数据集的大规模占用基准。基准是 3D 空间的体素化表示，并且在此任务中联合估计 3D 空间中体素的占用状态和语义。该任务的复杂性在于在给定环视图像的情况下对 3D 空间进行密集预测。给定来自多个摄像机的图像，目标是预测场景中每个体素网格的当前占用状态和语义。体素状态被预测为空闲或占用。如果体素被占用，则还需要预测其语义类别。此外，我们还为每一帧提供了一个二进制观察/未观察掩码。观察到的体素定义为当前相机观察中不可见的网格，在评估阶段将其忽略。

下载地址：
https://github.com/CVPR2023-3D-Occupancy-Prediction/CVPR2023-3D-Occupanc...

9、ILSVRC2012

发布方：斯坦福大学·普林斯顿大学

发布时间：2012

简介：

该竞赛的目标是使用大型手工标记的ImageNet数据集的子集 (10,000,000描述10,000对象类别的标记图像) 作为训练来估计用于检索和自动注释目的的照片的内容。测试图像将在没有初始注释的情况下显示-没有分割或标签-算法将必须生成标签，以指定图像中存在哪些对象。新的测试图像将被收集和标记，特别是针对本次比赛，并且不是先前发布的ImageNet数据集的一部分。总体目标是识别图像中存在的主要对象。今年，我们还有一个指定物体位置的检测任务。

下载地址：
https://image-net.org/challenges/LSVRC/2012/index.php

论文地址：
https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924...

本文转自：计算机科研Friends，转载此文目的在于传递更多信息，版权归原作者所有。如不支持转载，请联系小编demi@eetrend.com删除。

计算机视觉

斯坦福大学发布了“2021年人工智能指数报告”	高新波教授：人工智能未来发展趋势分析	到2033年，计算机视觉市场将达到260亿美元
一文看懂深度学习改变的五大计算机视觉技术	计算机视觉CV与机器视觉MV的区别	2025年值得关注的十大人工智能技术

热门的计算机视觉方向数据集十大合集

最新文章

最新文章