数据集仓库UCI Machine Learning Repository
Data Repositories – Mother’s Milk for Data Scientists
数据挖掘中的大数据集
根据「类别」,这个网站共分为18类,比如Humans、Geospatial、Autonomous Cars、Retail、3D等。
可以选择这些「限定」:任务类型,标签格式,最小图像数量。
其中任务类型主要包括,图像分割,目标检测、图像分类、姿态估计、视觉推理、3D重建、视频分类。
标签格式包括,YOLO、PASCAL、COCO以及Segmentation。
https://datasets.bifrost.ai/
https://tianchi.aliyun.com/dataset
电商
淘宝直播商品识别数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=75730
阿里巴巴用户行为数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81505
面向商品的视频描述生成数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=75986
电商服装产品视频标题数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=75173
速卖通搜索系统数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=74690
淘宝用户行为数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=72423
甜品店铺用户评分数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=4366
智能出行平台车辆订单数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=39384
脊椎疾病病理数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79463
医学影像和标题的语篇照应数据集MedICaT
https://tianchi.aliyun.com/dataset/dataDetail?dataId=86602
息肉医学影像数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=84385
中风后病灶解剖追踪数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82972
颅骨医学图像数据集用于监测颅内出血
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82967
皮肤病图像数据集用于诊断黑素瘤
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82823
COVID-19 mRNA疫苗数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82790
OSIC肺部CT扫描影像数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82703
自然神经影像数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82631
医学影像数据集MedMNIST
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82187
生物医学实体标准化数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81720
生物医学概念标准化数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81565
社交媒体医学实体链接语料数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81554
PubMedQA生物医学研究问答数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81523
中文BLUE数据集(生物医学文本挖掘语料库)
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81513
中文医学知识图谱数据集CMeKG
https://tianchi.aliyun.com/dataset/dataDetail?dataId=81506
医学对话数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79671
中文医学问答数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79670
平安医学技术疾病问答迁移学习数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79665
临床术语标准化数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79664
医学实体识别和属性抽取EMR数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79663
疫情相似句对诊断数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=76751
2019-nCoV新型冠状病毒基因测序数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=51202
2020新冠肺炎全国各省数据
https://tianchi.aliyun.com/dataset/dataDetail?dataId=78902
IT通讯
阿里巴巴快递送达检测系统Beacon数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=76359
大型硬盘故障预测数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=70251
交通
自然语言处理
语义分割数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82714
谷歌MC4数据集(可翻译101种语言)
https://tianchi.aliyun.com/dataset/dataDetail?dataId=82412
工业
农业
科学
计算机视觉
家装
公共
娱乐
金融
https://ai.tencent.com/ailab/nlp/en/data/Tencent_AILab_ChineseEmbedding.tar.gz
MINST数据库是由Yann提供的手写数字数据库文件,其官方下载地址http://yann.lecun.com/exdb/mnist/
上海交大开源医疗版MNIST数据集
项目地址:https://medmnist.github.io/
论文地址:https://arxiv.org/pdf/2010.14925v1.pdf
GitHub 地址:https://github.com/MedMNIST/MedMNIST
数据集下载地址:https://www.dropbox.com/sh/upxrsyb5v8jxbso/AADOV0_6pC9Tb3cIACro1uUPa?dl=0
共包含 10 个预处理开放医疗图像数据集(其数据来自多个不同的数据源,并经过预处理)。
和 MNIST 数据集一样,MedMNIST 数据集在轻量级 28 × 28 图像上执行分类任务,所含任务覆盖主要的医疗图像模态和多样化的数据规模。根据研究人员的设计,MedMNIST 数据集具备以下特性:
受 Medical Segmentation Decathlon(医学分割十项全能)的启发,该研究也设计了 MedMNIST Classification Decathlon(MedMNIST 分类十项全能),作为 AutoML 在医疗图像分类领域的基准。
如果你想直接通过Scikit-learn访问更多的公共可用数据集,请了解,有一个方便的函数datasets.fetch_openml,可以让您直接从openml.org网站获取数据。
这个网站包含超过21000个不同的数据集,可以用于机器学习项目。
https://www.openml.org/
https://archive.ics.uci.edu/ml/datasets.php
http://ai.stanford.edu/~jkrause/cars/car_dataset.html
code: https://github.com/foamliu/Car-Recognition
Glint360K数据集包含36万类别的1800万张图像,不论是类别数还是图像数,相比MS1MV2数据集都有大幅提升。
论文地址:https://arxiv.org/pdf/2010.05222.pdf
代码地址:https://github.com/deepinsight/insightface/tree/master/recognition/partial_fc
http://www.nist.gov/itl/iad/ig/colorferet.cfm
由 FERET 项目创建,此图像集包含大量的人脸图像,并且每幅图中均只有一个人脸。该集中,同一个人的照片有不同表情、光照、姿态和年龄的变化。
包含 1 万多张多姿态和光 照的人脸图像,是人脸识别领域应用最广泛的人脸数据库之一。其中的多数人是西方人,每 个人所包含的人脸图像的变化比较单一。
http://www.flintbox.com/public/project/4742/
由美国卡耐基梅隆大学建立。所谓“PIE”就是姿态(Pose),光照(Illumination)和表 情(Expression)的缩写。
CMU Multi-PIE 人脸数据库是在 CMU-PIE 人脸数据库的基础上发展起来的。包含 337 位志愿者的 75000 多张多姿态,光照和表情的面部图像。
其中的姿态和光照变化图像也是在严格控制的条件下采集的,目前已经逐渐成为人脸识别领域的一个重要 的测试集合。
http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
由耶鲁大学计算视觉与控制中心创建,包含 15 位志愿者的 165 张图片,包含光照、表情和姿态的变化。
Yale 人脸数据库中一个采集志愿者的 10 张样本,相比较 ORL 人脸数据库 Yale 库中每 个对象采集的样本包含更明显的光照、表情和姿态以及遮挡变化。
https://computervisiononline.com/dataset/1105138686
包含了 10 个人的 5850 幅在 9 种姿态,64 种光照条件下的图像。
其中的姿态和光照变 化的图像都是在严格控制的条件下采集的,主要用于光照和姿态问题的建模与分析。由于采集人数较少,该数据库的进一步应用受到了比较大的限制。
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
由英国剑桥大学 AT&T 实验室创建,包含 40 人共 400 张面部图像,部分志愿者的图像 包括了姿态,表情和面部饰物的变化。
该人脸库在人脸识别研究的早期经常被人们采用,但由于变化模式较少,多数系统的识别率均可以达到 90%以上,因此进一步利用的价值已经不大。
ORL人脸数据库中一个采集对象的全部样本库中每个采集对象包含 10 幅经过归一化处理的灰度图像,图像尺寸均为 92×112,图像背景为黑色。
其中采集对象的面部表情和细节 均有变化,例如笑与不笑、眼睛睁着或闭着以及戴或不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平面旋转可达 20 度。
包含在各种光照和复杂背景下的 1521 张灰度面部图像,眼睛位置已经被手工标注。
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含 524230 张从 IMDB 和 Wikipedia 爬取的名人数据图片。
应用了一个新颖的化回归 为分类的年龄算法。本质就是在0-100之间的 101 类分类后,对于得到的分数和 0-100 相乘,并将最终结果求和,得到最终识别的年龄。
http://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/
发布于2007年,这是一个灰度人脸数据集,使用Google图片搜索引擎用关键词爬取所得,包含了7092张图,10524个人脸,平均分辨率在304×312。除此之外还提供双眼鼻子,和嘴巴共4个坐标位置,在早期被较多地使用,现在的方法已经很少用灰度数据集做评测。
http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/
发布于2015年,FDDB评测标准由于只有几千张图像,这样的数据集在人脸的姿态、尺度、表情、遮挡和背景等多样性上非常有限,训练出来的模型难以被很好的评判,算法很快就达到饱和。在这样的背景下香港中文大学提出了Wider-face数据集,在很长一段时间里,大型互联网公司和科研机构都在Wider-face上做人脸检测算法竞赛。
Wider-face总共有32203张图片,共有393703张人脸,比FDDB数据集大10倍,而且在面部的尺寸、姿势、遮挡、表情、妆容、光照上都有很大的变化,算法不仅标注了框,还提供了遮挡和姿态的信息,自发布后广泛应用于评估性能比传统方法更强大的卷积神经网络。
Wider-face中的图像分辨率较高,所有图像的宽都缩放到1024像素,最小标注的人脸大小为10×10,平均一张图超过10个人脸,密集小人脸非常多。训练集,验证集,测试集分别占40%,10%,50%,测试集非常大,结果可靠性高。
根据EdgeBox方法的检测率Wider-face评测被划分为三个难度等级:Easy, Medium, Hard,可以在各个任务维度上进行评测,比如Hard等级非常适合评测小脸检测框架。
http://www.cbsr.ia.ac.cn/faceevaluation
MALF(Multi-Attribute Labelled Faces)发布于2015年,是为了更加细粒度地评估野外环境中人脸检测模型而设计的数据库。数据主要来源于Internet,包含5250个图像、11931个人脸。每一幅图像包含正方形边界框,头部姿态的俯仰程度,包括小中大三个等级的标注。该数据集忽略了小于20×20或者非常难以检测的人脸,共包含大约838个人脸,占该数据集的7%。同时该数据集还提供了性别,是否带眼镜、是否遮挡、是否是夸张的表情等辅助信息。
http://www.escience.cn/people/geshiming/mafa.html
发布于2017年,这是一个遮挡人脸检测数据集,总共包含30811张图、35806张被遮挡的人脸,包含各种方向和尺度的遮挡。
它们首先将人脸分为4个区域,分为眼睛、鼻子、嘴巴、下颌,根据遮挡区域数量将遮挡程度分为三档。weak occlusion对应一到两个区域的遮挡,medium occlusion对应3个区域的遮挡,heavy occlusion对应4个区域的遮挡。
人脸方向包含5个,left、front、right、left-front及right-front。遮挡类型分为4个,即人造的纯色遮挡物、人造的复杂纹理遮挡物、手/头发等身体造成的自遮挡以及复杂类型。
https://ufdd.info/
发布于2018年,这是一个非限制场景下的人脸检测数据集,总共包含6425张图、10897张人脸,包含雨天(Rain)、雪天(Snow)、雾天(Haze)、模糊(Blur)、光照(Illumination)、晶体障碍(Lens impediments)和干扰物(Distractors)等7个场景。
除此之外,还有一些比较特殊的,比如鱼眼人脸检测数据集,由于比较小众,就不再集中介绍。总的来说,人脸检测数据集的发展历史,就是不断向真实复杂场景靠近。
http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html
发布于2014年,这里包含了两个数据集。
Multi-Task Facial Landmark(MTFL)数据集包含了12995张脸,5个关键点标注,另外也提供了性别、是否微笑、是否佩戴眼镜以及头部姿态的信息。
http://www.kasrl.org/jaffe.html
1998年发布,这是比较小和老的数据库。该数据库是由10位日本女性在实验环境下根据指示做出各种表情,再由照相机拍摄获取的人脸表情图像。整个数据库一共有213张图像,10个人,全部都是女性,每个人做出7种表情,这7种表情分别是sad、happy、angry、disgust、surprise、fear、neutral,每组大概20张样图。
https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data
发布于2013年,该数据集包含共26190张48×48灰度图,图片的分辨率比较低,共6种表情。分别为anger生气、disgust厌恶、fear恐惧、happy开心、sad伤心、surprised惊讶、normal中性。
http://cbcsl.ece.ohio-state.edu/EmotionNetChallenge/
发布于2017年,共950,000张图,其中包含基本表情、复合表情,以及表情单元的标注。
https://www.openu.ac.il/home/hassner/Adience/data.html#frontalized
发布于2014年,这是采用iPhone5或更新的智能手机拍摄的数据,共2284个人26580张图像。它的标注采用的是年龄段的形式而不是具体的年龄,其中年龄段为(0-2、4-6、8-13、15-20、25-32、38-43、48-53、60+)。
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
发布于2015年,IMDB-WIKI人脸数据库是由IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460723张人脸图片,而Wikipedia人脸数据库包含了62328张人脸数据库,总共523051张人脸数据。都是从IMDb和维基百科上爬取的名人图片,根据照片拍摄时间戳和出生日期计算得到的年龄信息,以及性别信息,对于年龄识别和性别识别的研究有着重要的意义,这是目前年龄和性别识别最大的数据集。
https://github.com/HCIILAB/SCUT-FBP5500-Database-Release
发布于2017年,数据集共5500个正面人脸,年龄分布为15-60,全部都是自然表情。包含不同的性别分布和种族分布(2000亚洲女性、2000亚洲男性、750高加索男性、750高加索女性),数据分别来自于数据堂,US Adult database等。每一张图由60个人进行评分,共评为5个等级,这60个人的年龄分布为18~27岁,均为年轻人。适用于基于表观和形状等的模型研究。同时,每一个图都提供了86个关键点的标注。
https://github.com/ChaofWang/Awesome-Super-Resolution#datasets
该项目主要包含以下内容: