manbetx登陆..ai数据集

在机器学习和深度学习中,没有数据我们什么都做不了。因此,那些为我们创建数据集以训练模型的人是(经常被低估)英雄。一些最有用和最重要的数据集是那些变得重要的数据集。”学术基线;也就是说,研究人员广泛研究并用于比较算法变化的数据集。其中一些成为家喻户晓的名字(至少,在训练模特的家庭中!)如MNIST,,CIVAR 10,和图像网.

在..manbetx登陆ai,我们(和我们的学生)感激那些为研究团体提供数据集的善良的人们。我们与AWS合作,试图回报一点:我们在一个地方提供了这些数据集中最重要的部分,使用标准格式,基于可靠和快速的基础设施(参见下面的完整列表和链接)。如果在研究中使用这些数据集中的任何一个,请引用原文作为答复(我们为每篇论文提供了适当的引用链接),如果你把它们作为商业或教育项目的一部分,考虑添加感谢说明和数据集的链接。

我们在教学中使用这些数据集,因为它们提供了学生可能遇到的数据类型的很好的例子,并且学术文献中有许多使用这些数据集的模型结果的例子,学生可以比较他们的工作。此外,我们还使用来自摇摆比赛,因为Kaggle上的公共排行榜允许学生与世界上最好的模型作比较(这里没有列出Kaggle数据集)。

对于下面的每个数据集,单击“源”链接以查看来自创建者的数据集许可证和细节,论文的引文链接,以及访问数据集的“下载”链接开放数据集.

图像分类

来源 引用 下载 描述
MNIST LeCun等人1998年A 下载 经典的小(28x28)手写灰度数字数据集,20世纪90年代为测试当今最复杂的模型而开发的;今天,常用作基本用语你好,世界用于引入深度学习。这个..amanbetx登陆i数据集版本使用标准的PNG格式,而不是原来的特殊二进制格式,因此,您可以在大多数库中使用常规数据流水线;如果希望只使用与原始输入通道相同的单个输入通道,只需从通道轴中选择一个片即可。
CIFAR10 克里泽夫斯基,二千零九 下载 6000032x32彩色图像,分10类,每班6000张图像(50000张训练图像和10000张测试图像)。现在非常广泛地用于测试新算法的性能。这个..amanbetx登陆i数据集版本使用标准的PNG格式,而不是原版平台特定的二进制格式,因此,您可以在大多数库中使用常规数据流水线。
CIFAR100 克里泽夫斯基,二千零九 下载 这个数据集就像CIFAR-10,但是它有100个类,每个类包含600幅图像。每堂课有500张训练图像和100张测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有“罚款”标签(它所属的类)和粗的label(它所属的超类)。
加州理工学院-UCSD鸟类-200-2011 林等人。二千零一十五 下载 一个包含200种鸟类(主要是北美)的照片的图像数据集;它也可以用于本地化。类别数量:200;图像数量:11,788;每个图像的注释:15个部件位置,312二进制属性,1包围盒
加州理工大学101 L.菲菲等二千零四 下载 属于101个类别的物体的图片。manbetx官网手机登录每个类别大约有40至800幅图像。大多数类别有大约50幅图像。manbetx官网手机登录每个图像的大小大约为300×200像素。也可以用于本地化。
牛津IIIT宠物 OMParkhi等人二千零一十二 下载 一个37个类别的宠物数据集,每个类别大约有200个图像。这些图像的比例变化很大,姿势和灯光。也可以用于本地化。
牛津102花 NilsbackM E齐塞尔曼,A.二千零八 下载 由102个花类组成的102个类别数据集,常见于英国。每个类由40到258幅图像组成。图像具有大尺度,姿势和光线的变化。
食品101 博萨德Lukas等人二千零一十四 下载 101种食品,101,000幅图像;每班250张测试图像和750张训练图像。训练图像未被清理。所有图像被重新缩放为具有最大边长512像素。
斯坦福汽车 乔纳森·克劳斯等人二千零一十三 下载 16,185张196类汽车的照片。数据分成8,144张训练图像和8张,041测试图像,其中每个类被大致分成50-50个类。类通常位于Make级别,模型,年。

自然语言处理

来源 引用 下载 描述
大型电影评论数据集 安得烈LMaas等人二千零一十一 下载 用于二进制情感分类的数据集,包含25,000个用于培训的高度极化的电影评论,25,000用于测试。还有其他未标记的数据供使用。
Wikitext-103 Stephen Merity等二千零一十六 下载 从维基百科上经过验证的Good和特色文章集中提取了1亿多个令牌。广泛用于语言建模,包括fa.库中使用的预训练模型和ULMFiT算法。
WikEXTE-2 Stephen Merity等二千零一十六 下载 Wikitext-103的子集;对测试较小数据集上的语言模型训练很有用。
WMT 2015法语/英语平行文本 Callison-Burch等人二千零九 下载 用于训练翻译模型的法语/英语平行文本。超过2000万句法语和英语句子。由Chris Callison-Burch创建的数据集,他爬过数百万的网页,然后使用一组简单的启发式方法将法语URL转换为英语URL,并且假设这些文档是彼此的翻译。
AG新闻 张翔等二千零一十五 下载 496,来自AG新闻语料库中4个最大类的>2000个新闻源的835篇分类新闻文章,仅使用标题和描述字段。每个班的训练样本数为30,000和测试1900。
亚马逊评论-全部 张翔等二千零一十五 下载 34,686,770亚马逊评论,来自6,643,669个用户,441,053产品,来自斯坦福网络分析项目(SNAP)。这个完整的数据集包含600,000个训练样本和130,每个类中有000个测试样本。
亚马逊评论-极性 张翔等二千零一十五 下载 34,686,770亚马逊评论,来自6,643,669个用户,441,053产品,来自斯坦福网络分析项目(SNAP)。这个子集包含1,800,000个训练样本和200,在每个极性情绪中测试1000个样本。
DBPedia本体 张翔等二千零一十五 下载 40,000个训练样本和5,来自DBpedia 2014的14个非重叠类的000个测试样本。
搜狗新闻 张翔等二千零一十五 下载 2,909,来自搜狗CA和搜狗CS新闻语料库的551篇新闻文章,分5类。为每个班选择的训练样本数量是90,000和测试12,000。注意,汉字已经转换为拼音。
雅虎!答案 张翔等二千零一十五 下载 雅虎十大主要类别!回答综合问题和回答1.0版数据集。每个类包含140,000个训练样本和5,000个测试样本。
Yelp评论-全部 张翔等二千零一十五 下载 1,569,来自Yelp Dataset Challenge 2015的264个样本。这个完整的数据集有130,000个训练样本和10,每颗星上都有000个测试样本。
Yelp评论-极性 张翔等二千零一十五 下载 1,569,来自Yelp Dataset Challenge 2015的264个样本。这个子集有280,000个训练样本和19,每个极性都有000个测试样本。

图像定位

来源 引用 下载 描述
Camvid:基于运动的分割和识别数据集 Brostow等人二千零八 下载 具有700多个图像的每像素语义分割的分割数据集,每个都由第二人检查并确认其准确性。
PASCAL可视对象类(VOC) 埃弗林厄姆,M等,二千零一十 下载 用于对象类识别的标准化图像数据集——这里提供了2007和2012版本。2012版有20门课。火车/火车时刻数据是11,530幅图像,包含27,450 ROI注释对象和6,929节段。

椰子

当前最广泛使用的对象本地化数据集可能是COCO:上下文中的常见对象.这里提供了2017版本的所有文件,附加的子集由..ai创建的数据集。manbetx登陆每个COCO数据集的详细信息可从COCO数据集页.ai子集manbetx登陆包含包含五个选定类别之一的所有图像,限制对象只限于这五个类别;分类是:椅子沙发电视遥控书瓶。