新的manbetx登陆研究数据集集合,在AWS Open Data上

在机器学习和深度学习中,没有数据我们就无能为力因此,为我们创建数据集以培训我们的模型的人是(通常不被重视的)英雄Some of the most useful and important datasets are those that become important “academic baselines”; that is, datasets that are widely studied by researchers and used to compare algorithmic changes其中一些成为家喻户晓的名字(至少在培训模特的家庭中),例如MNISTCIFAR 10,和Imagenet

我们都要感谢为研究界提供数据集的那些善良的人们所以manbetx登陆和AWS公共数据集计划我们联手试图回馈一下:我们在可靠和快速的基础设施上使用标准格式在一个地方提供了一些最重要的数据集有关完整列表和链接,请参阅manbetx登陆数据集页面

manbetx登陆使用这些数据集对编码员的深度学习课程,因为它们提供了学生可能遇到的数据类型的很好的例子,学术文献中有很多使用这些数据集的模型结果的例子,学生可以将他们的工作与If you use any of these datasets in your research, please show your gratitude by citing the original paper (we’ve provided the appropriate citation link below for each), and if you use them as part of a commercial or educational project, consider adding a note of thanks and a link to the dataset.

数据集示例:法语/英语并行语料库

获得manbetx登陆学生最“哇”反馈的课程之一就是我们学习的时候神经机器翻译当我们可以教一个模型从法语翻译成英语时,即使我们自己也不能说两种语言,这似乎很神奇!

But it’s not magic; the key is the wonderful dataset that we leverage in this lesson: the French/English parallel text corpus prepared back in 2009 byChris Callison-Burch教授宾夕法尼亚大学该数据集包含超过2000万个法语和英语句子对他以一种非常聪明的方式构建了数据集:通过抓取数百万个加拿大网页(通常是多语言的),然后使用一组简单的启发式方法将法语网址转换为英文网址数据集对于研究人员来说尤其重要,因为它被用于研究中最重要的年度比赛用于基准测试机器翻译模型。

Here’s some examples of the sentence pairs that our translation models can learn from:

它通常被认为是最古老的科学,它诞生于我们对天空的惊奇,我们需要质疑天文学是超越地球大气层的空间科学。 Souventonséeéecommonla plus ancienne des sciences,elledécouledenotreétonnementetde nos questionnements envers le ciel L'astronomie est la sciencequiétudiel'Universaau-delàdel'atmosphèreterrestre。
这个名字来源于希腊根天文星,以及安排或法律的名称。 Son nom vient du grec astron,qui veutdireétoileetnomos,qui veut dire loi。
天文学关注天体和现象 - 如恒星,行星,彗星和星系 - 以及宇宙的大规模属性,也被称为“大图”。 Elles'intéresseàdesobjets etdesphénomèneselsquelesétoiles,lesplanètes,lescomètes,les galaxies etlespropriétésdel'Universàgrandeéchelle。

So what’s Professor Callison-Burch doing now? When we reached out to him to check some details for his dataset, he told us he’s now preparing the University of Pennsylvania’s new AI course; and part of his preparation: watching the videos atcourse.manbetx登陆! It’s a small world indeed…

数据集集合

The following categories are currently included in the collection:

数据集全部存储在同一个数据集中TGZ格式和(适当时)内容已转换为标准格式,适合导入大多数机器学习和深度学习软件有关使用数据集构建实用深度学习模型的示例,请密切关注manbetx登陆博客即将发布许多教程的地方。