深度学习强烈依赖数据集和算力。google的逆天对抗网络非我等凡人能搞定。寻找合适数据集的工作贯穿学习和工作的始终,总结如下。如有朋友不小心误入,欢迎加微信探讨,现服务于 opera 欧朋 :endpang
机构:
加州大学尔湾分校:http://archive.ics.uci.edu/ml/
Kaggle datasets : http://www.kaggle.com/datasets
Aws datasets : http://aws.amazon.com/fr/datasets/
列表:
用过的数据集:
- youtube-8m : https://research.google.com/youtube8m/
- 有1.7T 大小,有aisa 服务器,下载的时候,百兆带宽可以 10m 跑满。脚本可以断点续传。
- 训练脚本地址 https://github.com/google/youtube-8m
- Mnist 经典手写数字数据集,自娱自乐专用:
- CIFAR 10 & CIFAR 100 自娱自乐二号,练习专用:
- ImageNet 感谢李飞飞教授,图片数据库经典:
- COCO数据库,微软出品,图像分割、物体检测用的这个,还行:
- Google标注图片数据集发布最新V3版:包含对600多对象类别的450万标记框
- https://github.com/openimages/dataset
其它参考:
- wiki:
- 知乎的相关帖子:
- https://www.zhihu.com/question/53655758
- Opera 欧朋 CTO(罗志宇)的知乎推荐
- Quora.com question:
- Datasets subreddit:
- 一个推荐列表