公开数据集
作者:扫地僧
从数据中学习,首先需要有数据。
我们在学习机器学习或者数据挖掘方法的时候,想应用各种算法,我们首先的需要有数据,因为有了数据,我们才好做数据准备、数据预处理、数据分析和数据建模等工作。
本文分享一些公开数据集,我们可以在这些数据集上开展各种学习算法的工作。
1 R语言自带数据集
运行如下命令
library(help = "datasets")
部分结果如下;
对于具体数据集的理解,可以查看相应帮助文档。
命令如下
help(Titanic)
帮助文档页面,部分内容如下:
这个数据集在Kaggle竞赛平台上面是一个典型的数据集。
另外,R语言的扩展包里面也会有一些自带的数据集可以使用,前提是要先安装和加载这个R包
2 Kaggle竞赛平台上面的数据集
Kaggle竞赛平台网址:https://www.kaggle.com/
注册好后,就可以进入查看各种数据竞赛所提供的数据集,包括训练数据集和测试数据集,都是标准的csv格式。
例如,Titanic的竞赛项目数据如下:
3 UCI机器学习库数据集
UCI机器学习库数据集网址:http://archive.ics.uci.edu/ml/index.html
下载次数最多的数据集
有了这些公开的数据集,我们就可以研究学习算法和应用学习算法了。在实际的工作过程中,我们就是把这些公开的数据集换成具体业务问题所对应的数据,这是我们需要做业务理解和数据理解工作,后续的过程与基于公开数据集所做的工作流程和方法论一样。
大家有什么想法或者建议,请留言。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,分享和传播数据知识干货!
我们都是数据人,数据是有价值的,坚定不移地利用数据价值创造价值!
点击【阅读原文】,进入【数据人网】
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!