预计阅读时间:5min
阅读建议:本篇为网址推荐类文章,建议收藏,业余时间慢慢品尝。
解决痛点:要提升数据分析及挖掘能力,需在工作中不断探索,但如果工作中没有涉及,要怎么办呢?利用公开数据集,在业余时间实操方法论及模型,是比较好的方式。而公开数据哪里找呢?这些网址也许你用的到!
00
序言
小火龙为大家总结了10个常用的公开数据集,涵盖三大方向,包括:国家官方统计数据、第三方机构统计数据、数据科学竞赛数据。
01
国家官方统计数据
网站1:国家统计局「常用指数:3星」
http://www.stats.gov.cn/tjsj/
主要涵盖国家宏观经济、社会、民生等重要数据。
网站2:中国互联网信息中心 CNNIC「常用指数:3星」
http://www.cnnic.cn/
主要涵盖中国互联网发展相关数据,相比第三方平台,权威性更强。
02
第三方机构统计数据
网站3:百度指数「常用指数:5星」
https://index.baidu.com/v2/index.html#/
基于百度的用户行为数据,覆盖面较广,支持以API形式调取,可用于分析行业热度等。
网站4:艾瑞数据 「常用指数:4星」
https://data.iresearch.com.cn/home.shtml
网站除了定期发布互联网报告外,还涵盖了互联网细分行业数据,可作为百度指数的补充。
网站5:互联网数据资讯网 199IT 「常用指数:4星」
http://www.199it.com/
除了涵盖互联网相关报告外,还拥有「大数据导航」,可以查询热门方向的趋势数据。
网站6:搜数网 「常用指数:3星」
http://www.soshoo.com/index.do
行业分布比较广,可作为国家统计局数据的补充。
网站7:数据堂 「常用指数:3星」
http://www.datatang.com/
主要涵盖人工智能的训练数据,对于正在学习算法的同学,可以重点关注一下。
03
数据科学竞赛数据
网站8:Kaggle 「常用指数:5星」
https://www.kaggle.com/
Kaggle是2010年创立的数据挖掘线上竞赛平台。作为数据挖掘爱好者的聚集地,不光可以通过竞赛提升算法及代码能力,运气好的话还可以获得奖金。除此之外,网站上还有很多开源数据,可用于日常模型训练,例如:大家耳熟能详的“泰坦尼克号生存预测数据”等。
网站9:阿里天池「常用指数:5星」
同Kaggle类似,背靠阿里的大数据竞赛平台,也是国内算法大佬的聚集地,开源数据可直接下载应用。
网站10:DataCastle 「常用指数:5星」
https://www.datacastle.cn/index.html