你总说没有经历没人要?这24个全网公认最有价值的开源数据项目你做了么?

你总说没有经历没人要?这24个全网公认最有价值的开源数据项目你做了么?

你可能曾经做过很多数据相关的事情,但是如果你做的事情不容易给大家展示和解释,HR要怎么才知道你也是有两把刷子的呢?这就是我们今天介绍的project能帮到你的地方了。我们保证这些project的含金量,你保证你会花足够的时间在这上面,那你就一定会有十足的收获。

而且,我们为你挑选出的这些project横跨各个领域,无论你喜欢哪些领域,你都可以找到你喜欢的话题;每个合格的数据人都应该有处理大型数据集的经历,所以,这里面也有一些大型数据集供你选择。最重要的是,零成本,免费!

由难到易

为了让你知道应该从何下手,我们把这些数据集按照难易级别分成了三个等级

一、入门

这个级别的数据集处理起来往往相对简单,用分类或者回归的算法就可以解决,不需要什么复杂的技术。而且,这个数据集都有公开的教程教你如何去做,不至于让你一上来两眼一抹黑就开始闭门造车。

二、进阶

这个级别的数据集相对于初级数据集来说就相对复杂一些,数据集也更大,需要一些模式识别的能力。而且,一个优秀的特征工程往往会带来比较好的分析结果。所有的你能想到的机器学习方法,从简单到复杂,都可以使用。

三、 高级

这个级别的数据集更适合那些理解神经网络、深度学习或者推荐系统等热门话题的人。这些数据集往往有很多feature,是一个适合你大展身手的地方。

入门

1. Iris Data Set

可能没有比这更适合初学者入门分类问题的数据集了,它只有150行4列。如果你是一个小白,这个数据集你不能错过。

问题:预测花的种类

数据:https://archive.ics.uci.edu/ml/datasets/Iris

教程:https://www.slideshare.net/thoi_gian/iris-data-analysis-with-r 

2. Loan Prediction Dataset

在众多行业中,保险业是其中一个很依赖数据分析的行业。这个数据集就来源于保险公司的真实数据—面临的问题,使用的策略以及哪些变量会影响分析的结果。这也是一个分类问题,一共有615行13列。

问题:预测一个贷款是否会被批准

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

3. Bigmart Sales Data Set

零售业也是一个需要通过分析来优化商业过程的行业,像广告植入,库存管理,产品定制,产品捆绑等都需要通过数据相关的技术来处理。这个数据集包含了一个商店的销售记录,这是一个回归问题,包含8523行12列。

问题:预测该商店接下来的销售情况

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/

教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/

4. Boston Housing Dataset

这个数据集来源于波士顿的真实房价,是一个回归问题。它只有506行14列,是一个相对小的数据集,你可以任意尝试你想尝试的数据集,无需担心内存不够的问题。

问题:预测未来房价的中位数

数据:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/

5. Time Series Analysis Dataset

时间序列是数据科学中的常用技术,它在工业界中有广泛的应用—天气预报,销量预测,趋势预测等等。这个数据集就是专门针对时间序列预测的。

问题:预测未来的交通状况

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/

教程:https://courses.analyticsvidhya.com/courses/creating-time-series-forecast-using-python

6. Wine Quality Dataset

这是一个非常受数据科学的新拥趸欢迎的数据集。它被分成了两部分,你既可以用它来做分类,也可以用它来做回归。它可以检测你对异常值,模型挑选以及不均衡数据的处理能力。它有4898行12列。

问题:预测葡萄酒质量

数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality

教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf

7. Turkiye Student Evaluation Dataset

这个数据集取自学生对很多课程的教学评估,它包含很多feature,比如出勤率,难易程度,给分高低等等,这是一个无监督学习的问题。这个数据集有5820行33列。

问题:使用分类和聚类的技术处理数据

数据:https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation

教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf

8. Heights and Weights Dataset

这是一个为初学者准备的关于回归问题的数据集,有25000行3列(索引,身高,体重)

问题:预测一个人的身高或者体重

数据:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html

进阶

1. Black Friday Dataset

这个数据集包含了一个零售商店的销售数据,它很适合磨炼特征工程的能力和提高对销售的理解。这是一个回归问题,数据集有550069行12列。

问题:预测购买量

数据:https://datahack.analyticsvidhya.com/contest/black-friday/

教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986/5

2. Human Activity Recognition Dataset

这个数据集有10299行561列,通过惯性传感器收集了人的若干体征,很多机器学习的课程都使用这个数据集作为教学工具。现在是你的回合了!

问题:预测人的活动类型

数据:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones

教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html

3. Text Mining Dataset

这个数据集来源于2007年的Siam Text Mining竞赛,它包含了一些航班的航行安全报告。这是一个高维多分类问题,有21519行30438列。

问题:根据标签进行文档分类

数据:https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007

教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf

4. Trip History Dataset

这个数据集来源于美国的一个自行车共享服务,它适合磨炼你的数据清洗能力。这个数据集将数据分成了4份,每份数据都有7个feature,是一个分类问题。

问题:预测用户等级

数据:https://www.capitalbikeshare.com/system-data

教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/

5. Million Song Dataset

数据科学也可以用在娱乐行业,没想到吧。这是一个回归问题的数据集,由歌曲和它们的诸多特征组成,它有515345行90列。

问题:预测歌曲的发行年份

数据:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD

教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf

6. Census Income Dataset

这是一个不均衡分类的机器学习问题,有48842行14列。现如今,机器学习被广泛应用到不均衡问题的解决上,比如癌症检测,欺诈检测等,所以你也要对此有所涉猎鸭!

问题:预测美国人的收入水平

数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/

教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf

7. Movie Lens Dataset

你想自己写一个推荐系统么?这里有一个机会。这个数据集也是非常受欢迎的数据集之一,它包含了6000个用户对4000部电影的一百万条评价。

问题:给用户推荐新电影

数据:https://grouplens.org/datasets/movielens/1m/

教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/

8. Twitter Classification Dataset

做情感分析,少不了要对Twitter的数据进行分析。如果你想在NLP这个领域分一杯羹,你一定非常乐意挑战一下这个数据集。

问题:分辨Twitter用户的情感极性

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

教程:https://github.com/abdulfatir/twitter-sentiment-analysis

高级

1. Identify your Digits Dataset

这个数据集包含了很多有数字的图片,你可以通过它来学习图像识别的技术和原理。这和人脸识别的原理一样一样的!分析这个有7000张图片的数据集,你就会掌握这些技术。

问题:识别图片中的数字

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/

2. Urban Sound Classification

当你开始你的机器学习之旅的时候,通常会先处理一些像泰坦尼克这种简单的数据集,但是你仍然没有处理过现实生活中的问题。那么,这个数据集就带你来处理一个现实生活中音频分类的问题,它包含了10类8732段音频。

问题:分辨音频的种类

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

3. Vox Celebrity Dataset

音频处理现在已经是深度学习中的一个非常重要的领域,这个数据集恰好就隶属这个领域。它是从YouTube上提取出来的,包含很多名人说话的音频。而你的任务,就是进行语音识别,分辨出每个片段是谁的声音。这个数据集包含了1251位名人的100000个说话片段。

问题:分辨每个片段是谁的声音

数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf

4. ImageNet Dataset

ImageNet 提供了很多关于目标检测、目标定位和目标分类的问题,所有的图像数据都是免费的。你可以选择任何你喜欢的图像,基于这些做出属于你自己的project。它有高达140GB的图像数据等你来翻牌子哦。

问题:分辨图像类型

数据:http://image-net.org/download-imageurls

教程:http://image-net.org/download-imageurls

5. Chicago Crime Dataset

在如今这个算力充足的时代,公司不再喜欢用小样本来分析处理数据,处理大型数据集的能力就显得越来越重要。这个多分类数据集不是很难处理,数据的管理是关键!

问题:预测犯罪类型

数据:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2

教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf

6. Age Detection of Indian Actors Dataset

检测人的年龄,这对深度学习的爱好者来说是一个非常有意思的挑战。这个数据集提供了很多印度演员的照片,而你的任务是来分辨他们的年龄。每个图像都是人工挑选的,有各种比例、姿势、年龄、妆容和分辨率。训练集中有19906个样本,测试集中有6636个样本。

问题:预测演员的年龄

数据:http://image-net.org/download-imageurls

教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

7. Recommendation Engine Dataset

这是一个高阶的推荐系统问题。在这个问题中,它提供了程序员曾经解决的问题和他们在该问题上所花的时间。而你的任务,就是为用户推荐适合他的下一个问题。

问题:根据用户目前解决编程问题的水平,为用户推荐合适的问题。

数据:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/

8. VisualQA Dataset

VisualQA是一个包含很多开放性问题的图像数据集,这些问题要求你对计算机视觉有一定理解。这个数据集有265016个图像,每个图像配了3个问题。

问题:通过深度学习解决关于图像的开放性问题。

数据:https://visualqa.org/

教程:https://arxiv.org/abs/1708.02711

正如你所看到的,资源很多,但是你只需要选择适合你自己的,适合自己的才是最好的。如果你还是个小白,就不要选择那些高难度的数据集,不要想着一口吃个胖子,一步一个脚印就好。

当你完成了两到三个project,记得把它们体现在你的简历、LinkedIn或者GitHub上,这非常重要!很多HR招聘的时候都会通过LinkedIn或者GitHub来筛人。

原文作者:ANALYTICS VIDHYA CONTENT TEAM

翻译作者:唐唐

美工编辑:过儿

校对审稿:卡里

原文链接:https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/