想提高数据科学技能?这10 个Kaggle 的数据集你一定要练!

想提高数据科学技能?这10 个Kaggle 的数据集你一定要练!

Kaggle 是一个网站,在这里,你可以找到解决数据科学问题的竞赛。任何人都可免费加入,让你有机会在各个行业的真实数据集上练习技能。

本文将介绍 10 个数据集,非常适合你在面试前练习技能,或者只是因为这些数据集很有趣就够了!如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
30天从初学者成为Kaggle大师的经验分享
Kaggle 大师 Khoi Nguyen 访谈录
我是如何从4万个训练图像中探索亚马逊雨林的?——Kaggle竞赛第一名专访
Kaggle Learn创始人DanB.博士:学的太多,反而成不了数据科学家

就让我们一探究竟吧!

1 “泰坦尼克号”数据集(适合初学者)

“泰坦尼克号”数据集可能是 Kaggle 上最受欢迎的数据集之一。初学者拿这个数据集当练习材料非常不错,因为其中包含很多变量(13 个)和记录( 1500多个)。该数据集包含有关泰坦尼克号上乘客的信息。

该数据集的目标是根据乘客的特征预测乘客是否幸存。

例如,根据数据集,你可以看到已婚女性的生存概率高于单身男性。

数据集中的变量如下:

  • 年龄
  • 性别
  • 已婚或单身
  • 船舱等级(一等、二等、三等)
  • (伦敦、南安普敦)出发
  • 客票号码

介绍如何处理该数据集的教程有很多。如果你想挑战一下,可以尝试预测不同登船点的存活率。

点击此处下载该数据集:

https://www.kaggle.com/c/titanic

2 Iris(鸢尾花)数据集(适合初学者)

这个数据集适用于最流行的二元分类问题。比赛的目标是预测鸢尾花属于哪个品种(鸢尾花、花斑鸢尾)之一。

有些鸢尾花的花瓣比杂色鸢尾更短,萼片更宽。

我们可以预测——如果花瓣长度大于 3 厘米且萼片小于 6 厘米,则该花更有可能是鸢尾花。

该数据集中的变量示例如下:

  • 花瓣长度(Petal Length)
  • 萼片宽度(Sepals Width)
  • 花瓣宽度(Petal Width)

关于如何处理该数据集的教程有很多。其中最受欢迎的方法之一是“通过Scikit Learn分类鸢尾花数据集”。对于初学者来说,这是一个非常好的教程,包含如何使用 Scikit Learn的预构建功能,帮助你你轻松地训练模型。

点击此处下载该数据集:

3 火车数据集(适合初学者)

火车数据集在Kaggle上的人气也很高。该数据集包含在Boston和Washington D.C.之间乘坐美铁列车的乘客信息 。

该数据集的目标是预测乘客是否会在某一站下车。

例如,根据该数据集,你可以看到,乘客在Baltimore下车的概率比在Philadelphia高。

数据集中的变量示例如下:

  • 年龄
  • 轨道类型(公路、货运)
  • 是否为周末或节假日

有多种方法可以根据这些变量来预测乘客是否会在某一站下车。

点击此处下载该数据集:

https://www.kaggle.com/c/train-occupancy-prediction/data

4 波士顿住房数据集(适合初学者)

波士顿住房数据集在Kaggle上的人气也很高。该数据集包含了有关波士顿市的住房信息。包含 200,000 条记录和 18 个变量。

该数据集的目标是预测房价是否昂贵。该数据集具有三个不同的类别(昂贵、普通和廉价)

此数据集中的变量示例包括:

  • 卧室数量
  • 浴室数量
  • 平均房间数

如果你对数据科学领域感兴趣,可以试试该数据集,难度不是很大,而且非常有趣。

点击此处下载该数据集:

https://www.kaggle.com/c/boston-housing

5 酒精与药物关系(适合中级学者)

酒精和药物关系数据集是练习数据可视化技能的绝佳数据集,包含有关不同药物之间药物相互作用的信息。

数据集的目标是根据两种药物的化学结构预测两种药物是否会相互作用。

例如,数据集显示布洛芬(Ibuprofen)对乙酰氨基酚(Paracetamol)可以相互作用,因为两者都是抗炎药 (NSAID)

此数据集中的变量示例包括:

  • 药物A的结构(化学化合物)
  • 药物B的结构(化学化合物)
  • 药物 A 和 B 的活性(是/否)

这是练习数据可视化技能的绝佳数据集。你可以试着创建一个图表,显示不同药物之间的相互作用。

点击此处下载该数据集:

6 威斯康星州乳腺癌数据库(适合中级学者

对于那些在数据科学方面更有经验的人来说,该数据集非常具有挑战性,包含有关威斯康星州乳腺癌患者信息。

该数据集的目标是根据患者的特征,预测患者是否患有癌症。

例如,你可以从数据集中看到,肿瘤大小小于 0.50 cm 的患者有 98% 的生存机会,而肿瘤大小大于或等于 0.80 cm 的患者只有 15% 的生存机会。

该数据集中的变量示例如下:

  • 肿瘤大小
  • 肿瘤等级
  • 涉及的淋巴结种类

有很多介绍如何处理该数据集的教程。如果你想挑战一下,可以试着预测不同肿瘤大小的存活率。

点击此处下载该数据集:

7 皮马印第安人糖尿病(适合中级学者)

该数据集与预测糖尿病有关。本次比赛有 150,000 多个示例,你需要预测患者是否会患上糖尿病(二元分类)

包含的变量非常简单,因为只有一个特征:

  • 糖尿病

这项挑战的目标是看看你是否可以预测患者是否会在五年内患上糖尿病。这是练习二进制分类问题技能的好方法。

点击此处下载该数据集:

8 亚马逊评论(适合中级学者)

亚马逊评论数据集是练习文本分析的绝佳数据集,包含亚马逊网站上的产品评论。

该数据集非常有趣,包含好评和差评,目标是预测评论是好评还是差评。

该数据集中的变量示例如下:

  • 审阅文本(字符串)

介绍如何处理该数据集的教程有很多。如果你想挑战一下,可以试着预测情绪分析,然后在此基础上建立自己的模型。 

点击此处下载该数据集:

9 MNIST 手写数字(适合高级学者)

MNIST 数据集是一组手写的数字集,包含大小为 28×28 像素的图像,有 60,000 个训练示例和 10000 个测试用例。

该数据集的目标是正确分类训练集中和测试集中的所有数字。

对于这类问题,你通常会使用卷积神经网络 (Convolutional Neural Networks)

有很多介绍如何处理该数据集的教程,我建议你从基础教程开始,然后转向更高级的教程。

点击此处下载该数据集:

https://www.kaggle.com/c/digit-recognizer

10 CIFAR-100(适合高级学者)

CIFAR-100 数据集是练习机器学习技能的绝佳数据集,包含 100 张物体的图像,分为六类:飞机、汽车、猫、鹿、狗和船。

每个图像的像素为 32×32 ,有三个颜色通道(红、绿、蓝)

该数据的目标是预测图像属于六个类别中的哪一个。

该数据集中的变量示例如下:

  • 像素
  • 红色通道
  • 绿色通道
  • 蓝色通道

关于这个数据集的教程有很多。如果你想挑战一下,可以试着预测已经被扭曲或以某种方式转换的图像的标签。

点击此处下载该数据集:

今天就试试 Kaggle吧!

Kaggle 是解决数据科学实践问题的绝佳资源。文中列出的 10 个数据集非常适合练习技能。如果你是初学者,可以试着处理一些简单的数据集。

随着不断进步,继续学习更难的课程。通过足够的练习,就能够解决遇到的所有问题!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Andrew Lombarti
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/10-datasets-from-kaggle-you-should-practice-on-to-improve-your-data-science-skills-6d671996177