14场Kaggle比赛,开启你的数据科学之旅
Kaggle是一个举办网上机器学习比赛(有奖比赛或无奖比赛都有)的网站,允许用户以Jupyter notebooks的形式共享代码。Kaggle具有大量的数据集,能给你提供机器学习和数据科学的课程。
可以说,我是一个自学成才的数据科学家,在半年时间里,我所学到的所有关于数据科学的知识都来自于Kaggle。当时,我会参加比赛,使用别人的代码(前提肯定是要先理解它),遇到不明白的,我会在网上搜索并了解(这其实是一个很快乐的过程)。4年后,我不再像以前一样整日泡在其中了,但我还是会常回来看看有什么新的比赛、notebooks或是一些优质的数据集。毕竟,是人都总有新的东西要去学习。
如果你是一个有野心、希望更进一步的数据科学家,我建议你尽可能多地利用好Kaggle。它可以为你提供很多,其中最重要的是,它可以为你提供其他用户上传的现成的notebooks。你只需要通过复制和阅读就可以了解其他人是如何面对问题、解决问题的。不需要从零开始,你完全可以复制一个notebook并按照你的想法加以改进。
以下是我认为比较适合初学者的一些比赛——相信我,它们会是你是开启数据科学之旅的最佳方案。我把它们区分为:
- 分类
- 回归
- 计算机视觉
- 自然语言处理
现在,让我们深入去了解吧!如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
所有数据科学家都应该知道的三个常见假设检验
如何开始自己的第一个数据科学项目?
导航数据驱动时代:为什么你需要掌握数据科学基础
数据科学家常见的13个统计错误,你有过吗?
分类问题比赛
1.Titanic(泰塔尼克号)
链接:https://www.kaggle.com/c/titanic
这是Kaggle上的一个入门级,引导性的比赛,主要是预测哪些乘客会在泰坦尼克号船骸中幸存,具有891个训练样本和10个特征。
此数据集会带你熟悉Kaggle平台以及比赛方式。你将了解如何参加比赛,如何创建自己的notebooks或使用其他人的notebooks进行提交并查看你在排行榜上的得分。
2.Forest Cover Type Prediction(森林覆盖类型预测)
链接:https://www.kaggle.com/c/forest-cover-type-prediction
在这个分类问题中,你需要预测30×30米森林单元中的主要树木覆盖类型,它具有15120个训练样本和54个特征。
这是一个7类分类问题,在泰坦尼克号数据集的基础上向前迈进了一步。但没关系,现在你已经熟悉了Kaggle,可以接受这个挑战,你甚至能在与1600多支其他竞争者的比赛中得分。
3.Don’t Overfit! ΙΙ(不要过度拟合!Ⅱ)
链接:https://www.kaggle.com/c/dont-overfit-ii
当你试图预测19750行时,你却只有250个训练行和300个特征——我们面临的挑战是:开发一个不会过度拟合的模型。
我推荐这个比赛是因为它可以提高你的相关技能,减少过度拟合,这在任何机器/深度学习项目中都是一个非常重要的概念。因此,请务必查看其他用户的可用代码,学会相关技巧来减少过度拟合。
4.CareerCon 2019 — Help Navigate Robots(CareerCon2019—协助“导航”机器人)
链接:https://www.kaggle.com/c/career-con-2019/
你需要使用拥有487680行和10个变量的训练数据集,帮助机器人识别他们所站的地板的位置。
这是一场比赛,更是一次赢得工作的机会。在这场比赛里,表现最好的人会获得所选公司的面试机会——也许,你实际上是在帮助你自己找到事业的位置。
5.Categorical Feature Encoding Challenge(分类特征编码挑战)
链接:https://www.kaggle.com/c/cat-in-the-dat
这是一场只关于分类特征的比赛,包含300000行和23个特征。这场比赛会让你有机会使用不同算法的不同编码方案,并比较它们的表现。
为什么我说参加机器学习比赛是一个很好的策略呢?因为它能教给你一些新的东西。在你的学习之旅中,不要困于自己的舒适区,要试着走出去,尝试新事物。参加以上比赛,你会学到如何处理分类特征。
回归问题比赛
6.House Prices(房价)
链接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
这是一场名副其实的回归问题机器学习比赛。在这场比赛中,你需要用提供的79个描述了爱荷华州埃姆斯城住宅的各个方面的解释变量,预测每栋房子的最终价格。
这是一场非常有趣的比赛,特征众多。你可以把它作为一个你的特征工程技能的挑战!
7.TMDB Box Office Prediction(TMDB票房预测)
链接:https://www.kaggle.com/c/tmdb-box-office-prediction
这场比赛中,你会看到电影数据库中过去7000多部电影的元数据,并预测它们的全球总票房收入。
谁不喜欢看电影?现在,你有机会使用包含7000部电影的数据集,寓学于乐,在享受乐趣的同时,学习预处理、特征工程、数据转换等更多技能!
8.Bike Sharing Demand(共享单车需求)
链接:https://www.kaggle.com/c/bike-sharing-demand/
这场比赛中,你需要将历史使用情况与天气数据相结合,用10886个训练行,预测华盛顿地区共享单车计划中的自行车租赁需求。
为什么我推荐这个比赛呢?因为它需要使用环境数据来预测日常使用情况(即使用温度,湿度,风速等数据来预测自行车的需求),这会给你一场非常酷的体验!
9.Predict Future Sales(预测未来销售)
链接:https://www.kaggle.com/c/competitive-data-science-predict-future-sales/
这是“如何赢得数据科学比赛”Coursera课程的最后一项。在这场比赛中,你会用到由每日销售数据组成时间序列数据集,这非常具备挑战性。
记住,我们的重点是走出我们的舒适区,我们必须去学习新的东西。时间序列作为你将遇到的最常见的数据类型之一,学习如何处理这些类型的数据对你有很高的价值。
计算机视觉问题比赛
10.Digit Recognizer(数字识别器)
链接:https://www.kaggle.com/c/digit-recognizer/
如果你是计算机视觉的新手,这场比赛可以完美地带你走进神经网络等技术,使用各项数据集,预先提取特征。
事实上,这是关于计算机视觉的“Hello World”数据集。你的任务是从成千上万的手写图像数据集中正确识别数字。
11.Dog Breed Identification(犬种鉴定)
链接:https://www.kaggle.com/c/dog-breed-identification
你需要从120个选择支、每个数量有限的训练图像的类中预测正确的品种。
在计算机视觉领域更进一步后,你会发现预测手写数字真的很容易。在120个犬种之间进行预测更具挑战性,但也更有意义。
自然语言处理问题比赛
12.Real or Not? NLP with Disaster Tweets(真实与否?NLP与灾难推文)
链接:https://www.kaggle.com/c/nlp-getting-started
想要开始学习自然语言处理,就要参加这个比赛。这场比赛中,你需要建立一个机器学习模型,查看10000条手工分类的推文数据集,预测哪些推文是关于真正的灾难,哪些又不是。
这个数据集有时也被学术界用来爬取关于“人们如何在推特上讨论自然灾害”的见解。文本数据大有可学,机会无限,我建议你从这场比赛、这个数据集开始你的独特旅程。
13.Jigsaw Toxic Comment Classification Challenge(Jigsaw有害评论分类挑战)
链接:https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
这场比赛中,你需要建立一个“多头”模型,用来自维基百科的讨论页编辑的评论数据集,检测不同类型的有害评论,如威胁,淫秽,人身攻击和地域攻击。
在这次比赛中,注意关注各种预处理技术,你可以将这些技术应用于原始数据,以适应你的分类算法。
14.Sentiment Analysis on Movie Reviews(电影评论的情感分析)
链接:https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews
这次比赛提供了一个在“Rotten Tomatoes”数据集上对情感分析进行基准测试的机会。你需要在五个数值的范围内给句子贴上标签:“消极的”、“有些消极的”、“中性的”、“有些积极的”和“积极的”。句子含有各种否定、讽刺、简化、歧义等障碍,使得这场比赛颇具挑战性。
这个比赛实际上是我2016年大学论文的实践——我在那里做了电影评论的情感分析。
结语
最后,我建议你在每次比赛中把眼光放在预处理、编码、转换、ML算法、特征工程、选择、调整、分析等技能上,创建一个GitHub配置文件,把你的作品上传到那里。
借此,你在将来能找到你以前的作品,让全世界都能看到你的能力。
从这14场比赛开始,随着你学习的深入,自信心的增长,你可以过渡到更具挑战性的新比赛。
祝你的数据科学之旅前程似锦!感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Dimitris Effrosynidis
翻译作者:数据应用学院
美工编辑:过儿
校对审稿:Chuang
原文链接:https://towardsdatascience.com/14-kaggle-competitions-to-start-your-data-science-journey-41943496b6f4