Kaggle 还是 Github?哪个对数据科学家更有用?

Kaggle 还是 Github?哪个对数据科学家更有用?

Kaggle和Github都是计算机科学、分析师、数据科学领域专业人士的重要数据库。Kaggle 来自谷歌,GitHub 归微软所有,它们两者都是目前引领技术创新趋势的科技巨头。

在本文中,我们将带你了解Github和Kaggle的强大功能以及它们的区别与联系,如果你想了解更多数据科学相关内容,可以阅读以下这些文章:
数据科学是如何变革Advertisement 广告行业的?
你必须知道的数据科学的可视化技术
数据科学必备技能:一小时学会Random Forest随机森林
五个数据科学项目,让你的简历更出色

什么是 Kaggle,它有什么用处?

Kaggle 可以让你在数据分析、机器学习中使用大量 Python 和 R 代码,构建各种类型的作品集,还可以参加各个方面的培训课程,你甚至还可以通过在比赛中获胜来获得奖励。

Kaggle 排名系统

Kaggle 课程

Kaggle 上有机器学习、Python、R 编程和分析等方面的多门课程。所有课程都需要上手学习,你可以学习如何编写代码,并将其用于分析。

上传你的作品或直接对现有数据集进行分析:

许多公司和个人会在 Kaggle 网站上上传他们的数据集,并邀请人们对其进行分析和机器学习,以寻求解决方案。当人们看到你的作品(这种情况下你应该把你的作品公开)并对其进行投票时,Kaggle 会给你更高的排名,这也会给你更多奖牌。

随着排名的上升,你的技能对于寻找数据科学家、ML 工程师或分析师的公司来说会变得更加突出。很多公司在看了你的Kaggle项目后,还会向你抛出橄榄枝。

作品集在 Kaggle 中是什么样的?

Kaggle 中的作品包括了分析案例研究、机器学习模型、自提供数据集和讨论等等,所有参与者都会根据他们的贡献水平,被kaggle从新手(Novice)到大师级(Grand Master)进行排名。

你能从 Kaggle 赚钱吗?

是的,参与者可以通过赢得比赛中获得奖品,甚至可以在作品被考核后被公司聘用。

图片由 How-To Geek 提供

什么是 GitHub,它有什么用处?

Github 是编程项目和其框架代码的存储库,你可以根据个人需要,设置与所有人共享,或仅你可见。

作品集在 Github 中是什么样的?

Github 中的作品集是你构建的代码和工具的集群,其他人可能会将其用于学术或商业目的,你也可以单纯把它作为云储存,以便日后重新访问到这些代码。

数据科学家们会用 github 存储他们的机器学习模型和代码,比如用OpenML 和 PowerBI 这类工具完成的分析,这些工具也可以以图像、Pdf 甚至代码的形式存储。

程序员们用 Github 存储构建应用程序或软件的代码,其他人可以付费,或者是根据程序员设置的方式来使用这些代码。

谷歌搜索

你能从 Github 赚钱吗?

是的,这取决于你在存储库中获得的星数,如果你的项目是开源的,公司可能会选择使用这个项目,并为它付费。你的具体收入取决于有多少其他程序员帮你的存储库加星标(赞);拥有多个存储库,且每个存储库都有很多赞的人每年也可以赚取 100,000 美元左右。

结论

Github 和 Kaggle 都是培养你的技能、保存你的工作、供个人或商业用途来赚钱的重要组成方式。你甚至可以通过链接到 Kaggle ,把你的 Notebooks/Kernels 代码直接保存到你的 Github 中。你可以直接把所有作品保存在 Kaggle 中,无需单独 打开Github, 就可以在 Github 中保存和出售。你更喜欢Kaggle还是Github?欢迎在文章下方留言!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Muhammad Ammar Jamshed
翻译作者:Jiawei Tong
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/mlearning-ai/kaggle-or-github-which-one-is-more-important-for-a-data-science-professional-c797e838e99a