如何开始自己的第一个数据科学项目?

如何开始自己的第一个数据科学项目?

没有经验的你是否觉得不知道如何开始自己的第一个数据科学项目?起步往往很困难,但其实大可不必如此。在本文中,我将向你介绍6条经验,帮助你完成数据科学处女秀!如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
导航数据驱动时代:为什么你需要掌握数据科学基础
在2024年实现数据科学家更好的工作与生活平衡
数据科学家常见的13个统计错误,你有过吗?
每个数据科学家/分析师都应该知道的20个统计概念!

目录

  • #1:第一个项目的真正目的:不是为了给人留下深刻印象
  • #2:为什么你的第一个项目不需要创意?
  • #3:复制、修补、学习:出人意料的技能培养策略
  • #4:你必须克服困难
  • #5:在配置工具时克服设置困难
  • #6:采用“成长型思维”是成功的关键
  • 附录

完成第一个项目可能是数据科学旅程中最重要的里程碑。然而,要知道这项工作的第一步是什么,往往充满了挑战。我在这里要向你灌输的是,事情并不一定是这样的。

在本文中,我将与你分享开始第一个项目所需的确切知识。

我的目标是消除你对第一个项目可能存在的任何误解,让你有信心尽快开始。

这六条基本见解将消除你对项目的忧虑。最后一条有可能改变你整个职业生涯的轨迹。

让我们深入了解一下!

为什么要做项目?

是为了向未来的雇主展示你的技能?是为了在LinkedIn上与人联系时作为开场白?

实际原因并不集中在这两个概念上。

初始项目的首要目标是学习。

没有获得反馈或公开分享作品的压力。很多人在第一个项目中就迷失了方向,因为他们认为这个项目不够好,或者不是很有趣。

你猜怎么着?

只要对你的学习有帮助,多么令人印象深刻并不重要。它也不一定要非常令人印象深刻或复杂才能教会你一些东西。即使是看似简单的项目,也能让初学者掌握和熟悉基本概念、技术或方法,如基本数据处理、可视化或入门统计分析。因此,这为今后的工作奠定了坚实的基础。

我在网上传播了很多关于项目的信息,你可能听我说过,一个好的项目应该具有创造性和趣味性。

虽然这适用于你向未来雇主展示的项目,但对于你的第一个项目,你完全没有必要发挥创意。

我的第一个项目是泰坦尼克号数据集。天哪,我的分析太糟糕了。不过,我还是从中学到了很多关于分类和特征工程的知识。

我个人曾对许多最基本的数据集进行过分析,包括帕尔默企鹅数据集、MNIST数据集和Kaggle上的房地产数据集。

这些都是学习新技能的好帮手,也是学习初期的好项目。

在你的第一个项目中,你应该复制别人的作品。

你没听错。

要说明的是,你复制是为了学习,你不应该把别人做的事情归功于你,你也不应该明确分享你复制的作品。

早期学习的一个高效方法是键入并执行他人编写的代码。一旦执行完毕,就对其进行实验,以观察结果和探索结果。

我更喜欢将这种方法应用于图表,图形的可视化特性允许在调整代码时立即感知变化,清晰显示进度或变化。

动图由作者提供

如果你正在寻找可以跟随并积极学习的东西,我创建了一个视频,记录了我使用该数据集的过程,链接:https://youtu.be/I3FBJdiExcg

这并不奇怪,但第一个项目往往充满挑战。你会遇到障碍,遇到错误,陷入困境。

不幸的是,很多人在面临这种逆境后就放弃了。我几乎普遍发现,我们在数据科学中会遇到这些挑战。陷入困境是定期计划的一部分。

你越早习惯并学会如何离开并回到你的工作中,你就越早在学习之旅中取得进步。

我注意到,散散步或从代码中抽身出来,往往会在脑海中浮现出自发的解决方案或全新的视角。

这些都是你可以做的,也是你应该做的,当你遇到困难,觉得自己无法取得任何进展时。

当你随意漫步,而不是刻意专注于工作时,你会惊讶于自己大脑的碎片整理能力

此外,对于Medium算法来说,我们永远也不会有足够的掌声。所以,如果你觉得这篇文章有用,欢迎拍手叫好。

入门的最大障碍之一是在本地计算机上运行所有数据科学工具。

刚开始的时候,我配置本地环境所花的时间比我完成整个项目所花的时间还长。

幸运的是,像Anaconda这样的工具可以在本地环境中运行,但还是会遇到一些配置问题,比如获取正确的软件包。

幸运的是,随着基于网络的集成开发环境的发展,你在开始时可以完全避免这一步。你可以在第一个项目中使用Kaggle、Google Colab和DeepNote等免费平台,而无需承担技术开销。

基本上,登录这些网站,创建一个实例,就可以使用Jupyter笔记本,而无需安装任何软件包或解决任何其他相关问题。

这彻底改变了我的游戏规则,让我无缝地启动了我的第一个项目。

要开始数据科学和项目,最重要的也许是你的心态。

一个项目现在很难,并不意味着你做得不好。这意味着你还不擅长数据科学。

当我再次回到泰坦尼克号数据集,为我前面提到的教程视频做准备时,我惊讶地发现自己进步了很多。我清楚地记得第一次做的时候有多难,而现在我甚至可以自如地指导他人完成分析。在这些项目上,我的能力、本领和舒适度都发生了惊人的变化。

这种“你有能力随着时间的推移不断进步”的概念被称为“成长型思维模式”。

当个人涉足一个新领域,尤其是像数据科学这样对脑力要求很高的领域时,大多数人一开始都不会熟练掌握这些技能。如果你感到吃力,你应该把难题当作成长的机会,而不是把它们视为障碍。要做到这一点,你可以选择那些稍稍挑战你的极限,但只要努力就能实现的项目。

此外,你应该把精力集中在理解概念和解决问题上,而不是专注于眼前的结果。为此,应将复杂的问题分解成较小的、可管理的步骤,并在每个阶段庆祝自己的进步。

希望这对你的第一个项目有所帮助,祝你在数据科学的道路上好运。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Ken Jee
翻译作者:Qing
美工编辑:过儿
校对审稿:Jason
原文链接:https://towardsdatascience.com/ideas-how-start-data-science-project-when-beginner-9ed03b7628ca