想快速学习数据科学?技巧经验都在这儿!

想快速学习数据科学?技巧经验都在这儿!

我想分享这篇文章,是因为我收到了很多关于如何学习数据科学的问题,我理解其中的困难。

数据科学的学习,一开始真的很累,尤其是当你发现你必须学习编程、统计学、数学等知识的时候。要学的东西似乎无穷无尽,但是请相信我,它其实并没有你想象的那么糟糕。

图片:Marc-Olivier Jodoin 发布于Unsplash

我有两个目标:

  • 1. 我想通过提供一些指导和技巧,来让你的学习之旅更加顺畅
  • 2. 我想与你分享我的一些帮助我快速学习的技巧
图片由作者提供

那让我们开始把!如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
五个步骤教你独立完成数据科学项目
硅谷数据科学家岗位哪家工资高,哪家面试题难?揭秘FANNG迥异的面试画风!
面试当中的背景调查是怎样进行的?
数据工程师面试最全指南

1) 你学到的东西会由两个变量决定……

首先你应该知道,“学习”是指知识和技能的获得。因此,当我说“学习”时,我指的是学习理论(知识)和学习如何应用该知识(技能)

这不是火箭那类的科学,但有两个主要因素会影响你在给定时间段内的学习量:

  • 投入的时间:如果你每天花 2 小时而不是每天 1 小时来学习数据科学,那么你可以过滤两倍的材料,或者两倍的时间应用你的技能(即编程)
  • 储存量:学习技能是一回事,但储存知识是另一回事。你可能听说过遗忘曲线。简而言之,你需要在学习数据科学和练习所学知识时,保持同一进度。

就我个人而言,我认为我做出的最佳决定之一,是在 52 周的时间内,每周进行一次学习,并同时撰写与数据科学相关的内容,这样可以迫使我投入大量时间,并保持两个进度的一致。

2) 从基础开始

如果你已经读过我之前的文章,那么在这一点你可能早就听腻了,但是从基础开始真的会大有帮助。你可能觉得这是一条很慢的路线,但这会让你在将来,能够学习建立在这些基础之上的更复杂的概念。

我建议你入手学习的基础知识是:

  • 统计学和概率:数据科学和机器学习本质上是统计学的现代版本。可以通过先学习统计学,这样在以后学习机器学习概念和算法时,你会更轻松。
  • 微积分和线性代数:和统计学一样,许多数据科学概念都建立在基本的数学概念之上。为了理解成本函数,你需要了解微积分。为了理解假设检验,你需要理解集成。再举一个例子,线性代数对于学习深度学习概念、推荐系统和主要的成分分析至关重要。
  • 编程(Python、SQL)SQL 可以说是任何类型的数据职业中最重要的技能,无论你是数据科学家、数据工程师、数据分析师还是业务分析师等,都是如此。至于 Python,它可以说是数据科学家使用的主要脚本语言(我个人并不了解 R 语言)

你并不必了解上述主题的所有内容,但在深入研究机器学习和深度学习之前,你绝对应该了解那些基础知识。 这就引出了我的下一个观点……

3) 不要试图记住一切

理解你学到的东西是一回事,但试图记住所有东西是另一回事。特别是当涉及到 SQL、Python 和 Pandas 时,不要觉得你必须学习它们提供的每一个函数和方法。相反,可以选择专注于学习怎样在遇到编程问题时 Google到 正确的答案。

我曾和数据科学界的资深人士交谈过,但我从来没有遇到一个能记住所有 SQL 和 Python 函数的人。记住所有的函数,是对时间的低效利用,我们可以把时间更好地用于其他事情,例如创建项目!

4) 通过“做”来学习

正如我之前提到的,仅仅通过学习是不够的,你还需要通过实践来学习和保留更多的知识和技能。这和在学校学习新概念后做作业的方式类似,你需要不断将所学应用于实践。

你不用非要完成复杂的项目。即使是对数据集进行探索性数据分析这样简单的事情,也能帮助你加快学习速度。

以下是一些帮助你快速入门的想法:

想法 1:SQL 案例研究

案例的网站

此案例的目的是找到Yammer 这个社交网络的用户参与度下降的原因。在深入研究数据之前,你应该阅读此处 Yammer 功能的概述。你应该使用 4 个表。

上述案例的链接将为你提供有关问题、数据和回答的问题所需要的更多详细信息。 

想法 2:Trustpilot 网络爬虫

其实,学习如何抓取数据是很容易学习并且非常有用的,尤其是在收集个人项目数据时。抓取像 Trustpilot 这样的客户评论网站,对公司价值很高,因为这类网站可以让公司了解评论趋势(变得更好或更糟)并通过 NLP 查看客户在说什么。

首先,要熟悉 Trustpilot 的组织方式,并决定要分析的业务类型。然后再去学习如何抓取 Trustpilot 评论的教程。

想法3:泰坦尼克号机器学习大赛

在我看来,能表明你已准备好从事数据科学工作的方式,就是通过比赛来展示你的编程能力。Kaggle 举办了各种竞赛,涉及构建模型以优化某个指标,其中之一是泰坦尼克号机器学习竞赛。

谢谢你的阅读。

我希望以上的分享对你有所帮助!在以上的分享中,最重要的是你保持你学习与实践的一致——我认为这优先于你的学习方法和你用来学习的资源。确保你可以并将其他一切因素控制在你可以调控的范围内。

提前预祝你在你的学习努力中取得最好的成绩!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Terence Shin
翻译作者:Peter Mei
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/four-tips-to-learn-data-science-fast-4ab7177a39e2