成功被哈佛大学第一批Data Science硕士学位项目录取是怎样一种体验?

成功被哈佛大学第一批Data Science硕士学位项目录取是怎样一种体验?

在本文中,我想分享我在过去18个月中从事data science研究生涯的经验。

这是我的第一篇Medium帖子,所以我想先说一些关于我自己和我之前的经历。我是环境工程和计算科学哈佛大学的博士。同时还是Critical Future,一家英国Artificial Intelligence方向咨询公司的兼职Machine  Learning和Blockchain的顾问。我的研究重点是将Machine Learning和Artificial Intelligence应用于环境科学中,使用基于无人机的传感器系统,能够智能移动以映射低层大气的化学成分,主要应用在Amazon Rainforest的项目中。

2017年秋季,我在哈佛大学开始攻读博士学位。我在伦敦帝国理工学院获得机械工程学士和硕士学位,最后一年在新加坡国立大学完成。在我的本科期间,我几乎没有接触过Data Science或统计学,但是大量接触了Matlab,C和Visual Basic的编程知识,并且具有很强的数学基础。

在哈佛开始之前,我从来没有用Python编程过,甚至从来没有听说过R。我从未做过任何并行计算,构建Cluster。Machine Learning和Artificial Intelligence是我只在反乌托邦小说和电影中听到的东西。

以几乎没有任何背景加入哈佛大学专注于Data Science和Machine Learning的项目,就像攀登悬崖陡峭的一面,身体疲惫而且相当不稳定。毕竟这里是哈佛,所以人们都对此期待很多。哈佛大学的博士学位要求你上10门课,其中8门课是研究生级别课。你可以按照自己的节奏自由选择,但必须在毕业前完成,平均需要5年。通常建议学生在前两年内完成所有课程,之后他们可以通过硕士学位。在2019年春季学期结束时,我将满足这些要求并拿到我的学位,之后我将专注于研究。

2018年秋季入学,我成了哈佛大学录取的第一批Data Science硕士学位的学生。这是一个为期两年的项目,包括核心Data Science 课程,伦理课程,以及应用数学,计算机科学和统计/计量经济学选修课程。我比所有这些学生提前一年到达,也将成为第一批完成这些主要课程的学生之一,使我对Data Science学位的有效性有了独到的见解。

在过去的18个月里,我参加了各种各样的课程。 首先是CS205: Parallel Computing,其中我学习了在Linux上编写代码并构建了能够为矩阵计算提供线性加速的Computing Clusters,最终实现了一个Python环境下的涉及在Kubernetes Cluster上使用Dask并行计算。

与此同时,我参加了哈佛大学Extension学院的AM207:Advanced Scientific Computing。本课程重点介绍贝叶斯统计及其在Machine Learning中的应用,其中涉及需要无数个小时运行马尔可夫链蒙特卡洛(MCMC)模拟。还有使用贝叶斯定理,甚至涉及观看超人让时间倒退的短视频以展示Machine Learning中的时间可逆性概念。

其他核心课程是AC209a,它侧重于Machine Learning和Data Science的基础。这是大多数人在有人说数据科学或机器学习这个词时所想到的。它涉及学习如何执行Exploratory Data Analysis和运行Sklearn回归和分类器。本课程的大部分内容都侧重于理解这些方法以及如何为给定的数据集更好地优化它们(除了做Model.fit(X_train,Y_train))之外,还有一些方法)。另一个课是AC209b:Advanced Topics in Data Science,它是第一个课的延伸。这本质上是关于Steroids的Data Science,其中前几节课从广义加性模型开始,并创建描述数据集的样条。然而,它升级为在Kubernetes Clusters上并行使用Dask运行2,500个模型,尝试在100层人工神经网络上执行超参数优化。实际上,这并不是我们所做过的最困难的事情,这只在课程的第三周。

其他课程包括CS181:Machine Learning,涉及回归,分类,强化学习和其他使用Frequentist和贝叶斯结构的领域;  AM205:微分方程的求解,以及AM225:偏微分方程的求解。还有其他很多课程,我可以在哈佛大学的剩余时间里学习来加深我的知识,例如CS207:计算科学的系统开发,AM231:决策理论,或AM221:高级优化。值得一提的是,每一节课都有一个项目,我可以将其添加到我的工作简历中

现在让我们谈谈本文的实际观点 — 在这段时间之后,我一直在学习如何成为一名优秀的数据科学家,值得吗?或者我可以自己完成吗?更具体地说,是否值得有人想要将这作为一项职业,投入1—2年和超过10万美元获得Data Science学位?

我认为,在过去的18个月里我学习Data Science课程时学到的一切都可以通过阅读书籍,观看在线视频和浏览不同软件包的文档来学习。然而,毫无疑问的是,获得Data Science学位会加速某人作为Data Scientist的职业生涯,并为他们提供处理真是Data Science项目的经验,使他们可以在面试中提及或放在工作简历中。就个人而言,如果我只是坐在家里观看Youtube视频,我需要花费几年的时间来研究如何优化在Google Cloud上并行集群上运行一个100层神经网络 – 我甚至无法想象可以这样做。

对Data Science感到好奇是一件好事,我希望更多的人会有这种感觉。在信息爆炸的时代,数据似乎将成为未来十年世界的新浪潮,因此将不可避免地需要更多的Data Scientists。然而好奇心只能让你到目前为止,并且你知道花时间学会成熟的Data Scientist所需的相应技能和良好习惯将使你与众不同。然而,Data Science不仅仅是像一些人认为的那样去参加Kaggle比赛。

我对想要追求Data Science的人的建议是在统计学和数学方面有良好的基础,并在编程方面获得一些经验 – 特别是在Python,R和Linux等环境下。我见过的数据科学课程中的大多数学生似乎都在与计算机科学相关的方面苦苦挣扎,例如运行Docker容器以及创建和管理在某些云结构上运行的分布式集群。要成为一名熟练的Data Scientist需要掌握许多困难的技能,当然我自己也不能声称自己是专家。 然而经历了这段,我确实有足够的信心可以继续加强自己的Data Science和Machine Learning技能,并将它们应用于与行业相关的项目和研究,而不必担心“糟糕的科学”。

如果你有兴趣了解Data Science课程的内容,可以查看大学提供的在线课程,这些课程通常可用于获得学分以最终获得学位。哈佛大学现在有一名学生通过Extension学院参加了3个数据科学课程,现在他拥有计算科学和工程学位,并且是Advanced Data Science课程的助教之一。 一切皆有可能!

原文作者:Matthew Stewart

翻译作者:Yishuo Dong

美工编辑:Miya

校对审稿:冬冬

原文链接:https://medium.com/quick-code/a-degree-in-data-science-advice-from-a-harvard-ph-d-student-6553ccb47e1b