提升数据科学水平的五个必备知识

提升数据科学水平的五个必备知识

“我真想进入数据科学领域。”

这是最近最热的一句话。在每个世界的角落,都有一个强调成为数据科学家所需要的技能的人。我承认,在当前的就业市场中,对这些技能的需求很大,但即便如此,有时也会让人摸不着头脑。

你想成为一名数据科学家吗?以下是支撑它的一些知识。

什么知识?

我很高兴你会这么问。

你必须学习Python,特别是Pandas

R语言的爱好者会因为这一点而恨我。

注意,我并不是说R有什么问题(尽管R确实有很多问题),并且我也不会在这个问题上让步。

如果你想学好数据科学,而不仅是浅尝辄止,你需要学习Python。一旦你做到了,你就学会了Pandas。

Pandas是当今数据清理、处理和分析的典范,其原因有很多:

  • 作为一个Python模块,它的句法是可读的、简明扼要的,学习起来轻松。
  • 作为Python的一种多功能语言,它允许各种其他任务无缝集成——构建web应用程序、与云一起工作以及通用软件工程(参见下面的部分)等等。
  • 由于Pandas的普遍性,人们不断开发工具以使它更加出色。想要证据吗?看看这个(https://ponder.io/)

Python免费为你提供统计测试、数据处理、机器学习等一系列功能。最重要的是,它周围有一个总是愿意协助它的社区,进一步说,数据科学是一项合作的领域。

在效用方面,R语言有很多争论。虽然并不是每个人都喜欢Pandas,但争议的声音显然不那么明显。

你必须学习基础的软件工程

在我本季度博士学位期间,我正在上一门独特的课程。其中一个标题非常刻意:面向数据科学家的软件开发。作为一名数据科学家,你不要小瞧软件开发。它肯定会帮助你找到一份工作,并且使你脱颖而出。原因如下:

  • 作为一名数据科学家,你将与一个技术专家团队合作。
  • 作为一名数据科学家,你将需要用一种方法来完美地包装你的数据分析、见解和模型,并与整个世界进行交流。这可能会采取应用程序或系统的形式。
  • 作为一名数据科学家,你将编写代码或与编写代码的人进行合作。因此,你应该了解编程的最佳实践。
  • 这些技能不一定是你在标准的入门编程课(将重点放在计算机科学的基础上)中学习的,但一定是你在软件工程课上学习的。

而且它不一定是一门课——你可以在网上自学,也可以通过项目简单地学习一下(可以说比参加课程更有效)

但重点是:通过学习软件工程,你可以有效地分享和发展你从工作中获得的见解,从而将你的数据科学技能提升到一个新的水平。那么你为什么不这样做呢?如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
认识Julia:数据科学的未来
如何成为全栈数据科学家?
数据科学家V.S数据分析师面试全对比
大部分数据科学课程没有教给你的内容

你必须学习实用统计学

这是我需要进修一个领域。统计学构成了数据科学的理论基础,不学它,你只能止步于此。

然而,如何学习统计数据很重要。解释一下我的意思。我有一位教授,拥有数学学士学位、计算机科学博士学位并且在辅修统计学(作为博士学位的一部分),这些都来自世界上两所顶尖的技术大学,她是一位数学天才。

然而,当她在职业生涯后期转向数据科学时,她需要自学所有的统计数据。她所学的正式统计数据都太过深入和抽象,并不实用。

如果你对重新研究数学有点犹豫,这是个好消息。成为一名成功的数据科学家,你不需要正式的数学学位,也不需要成为抽象证明的专家。你真正需要的是数据科学中能实际应用的统计概念知识,(例如设计用户研究、运行假设测试、有效使用机器学习模型等)

虽然这不是一项容易的任务,但却是一项非常可行的任务。大量的在线资源可供你参考,祝你好运。

你必须学会简化和交流技术话题

如果数据中的见解不被其他人理解并加以利用,那么它就一无所用。

再强调一遍,如果数据中的见解不被其他人理解并加以利用,那么它就一无所用。

我不在乎你是否已经写出世界上最先进的模型,即使它将改变地球的命运——如果你不能以人们理解的方式与他们分享,它就没有任何益处。

你可能想知道为什么。毕竟如果你可以应用模型并获得结果,这难道还不够吗?

如果世界这么简单就好了。单靠一个人是无法实现大规模变革的——你需要与团队、利益相关者、有钱人、有权力的人合作。你需要让他们相信你的工作非常出色,具有开创性。你需要在你的数据科学工作中接受复杂的想法,并让那些不是技术专家的人能够理解这些想法。

这有两部分:

  1. 有效沟通。
  2. 将复杂、相互关联的现象分解为简单的部分。

两者都有练习的方法。为了学会良好的沟通,你可以考虑参加写作或口语课程。至于第二点,短时间内很难实现;这是一种随着时间的推移而获得的技能——不断的练习向他人解释你的想法和工作。这样去做吧。

但无论你做什么,都不要轻视一点。如果你无法传达它们,即使一百万个伟大的想法也与零个没有任何差别。

你必须学会欣赏非技术知识

如果你痴迷于数字、计算和模型,但对偏见、道德和社会一无所知,那么你无法在数据科学领域大有作为。

有效的数据科学超越了统计学和计算机科学。还包括领域知识——一个经常被忽视的重要组成部分。数据科学的主要目的是解决特定领域的问题(如生物学、经济学、社会学、政治学等)。虽然你可能是数字和程序的大师,但你很可能不是常驻领域特定偏见和微妙之处的大师。

注意,在为各种问题开发数据的解决方案时,与领域专家交谈是绝对有必要的。忽视这一步,你最终得到的模型,很可能是不准确、有偏见的,甚至会带来更多危害。

概括和最终想法

以下是对数据科学的5个必备知识的回顾:

  1. 学习Python。准确来说是学习Pandas。这是处理数据的典范。
  2. 学习基础的软件工程。编写程序是一回事,但如果你能设计它们,你就可以把你的市场性提升到一个全新的水平。
  3. 学习实用统计。这是数据科学的基础,你必须学会它。
  4. 学会简化复杂的想法并进行沟通。人们需要知道你从数据中发现了什么,而你需要告诉他们。
  5. 学会欣赏数据科学的非技术知识。这不全是数字的问题,也从来都不是。

如果你想成为一名数据科学家,我无法给你一个确切的蓝图。这涉及狂热的探索,一些尝试和错误,甚至是一些失败的尝试(就像数据科学本身一样)

然而,如果你选择这条路的话,我可以给你一些非常有用的技能,这正是我在上面的文章中所提到的。至于剩下的,只能靠你自己了。

感谢阅读。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Murtaza Ali
翻译作者:王文龙
美工编辑:过儿
校对审稿:Chuang
原文链接:https://towardsdatascience.com/5-pieces-of-knowledge-you-must-learn-to-take-your-data-science-game-to-the-next-level-ce8c9387a870