神奇动物在哪里:数据科学家和数据工程师大揭秘!

神奇动物在哪里:数据科学家和数据工程师大揭秘!

1—哲思性的介绍—

人们对于大数据和AI究竟是什么总是含糊不清并有很多困惑,“数据黑箱子”的技术性让那些分析巨大数据集的人变成了某种神秘人物。这些有着技术和意愿去分析数字并据此提供见解的人通常就被叫做:数据科学家
他们从毕达哥拉斯们(Pythagoreans)身上继承了对数字的信仰,所以也许浮夸的叫他们”数据格拉斯”(Datagoreans)也很合适。他们的学派思想:数据主义(Datagoreanism)鼓励他们通过数据追寻真理并探索丰富而又混合的与不同领域的互动,并建立新理论以及发现其中隐藏的联系。
然而,一般的共识是关于他们是谁以及他们做的事情的是很宽泛的。通过浏览数据科学家的工作Offer,我们可以明白其实雇主们常常不知道他们具体要找什么样的,这也可能是市场上数据科学家稀缺的原因之一。

2—数据工具箱和技能包—

在现实中,大多数人想象中的数据科学家并不存在,因为这是一个全新的形象,特别是对于初级学历的人来说。然而,一方面是遍地开花的训练营和结构化的大学项目,另一方面是公司提高了对这个领域的认识,都将驱动这个市场走向供需平衡:公司会知道他们在技术方面真正需要的是什么,这些人才们也会最终足以提供这些所需的能力。
于是当下我们就需要概括出这个新的角色,尽管仍然是一半科学家,一半是设计师,他还包括了一系列不同的技能和能力,类似于一个神秘的综合体。下面的图表中提供了一个理想的样子,它基本上合并了5中不同的工作角色:电脑科学家,商人,统计学家,交流者,领域内专家。
很显然,如果不是可能用一个人代替这五个人,这会非常麻烦。这种考虑使我们得出几个结论。首先,将这五种工作角色叠在一起会对产能具有争议性的效果,因为可能会:1)有效率,因为整个价值和产品链都集中起来而不是分散了;2)有风险,因为一个人有时比五个人同时解决一个问题要低效。其次,招聘一个专家比招聘五个花得成本少一点,但是比任何五个中的单独一个要多的多(因为他的专业,高级别知识和灵活性),不过看一些数字发现,这种差别没有在市场上被体现出来。 

3—数据工作的玩具模型—

使用Glassdoor.com(国外的求职网站),我们可能注意到了美国2015年的平均数字:(1)一个电脑科学家(Computer Scientist)每年大概挣$110,000;(2)一个统计学家(Statistician)大概$75,000;(3)一个商业分析师(Business Analyst)大概$65,000;(4)一个沟通经理(Communication Manager) $80,000;最后(5)一个领域内专家大概$57,000。另一方面,根据O’Reilly 同年发布的调差问卷,一个数据科学家中位数赚$100,000(King and Magoulas,2015)。从问卷中我们大概也能注意到平均每周的工作时间一般是40个小时,而且比起进行恰当的分析和创建模型,他们花了两倍的时间在ETL(Extract,Transfer,Load)和清理数据上。根据这些统计数字,并且粗略的(可能来自于从业者的一些不正确观点)假设他们剩下的时间被等分成其他三种活动,一个数据科学家应该大概挣$92000。这当然是非常近似的估计,并没有考虑不同的工作年限,不同的行业等等,而且领域专长也被计算成营销($55,000),数据库($57,000),网络($64,000)和社交媒体($41,000)等的平均数。但是这传达了一个宽泛的概念:如果绝对地来看,数据科学家貌似(几乎)得到了公正的报酬。但是如果把他们作为一个专业人物放在成本结构中来比较,他们的待遇绝对被低估了 。

如果考虑教育程度,努力程度,以及成为数据科学家的机会成本,这个市场平均来说并没有给一个候选人足够的报酬。

所以真相是,这个市场快速地向两极分化:要么你是一个顶级科学家,被一个大公司雇佣(你会有大把大把的银子)或者你无与伦比的工作将你带入数据的世界,却没有得到公正的报酬。

4—最后几点思考—

到目前为止所有的考量都指向几点招聘数据科学家的建议:
数据科学是团队努力
首先,数据科学是团队运动,不是单人项目。所以招揽能作为更大的团队的一部分扮演不同类型的人比招聘只具有个人能力的人更重要。另外,如果一个数据科学团队是公司的当务之急,公司应该招揽能留下来的数据科学家,而不是简单的根据项目来,因为管理大数据是马拉松不是100米冲刺。
数据科学家有两种DNA
其次,数据科学家有两种DNA:科学性和创造性。因为这个原因,应该放手让他们自由学习并且一方面持续学习(从科学性的角度),另一方面去创造,去实验,去经历失败(从创造性的角度)。他们永远不会以一种固定的速率系统地成长,但是他们会有机的根据他们自己的倾向性和多面性来成长。所以他们应该被给予足够的空间让他们追随自己的“科学灵感”。
赚大钱不是最重要的
最后,他们需要不仅仅简单地用钱来激励。 对于每天都有有趣的挑战,等待解决既相关又有影响力的问题,以及成为更大的科学社区的一部分(可以和同行一起工作和一起发表研究)这些方面来说,用不菲的薪水留人的效力其实相当低。
我同样也意识到我没有花很多时间在文中讨论数据科学家和数据工程师的区别,因为对于这篇文章,我考虑到他们只是同一个工作类型下的偏差而已。


· 参考文献 ·

Davenport, T. H., & Patil, D. J. (2012). “Data scientist: The sexiest job of the 21st century”. Harvard Business Review, 90(10), 70–76.

King, J., & Magoulas, R. (2015). “2015 data science salary survey”. United States: O’Reilly Media, Inc.

注意:以上是我的书“大数据分析:管理视角”中的一个改编摘录 (Springer, 2016).

原文作者:Francesco Corea

来源:Medium.com