理想与现实的差距——写在终于放弃了我的数据科学家生涯之后

理想与现实的差距——写在终于放弃了我的数据科学家生涯之后

是的,我是一名数据科学家,是的,你并没有读错标题,但这个事实必须有人说出来。我们读了许多关于数据科学是21世纪最性感的工作以及作为数据科学家可以赚到的诱人钱财的故事,这让这份工作看起来像是绝对的理想职业。原因在于该领域中有大量的高技能人才,他们如怪胎一般痴迷于努力解决复杂的问题是的,“像怪胎一样”是在数据科学领域是一件很积极的事情,这正是这份工作迷人之处。

但是,事实是,正如《金融时报》在一篇文章中所说,数据科学家通常“每周花费1-2个小时寻找新工作”。此外,文章还指出:“机器学习专家在他们表示正在寻找新工作的开发人员名单中名列第一,占14.3%。数据科学家紧随其后,占13.2%。”这些数据是由Stack Overflow在基于64,000名开发人员的调查中收集的。

我也曾担任过该职位,最近我本人也转行了。

那么,为什么有那么多数据科学家在寻找新工作呢?

在回答这个问题之前,我需要澄清一下我仍然是一名数据科学家。总的来说,我喜欢这份工作,并且我不想阻止其他有志于成为数据科学家的人,因为它可以带来乐趣,激励和奖励。本文的目的是扮演魔鬼的拥护者,并揭露这项工作的某些缺点。

从我的角度来看,我认为让许多数据科学家对其工作不满意的原因有四个。

1. 期待与现实不符

大数据就像十几岁的性行为:每个人都在谈论它,没有人真正知道如何做,每个人都认为其他人正在做,所以每个人都声称自己正在做……– Dan Ariely

这句话很贴切。我认识的许多初级数据科学家(包括我自己)都想进入数据科学领域,因为这个行业可以使用全新酷炫的机器学习算法来解决复杂的问题, 从而对企业产生巨大影响的。它给了我们一个机会让我们感到自己所做的工作比以往任何时候都重要。但是,通常并非如此。

我认为,期望与现实不符的事实是许多数据科学家离开的主要原因。造成这种情况的原因有很多,我可能无法提供详尽的清单,但在这篇文章我实质上提供了我本人遇到的一些原因的清单。

每个公司都不尽相同,所以我不能一一列举,但许多公司雇用的数据科学家都没有合适的基础架构来开始去从AI中获得价值。这导致了AI中的冷启动问题。再加上这些公司在雇用初级人员之前未能雇用资深/有经验的数据从业人员,已经为雇佣双方的幻灭和不愉快的关系埋下了伏笔。数据科学家需要会写出智能机器学习算法来推动洞察力,但由于他们的第一项工作是整理数据基础架构和/或创建分析报告,因此无法做到这一点。相比之下,该公司只想要一张他们每天可以在董事会会议上展示的图表。然后,该公司感到沮丧,因为他们没有看到价值被足够快地推动,并且所有这些导致数据科学家对他们的角色不满意。

罗伯特·张(Robert Chang)在他的博客文章中提供了非常有见地的引用来为初级数据科学家提供了建议:

评估我们的理想与我们所处环境的关键路径的契合度很重要。找到关键路径与你的关键路径最相符的项目,团队和公司。

这突出显示了雇主与数据科学家之间的双向关系。如果公司不在正确的位置或目标与数据科学家的目标保持一致,那么数据科学家放弃这个职业也只是时间问题。

对于那些感兴趣的人,Samson Hu撰写了一个精彩的系列文章,介绍了Wish的分析团队的建立方式,我也发现他很有见识。

数据科学家被幻灭的另一个原因与我对学术界被幻灭的原因相似:我相信我将能够对世界各地的人们产生巨大的影响,而不仅仅是在公司内部。实际上,如果公司的核心业务不是机器学习(我的前任雇主是一家媒体出版公司),那么你从事的数据科学可能只会带来很小的增量收益。这些可能加起来非常重要,或者你可能很幸运偶然发现了一个金矿项目,但这并不常见。

2. 政治至高无上

政治问题已经有一篇精彩的文章专门介绍它:数据科学中最困难的事情:政治,我敦促您阅读它。该文章的前几句话几乎总结了我想说的话:

当我早上6点起床学习支持向量机时,我想到:“这真的很难!但是,嘿,至少我将对我未来的雇主变得非常有价值!”。如果我能得到DeLorean,我会回到过去并称“ Bulls ** t!”对我自己。

如果您真的认为了解很多机器学习算法将使您成为最有价值的数据科学家,那么请回到上面我的第一点:期望与现实不符

事实是,业务最有影响力的人需要对您有很好的了解。这可能意味着您必须不断地做一些特别的工作,例如从数据库中获取数字,以便在正确的时间将其提供给合适的人,进行简单的项目,以使合适的人对您有正确的认识。我不得不在以前的位置上做很多事情。令人感到沮丧的是,这是工作的必要部分。

3. 你需要亲自处理任何数据

在曲意逢迎合适的人选之后,那些拥有全部决定权的人却常常不理解“数据科学家”的含义。这意味着您将既是分析专家又是报告专家,并且不要忘记您也将成为数据库专家。

不仅仅是非技术主管会对您的技能做出太多假设。其他技术同事假设您知道所有与数据相关的信息。您知道如何使用Spark,Hadoop,Hive,Pig,SQL,Neo4J,MySQL,Python,R,Scala,Tensorflow,A / B测试,NLP,任何机器学习(以及您能想到的任何其他相关数据)如果您看到上面写有所有这些的工作说明,请保持头脑清楚。这是一家不知道其数据战略是什么的公司的工作说明,他们会雇用任何人,因为他们认为雇用任何数据人都可以解决他们所有的数据问题。

但这并不止于此。因为你了解所有这些信息,并且显然可以访问所有数据,所以你被要求在某个限期之前得到所有问题的答案。好吧,它应该在5分钟前落入相关人员的收件箱中。

试图告诉所有人您真正了解并控制的内容可能很困难。并不是因为任何人实际上忽略你,而是因为作为一个缺乏行业经验的初级数据科学家,您会担心人们对你的意见的不重视。这可能是非常困难的情况。

4. 在一个单独的团队中工作

当我们看到成功的数据产品时,我们通常会看到具有智能功能的专家级设计的用户界面,最重要的是,有用的输出至少可以被用户感知并解决相关问题。现在,如果数据科学家仅将时间花在学习如何编写和执行机器学习算法上,那么他们只能是团队的一小部分(尽管有必要),从而导致产生有价值产品的项目取得成功。这意味着被孤立的工作的数据科学团队将难以提供价值!

尽管如此,许多公司仍然拥有数据科学团队,他们会提出自己的项目并编写代码来尝试解决问题。在某些情况下,这足够了。例如,如果仅需要一个季度生成一次的静态电子表格,那么它可以提供一定的价值。另一方面,如果目标是在定制的网站构建产品中优化提供智能建议,那么这将涉及许多不同的技能,这对于绝大多数数据科学家来说都是难以做到的(只有真正的数据科学独角兽才能解决此问题)。因此,如果项目由被孤立的数据科学团队执行,则很可能失败(或者花费很长时间,因为组织孤立的团队在大型企业中进行协作项目并不容易)。

总结

因此,要成为行业中有效的数据科学家,仅在Kaggle竞赛中取得出色成绩并完成一些在线课程是不够的。不幸的是(取决于您以何种方式看待)涉及理解层次结构和政治如何在企业中发挥作用。寻找可以满足您需求的数据科学工作时,寻找与您的关键路径保持一致的公司应该是一个主要目标。但是,您可能仍需要重新调整对数据科学角色的期望。

如果有人有任何其他意见,问题或反对意见,请随时发表评论,因为有建设性的讨论对于帮助有抱负的数据科学家做出有关其职业道路的明智决定是必要的。

希望我没有让你失业。

原文作者:Jonny Brooks-Bartlett

翻译作者:Chen

美工编辑:过儿

校对审稿:Dongdong

原文链接:https://towardsdatascience.com/why-so-many-data-scientists-are-leaving-their-jobs-a1f0329d7ea4