数据科学家六大常见错误

数据科学家六大常见错误

 在我从事数据科学和预测性分析工作的这些年里,我注意到了很多行业新手甚至一些老手都会遇到的错误。我相信这些错误会将一名数据科学家的事业置于了如泰坦尼克号一样的即将撞上冰山的境地。在本文中,我将会列出6个最严重、根本性的错误,也会借助一些经典名言给出如何避免这些错误的建议。首先,让我们来明确一下当数据科学家的目的。在我看来,这和当侦探的目的是共通的的。下面这句夏洛克·福尔摩斯的名言很好地总结了这个目的:
 

我是夏洛克·福尔摩斯。我的工作就是去了解那些其他人不了解的事情。

——夏洛克·福尔摩斯

 

言归正传,以下是我列出的这6个错误:

1.     对于分析工具的关注度高于对于问题本身的关注度

2.     不够重视沟通

3.     毫无目标(或计划)地分析数据

4.     阅读量不够

5.     简化不当

6.     不擅安利自己

  1) 对于分析工具的关注度高于对于问题本身的关注度

数据科学家使用的工具除了SAS,R,Python等编程语言之外,还有一些统计与机器学习相关的方法及算法。我希望数据科学家把注意力从这些工具上转移,并不是说这些工具不重要。如孔子所言,熟练运用工具是成为优秀的匠人的关键。可是不妨想象一下,如果一个医生更擅长使用他的听诊器而不是诊断病情会怎么样?有一些数据科学家过于纠结解决问题的工具,最终忽略了问题本身。我认为,一个好的数据科学家应该多去思考运用工具的目的以及这些工具可以怎样帮助他解决手中的问题

工欲善其事,必先利其器。

——孔子

 

  2) 不够重视沟通

作为数据科学家,我们需要去与人沟通一些非常重要的事情:一些挑战业务常态或者改变公司业务运作方式的事情。因此,我们不能把沟通放在分析的最后一位。恰好相反,“边调查,边分析,边沟通”往往会提高他分析的质量。好的沟通像一个情节紧密、引人入胜的故事。当一个人把沟通和分析放在同等的位置之后,他的分析会像好的故事一样流畅。在我看来,一位优秀的数据分析师应该从日常中拿出一些时间来组织他的阶段性结果和想法,就像是在撰写故事一样。

历史的经验告诉我们,一个很粗糙的工具在熟练的工匠手中打造出的作品会往比从新手手中精美的仪器打造出的作品更美好。

——卡尔·培生

最重要的事情往往难以启齿,因为言语会缩小它的重要性。

——史蒂芬·金

像智者一样思考,像常人一样交流。

——威廉·勃特勒·叶芝

 

  3) 毫无目标(或计划)地分析数据

由于很容易得到数据,数据科学家往往会直接“切入主题”,而忽略了思考自己为什么要分析这些数据。这个错误是致命性的。数据科学是一个以明确的问题和目标为始的高度结构化的科学。所以,明确自己的假设方能达到目标。

结论和假设的区别在于假设是需要事实来检验真伪的。作为数据科学家,我们要客观对待自己的假设。我们更应该寻求真理,而不是寻找支持自己分析的证据。而且,在分析时,我们肯定会找到一些与假设无关的线索。我们要做的是像侦探一样基于这些线索来撰写我们的故事。尽管如此,带着清晰的问题分析对于数据科学家来说是非常重要的。

如果你不知道自己想要什么,最后你会得到一大堆你不知道的东西。

——恰克·帕拉尼克

评判一个人的标准在于他能提出怎样的问题,而不是他能给出怎样的答案。

——伏尔泰

在没有任何证据的情况下是不能进行推理的。那样的话,一个人很有可能会扭曲事实。

——夏洛克·福尔摩斯

 

  4) 阅读量不够

在我的职业生涯中,阅读帮了我很多。阅读启发了我的灵感,并让我更好地去把这些灵感告诉世人。全世界的数据科学家都在忙于一些酷炫的事情,而阅读则是通往这些宝藏的大门。除了书籍,学术文章、科研论文、白皮书、博客和LinkedIn文章都是很好的阅读资源。阅读是需要  高度自律的,而且当阅读量过于大时,我们很容易放弃它。可是我认为,每天做阅读应该是数据工程师工作的一部分。我建议大家每天拿出至少一个小时来阅读,这样大家的职业生涯会更成功。

Jojen说过,读书人在临终之前已经领略了千种人生,而不阅读的人只有一种。

——乔治·雷蒙德·理查德·马丁

正是你读过的那些并不是非读不可的东西决定了你将会是怎样的人。

——奥斯卡·王尔德

 

  5) 简化不当

即使被复杂的数学、黑客技巧和分析包围,数据科学的核心往往只是一个很简单的想法。为了找到这个核心,我们需要简化事物。大多数人以为我们简化想法是为了他人,比如说客户。恰好相反,简化想法其实是为了给我们自己提供方便:它会帮助我们更好地理解自己的工作。

 

凡事应简洁,但不可过于简单。

——阿尔伯特·爱因斯坦

至繁归于至简。

——达·芬奇

人类历史即每个人展示自己的短处的历史。

——亚伯拉罕·马斯洛

 

  6)不擅安利自己

很多数据科学家认为推销并不是他们的工作。这是错误的。不论你是与内部客户还是外部客户合作,推销都是你工作中很重要的方面。即使是最伟大的科学家依然需要推销他们的成果,比如爱因斯坦推销相对论,达尔文推销进化论,牛顿推销重力学。如果这些发明家没有推销他们的作品,人类就不会拥有像如今一样伟大的文明。
数据科学家要确保他们的工作与公司的业务是一个整体。这就需要一些“安利”的技巧了。如果一个人相信他的研究成果是有价值的,那么他就一定要好好推销自己的成果并努力展现出它的价值。

推销是没有止境的,它一直贯穿于我们的生活中。我们每个人都是推销员。

——詹姆斯·卡什·帕尼

我是艺术家。而且唯有将我的作品公之于众的时候我才能被称为是艺术家。艺术就是在那时产生的。

——瑞斯·伊凡斯

后记

以上都是我在从事数据科学工作时总结出的一些经验。在我刚踏入这个行业时,我并不知道这些事情,但是我希望这些建议能帮助到大家。

“来吧,华生,快来!”福尔摩斯喊道,“游戏开始了。无需多言,快来!”

——夏洛克·福尔摩斯

 

作者:Roopam Upadhyay

翻译:Xinyang