哪些必备因素造就了一名优秀数据科学家?

哪些必备因素造就了一名优秀数据科学家?

作者简介:

Karolis Urbonas,亚马逊首席数据科学官;作为一名活跃的数据执行官,他有过构建高效高质量数据执行团队并且提供有建设性分析提案的经验。想阅读更多他的文章,可以浏览他的博客cyborgus.com.

何为数据科学家?

所谓数据科学家,其实是对通过挖掘数据来帮助人(或者机器)作出更基于信息的决策的统称,数据科学家的职能范围很广。想要脱颖而出成为优秀数据科学家的三个关键点是什么呢? 
经过这么多年关于数据和分析的工作,我发现其实处理数据的技术本身并没有在工作中发挥很大的作用。扎实的数据处理知识确实是被聘用的必要条件,但是这只是对数据科学家最基本的要求。成为优秀数据科学家的特质大多是非技术性的。 

TIPS 1  优秀的数据科学家比起学习并使用新的数据处理技术和工具更重视解决实际的问题

解决问题是非常重要的一点,尽管读者可能会觉得这一点看上去非常容易。其实每个职业都有类似的情况:人们更趋向于关注使用的工具/技术,实际处理的技术或者,更笼统一点,比起内容更重视形式。一个很好的例子就是当下正在进行的关于R和Python,哪个更适合数据科学哪个更好的讨论。或者是关于frequentist(频率论者)和Bayesian(贝叶斯论者)的统计学,哪一派会被废弃的讨论。或者是我最喜欢的例子,关于SQL的时代已经终结了,所有的数据都会被存在NoSQL的数据库里的讨论。这些都只是用来解决问题的工具。知名美国哲学家Abraham Kaplan提出一个概念叫做工具规律(the law of the instrument),他解释说:“我叫它工具规律,它可以被类比为:如果给一个小男孩一把斧头,他就会发现他遇到的所有事物都需要敲击。“这个规律被心理学家Abraham Maslow用另外一种方式解释并被人熟知,他解释为“如果你拥有的唯一工具是锤子,你就会把所有的问题都视为钉子。”

所有的数据趋向型职能的最核心功能就是通过从数据中撷取知识来解决问题。一名优秀的数据科学家首先会努力地理解手中的问题,然后确定想要解决这些问题的需求是什么,最后才会去决定最适合这个任务的相关处理工具和技术。在大多数商业案例中,你所接触的利益相关者不会在意你用的是什么工具,他们只会在乎对于困难问题的解答以及解决问题的方案。了解如何选择,使用并且学习工具和技术是成为数据科学家的最低要求。然而一名优秀的数据科学家一定明白,理解一个商业案例的主要支架结构和基础核心思想是成功完成一个数据科学project的重中之重。

TIPS 2  优秀的数据科学家想要去找到解决问题的办法并且能接受解决方案的不完美

对于任何数据科学家来说,陷入分析的死循环是非常危险的状态。所谓死循环就是一遍一遍又一遍地进入数据,寻找突破口,缩小范围,从宏观的角度分析,重新定义一个假设,关注最细微的细节,然后再重新思考这个问题。这种对于过程过度思考过度解读并试图去寻找一个“完美”解决方案的状态通常被叫做分析瘫痪。一名优秀的数据科学家明白其实是基本不存在完美的解决方案。同时,作为优秀的数据科学家,他们都明白其实一个有瑕疵却按时完成的方案比一个自认为完美但迟交的方案要好的多。事实上,Agile Software Development(敏捷软件开发)的方法软件行业力图适应现代商业环境的具体表现;具体来说,Agile Software Development 会采用能够适应过程中变化的规划,提早工作周期以及不断保持on-call更新完善的方法努力去防止分析瘫痪。这和优秀科学家的工作心态是相似的,他们想要去解决利益相关者的问题,并且他们知道利益相关者的需求会一直随着新的想法和思路的出现而变化。

说了这么多,其实最想要提出的建议是:不要过度思考和过度解读问题。相对的,你应该做的是分阶段地完成分析或者分阶段给工作过程建模并且经常性的向问题提出者汇报并且得到他们的一些反馈。这样的过程可以尽量地保证整个工作的过程是持续性的;并且这样的工作模式会使得你的通过数据分析后的最终解决方案在每次迭代反复中有所提升。

TIPS 3  优秀的数据科学家是极会交流并且能提出有效问题的人

读者们可能已经注意到在理解问题以及和利益相关者保持持续性沟通反馈的过程中需要大量的交流。但这只是交流的重要性最浅显的体现,更深层的重要性体现在能够提出对的问题。尽管这听上去又是可以轻而易举达到的一点,但其实并没有那么简单。数据科学家是最容易被认知理解偏见误导的职业。这个偏见“出现在当两个人交流时,双方都假设对方有足够的背景知识去明白自己说的话”。

当数据科学家和利益相关者一起琢磨一个问题或者交流一些自己的初始发现的时候,把所有的论述尽可能详尽直接地说出来是非常重要的,不要假设利益相关者会和你有一样多的相关背景知识。这一点在数据科学家有数量很大的假设和潜在方案的时候会变得非常难做到。

这个工作过程中最大的风险在于当利益相关者向数据科学家极简短地描述了问题;而这个数据科学家没有提出足够多的有效问题并且还鲁莽地对问题作出了自己的假设。如果发生这样的情况,数据科学家就会构建一个看上去解决了(利益相关者描述的)问题的解决方案。缺少了疑问和过多的假设会导致最终结果实际上解决的并不是之前被提出的问题,甚至会给出相反的建议和结论的情况。优秀的数据科学家从来不会在他们没有做深度分析前假设他们知道什么。他们知道目前的假设中哪些点是需要通过继续提问来决定是被确认或者否认的,所以哪怕他们对于自己的假设有99.9%的把握,他们也会问出很多的问题来做最后的判断。

但无论如何,想要成为一名真正优秀的数据科学家,你必须成为一个能清楚了解你所接手的商业案例所有细节并且能够有效解决问题的人。