3分钟让你清清楚楚地明白为什么需要女数据科学家?

3分钟让你清清楚楚地明白为什么需要女数据科学家?

今日份知识你摄入了么?

数据科学领域的曾经想寻找“全能型”人才。应聘者最好能精通编程和计算机科学,掌握了统计、计量和贸易的知识,最好再擅长数据可视化 (data visualization) 。这样的人确实有,后来他们都… 当然是非常优秀。但随着这一领域的进化,越来越多的公司开始招揽擅长特定技能的人才。

数据科学团队的成功的秘诀是:团队。团队中有负责数据收集、清理和维护的工程师,有负责分析数据的数据分析师或经济分析师,有能够良好呈现数据的数据可视化专家。数据科学团队的成功在于团队中的每一个成员都能够贡献他们自己的技能、经验和见解。技能的多样性给解决问题带来了更多的可能性,但今天我们要说的是,生活经历的多样性也会使一个团队更加强大。社会经历也有助于数据分析的发展。

数据建模决定着电视的播放内容、超市里商品摆放的位置,也决定着警力资源的分配、一个罪犯再犯的概率。如果数据完全没有偏差,如果建模也不需要“人”来操作,那么我们将通过数据建模得到“完美的最优解”。但事实是,数据建模离不开“人”的输入,数据的收集也不能做到毫无偏差。失之毫厘,差之千里。

更本质的问题的是,是数据科学家们在决定着哪些数据值得分析。也就是说,如果一群数据科学家有着相似的背景和兴趣,他们所探索的数据世界就只是狭隘的,他们自己感兴趣的一部分,他们所能从数据中获取的见解也是有限的。我们称这种现象为数据分析的“同质化”。

这种数据分析的“同质化”,不仅来自于教育或技术背景的相似,更来自于数据行业从业者性别的单一。据统计,85%的数据科学家和74%的预测分析师都是男性,也就是说从事这两个职业的女性分别只有15%和26%。

这个事情,不是不好哦,就是 emmmm,不太好。

是女性不具有相关的专业技能吗?根据国家教育数据中心(National Center for Education Statistics)的统计,美国统计学专业学士学位的获得者中有43%是女性,经济学中有31%是女性。也就是说,具有相关技能的女生却没能进入这一行业。

女性数据科学从业比例的不足意味着,在数据分析中,我们所研究的问题,模型中采用的变量,甚至对于模型的解读,都受到选择性偏差的影响 — 大部分数据分析中的决定来自行业中就业比例更高的男性。我完全没有歧视的意思,但是男性,不可避免的,有他们,想不到的方面。

亚马逊发现,他们采纳的人工智招聘系统会根据过往聘用成功的数据,微妙地过滤掉应聘的女性。在亚马逊发现了他们算法的限制的同时,又有多少公司在盲目使用着充满偏见的算法而根本没有意识到这一问题呢?

还有的数据分析,即使拥有这精妙的算法,却造成了不可挽回的负面影响。塔吉特(Target,美国零售百货集团)曾经通过顾客的购物记录准确预测了顾客中怀孕人数的市场比例,并凭此给有孕妇的家庭寄送婴儿用品的宣传单。但他们没有意识到,怀孕的人可能是未婚先孕的少女,也可能是出于对家庭暴力的恐惧而不敢向自己的家人透露这个消息的人。如果塔吉特的数据团队中,有拥有类似人生经历或者能共情这种人生经历的成员,这一数据应用的负面结果也许就能避免。

如果不能从更多样的人生经历出发去考虑问题,数据的运用迟早会暴露出它缺乏人性经历的弊端。

英特尔在 2015 年计划要增加公司员工的多样性,三年后,女性和少数群体的聘用比例增加了63%,公司的收益也维持得非常好。根据摩根·士丹利(美国金融服务公司)的报告,性别的多样性有利于公司的利润增加,并能减少利润的波动。

数据科学尚是一个年轻的领域,我们还有机会能够塑造这一领域,使它探索的数据能够没有偏见地反映着我们的世界。也希望更多仙女们能考虑数据科学作为未来职业的方向,用你们的人生经历,为这个领域带来更加多样化的见解。