无故事,不人生——2017/10 Kaggle数据集奖前三名获胜者采访

无故事,不人生——2017/10 Kaggle数据集奖前三名获胜者采访

​原文作者:Mark McDonald

原文链接:http://blog.kaggle.com/2017/11/27/october-kaggle-dataset-publishing-awards-winners-interview/

翻译:Jingzi Zhang

背景:Kaggle 每个月都有发布数据集奖,Kaggle会从中选取优胜者,衡量标准可以在下面的链接中找到。这个奖项会持续到2017年底

https://www.kaggle.com/about/datasets-awards/datasets、

 

  1. 第一名, 美国过去50年大规模枪击 (1966 – 2017),发布者:Zeeshan-ul-hassan Usmani

  👉你能简单的介绍你一下你的背景吗?

我是一个从事人工智能的自由职业者,也是数据科学顾问。我在佛罗里达理工学院获得了计算机科学的硕士和博士学位。我曾在联合国,Farmer’s Insurance,沃尔玛,百思买,1-800-Flowers,Planned Parenthood,维多利亚的秘密,MetLife,SAKSAnalytics,北卡罗莱纳州卫生部和一些其他小公司,政府工作过,和美国,巴基斯坦,加拿大,英国,立陶宛,中国,孟加拉国,爱尔兰,斯里兰卡和中东的大学合作过。目前,我负责政府在网络上使用人工智能的咨询工作。这里有两个CNN的访谈,是关于我对数据集的力量以及谁会加入ISIS的一些想法。我最近出版了一本名为Kagglefor Beginners的书。我有一个妻子,四个男孩,两只猫和一只可爱的狗。

👉是什么原因让你想要在kaggle分享这个数据集呢?我的硕士论文是关于如何分析人群的表现来增加销量,我从那时起开始玩转数据集一直到现在。我在Kaggle陆续发布了 Pakistan DroneAttacks, Pakistan Suicide Bombing Attacks, My Uber Drives and My CompleteGenome这些数据集,我对我看到的结果感到很惊讶。总的来说,我的数据集的下载量接近7,000次,有123个Kernel和几十条评论。我见证了众包的数据科学界的力量,并且认为它应该用于崇高事业。最近在拉斯维加斯演唱会的大规模枪击事件令人心碎,我首先想到的是如何利用Kaggle的数据科学社区来解决或至少了解这个在美国流行的问题。

👉你从这组数据中得到了什么呢?不少东西。我看到了在定义和报告这个事件的透明度方面的巨大的差距。不同的消息来源报道了美国大规模射击事件的不同次数。联邦调查局关于大规模枪击事件的定义是,有四人或四人以上遇难。这与大众普遍认为的相反,我也发现了枪手里有许多白人和有精神健康问题的人(这告诉我们,如果我们可以预测,这些事件是可以预防的)。数据集也给了我使用外部数据源的信心,这些数据源可能被未经训练的人忽略。例如,大规模枪击的射手和美国国内家庭暴力或者他们游戏概况的关系。

👉你喜欢在这个数据集中看到什么样的问题被回答?我看到了很多很好的Kernel,例如,这个Kernel在数据探索分析方面做的很好,但是我真正想看到的是将这个数据集与外部数据源结合起来,看看是否有任何相关性,或者是不是有办法预测和防止未来的枪击。例如,和联邦和州法律规定的枪支所有权的数据集,和医疗报告和交通违法的数据集联合起来。、

 

2.  第二名,法国就业,工资,城镇人口,发布者:Etienne LQ (Etienne Le Quéré)

👉你能简单的介绍你一下你的背景吗?

我叫Etienne,是一个23的法国学生,刚刚从工程学院毕业获得OperationalResearch的硕士学位,马上要开始攻读Operational Research的博士学位。

👉是什么原因让你想要在kaggle分享这个数据集呢?为了帮助朋友找工作,我想建立一个互动地图,来高亮标出大公司在法国的位置。当我意识到Kaggle社区喜欢我提供的数据集时,我通过其他文件增加了数据集的量,以帮助Kaggler发现INSEE(法国国家统计和经济研究所)的数据的丰富性。

👉你从这组数据中得到了什么呢?没有什么特别令人惊奇的;

大公司都在大城市或者周围,高薪的工作也是;

可悲的是,法国男女之间的薪酬不平等依然十分明显,并随着工作的资质和员工的经验而增加。

 

3.  第三名, Electoral Donations in Brazil (巴西选举的捐赠)发布者:FelipeLeiteAntunes (Felipe Antunes)

👉你能简单的介绍你一下你的背景吗?

我是南半球最大的金融集团Itaú-Unibanco的高级数据科学家。在创办和关闭两家初创公司,并在另一家创业公司担任首席数据科学家之后,去年,我加入了Itaú-Unibanco。另外,我是物理学博士在读学生,我的论文题目是“数据科学在政府部门的应用”。我的主要兴趣是机器学习在复杂网络中的应用,重点关注欺诈检测。最近,我被邀请在Udacity做实况编码,并用Porto Seguro的比赛作为例子讲解。我曾经是Global Shaper和TEDx组织者。

👉是什么原因让你想要在kaggle分享这个数据集呢?我在发布the Electoral Donations Dataset时甚至不知道这个奖项。我的博士研究的一部分就是关于上次巴西选举中捐赠异常情况的调查。有很多指责说捐赠在选举中起着核心作用(你可以在这里和这里阅读相关文章)。使用这个数据集,我可以衡量捐款对选举结果的影响,并根据Benford’s law寻找是否存在欺诈。这是提交给Physica A的论文的主题和这个Kernel中的一部分。我的Github上可以找到更多的内容。

👉你从这组数据中得到了什么呢?通过运用成熟的统计方法来处理和分析巴西竞选活动的筹资和结果数据的话,我们是有可能找到有力的证据证明民主的原则被破坏了:候选人受赠的金额决定了他们是否获选。有强有力的证据表明捐赠人的财务申报有造假。如果这些申报是不真实的,就不可能真正确定这些钱是如何给候选人的,因此一旦候选人当选,我们就不知道他们将会维护哪些人的利益。

👉你喜欢在这个数据集中看到什么样的问题被解决?

这里有几个我很想看到的答案:

既然我们知道钱是影响选举的结果的,而且这些申报中已经有了欺诈行为,我们是否可以指出谁是嫌疑人?

谁捐赠给候选人,他们关心利益的是什么(也许这个其他数据集可以帮助)