Kaggle 大师 Khoi Nguyen 访谈录

Kaggle 大师 Khoi Nguyen 访谈录

“我的Kaggle之旅花费了很多时间、精力、计算能力、沮丧和无数个不眠之夜,但最主要的是沮丧。”

在本周的ML从业者系列中,《分析印度》杂志联系了一位Kaggle大师Khoi Nguyen,他目前排名111,在四项比赛中获得金牌。在这次采访中,霍伊分享了他在机器学习过程中的宝贵见解。

Khoi拥有河内科技大学的计算机科学学士学位。他目前在越南顶级即时通讯应用Zalo担任数据科学家。他在Zalo的工作包括使用机器学习和NLP来改善用户体验。

霍伊对机器学习的迷恋大约始于三年前,当时他在做一个项目,涉及在Android设备上部署深度学习模型。谈到这个项目以及它如何激发了他对算法的兴趣,霍伊解释说,“当时训练一个TensorFlow模型是多么具有挑战性。我最终用c++重写了我的版本,使用了反向传播、波束搜索和其他所有的。当我最终成功的时候,我意识到我真的很喜欢这个概念,并开始考虑改变。”

霍伊没有接受过正式的机器学习训练,所以开始的时候,他承认编程是一个巨大的挑战。“我必须复习很多数学知识。这是一个反复的过程;每当我遇到不懂的东西,我就得回去,试着去理解那个层次的东西,用我自己的方式去理解。慢慢的事情变得容易了,但一开始很费时间,有的甚至现在也是如此。”

他的Kaggle之旅

“虽然比赛中使用的技术通常都是特定的,但随着时间的推移,它可以为我在现实世界处理问题时打开新的视角。”

霍伊在搜索数据集的时候接触了Kaggle。后来他参加了比赛。他的第一个比赛是空中客车船舶探测。霍伊说:“比赛的结果是一场灾难,但是我真的很享受比赛,像往常一样,我希望能打好比赛。

两年后的今天,霍伊获得了4枚金牌、3枚银牌和2枚铜牌,并进入了Kaggle排行榜的前100名。尽管考虑到竞争的程度,前100名并不是简单的成绩,但科伊仍然认为自己还没有达到最高水平。他解释说,到目前为止,他已经消耗了大量的时间、精力、计算能力、沮丧和无数个不眠之夜。

谈到Kaggle比赛所面临的挑战,Khoi以他最喜欢的比赛之一谷歌QUEST Q&A为例。这个比赛要求参与者在多个主观方面对问题和答案进行排序。研究对象的范围很广,从问题的写作水平和信息丰富程度,到非常奇怪的具体问题,比如问题会询问如何拼写一个单词。

我的方法相当独特,”霍伊解释说。“由于这是一个对标记任务,许多团队为变压器部署了通用的输入架构,即[CLS][SENT_0][SEP][SENT_1]。相反,我使用了一个类似连体的模型,其中问题和答案分别被输入到模型中,然后我取每个问题的表示,并将其连接到一个向量,用于最终的回归层。这这源于这样一个观察:通过使用通用方法,将问答对的可能长度限制为转换器允许的最大长度(通常为512),使用我的方法,它可以达到1024个。

有趣的是,我最好的单一模型使用了XLNet主干,我认为这不是一个受欢迎的选择。”他补充道。

谷歌任务竞赛也使用了斯皮尔曼相关性作为度量,霍伊称之为“魔法”。

霍伊强调了保持本地验证管道稳定的重要性,他建议这将有助于开始任何类型的优化。

关于框架,霍伊使用PyTorch进行原型/竞争,TensorFlow进行生产。

回忆起Kaggle在他的ML之旅中是多么的有用,Khoi解释了Kaggle是如何被用来使自己的技能多样化的。“除了能从Kaggle那里获得的原始知识外,我认为这有可以使我的技能多样化,通过引入具有明确目标的新问题,激励我找到解决问题的最佳方法。虽然在竞争中使用的技术通常是非常具体的,但随着时间的推移,它可以为我在现实世界中必须处理的问题打开新的视角。”

他同意,拥有Kaggle大师的头衔确实有助于一个人的简历在人群中脱颖而出。然而,在一次采访中,一个人仍然要证明自己,而且没有免费通行证。霍伊警惕的说。

“我看到有些人试图用不道德的方法“玩弄”排名系统,有些人甚至进入了大师级。也许你可以用它来愚弄一些无知的人,但你很快就会被识破的。”

霍伊还警告有抱负的人不要把竞赛误认为现实世界的问题。“竞赛是一种非常具体的数据科学问题。你可以使用一个干净的数据集、一个固定的度量标准以及在大多数情况下很少出现的性能约束来处理问题。这是不切实际的。具有讽刺意味的是,我发现最困难的部分是定义问题本身:机器学习/数据科学可以解决什么问题来带来价值。“如何”解决通常是比较容易的部分,”霍伊解释道。

“我没有什么特别的技巧,但会一直努力,直到找到合适的解决方法。而且我总是试图找到有趣的问题来努力解决,这样我就不会失去动力。”

对于初学者,霍伊推荐Chai Time Data Science, 桑亚姆·布塔尼(Sanyam Bhutani)采访成功的数据科学家和Kagglers,他们有很多深刻的见解,或者是Abhishek Thakur的Youtube频道。在书籍方面,霍伊推荐迈克尔•尼尔森的《神经网络和深度学习》。霍伊认为自己更像一个亲力亲为的人,因为他通常喜欢首先跳入一个问题,并在途中收集资源来应对任何出现的新挑战,这样做通常会促使人们阅读很多新材料。

ML的未来

“我们还没有在数学层面上理解为什么我们最好的模型能够工作;你的LSTM不会让你在股市上成为百万富翁。”

当被问及有关ML的大肆宣传时,霍伊说,如果机器学习仍然是一个黑匣子的话,它将永远停留在非关键的应用中。因此,霍伊预计,未来可解释模型将蓬勃发展。

尽管如此,霍伊也承认人们在应用人工智能时过于乐观,而我们对AGI仍然一无所知。

他说:“我们还没有从数学层面理解为什么我们最好的模型可以工作,你的LSTM不会让你成为股票市场的百万富翁。

这也是为什么霍伊建议人们不要把竞争机制看得太严肃的原因。固定的、单一的度量标准意味着古德哈特定律(Goodhart ‘s law)将起主导作用。在某种程度上,这不再是泛化的问题,而是对正确的噪声进行过拟合。我们的目标应该是在产品投入生产后,让人们觉得有用。你的模型只在数据允许的范围内有效,因此必须在数据收集/清理方面投入大量精力。这在比赛中经常缺失,但在实践中却至关重要。”

原文作者:RAM SAGAR
翻译作者:过儿
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://analyticsindiamag.com/khoi-nguyen-kaggle-master-interview-data-science/