当我们谈论机器学习时我们在谈论什么？

众所周知，NIPS Conference（Neural Information Processing Systems）是机器学习领域的热门会议之一。每年顶会都会有大量重量级的科研论文发表，从1987到2017年以来，已经有超过五万篇文章。这些论文针对机器学习，涵盖范围极为广泛，从神经网络到优化方法，应有尽有。

所以，作为一个数据分析的狂热分子，当然要了解机器学习圈当前比较热门的话题，才能做时代的弄潮儿鸭！让我们用code来分析这些论文，看看机器学习的新趋势吧！

首先，老生常谈，把数据导入进去，并且观察数据的特征。一般而言，科研论文是由题目，摘要和正文组成的（在官方保存的PDF格式的论文中，图表和表格并没有被保存下来）。每篇文章都讨论了一个新颖的技术，或者基于之前技术所做的改良。这次分析，我们使用的是NLP方法。

很明显，对于我们的分析而言，id,event_type和pdf_name对我们的预测无关紧要，应该删掉它们。我们只对与论文相关的文本数据和其发表的年份感兴趣。

为了直观看出机器学习受欢迎程度近年来的爆炸性增长💥，我们可以根据年份和每年发表论文的数量绘图，你就会明白什么叫“革命”了😊。从2007年到2017年，论文发表的数量翻了接近三倍。当然，这种弹簧式的增长，与计算机算力的提升，数据量的增加，算法的改良是分不开的。

在分析机器学习的趋势之前，我们需要对文本进行适当地处理。比如，用正则表达式的方法删去标点符号，把字母都变成小写。

为了确认我们到目前为止的分析是没有问题的，我们可以绘制一个词云图来看一下。可视化是确认我们的分析方向是否正确的关键哦~ 在错误的道路上越走越远可就南辕北辙了。而且，它还能帮助我们看出，在进行深度分析之前，是否还需要其他的数据预处理。

LDA分析可以从大量文字中，统计分析出这篇文章的主题，甚至小话题，也就是有哪些词通常会频繁出现，一起出现。

但是，LDA无法直接对文字进行处理。我们需要先把文本数据转化成向量。向量的每个数值都表示一个单词在文章中出现的次数。所以，如果我们把一个词汇表转换成一个向量，那么向量的长度就等于词汇表中出现的单词个数。比如，‘Analyzing machine learning trends with neural networks.’ 可能会被转化成（1，0，1，0，1，1，0）。

依据这个原理，我们就可以统计出最常出现的10个单词。可想而知，这个结果应该和上面的词云图相同才对。

是吧，这个结果和词云图是一致的，出现最频繁的词条确实是learning, neural 和networks等等。

分析完词条，热身之后，我们终于要分析论文们的常见话题了。值得一提的是，接下来的分析方法同样适用于数据，照葫芦画瓢就可以啦。

唯一需要进行微调的参数就是‘热门话题数量’。通常，需要以模型的复杂度为标准决定一次应该挑选出多少热门话题。尝试不同的参数，找出最合适的‘热门话题数量’。通过如下的分析，我们可以发现，大部分顶会论文的话题都是与这些相关：

> Neural networks

> Reinforcement learning

> Kernel methods

> Gaussian processes

这些热词和热门话题就是我们努力的方向呀！快朝着这些方向跑步吧🏃！想成为一个数据科学家，就要时刻了解行业大趋势，在了解传统技术的基础上，学习最新的技术。

原文作者：Akash Dubey

翻译作者：Zihuan

美工编辑：喝豆奶的Narcia

校对审稿：卡里

原文链接：https://towardsdatascience.com/the-hottest-topics-in-machine-learning-53b5ebd02e44

January 24, 2019 | Blog | Tags: 机器学习

当我们谈论机器学习时我们在谈论什么？

当我们谈论机器学习时我们在谈论什么？

如何撬开数据科学$180K年薪的大门？

三分钟带你走进支持向量机

Latest post

AgentOps：AI Agent 与 Multi-Agent 系统生产运维实战

再创新高-DeepSeek实习生日薪5500

当AI坐在面试桌两端：2026年下半年AI与数据科学岗位面试到底在考什么？

Courses

Events

Lecture 20: 100 Days of LLM Mastery

Learn to Use Cursor in an Hour

Agent Loop Engineering

Consulting

ABOUT US

Contact Info: