如何使用机器学习对文本进行自动分类

如何使用机器学习对文本进行自动分类

来源:原文作者Shashank Gupta

翻译:刘天培

前言

数字化已经改变了我们处理、分析信息的方式。网上的信息现在以指数速度增长,网页、电子邮件、期刊、电子书、学习资料、新闻和社交媒体等都充斥着大量的文字信息。为了能够快速地应对不断增长的体量,自动化处理显得越发重要。

 

文字分类能够智能地将不同的文章分类,它运用自动化的机器学习技术,整个过程高效简洁。近年来人工智能和机器学习发展迅速,为我们做出了极大的贡献。他们的身影无处不在,正如Jeff Bezos(亚马逊总裁)在股东年报中指出:
 “在过去的几十年里,只要程序员能够清晰地写下任务处理的规则和算法,计算机就能够准确地自动执行。而机器学习的功劳在于,它使得那些不是那么清晰的任务也可以以同样的方式被计算机自动执行。”
本文将重点讨论文字分类,在之前的文章中,我们已经谈及背后的技术和技术的应用。本文将进一步陈述我们的成果。我们会讨论技术、应用、如何定制以及在使用我们的文字自动分类API过程中的分段问题。
意图、情绪和情感分析是文字分类的最重要的部分。在机器学习的拥趸之中,这些技术最为流行。因为它们每个单独都能构成一个大主题,所以对于每种分析,我们都开发了相应的分类器。不论文字有没有打好标签,我们都可以帮你分类。标记好的文字数据和没有标记的都有各自的应用范围。

 

监督文字分类

如果要做监督分类,你首先要准确地定义你需要的分类结果,然后遵循『训练和测试』的原则。在训练阶段,把数据和标签传入模型,使得模型的预测结果尽量接近已有的标签。在测试阶段,把新的数据输入,观察模型的预测和真实的结果的差距,进行评价。应用之一是垃圾邮件探测。每一封新来的邮件都会被自动分类,分类的依据是邮件的内容。语言种类的探测、情感、情绪和意图分析都属于监督学习的范围。一些特殊的应用包括分析百万级别的文字后进行紧急情况预测,这其实是一个字符串匹配的过程。我们提出了一个公众交通系统来探测这种情况的存在。在成千上万的数据中,寻找到及其罕见的紧急情况,要求模型有极高的精度。我们需要一个特殊的损失函数,并对训练数据进行合理的取样,还需要若干个模型,每一个都在前一个的基础上优化来解决问题。 

监督学习基本上可以看做让计算机模拟人的决策方式。计算机算法接收到一定量的标注训练数据,然后产出一个人工智能模型。这个模型会进一步被用在没有被标注的数据上,用来预测这些数据的标签,从而自动完成工作。我们提供的几个API就来自监督学习。我们的文本分类器能够识别150个一般性的话题。

 

 

无监督文本分类

当数据没有标注时,我们需要进行无监督学习。算法会寻找语言的自然内涵结构。但请注意,对于计算机而言的自然内涵并非人们通常理解语言的逻辑内涵。算法在数据中寻找相似模型和结构,然后把相似模式的文本聚在一起,每个聚类就代表一个类别的文本。以网页搜索为例,计算机通过人的搜索关键词来将网页分为相关的与不相关的,将相关的那些呈现给搜索者。每一个数据点都被嵌入高维空间,你可以在Tensorboard中看到它们。
在文字相似性的基础上,数据发掘工作能够找出相似的数据点。相似的相邻的数据聚在一起就成为了一类。
无监督学习在挖掘数据中的洞见时非常简洁易用。你可以随意地更改设置,毕竟你不用提供标记数据。所以任何语言的文字都能够直接适用。

 

定制文本分类

很多时候,进行机器学习的瓶颈在于没有那么多训练数据。许多人想用AI进行标记,但是这是鸡与蛋的问题。定制文本分类就成为了你在没有足够训练集情况下能够得到自己的分类器的方法。在ParallelDots上最新的研究中,我们提出了不需要训练集的方法:算法在大量的随机数据上学习句子和类别的关系,将关系一般化,扩展到其他数据上。我们称之为『训练一次,普遍可用。』我们还提出了几种神经网络算法,它们使用我们上面提出的方法,得到了不错的结果。其中最好的方法是LSTM模型。关键就在于如果句子和类别之前的关系可以模型化,新句子的关系也能够被预测出来。

 

如何创建一个定制文本分类器?

你需要注册一个ParallelDots账号,登录进入控制盘。按下『+』,创建第一个分类器。然后定义一些你需要的类别。请注意,为了更好的效果,你需要定义互斥的类别。

想要检查你的分类准确度,你可以分析一小部分数据同时稍微改变你的分类要求,然后发布。一旦发布,你会得到一个应用和它的id,意味着你可以调用API了。考虑到数据标记和准备是一大难题,定制分类器会是成本低廉的一个选择。我们还相信它会降低企业使用机器学习的门槛,使得工业界的许多问题更加容易。
作为一个AI研究组,我们持续推出最前沿的科技,带来更快更高效的解决方案。文本分类将是未来极有潜力的科技。随着因特网上的数据越来越多,机器学习算法将成为信息分类的一个重要利器。机器智慧的未来令人兴奋,请订阅我们,我们将与你们分享更多信息。