非结构化数据在人工智能领域的应用

非结构化数据在人工智能领域的应用

许多数据库都有精心安排成行和列的信息。每个部分的类型和角色是预先定义的,通常由软件强制执行,该软件在存储前后检查数据。对于数据科学家来说,研究这些表格以获取见解是简单的。

尽管有些数据源缺乏可预测性,但这并不意味着它们没有用处。这方面最常见的来源是用人类语言编写的可读数据文本。除了语法的基本规则以及讲故事和新闻的一些惯例之外,没有什么明显的结构可以用来理解信息并将其转化为可靠的数据。

非结构化信息的其他潜在来源来自自动收集,通常来自智能设备的遥测。物联网的蓬勃发展产生了数PB的信息,这些信息基本上是非结构化的。这些文件可能具有基本格式,包含一些预定义的时间戳字段,但传感器的读数通常以原始形式传达,几乎没有分类或解释。

一些人工智能科学家专门研究所谓的非结构化数据。从某种意义上说,所有数据文件都带有一定的结构或规则,挑战在于超越这种结构以获得更深入的见解。如果你想了解更多关于人工智能的相关内容,可以阅读以下这些文章:
数据科学和人工智能岗位有何差别?
北美人工智能:2021找AI相关工作的五个技巧
给你讲个恐怖故事,你可别哭啊:被2065年的强人工智能控制的你的一天
面试前你该知道人工智能的6个设计原则

如何分析非结构化数据?

主要是统计方法。这些算法寻找各种条目之间的模式或关系。相同的单词通常是否出现在同一个句子或段落中?一个传感器的某个值会在另一个传感器之前出现峰值吗?图像中有一些常见的颜色吗?

许多现代算法在数据源上施加了额外的基本结构层,这个过程通常称为嵌入数据。例如,可以在文本中搜索10,000个最常见的单词,这些单词在其他书籍或资源中并不常见。图像可以分成多个部分。这种结构是以后统计分析的基础。

这些嵌入的创建通常是一门艺术,也是一门科学。数据科学家所做的许多工作都涉及设计和测试各种构建粗嵌入的策略。

在许多情况下,领域专业知识可以使人类将理解从该领域转移到算法。例如,医生可能会决定所有高于某个值的血压读数都应归类为“高”。保险理算师可能会决定所有追尾碰撞都是后车的过错。这些规则为嵌入和数据带来了结构体系,以帮助对其进行分类。

非结构化人工智能的目标是什么?

目标因领域而异。一个常见的请求是在数据库中查找类似的项。在这组照片中是否发现了类似的面孔?这个文字是抄袭的吗?有没有类似简历的人?

其他人则试图对未来做出预测以帮助企业制定计划。这可能意味着预测明年会售出多少辆汽车,或者天气状况可能如何影响需求。这项工作通常比搜索类似条目更具挑战性。

有些仅用于分类数据。例如,安全研究人员希望使用人工智能在应调查的日志文件中查找异常情况。另一方面,由于监管机构施加的规定,银行程序员可能需要标记潜在的欺诈或可疑交易。一些分类算法可以简单地对数据进行编码。此外,机器视觉算法可以人脸识别,对人们一系列情绪中的高兴、悲伤、愤怒、担忧任何一种进行分类。

一些大公司如何处理非结构化数据?

大部分云公司已经扩展了他们的云服务,以支持从非结构化数据中创建数据湖。供应商都提供各种存储解决方案,这些解决方案与各种人工智能服务紧密结合,将数据转化为有意义的见解。

微软的Azure AI使用文本分析、光学符号识别、语音识别和机器视觉的结合,来理解可能是文本或图像的非结构化文件集。其认知搜索服务将建立数据的语言感知索引,以指导搜索和查找最相关的文档。机器学习算法与传统的文本搜索相结合,专注于人名或关键词等重要术语。数据科学家可以调整其知识挖掘算法,以解锁对数据的更深入研究。认知搜索服务是一个捆绑产品,但机器学习和搜索的各种算法也可以独立使用。

谷歌提供了广泛的工具来存储数据,应用各种人工智能算法。许多工具非常适合使用非结构化数据。例如,AutoML旨在简化机器学习模型的构建,它直接与谷歌的许多数据存储选项集成,以实现数据湖。Vision AI可以分析图像、解码文本,甚至对图像中人物的情绪进行分类。Cloud Natural Language可以找到关键段落、特定领域的单词和翻译词。所有产品均作为云产品销售,并根据使用情况计费。

IBM还支持使用数据存储和分析工具构建数据仓库和数据湖,这些工具来自统计分析和人工智能的主要算法。它的一些产品将其中的几个选项捆绑到以任务为中心的工具中。例如,寻找预测分析的团队可以使用他们的SPSS统计软件包与Watson AI Studio一起创建未来行为的模型。这些技术与IBM的存储选项(如数据库db2)集成在一起,既可以安装在本地,也可以在云中使用。

AWS支持使用各种产品为非结构化数据创建数据湖。例如,该公司的Redshift工具可以搜索和分析来自各种来源的数据,从S3对象存储到更结构化的SQL数据库。它简化了使用单个界面处理复杂架构的过程。亚马逊还提供各种机器学习、机器视觉和人工智能服务,可与所有数据存储选项配合使用。它们通常作为专用实例提供,有时作为无服务器选项提供,仅在使用时计费。

Oracle还提供了广泛的人工智能工具。Oracle Cloud Infrastructure (OCI) for Language经过优化,可通过查找重要短语和实体对非结构化文本进行分类。它可以检测语言、开始翻译并对作者的情绪进行分类。数据集成工具将人工智能的所有功能带入了数据分析和报告的无代码工具。一组预先构建的模型可以与标准语言配合使用,而一些团队可能想要创建自己的模型。

初创公司如何面对非结构化数据?

许多专注于人工智能、机器学习和自然语言处理的初创公司都将重点放在如何理解非结构化数据上。一些人专注于构建具有更深见解的算法,另一些人正在创建可以直接应用于问题的更好模型。

该领域与数据科学和预测分析有着天然的重叠。在文本和视觉数据中得到见解的过程是对创建报告和从更结构化的数据生成预测的自然补充。

一些初创公司专注于提供工具,以便开发人员可以通过直接处理数据来创建自己的模型。Squirro、TeX AI、RapidMiner、Indico、Dataiku、Alteryx和H2O AI等公司只是一些为使用自己的数据进行人工智能实验奠定基础的公司。

其中一个重点是自然语言处理。Hugging Face创建了一个平台,公司可以在该平台上与他人分享他们的模型,这个过程鼓励开发复杂的、更通用的模型。

Basis Technology还创建了一些工具,用于识别非结构化文本中的重要名称和实体。他们的产品Rosette搜索特征之间的关系并在它们之间创建语义图。

其他公司正在将自己的模型商业化,并直接转售。OpenAI正在创建大型的人类语言模型GPT-3,并通过API开放访问,因此开发人员可以添加其功能。它非常适合文案、文本分类和文本摘要等工作。该公司还在建立一系列书籍摘要。例如,GitHub在其CoPilot工具中使用了OpenAI技术,该工具就像一个智能助手,可以帮助程序员更快地编写更多代码。

Cohere AI也在构建自己的模型并通过API将其开放一些开发人员正在使用该模型对诉讼支持等项目的文档进行分类。其他人正在使用该模型来帮助作者找到合适的单词并创建更好的文档。

还有一些公司将重点放在自然语言模型上,来帮助完成特定任务。例如,你正在构建一个新的搜索引擎,为用户提供更多的控制权,同时也依赖人工智能来提取意义并找到最佳答案。其他公司则将类似的方法打包为API供开发人员使用。ZIR和Algolia正在构建一个具有语义模型的可插入搜索引擎,其性能优于纯关键字搜索。

许多初创公司希望将算法的影响力带到特定的行业或利基市场。他们可以利用非结构化数据,作为解决目标市场明确问题的重点部分。例如,Viz AI正在创建一个智能护理协调器,用于跟踪处于不同恢复阶段的患者。Socure希望改善银行和其他试图区分真实和不真实行为的行业的身份验证和欺诈检测。Exceed AI正在创建虚拟销售助理,帮助客户找到答案和产品。

人工智能和非结构化数据不能做什么

算法的最大限制是数据的质量。有时,结构化或非结构化的数据并没有太多相关性,无法为特定问题提供可靠的答案。如果没有明显的联系,或者有太多的随机噪声,那么算法就无法识别信号。

这一挑战对于非结构化数据更为重要,因为额外的、无用的字节更有可能成为信息的一部分。虽然这些算法旨在筛选信息并排除无用部分,但它们的作用仍然有限。非结构化数据中通常存在更多的噪声。

如果一个事件不经常发生,检测它可能不会产生太大的利润。即使算法成功,一些非结构化数据分析也不会有回报,因为成功的次数太少。

通常,定义不明确的问题会产生不确定的结果。有些方法使用非结构化数据得到见解,但如果没有明确的定义,答案可能同样不确定。许多非结构化项目的一大挑战是简单地定义一个明确的目标,以便可以准确地训练模型。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Peter Wayner
翻译作者:明慧
美工编辑:过儿
校对审稿:Miya
原文链接:https://venturebeat.com/2022/06/16/what-is-unstructured-data-in-ai/