机器学习在安全领域撒过的美丽的谎言

机器学习在安全领域撒过的美丽的谎言

与你读到的可能相反,机器学习(ML)并不是神奇的“仙尘”(pixie dust)一般来说,ML适用的问题范围狭窄,这些问题具有大量的可用数据集,模式也具有高度可重复性或可预测性。大多数安全问题既不需要机器学习也不受益于机器学习。许多专家,包括谷歌的同事,建议在解决复杂问题时,应该在尝试ML之前用尽所有其他方法。如果你想了解更多关于机器学习的相关内容,可以阅读以下这些文章:
5种有效方法:提高机器学习模型的准确性
机器学习的一站式library清单
你知道吗?SQL也能做机器学习!
群体学习(Swarm Learning)的工作原理——结合区块链和机器学习的更优解决方案

ML是统计技术的广泛集合,即使没有明确的正确答案,它也允许我们训练计算机来估计问题的答案。一个设计良好的应用于正确问题类型的机器学习系统,可以发现原本无法获得的见解。

一个成功的ML示例是自然语言处理 (NLP)。NLP允许计算机“理解”人类语言,包括习语和隐喻。在许多方面,网络安全面临着与语言处理相同的挑战。攻击者可能不会使用习语,但许多技术类似于同音异义词,即拼写或发音相同但含义不同的单词。一些攻击者技术是类似于系统管理员出于完全善意的原因而采取的行动。

来源:marcos alvarado在Alamy Stock上的图片

组织的IT环境因目的、架构、优先级和风险承受能力而异。不可能创建在所有场景中广泛解决安全用例的ML或其他的算法。这就是为什么ML在安全领域的大多数成功应用都结合了多种方法来解决一个非常具体的问题。它们都结合了多种方法来解决一个非常具体的问题。有些很好的例子,垃圾邮件过滤、DDoS或bot缓解以及恶意软件检测。

Garbage in, Garbage Out

ML最大的挑战是解决问题的相关数据的可用性。对于监督机器学习,你需要有正确标记的大型数据集。例如,为了构建一个识别猫照片的模型,你需要在许多标记为“猫”和“非猫”的照片上训练模型。如果你没有足够的照片或者它们的标记很差,那么你的模型将无法正常工作。

在安全方面,一个著名的监督机器学习用例是无签名恶意软件检测。许多端点保护平台 (EPP) 供应商使用ML来标记大量恶意样本和良性样本,以“恶意软件的样子”训练模型。这些模型可以正确识别规避变异的恶意软件和其他更改到足以躲避签名但仍然是恶意的文件。ML与签名不匹配。它使用另一个特征集预测恶意软件,并经常捕获签名方法遗漏的恶意软件。

但是,由于ML模型是概率性的,因此需要进行权衡。ML可以捕获签名遗漏的恶意软件,但它也可能遗漏签名捕获的恶意软件。这就是为什么现代EPP工具使用混合方法,将ML和基于签名的技术相结合以实现最佳覆盖。

假阳性

即使机器学习模型是精心设计的,在解释输出时也会带来一些额外的挑战,包括:

  • 结果是概率。ML模型输出某事的可能性。如果你的模型设计用于识别猫,你将得到类似“这东西80%是猫”的结果。这种不确定性是ML系统的固有特征,可能会使结果难以解释。80%的可能是猫,这个结果满意吗?
  • 模型无法调整,至少最终用户无法调整。为了处理概率结果,工具可能会让供应商设置阈值,将其折叠为二进制结果。例如,猫识别模型可能会报告任何>90%的“猫”都是猫。你对猫的容忍度可能高于或低于供应商设置的容忍度。
  • 假阴性(FN),即未能检测到真正的错误,是机器学习模型一个痛苦后果,尤其是调整不佳的模型。我们不喜欢假阳性 (FP),因为它们浪费时间。但FP和FN之间存在权衡。ML模型经过调整以优化权衡,优先考虑“最佳”FP-FN速率平衡。然而,“正确”的平衡因组织而异,这取决于他们个人的威胁和风险评估。使用基于ML的产品时,你必须信任供应商为你选择适当的阈值。
  • 没有足够的环境进行警报分类。机器学习是从数据集中提取有效的预测而不是任意的“特征”。想象一下,识别一只猫恰好与天气高度相关。没有人会这样推理。但这就是机器学习的意义所在——找到我们无法找到的模式,并大规模地这样做。然而,即使预测的原因可以暴露给用户,通常在警报分类或事件响应情况下也无济于事。这是因为最终定义ML系统决策的“特征”针对预测能力进行了优化,而不是它的实际相关性。

任何其他名称的“统计”效果也一样好吗?

除了机器学习的优缺点之外,还有一个问题:并不是所有的“机器学习”都是真正的机器学习。统计数据会给你一些关于数据的结论。ML根据你现有的数据进行预测。营销人员热衷于使用“机器学习”和“人工智能”来表示某种现代、创新、先进的技术产品。然而,人们通常很少考虑这项技术是否使用ML,更不用说ML是否是正确的方法。

那么,ML能否检测到恶意?

当“恶意”定义明确且范围狭窄时,ML可以检测到。它还可以在高度可预测的系统中检测与预期行为的偏差。环境越稳定,ML 越有可能正确识别异常。但并非每个异常都是恶意的,操作员并不总是具备足够的环境来响应。ML的超能力不在于替代,而是在于扩展现有方法、系统和团队的能力,以实现最佳覆盖范围和效率。

感谢阅读。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Anna Belak
翻译作者:明慧
美工编辑:过儿
校对审稿:Miya
原文链接:https://www.darkreading.com/vulnerabilities-threats/the-beautiful-lies-of-machine-learning-in-security