无监督机器学习——网络安全的未来

网络安全就像汤姆和杰瑞！虽然汤姆总是尝试新的方法来抓住杰瑞，但他还是设法以某种方式逃脱。大多数网络安全团队发现自己处于 Tom 令人羡慕的位置，在那里他们可以尝试任何他们喜欢的方法，Jerry 总是逃脱并尝试下次以更有创意的方式获得奶酪！由于代理服务器、僵尸网络和自动化脚本等各种在线工具的存在，当今的网络犯罪分子变得更加危险。他们没有发动网络攻击的只有一个方法，并在网络犯罪的成本约为每年$ 2万亿，网络安全公司，他们可以通过模拟真实用户的活动，利用欺骗设备等。在如此高风险的游戏隐藏身份绝对需要通过无监督机器学习来提高其性能。

无监督机器学习——网络安全的未来

随着无监督机器学习的普及，这些天肯定会发生这种情况。根据 O’Reilly 的一项研究，无监督机器学习的使用率在 2019 年增长了 172% 。这肯定会反映在网络安全领域以及越来越多的公司采用这项技术。

任何公司的网络安全主要关注两个不同的方面，即：

如何应对系统上已经发生的攻击或熟悉的网络攻击类型。如何应对它们并实施预防措施？
如何应对全新且前所未见的攻击。如何识别此类攻击以及消除它们的解决方案是什么。

虽然公司可以使用传统的网络安全方法解决第一方面的问题，但没有解决方案可以处理第二种情况。随着网络攻击不断发展并变得更加不可预测，第二种情况变得越来越重要。这就是无监督机器学习的用武之地。

因此，让我们了解机器学习以及如何在网络安全环境中使用不同类型（如监督式、无监督式和半监督式）。

网络安全背景下的机器学习类型

1. 监督机器学习

监督式机器学习是机器学习中最常见的方法。要理解这种类型，请想象一个学生需要老师明确地教授所有内容。这个学生会很好地重复和使用老师已经教给他的信息，但他自己什么也学不到。不幸的是，该学生只会在某些情况下表现出色（例如考试！），但总的来说，这将是一个很差的学生。监督机器学习算法也是如此。在这里，算法从训练数据集中学习，其中数据被标记并基于该数据集对新数据进行预测。

现在，这种方法通常很好，但对于像网络安全这样的动态和不断变化的领域来说，情况并非如此，监督式机器学习无法跟上。毕竟，黑客不只是坚持算法学到的主题！这意味着受监督的机器学习算法将能够识别经过训练可以识别的网络攻击。但是，如果有任何新的攻击，那么算法将完全失败。考试出大纲就应付不来了！在这种情况下，机器学习工程师将不得不使用基于新攻击的数据标签重新训练算法，当它学会这些时，可能会产生更多的新攻击。显然，监督机器学习算法在这方面会被超越。这就是无监督算法介入的地方。

2. 无监督机器学习

如果说有监督机器学习算法是所有信息都被老师灌输的学生，那么无监督机器学习算法就是不需要太多指导，可以自己学习信息的天才学生。这个学生不受只教特定事物的限制，但他通过探索和理解信息从任何事情中学习。所以这个学生在很多情况下都很好，因为他可以在问题出现时解决。这也是无监督机器学习算法的情况。在这里，算法在无人监督的情况下寻找数据中的底层结构，以便越来越多地了解新情况。

这种算法更适合网络安全。它可以处理多种类型的网络攻击，无论它以前是否见过，因为它不会尝试根据已经学到的知识来识别网络攻击。相反，它识别系统中因网络攻击而发生的异常。因此，这意味着无监督机器学习算法将为您的系统创建一个基线，其中一切正常。那么如果系统中出现任何可疑的行为，比如网络中的数据传输突然增加或者传输了一些通常不会发生的文件，这种行为就会被标记为异常和网络攻击的迹象。

例如，无监督机器学习是识别基于物联网的零日网络攻击的最佳选择。如今，有许多物联网设备连接到云端，可用于无数目的，包括零日网络攻击。这些攻击利用系统中存在的任何漏洞，因此它们没有任何固定模式或上下文。这就是监督机器学习算法无法识别这些攻击的原因，而无监督机器学习可以证明是无价的。

3. 半监督机器学习

从名字本身就可以明显看出，半监督机器学习算法是一个既向老师学习又向自己学习的学生。这种类型的机器学习代表了两个世界中最好的，它是有监督和无监督机器学习的结合。该算法使用少量标记数据（如监督机器学习）和大量未标记数据（如无监督机器学习）来训练算法。标记数据可用于部分训练机器学习算法，这种部分训练的算法也可以有机地找到见解。

半监督机器学习算法很可能是网络安全的完美组合。该算法可以使用无监督学习来识别系统中因特定网络攻击而发生的任何异常，然后将该网络攻击标记为威胁，如果将来再次发生，它可以使用监督机器学习进行识别。通过这种方式，半监督机器学习算法体现了两种类型的优点，因为它可以不断地寻找系统中任何干扰和偏离规范的情况，同时提供快速识别网络攻击的规定。之前已经发生并消除它们。

在网络安全中采用无监督机器学习

在网络安全行业采用无监督机器学习方面仍有一些犹豫，并且有充分的理由。这种类型的机器学习完全基于反动性能。由于数据没有预先标记，无监督机器学习算法只能在攻击发生时做出反应，无法实施任何主动方法。此外，无法衡量其对抗攻击的有效性，这可以理解，这使得行业不愿将资金投资于这项技术。

然而，关于网络安全中的无监督机器学习仍然有很多炒作，因为这项技术是朝着正确方向迈出的一步。对此进行投资无疑会产生结果，因为无监督机器学习确实是网络安全的未来。虽然网络攻击变得越来越有创意，可以使用不同的工具和技术，但网络防御也必须提高其竞争力。在这方面，无监督机器学习可以证明是无价的，因为它可以识别系统中的异常情况，以发出多种类型的网络攻击，无论它们变得多么先进。