Python 大数据开源生态在网络安全防御中的探索与实践（一）-阿里云开发者社区

Python 大数据开源生态在网络安全防御中的探索与实践（一）

2019-12-18 2336

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

实时计算 Flink 版，5000CU*H 3个月

简介： 本文主要介绍了由阿里构建的 Python 大数据生态（包括 Alink，Mars，Pygrape 等）有效改善了目前大数据处理与 AI 模型训练不能使用一门编程语言进行高效开发的现状，并介绍了部分开源框架在网络安全防御中的初步探索与实践。

1、背景

当前有关网络黑客的书籍和工具呈现指数级的增长，已经进入了一个号称“全民黑客”的时代。相应的，许多企业和政府部门为了自身业务和数据的安全，部署了大量的由不同安全厂商提供的网络安全检测及防御设备，也同时积累了大量的网络安全数据，形成了数目可观的数据孤岛。如何把各个安全设备的数据孤岛汇总到一个统一的平台，使用人工智能的方式建立模型和网络，充分利用批量和实时的安全数据，检测出正在发生的网络攻击事件或潜在的网络威胁事件，进行及时准确的告警或预警，是目前许多企业和政府部门的迫切需求。

与此同时，在大数据和人工智能技术持续升温的今天，Python 已经是人工智能领域中事实上的第一编程语言，但是在大数据计算领域中主流的计算框架，如Spark 和 Flink，第一编程语言却是 Scala 和 Java，这就造成了大数据处理（包括批式数据与流式数据的处理）与模型训练不能统一使用一门编程语言进行高效开发的尴尬现状。

自从今年4月份的 Spark + AI Summit 2019 大会以来，Spark 和 Flink 框架都开始加大了对 Python 语言的支持力度。Spark 开源了 Koalas 项目，使其与 Python 的 Pandas 无缝兼容；Flink 重构了 PyFlink，极大地提升了 Flink 中 Python API 的性能。但这些都还只是在数据读写和数据处理的层面，要深入到特征工程、模型训练及预测的层面，目前 Koalas 和 PyFlink 尚无法很好的满足这样的需要。虽然 Spark 和 Flink 都有各自的机器学习组件，SparkML 和 FlinkML，但是 SparkML 所能支持的算法十分有限，FlinkML 更是大约有两年左右都没有更新了。所以，如何在分布式集群上，打通数据前向（包括数据读取、数据处理等）与数据后向（包括特征工程、模型训练、模型预测、模型部署等），并兼容现有的主流深度学习框架，如 TensorFlow, PyTorch 和 MXNet 等，不仅是 Spark 和 Flink 社区目前的一个发展方向，也是各个大厂的一个发力方向，包括阿里、因特尔、戴尔等。就我个人来看，其中阿里开源的许多框架，包括 Alink、Mars、Pygrape、GraphT、Euler 等，极大的加快了构建 Python 大数据开源生态的步伐。真可谓是良心之举！

2、Alink

先来说说最近才开源的 Alink，这款由“豪门战队”，阿里云 MaxCompute PAI 团队研发开源出来的框架，聚集了诸多的亮点，批流一体、在线学习、Link 方式等，真的是让我这样的做数据挖掘的码农有种欲罢不能的感觉。不过为什么我要说 PAI 团队是“豪门战队”呢？原因除了 PAI 平台的功能强大和使用方便以外，就是 PAI 平台的收费真心好贵呀！完全就像是给豪门公司准备的……我也只是在2017年 PAI 平台上线公测的时候，有幸在上面做了几个公司数据挖掘的任务，自从它开始收费之后，我就只能远远的注视着她了……一不小心，吐了个小槽，继续哈。虽说现在大多数像我这样不在豪门公司的数据挖掘工程师或者算法工程师用不起 PAI 平台，但是在我个人看来，Alink 也着实继承了 PAI 平台一些优秀的特性，比如 Pipeline 的方式，就可以轻松的将批数据与流数据统一在一个模型中使用，使用 linkFrom，linkTo 等 link 语句就可以轻松的实现基于批数据或流数据的模型训练，以及模型预测功能，从而构建在线学习的模型。

在网络安全防御的平台中，汇集了各个不同厂商安全设备的告警及安全信息数据，如果能利用近一段时间的历史数据，比如最近一个月的数据，挖掘已经发生的攻击事件或潜在的威胁事件，提取相关的特征建立模型或网络，再根据线上的实时数据，针对目前攻击行为发生的演变，以及新增的潜在威胁等状况，实时地优化利用批数据训练好的模型，从而提高模型的自适应能力以及预测的准确性，是目前我们项目在安全防御平台上一个重要的探索方向，如图一所示。

图一安全防御平台中在线学习模型的方案

当然，在线学习只是 Alink 的一个亮点，她还支持其他很多的算法，如图二所示。

图二 Alink框架算法

不过 Alink 也并不是十全十美的，就我的实际项目经历来说，我们项目中的数据源是 Elasticsearch，目前 Alink 还没有对接 Elasticsearch 的 Connector，无法直接与 Elasticsearch 进行数据交换。而且读取 Kafka 的 Connector 也只有对 Kafka 0.11.X 版本的，可惜我项目中使用的 Kafka 不是这个版本。可见，Alink 要快速应用在不同的项目中，除了更多、更可靠的算法库，与不同数据源对接的 Connector 也是十分重要的。

3、Mars

再来说说 Mars，在我看来，Mars 跟一门小众编程语言 Ocaml 有点像，本身的特性都很优秀，但是不太注重市场营销，这一点从 Github 上 Start 的数量就可以反映出一二，Mars 是在2018年12月开源的，目前的 Start 数量是1.7k，而 Alink 是在2019年11底刚刚开源的，目前的 Start 数量就已经是1.6k了。Mars 其中的一个亮点就是她的大规模分布式计算不依赖 Spark 和 Flink 等计算框架，直接在 K8S 的集群上运行 pip install 'pymars[distributed]' 命令就可以安装分布式的 Mars 框架了，非常方便。而且在代码上，不仅做到了与 Numpy，Pandas，Sklearn 库的完美兼容，如图三所示，而且 Mars 中的数据抽象是 tensor，与 TensorFlow 和 PyTorch 框架可以做到无缝对接，目前 Mars 正在加大对 PyTorch 和 Scipy 技术栈的支持，进一步加强数据前向与数据后向任务的整合。不过 Mars 也同样缺少对 Elasticsearch 等数据源的 Connector，而且她目前只支持在 K8S 集群上执行分布式计算，不支持在 Yarn 集群上的分布式计算，所以在我们部署在 Yarn 集群的实际项目中，并没能用上 Mars 分布式计算的能力。但是在 Mars 中，数据格式np.ndarray、pd.dataframe 与 mt.tensor 之间的相互转化十分方便，比起在 PySpark 中进行类似数据格式的转化，用户体验要好很多；而且性能开销也不大，比起 PySpark 中 DataFrame 转换成 Pd.dataframe 的 toPandas() 方法的性能开销要小很多。

图三 Mars与Numpy、Pandas、Sklearn的对比

4、Pygrape & graphT

在以上两个性能优越的框架中，数据无论是以 ndarray、dataframe，还是以 tensor 的形式参与建模，模型都是在处理关系型数据的业务。而在今年的云栖大会上，针对图像、语音、文本等建立的深度学习模型已经被称为传统深度学习，GNN（图神经网络）算法被称为深度学习 2.0 版本。Gartner 发布的 2019 年跟数据相关产品魔力象限的分析报告也预测在未来的 2 到 5 年内，在企业层面和实际的需求落地层面，图相关的项目和需求都会有很大的发展，说明企业在业务中应用图计算的需求也在不断的涌现。所以今年的云栖大会开设了图神经网络的专场，还发布了 GraphCompute 平台，同时还介绍了即将开源的 Pygrape 和 graphT 框架（有关我对今年云栖大会中图计算理解的文章，请出门左转看这里）。本文着重要说的就是 Pygrape 和 graphT 这两个即将开源的框架。在网络安全防御领域，少量的高危攻击事件隐藏在海量的普通访问和低危试探攻击中，具体到实际的项目中，需要在大约平均每天几百万条的攻击日志中，快速锁定隐藏在其中的高危攻击事件，通过构建关系型数据的模型是比较难满足需求的，尤其是在攻击者经过多级跳板，最终攻击目标服务器的攻击事件中，如图四所示。

图四多跳网络攻击示意图

在这种攻击日志超过几百万条，IP节点数达到数十万甚至过百万的业务数据中，很难在单台服务器上使用 Networkx 库构建网络拓扑去发现真正的攻击者，这时 Pygrape 框架就可以大显身手了。而且就云栖大会上公布的 PPT 来看，Pygrape 至少有两个吸引人的亮点。第一个就是在代码上，Pygrape 提供了一个 Networkx 兼容的API层，这大大减低了 Pygrape 的学习成本，如图五所示；第二个亮点就是 Pygrape 在数据处理任务中与 Mars 无缝对接，极大的提升了在网络拓扑中对点和边的属性做数据处理的性能。

图五 Pygrape代码示例

当然，Spark 框架中的 GraphX 和 Flink 框架中的 Gelly 也都可以实现图中节点和边的计算，但是对计算结果图的可视化，目前都不能很好的支持，而且这两个框架都不支持 Python API。而 graphT 的开源，无疑将在 Python 大数据生态中，扭转计算图无法可视化的尴尬局面，而且代码依旧十分简洁，如图六所示。

图六 graphT代码示例

Mars、Pygrape 和 graphT 的有效结合，未来势必将极大的提升 Python 大数据生态对图计算的处理能力。期待 Pyprape 和 graphT 的早日开源。

5、Euler

在图深度学习方面，阿里在今年1月份开源了 Euler，一个工业级的图深度学习框架。这个库中包括了比较多的GNN 算法，如 LsHNE、LasGNN、ScalableGCN 等，而且还列出了相关的论文，作为 GNN 算法的学习是比较好的。不过这个库目前只支持 Pyton2，而我们项目的所有模型今年刚好全都升级到 Python3 的版本，所以这个库在我们的项目中并没有做进一步的探索。

6、综述

综上，阿里的 Alink、Mars、Pygrape、graphT 以及 Euler 等性能卓越的开源框架，正在或即将为构建 Python 大数据生态绽放自己的光彩，而作为在项目中以 Python 为主要编程语言的数据挖掘工程师，我很荣幸、也很乐意把这些开源框架逐步应用在我的实际项目中，用心体会她们的卓越，及时发现她们的不足，反馈给社区，为构建 Python 大数据生态，践行自己的一份力量。

此为开篇，后续我会持续更新在实际项目中实践这些优秀开源框架的一些感受和心得，也会把相关数据和代码脱敏后分享出来，兴许会对无意中看到这篇文章的你有点借鉴作用，也许你会开始对 Python 大数据生态感兴趣，谁知道呢……因为未知，所以期待。

Python 大数据开源生态在网络安全防御中的探索与实践（一）