写在最前面
目前计划在网络安全领域的开源威胁情报挖掘
展开进一步实验和论文写作,欢迎交流。
本文基于2022年1月《信息安全学报》崔琳等老师的论文 基于开源信息平台的威胁情报挖掘综述 进行梳理了解。
该论文为我们提供了一个全面的开源威胁情报挖掘框架,涵盖了该领域的关键方向、技术应用及未来趋势。
注意:这篇论文发布时间稍早,最前沿的视角需要之后再去补充阅读其他相关论文。
关键词:开源威胁情报;识别提取;融合评价;关联分析
这篇综述的内容相当扎实,所以预期分几次完成阅读。
前文:【开源威胁情报挖掘1】引言 + 开源威胁情报挖掘框架 + 开源威胁情报采集与识别提取
本文为综述的第四章节,将梳理开源威胁情报挖掘技术的开源威胁情报融合评价。
有助于新入领域的研究者全面理解开源威胁情报挖掘,并为细分方向的研究者提供参考,以突破现有研究的局限性。
4 开源威胁情报融合评价
本章节供了对开源威胁情报融合评价和数据融合的深入分析,关注于如何从多源异构的情报中提取高质量、可信的威胁情报。
开源威胁情报的特征与挑战
高质量的威胁情报应具备时效性、准确性、完整性、丰富性、可操作性和场景相关性。
然而,由于开源威胁情报的多源异构性,质量良莠不齐,这在存储、共享和实际应用中造成了挑战,如可能出现的漏报和误报。
4.1 开源威胁情报数据融合
数据融合
是有效利用开源威胁情报的关键。目前的研究工作主要集中在:①多源异构情报的一致性分析和②去伪去重等粗粒度数据融合方法。
这些方法旨在扩展情报信息的维度,并实现对分析后的开源威胁情报的归一化封装输出。
融合处理方法
由于开源威胁情报来源的开放性,其产出具有显著的多源异构性。
近年来,众多学者对开源威胁情报的融合处理进行了大量研究,主要通过一致性分析、去伪去重及数据融合分析等操作进行改善。
4.1 开源威胁情报的质量评价
质量评价是针对开源威胁情报的可信性和可用性进行的评估,一般包括定性评价方法和定量评价方法。这些评价方法对于确保所使用的开源威胁情报的质量和可靠性至关重要。
开源威胁情报的融合评价和数据融合是提高情报质量、可信性的关键。通过有效的融合处理和精确的质量评价,可以从广泛的开源信息中提取出高质量的威胁情报。
这对于深入理解威胁攻击、扩充商业威胁情报的数据维度,以及提供更广泛有效的防御路径具有重要意义。
4.1.1 一致性分析
开源威胁情报中的一致性分析及其在本体构建中的应用。
在开源威胁情报领域,本体为同一领域内不同实体之间提供了交流和连接的语义基础,是理解和处理开源威胁情报的关键。
一致性分析通过本体构建在开源威胁情报的共享与分析中发挥关键作用。通过本体构建,可以实现数据向知识的转化,并为威胁情报的进一步处理提供坚实的基础。这种方法在促进开源威胁情报的有效利用和提高分析效率方面具有重要价值。
本体的定义与组成
根据形式化定义[50],本体包含以下元素:
- C:代表本体概念的集合,通常用自然语言描述。
- R:表示非上下文关系,定义了实际关系的映射。
- C H:上下文关系的集合,定义了本体的层次结构。
- Av:本体上公理的集合。
本体构建的层次
本体构建层次可以参考图 4,其中安全情报本体作为情报知识图谱构建的核心层次。本体构建是将信息抽取得到的实体及其关系转化为知识网络的过程,同时,本体中定义的约束与规则为后续的质量评估和知识推理提供基础[51]。
实现方法:
- 本体复用:利用已有的本体作为构建的基础。
- 本体匹配:确保不同本体间的一致性和协调。
本体类型:
- 基于模式的知识本体:从网络安全研究的原理、需求和规范等角度构建。
- 基于数据的知识本体:根据现有数据的格式、内容和结构化程度构建。
应用案例:
北京航空航天大学的团队在开源威胁情报一致性分析中应用了本体,提出了描述多源异构开源威胁情报的基于本体的统一模型[52]。此外,他们还开发了一个基于该统一模型和开源情报收集工具IntelMQ的开源威胁情报集成框架。
4.1.2 去伪去重
去伪去重是开源威胁情报挖掘的一个重要环节,主要通过维度扩展和挖掘分析方法对情报数据进行提纯。
- M. Adithya等人[53]:强调信息去冗技术在降低分布式存储中的通信和容量开销方面的重要性。
- Edwards等人[54]:提出了一种可过滤、分类、消除重复数据、对数据项进行优先级排序的威胁情报系统的想法。
- Brown等人[55]:强调在使用开源威胁情报系统之前,必须进行去重等操作,以避免增加安全运营人员的工作量。
- 方法与挑战
去重主要通过快速匹配算法从各种数据集中识别出匹配记录,并从属性、关系或数据内容等维度上进行合并。其效果受到数据质量、缩略词使用或语言差异等多种因素的影响。
4.1.3 数据融合分析
数据融合分析通过机器学习等方法对原始情报信息进行关联融合处理,以获得具有时效性、准确性、完整性的高质量威胁情报。
- Modi等人[56]:提出了一个自动开源威胁情报融合框架,利用
聚类
技术对内容相似的情报数据进行聚合关联。 - Azevedo等人[57]:采用簇聚合技术,
关联并聚合
不同开源情报源中的相似IOC信息。 - 文献[58]:结合NLP和智能分析技术,设计了一种基于多源情报信息融合的高质量开源威胁情报生成工具。该工具综合运用一致性分析, 去伪去重等常见的
粗粒度数据融合分析手段
, 并结合了 SVM、贝叶斯推断等高阶数据分析技术, 可针对威胁情报数据进行清洗、集成、整合处理。但其数据融合方法手段及关联应用效率还尚待进一步提升。 - 展望
未来,随着数据量的增加,基于深度学习的数据融合方法将因其在处理海量数据上的优势而得到广泛应用。
传统的数据融合技术,如贝叶斯推理、卡尔曼过滤、机器学习等,将继续在提高威胁情报质量方面发挥重要作用。
4.2 开源威胁情报质量及可信性评价
专注于开源威胁情报的质量及可信性评价,特别是定性评价方法的应用和重要性。
在网络安全领域,对开源威胁情报的质量和可信性进行评估对于辅助决策和安全分析至关重要。国内外学者对此进行了广泛的研究,尤其是定性评价方法,对于理解和提升开源威胁情报的价值具有重要意义。
对开源威胁情报进行定性评价是确保其质量和可信性的重要步骤。这些评价方法不仅提供了一个全面的评估框架,还有助于深入理解情报内容的重要性和应用价值。对于网络安全专家来说,这些评价方法是提高情报使用效率和有效性的重要工具。
4.2.1 定性评价方法
定性评价方法侧重于使用非量化的标准来评估情报的质量和可用性。
- Bouwman等人[62]:通过比较商业情报和开源数据,发现两者在情报内容上几乎没有重叠。他们指出商业威胁情报在覆盖率和及时性方面存在不足,同时提出了一种基于场景相关性、丰富性和可操作性的商业威胁情报质量定性评估方法。
- Alessandra等人[63]:提出了一种面向开源网络威胁情报平台的定性质量评估方法。该方法根据5W3H原则提出了威胁情报应用周期中的评价标准,如收集、分析、部署阶段所需的标准,以及面向OSCTI平台的额外标准。
- 定性评价的重要性:定性评价方法通过提供一组非量化的标准和指标,为开源威胁情报的质量提供了全面的评估框架。这些方法有助于识别情报的关键特征,如场景相关性、丰富性和可操作性,从而提升情报的实用价值和可用性。
4.2.2 定量评价方法
定量评价方法通过使用具体的量化指标来评估开源威胁情报。
开源威胁情报的定量评价方法通过引入多种量化指标和高级数据分析技术,为评估情报的质量和可信度提供了更准确、客观的视角。这些方法不仅提高了情报的使用效率和有效性,还为网络安全专家提供了重要的技术支持。
特征指标提取
从开源威胁情报的特点出发, 提取多个特征作为评价依据。
- 文献[64]:基于3S(Semantic, Surface, and Source features)模型,提出了多维度的分析方法,包括时间、内容和领域知识三个维度来提取16个定量可信特征,并使用DBN(Deep Belief Network)算法进行可信判别。
- 文献[65]:从情报来源、内容、活跃周期、黑名单库匹配度等维度提取特征,设计了基于深度神经网络和Softmax分类器的评价模型。
自定义的定量评价标准
- Vector等人[66]:定义了数量、差异贡献、排他贡献、相对延迟、准确性、覆盖范围等度量标准。
- Thomas等人[67]:定义了扩展性、保持性、误报率、可验证性等10个定量参数。
- Schlette等人[68]:将威胁情报评价维度划分为属性级、对象级、报告级,并形成一个可量化的评估体系。
- Griffioen等人[69]:关注于开源威胁情报的质量评价。作者在该研究中定义了四种类型的威胁情报质量评价指标:及时性、敏感性、原创性和影响力。基于这些评价指标,他们引入了一种改进的分类方法来对威胁情报实现定量评估。
这种方法有助于对开源威胁情报的质量进行更为精确和全面的评价。 - 文献70:提出了一种基于用户视角建立的开源威胁情报服务评估方法。该方法将威胁情报视为一种特殊的服务,其质量评价包括价格、功能、性能和质量、服务、资格等五个维度。此外,该方法基于假设,即人们更容易相信大多数人给出的信息的真实性,提出基于多数威胁情报使用者的意见和评价来衡量情报的可信度。
这种方法通过用户反馈来动态调整检测项目的权重和得分,从而获得更为精确的情报质量评价结果。 - Omar等人[71]:提出了情报质量指数(Quality of Indicators, QoI)的概念,用于评估开源威胁情报共享参与者的贡献水平。QoI评估方法涉及的指标包括正确性、相关性、实用性和唯一性,采用基准方法定义,并利用机器学习算法进行质量评价。
这种方法特别关注于评估参与者对开源威胁情报共享的贡献,有助于提高共享质量和鼓励更积极的参与。
图挖掘技术的应用
- 文献[72]:提出从图挖掘角度评估异构开源威胁情报的可信水平,构建了异构开源威胁情报图。
- Roland等人[73]:提出了OSCTI源排序方法FeedRank,利用图模拟feed之间的关系,并对每个OSCTIF的贡献度进行量化分析。
- 文献[74]:提出了基于知识表示算法TransE模型和RNN模型的可信评估模型,构建了一个情报知识图谱。
4.3 总结与讨论
开源威胁情报的数据融合、质量和可信性评价
是保障其有效性和可靠性的关键。
这一领域的研究可以分为定性评价
和定量评价
两个主要方向。
表 3 所示, 其中每一行代表一项研究工作,
第 1 列代表不同的研究方向;
第 3 列为主要的技术应用场景;
第 4 列为实现该项研究所应用的技术方法, 主要从数学模型以及评价技术两个方向进行归纳分析;
第 5 列为性能评估;
第 6 列为通过总结优缺点对该项研究工作的评价。
数据融合与质量评价的方法和技术
- 机器学习与神经网络:在定性评价中,机器学习和神经网络模型被广泛应用。例如,文献[64-65]利用这些技术在多维度上提取特征指标。
- 加权平均模型:在定量评价方面,加权平均模型常用于权衡各指标的重要性。文献[68,70]主要使用了加权平均数学模型对情报质量进行量化评估。
- 图挖掘技术:有向图或知识图谱等技术逐渐成为新兴的情报质量度量方法。文献[72-74]采用图挖掘方法,如文献[72-73]使用有向图和PageRank算法,而文献[74]应用知识图谱进行评估建模。
性能评估与研究评价
- 表3中的比较分析显示,不同的技术和方法有其独特的优点和局限性。例如,机器学习在处理大规模数据集时表现出色,而加权平均模型在考虑多个评价指标时更加灵活。
研究和应用的前景
- 这些研究成果为开源威胁情报的质量评价和可信度打分提供了有效的技术支持,减少了人力需求,并帮助组织筛选出高质量、准确可信的威胁情报。
prompt:阅读梳理文献的尝试
结合chatgpt阅读梳理文献。
我现在在调研网安领域的威胁情报,以期待找到能做命名实体识别or关系抽取的任务。
我现在是阅读一篇论文《基于开源信息平台的威胁情报挖掘综述》,请梳理这段话,表达专业明了,保留参考文献,我需要更详细的内容,形成博客,方便阅读理解和后续思路整理。
请介绍新型网络安全威胁类型:APT、多态威胁、零日威胁、复合威胁,通过实际场景来说明,并之处其中存在的命名实体识别、关系抽取任务