2025年5月,国际顶级信息安全大会 Black Hat USA陆续公布议题,阿里云安全的最新研究成果《LLMDYara: LLMs-Driven Automated YARA Rules Generation with Explainable File Features and DNAHash》入选,议题核心围绕着用大语言模型来自动化生成规则,提升对恶意文件的检测效率及准确度的内容展开,阿里云对AI安全的研究成果即将登陆世界舞台。
议题简介
随着IT基础设施日益复杂以及企业上云率的提升,云端恶意文件规模每天都在快速增长,仅依靠人工专家制定规则,效率难以追上AI速度。目前被广泛使用的创建恶意文件签名和检测规则的工具是YARA,但现有的基于YARA的自动化规则生成方案在三个关键方面存在局限性:规则质量、误报率及特征的可解释性,这些缺陷限制了其在恶意检测场景中的有效性。
云安全检测团队将大语言模型与专家知识融合,研究了全新的解决方案:LLMDYara,提升了大规模样本检测的效率,并降低了自动化生成规则的误报。
- 首先,云安全团队的技术专家们根据既往经验,预提取了字符串、函数以及文件片段哈希(我们称之为DNAHash)特征。
- 随后,为了减少特征误报和提升特征质量,设计了一种高效的样本相似性搜索算法和函数签名算法,用于在十亿级的白样本库中进行特征过滤。
- 接着,基于通义千问大模型进行特征决策,具体地,用大模型对字符串特征进行重要性评估,并对提取的函数特征和文件片段中的函数片段进行代码解释和功能识别。
- 最终,基于特征决策步骤的评估结果和选择策略在恶意样本家族内进行综合选择,最终生成YARA规则。新引入的DNAHash特征对原生YARA进行了扩展,确保了即使其他特征质量较低时,规则仍具备可用性,进一步降低了误报率。
LLMDYara方案在降低误报率、增强特征可解释性及提升规则质量等挑战上取得了进展。除了在恶意文件领域,针对EDR绕过、文本类、Webshell防御等等领域,阿里云均在持续探索引入大模型技术,并已将相关能力落地在云安全中心产品中,为客户提供服务,阿里云也将在AI For Security领域持续探索。
关于Black Hat
Black Hat 系列会议发起于 1997 年,被认为是引领全球安全思想和技术走向的「风向标」。作为信息安全工业界排名第一的会议,它相当于是网络安全领域的「奥斯卡」,以其议题的专业性与高品质闻名,其中又以主会场Black Hat USA的议题含金量最高,其研究成果具备极高的创新性与全球影响力。