备案控制台

开发者社区问答正文

SecretRadar 的实现思路分为哪几个层面？

SecretRadar 的实现思路分为哪几个层面？

展开

收起

与时俱进的探索者 2021-11-06 21:44:03 1331 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

开发者小助手_LS

SecretRadar 的实现思路主要分为三个层面，第一层我们采用传统敏感信息识别技术通过丰富的规则集来保证模型基础能力的稳定和可靠，同时确保了模型良好的可扩展性，以此来支持后续用户自定义的能力。但是这种方法非常依赖固化的长度、前缀、变量名等，匹配效果上容易造成漏报。因此针对难以固定规则捕捉的场景，在第二层我们采用了信息熵算法。信息熵可以用来衡量数据集的信息量大小，也就是其不确定程度。所以数据集的信息熵越大，无序程度就越高。通过计算信息熵，可以有效识别随机生成的密文信息，从而提升模型的召回能力，补足基于规则手段的漏报问题。同样信息熵算法也有其局限性，伴随召回的提升是误报率的增加。因此在第三层我们采用了模板聚类的方法，进行了过滤优化。针对信息熵结果集聚合提取常见关键字，并结合上下文分析，来完成二次过滤。同时通过问题的修复情况，建立二分类数据集，完成算法优化。进而从词法识别迭代为语义识别。资源来源：电子书《阿里巴巴 DevOps实践手册》下载连接：https://developer.aliyun.com/topic/download?id=205

2021-11-07 19:06:28

赞同展开评论

问答地址：

开发者社区 > 云计算 > 问答

相关问答

请问下我访问接口不通什么原因 Provisional headers are shown

3159

0

0

购买阿里国外的云服务器是否可以访问谷歌？

82635

47

0

sql server的用户名和密码怎么查啊？

36946

21

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60494

30

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

132030

28

0

OSS的endpoint如何查看

37165

6

0

this xml file does not appear to have any style in

51036

10

0

配置了安全组规则，端口还是无法访问

33052

25

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3216

1

0

计算机网络的频带传输是什么意思？

2051

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

钉钉小程序开发获取code失败

阿里云OSS包年包月还另外收费吗？对象存储

阿里云 CEN 如何与 VPC 互联配置?

云企业网怎么进行组网？

还有其他疑问?