雷同性分析问题-阿里云开发者社区

雷同性分析问题

2025-01-06 209

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 雷同性分析问题探讨了企业投标数据的相似度计算方法及其应用。通过比例计算（分子为匹配条数，分母为投标次数乘积）评估企业间关联，达到75%阀值则视为团伙。文中对比了分箱算法、聚类算法和暴力穷举法等方案的可行性，指出目前以比率作为评判依据较为合理，但需进一步讨论其有效性。前端展示方面，建议采用类似企业关联网的方式呈现关联关系。

雷同性分析问题

1. 比例计算

以比较的两个单位的投标次数相乘做分母（因为有两个企业的全量扫描，所以是a*b）

分子是扫描匹配上的条数

注意：以a企业为主企业扫描b的全量，后面也会有个b为主企业扫描全量a 的

结论：暂时没有什么问题，比较合理，是否能作为评判依据待讨论

2. 计算的目的

a和b雷同的比率做为分析的依据，分析团伙嫌疑

a和b的比率达到一定的阀值（目前为75%），统计为一个团伙

再有一个a和c，或者b和d，如果他们之间的比率也达到这个阀值，那就会归入这个团伙。以此类推，判断有多个关系的团伙

3. 算法的可行性

(1) 分箱算法（分箱法）：等频分箱，等距分箱，卡方分箱

*箱子数量固定*：分箱算法需要一个数值来判断是否是一个箱子，箱子数量是事先固定的，不宜太多，这就不能满足了；

*数据：*我们异常数据都是固定的是否雷同，比率的话不能做为离散数据，只有一个阀值，也只存在阀值以上和阀值以下两个意义；

*目的*，分箱是为了离散数据，去噪的，是要将连续的数据按不同的方法分开，突出某些特征。

我们想要的是多个企业为一个团伙，这个团伙是以企业为准，而且比率这个数值做不了分箱的条件，只能是将比率比较接近的分在一起（a和b 81%，e和f 81.5%，会分到一个箱子），目前看需求是不满足的；

(2) 聚类算法

一般的聚类算法都是按距离来作为聚类的依据，不管是三维还是二维，都要有一个标准的数值来判定距离

目前测试的几个逻辑：

二维

举例 (ab,80%),(ac,70%),(ef,75%)

三维

(a,b,80%),(a,c,70%),(e,f,75%)

距离计算的算法要求每一个坐标点都有一定的含义，但是a,b,c,是单独的一个企业，在算法里没有距离上的含义，没法计算,硬算出来的也是不对的

(3) 暴力穷举法

现在想到的就是暴力穷举法，反复多次验证，将有关联的企业放入一个团伙里。实现起来比较麻烦。

(4) 前端实现有关联的展示，类似之前的企业关联网

类似有关联的都会有相互连线，只是展示的时候不用这些线展示

雷同性分析问题

雷同性分析问题

1. 比例计算

2. 计算的目的

3. 算法的可行性

(1) 分箱算法（分箱法）：等频分箱，等距分箱，卡方分箱

(2) 聚类算法

(3) 暴力穷举法

(4) 前端实现有关联的展示，类似之前的企业关联网

大数据与机器学习

热门文章

最新文章

相关电子书