雷同性分析问题
1. 比例计算
以比较的两个单位的投标次数相乘做分母(因为有两个企业的全量扫描,所以是a*b)
分子是扫描匹配上的条数
注意:以a企业为主企业扫描b的全量,后面也会有个b为主企业扫描全量a 的
结论:暂时没有什么问题,比较合理,是否能作为评判依据待讨论
2. 计算的目的
a和b雷同的比率做为分析的依据,分析团伙嫌疑
a和b的比率达到一定的阀值(目前为75%),统计为一个团伙
再有一个a和c,或者b和d,如果他们之间的比率也达到这个阀值,那就会归入这个团伙。以此类推,判断有多个关系的团伙
3. 算法的可行性
(1) 分箱算法(分箱法):等频分箱,等距分箱,卡方分箱
*箱子数量固定*:分箱算法需要一个数值来判断是否是一个箱子,箱子数量是事先固定的,不宜太多,这就不能满足了;
*数据:*我们异常数据都是固定的是否雷同,比率的话不能做为离散数据,只有一个阀值,也只存在阀值以上和阀值以下两个意义;
*目的*,分箱是为了离散数据,去噪的,是要将连续的数据按不同的方法分开,突出某些特征。
我们想要的是多个企业为一个团伙,这个团伙是以企业为准,而且比率这个数值做不了分箱的条件,只能是将比率比较接近的分在一起(a和b 81%,e和f 81.5%,会分到一个箱子),目前看需求是不满足的;
(2) 聚类算法
一般的聚类算法都是按距离来作为聚类的依据,不管是三维还是二维,都要有一个标准的数值来判定距离
目前测试的几个逻辑:
二维
举例 (ab,80%),(ac,70%),(ef,75%)
三维
(a,b,80%),(a,c,70%),(e,f,75%)
距离计算的算法要求每一个坐标点都有一定的含义,但是a,b,c,是单独的一个企业,在算法里没有距离上的含义,没法计算,硬算出来的也是不对的
(3) 暴力穷举法
现在想到的就是暴力穷举法,反复多次验证,将有关联的企业放入一个团伙里。实现起来比较麻烦。
(4) 前端实现有关联的展示,类似之前的企业关联网
类似有关联的都会有相互连线,只是展示的时候不用这些线展示