雷同性分析问题

简介: 本文探讨了雷同性分析中的比例计算、计算目的及算法可行性。通过对比不同企业的投标记录,计算雷同比率以识别潜在的团伙行为。文中分析了分箱法、聚类算法、暴力穷举法等方法的适用性和局限性,并提出了前端展示关联企业的方案。

雷同性分析问题

1. 比例计算

以比较的两个单位的投标次数相乘做分母(因为有两个企业的全量扫描,所以是a*b)

分子是扫描匹配上的条数

注意:以a企业为主企业扫描b的全量,后面也会有个b为主企业扫描全量a 的

结论:暂时没有什么问题,比较合理,是否能作为评判依据待讨论

2. 计算的目的

a和b雷同的比率做为分析的依据,分析团伙嫌疑

a和b的比率达到一定的阀值(目前为75%),统计为一个团伙

再有一个a和c,或者b和d,如果他们之间的比率也达到这个阀值,那就会归入这个团伙。以此类推,判断有多个关系的团伙

3. 算法的可行性

(1) 分箱算法(分箱法):等频分箱,等距分箱,卡方分箱

*箱子数量固定*:分箱算法需要一个数值来判断是否是一个箱子,箱子数量是事先固定的,不宜太多,这就不能满足了;

*数据:*我们异常数据都是固定的是否雷同,比率的话不能做为离散数据,只有一个阀值,也只存在阀值以上和阀值以下两个意义;

*目的*,分箱是为了离散数据,去噪的,是要将连续的数据按不同的方法分开,突出某些特征。

我们想要的是多个企业为一个团伙,这个团伙是以企业为准,而且比率这个数值做不了分箱的条件,只能是将比率比较接近的分在一起(a和b 81%,e和f 81.5%,会分到一个箱子),目前看需求是不满足的;

(2) 聚类算法

一般的聚类算法都是按距离来作为聚类的依据,不管是三维还是二维,都要有一个标准的数值来判定距离

目前测试的几个逻辑:

二维

举例 (ab,80%),(ac,70%),(ef,75%)

三维

(a,b,80%),(a,c,70%),(e,f,75%)

距离计算的算法要求每一个坐标点都有一定的含义,但是a,b,c,是单独的一个企业,在算法里没有距离上的含义,没法计算,硬算出来的也是不对的

(3) 暴力穷举法

现在想到的就是暴力穷举法,反复多次验证,将有关联的企业放入一个团伙里。实现起来比较麻烦。

(4) 前端实现有关联的展示,类似之前的企业关联网

类似有关联的都会有相互连线,只是展示的时候不用这些线展示

目录
打赏
0
24
23
0
170
分享
相关文章
Android内存使用情况分析
Android系统的内存由几个不同的内存池中的几个不同的分配器管理
454 0
Android内存使用情况分析
Java集合类不安全分析
我们平时编码时使用集合类,都是new 一个 ArrayList 或者 HashSet 或者 HashMap就直接开用,好像也没遇到啥问题。那这里为什么说集合不安全呢?下面一 一道来。
Java集合类不安全分析
经典排序算法分析(一)
排序指的是将一组对象按照特定的逻辑顺序重新排列的过程,排序的应用十分广泛,可以说是无处不在,它在商业数据处理和现代科学计算中发挥着举足轻重的作用,目前已知的应用最广泛的排序算法—快速排序,更是被誉为了 20 世纪科学和工程领域的十大算法之一。
131 0
经典排序算法分析(一)
场景分析
如何梳理业务流程、建立指标体系?
754 0
场景分析
艾伟_转载:对于C#中b=a的N种情况分析
  本文旨在验证一个容易混淆的概念,从而为《玩转WPF/Silverlight中INotifyPropertyChanged和ObservableCollection》做铺垫。   两个相同类型的变量a和b,并且有如下关系:        b = a;   如果a发生改变,b是否也发生改变呢?    情况很复杂,分以下几种情况谈论:       1) 单个实体             1.
812 0