雷同性分析问题

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 雷同性分析问题探讨了企业投标数据的相似度计算方法及其应用。通过比例计算(分子为匹配条数,分母为投标次数乘积)评估企业间关联,达到75%阀值则视为团伙。文中对比了分箱算法、聚类算法和暴力穷举法等方案的可行性,指出目前以比率作为评判依据较为合理,但需进一步讨论其有效性。前端展示方面,建议采用类似企业关联网的方式呈现关联关系。

雷同性分析问题

1. 比例计算

以比较的两个单位的投标次数相乘做分母(因为有两个企业的全量扫描,所以是a*b)

分子是扫描匹配上的条数

注意:以a企业为主企业扫描b的全量,后面也会有个b为主企业扫描全量a 的

结论:暂时没有什么问题,比较合理,是否能作为评判依据待讨论

2. 计算的目的

a和b雷同的比率做为分析的依据,分析团伙嫌疑

a和b的比率达到一定的阀值(目前为75%),统计为一个团伙

再有一个a和c,或者b和d,如果他们之间的比率也达到这个阀值,那就会归入这个团伙。以此类推,判断有多个关系的团伙

3. 算法的可行性

(1) 分箱算法(分箱法):等频分箱,等距分箱,卡方分箱

*箱子数量固定*:分箱算法需要一个数值来判断是否是一个箱子,箱子数量是事先固定的,不宜太多,这就不能满足了;

*数据:*我们异常数据都是固定的是否雷同,比率的话不能做为离散数据,只有一个阀值,也只存在阀值以上和阀值以下两个意义;

*目的*,分箱是为了离散数据,去噪的,是要将连续的数据按不同的方法分开,突出某些特征。

我们想要的是多个企业为一个团伙,这个团伙是以企业为准,而且比率这个数值做不了分箱的条件,只能是将比率比较接近的分在一起(a和b 81%,e和f 81.5%,会分到一个箱子),目前看需求是不满足的;

(2) 聚类算法

一般的聚类算法都是按距离来作为聚类的依据,不管是三维还是二维,都要有一个标准的数值来判定距离

目前测试的几个逻辑:

二维

举例 (ab,80%),(ac,70%),(ef,75%)

三维

(a,b,80%),(a,c,70%),(e,f,75%)

距离计算的算法要求每一个坐标点都有一定的含义,但是a,b,c,是单独的一个企业,在算法里没有距离上的含义,没法计算,硬算出来的也是不对的

(3) 暴力穷举法

现在想到的就是暴力穷举法,反复多次验证,将有关联的企业放入一个团伙里。实现起来比较麻烦。

(4) 前端实现有关联的展示,类似之前的企业关联网

类似有关联的都会有相互连线,只是展示的时候不用这些线展示

目录
相关文章
|
1月前
|
算法 前端开发 数据挖掘
雷同性分析问题
本文探讨了雷同性分析中的比例计算、计算目的及算法可行性。通过对比不同企业的投标记录,计算雷同比率以识别潜在的团伙行为。文中分析了分箱法、聚类算法、暴力穷举法等方法的适用性和局限性,并提出了前端展示关联企业的方案。
63 23
|
5月前
|
存储 缓存 Java
分析fastcache和freecache(一)
分析fastcache和freecache(一)
85 5
queryCoord的checkerController分析
queryCoord的checkerController分析
559 0
|
前端开发
R|timeROC-分析
R|timeROC-分析
285 0
R|timeROC-分析
|
弹性计算 运维 安全
全面分析和理解PBC
全面分析和理解PBC
6247 0
全面分析和理解PBC
摊还分析
摊还分析 本章内容: 1.聚合分析 2.核算法 3.势能法 4.动态表   一  聚合分析   1.  在摊还分析中,我们求数据结构的一个操作序列中所执行的所有操作的平均时间,来评价操作的代价,它不涉及概率,可以保证最坏情况下每个操作的平均性能。
776 0
|
SQL
【MySQLprofiling分析
【MySQLprofiling分析
117 0
【MySQLprofiling分析
|
定位技术 Android开发
BottomSheetBehavior分析
BottomSheetBehavior分析
BottomSheetBehavior分析
|
测试技术 C#
艾伟_转载:对于C#中b=a的N种情况分析
  本文旨在验证一个容易混淆的概念,从而为《玩转WPF/Silverlight中INotifyPropertyChanged和ObservableCollection》做铺垫。   两个相同类型的变量a和b,并且有如下关系:        b = a;   如果a发生改变,b是否也发生改变呢?    情况很复杂,分以下几种情况谈论:       1) 单个实体             1.
803 0