雷同性分析问题

简介: 雷同性分析问题探讨了企业投标数据的相似度计算方法及其应用。通过比例计算(分子为匹配条数,分母为投标次数乘积)评估企业间关联,达到75%阀值则视为团伙。文中对比了分箱算法、聚类算法和暴力穷举法等方案的可行性,指出目前以比率作为评判依据较为合理,但需进一步讨论其有效性。前端展示方面,建议采用类似企业关联网的方式呈现关联关系。

雷同性分析问题

1. 比例计算

以比较的两个单位的投标次数相乘做分母(因为有两个企业的全量扫描,所以是a*b)

分子是扫描匹配上的条数

注意:以a企业为主企业扫描b的全量,后面也会有个b为主企业扫描全量a 的

结论:暂时没有什么问题,比较合理,是否能作为评判依据待讨论

2. 计算的目的

a和b雷同的比率做为分析的依据,分析团伙嫌疑

a和b的比率达到一定的阀值(目前为75%),统计为一个团伙

再有一个a和c,或者b和d,如果他们之间的比率也达到这个阀值,那就会归入这个团伙。以此类推,判断有多个关系的团伙

3. 算法的可行性

(1) 分箱算法(分箱法):等频分箱,等距分箱,卡方分箱

*箱子数量固定*:分箱算法需要一个数值来判断是否是一个箱子,箱子数量是事先固定的,不宜太多,这就不能满足了;

*数据:*我们异常数据都是固定的是否雷同,比率的话不能做为离散数据,只有一个阀值,也只存在阀值以上和阀值以下两个意义;

*目的*,分箱是为了离散数据,去噪的,是要将连续的数据按不同的方法分开,突出某些特征。

我们想要的是多个企业为一个团伙,这个团伙是以企业为准,而且比率这个数值做不了分箱的条件,只能是将比率比较接近的分在一起(a和b 81%,e和f 81.5%,会分到一个箱子),目前看需求是不满足的;

(2) 聚类算法

一般的聚类算法都是按距离来作为聚类的依据,不管是三维还是二维,都要有一个标准的数值来判定距离

目前测试的几个逻辑:

二维

举例 (ab,80%),(ac,70%),(ef,75%)

三维

(a,b,80%),(a,c,70%),(e,f,75%)

距离计算的算法要求每一个坐标点都有一定的含义,但是a,b,c,是单独的一个企业,在算法里没有距离上的含义,没法计算,硬算出来的也是不对的

(3) 暴力穷举法

现在想到的就是暴力穷举法,反复多次验证,将有关联的企业放入一个团伙里。实现起来比较麻烦。

(4) 前端实现有关联的展示,类似之前的企业关联网

类似有关联的都会有相互连线,只是展示的时候不用这些线展示

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 供应链
AI赋能采购管理工具全解析:智能寻源、预测分析与风险控制的实践路径
本文探讨了采购管理工具从传统系统向智能化演进的发展路径,分析了现代采购系统的技术架构与核心功能,并构建了包含28项指标的选型评估体系。随着AI、区块链、数字孪生等技术的应用,采购管理正迈向智能预测与自动响应的新阶段。
1105 0
|
7月前
|
机器学习/深度学习 人工智能 监控
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
坐姿标准好坏姿态数据集的发布,填补了计算机视觉领域在“细分健康行为识别”上的空白。它不仅具有研究价值,更在实际应用层面具备广阔前景。从青少年的健康教育,到办公室的智能提醒,再到驾驶员的安全监控和康复训练,本数据集都能发挥巨大的作用。
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
存储 分布式计算 Hadoop
Centos7.9安装kerberos
Centos7.9安装kerberos
390 25
|
JSON JavaScript 前端开发
一篇文章讲明白json文件格式详解
一篇文章讲明白json文件格式详解
532 2
|
存储 Web App开发 Java
《手把手教你》系列基础篇(九十五)-java+ selenium自动化测试-框架之设计篇-java实现自定义日志输出(详解教程)
【7月更文挑战第13天】这篇文章介绍了如何在Java中创建一个简单的自定义日志系统,以替代Log4j或logback。
497 5
|
IDE API 开发工具
在 VSCode 中实现 Jupyter Debug Adapter
通过本文的介绍,我们可以了解 VSCode 的 Debug Adapter 的实现原理,并以 Jupyter 为例,成功在 VSCode 中实现 Jupyter Debug Adapter,并实现完全的调试能力。 得益于 VSCode 灵活的调试注入能力,我们可以方便地为更多的语言,甚至是一些自定义框架实现调试能力,这可能可以为更多的小众语言或框架的开发者带来工作效率上的帮助。
EDM营销平台有哪些?Top5平台分析
探索五大热门EDM营销平台:蜂邮EDM以其丰富功能备受喜爱;Constant Contact以用户友好体验著称;Sendinblue结合短信营销与广告管理,适合中小企业;GetResponse提供营销自动化解决方案,适合各类企业;AokSend以其历史底蕴和分析工具吸引用户。各平台特色各异,企业可根据需求选择。
|
存储 弹性计算 安全
阿里云4核8G配置服务器可选实例及收费价格参考
阿里云4核8G配置服务器的价格取决于所选云服务器的实例规格和带宽及系统盘大小,阿里云服务器4核8G配置有将近二十种实例规格可选,目前阿里云活动中4核8G配置有经济型e、通用算力型u1、计算型c7和第八代计算型c8a与c8i实例可选,云服务器ECS经济型e实例4核8G配置1M带宽40GB ESSD Entry云盘优惠价格943.26元/1年,云服务器ECS计算型c7实例4核8G配置3M带宽40GB ESSD云盘优惠价格501.90元/6个月、983.80元/1年。至于选择哪个实例规格,还需要根据自己的需求、预算及上云场景来综合判断。
1225 0
阿里云4核8G配置服务器可选实例及收费价格参考
|
存储 监控 安全
JVM内存管理机制&线上问题排查
本文主要基于“深入java虚拟机”这本书总结JVM的内存管理机制,并总结了常见的线上问题分析思路。文章最后面是我对线上故障思考的ppt总结。 Java内存区域 虚拟机运行时数据区如下图所示: 15291199000153.jpg 方法区:方法区又称为永生代(Permanent Generation)是线程共享的内存区域。
3332 0
|
算法 调度
【操作系统篇】第五篇——调度(概念,层次,调度时机,切换与过程,方式,评价指标)
【操作系统篇】第五篇——调度(概念,层次,调度时机,切换与过程,方式,评价指标)
【操作系统篇】第五篇——调度(概念,层次,调度时机,切换与过程,方式,评价指标)