雷同性分析问题

简介: 本文探讨了雷同性分析中的比例计算、计算目的及算法可行性。通过对比不同企业的投标记录,计算雷同比率以识别潜在的团伙行为。文中分析了分箱法、聚类算法、暴力穷举法等方法的适用性和局限性,并提出了前端展示关联企业的方案。

雷同性分析问题

1. 比例计算

以比较的两个单位的投标次数相乘做分母(因为有两个企业的全量扫描,所以是a*b)

分子是扫描匹配上的条数

注意:以a企业为主企业扫描b的全量,后面也会有个b为主企业扫描全量a 的

结论:暂时没有什么问题,比较合理,是否能作为评判依据待讨论

2. 计算的目的

a和b雷同的比率做为分析的依据,分析团伙嫌疑

a和b的比率达到一定的阀值(目前为75%),统计为一个团伙

再有一个a和c,或者b和d,如果他们之间的比率也达到这个阀值,那就会归入这个团伙。以此类推,判断有多个关系的团伙

3. 算法的可行性

(1) 分箱算法(分箱法):等频分箱,等距分箱,卡方分箱

*箱子数量固定*:分箱算法需要一个数值来判断是否是一个箱子,箱子数量是事先固定的,不宜太多,这就不能满足了;

*数据:*我们异常数据都是固定的是否雷同,比率的话不能做为离散数据,只有一个阀值,也只存在阀值以上和阀值以下两个意义;

*目的*,分箱是为了离散数据,去噪的,是要将连续的数据按不同的方法分开,突出某些特征。

我们想要的是多个企业为一个团伙,这个团伙是以企业为准,而且比率这个数值做不了分箱的条件,只能是将比率比较接近的分在一起(a和b 81%,e和f 81.5%,会分到一个箱子),目前看需求是不满足的;

(2) 聚类算法

一般的聚类算法都是按距离来作为聚类的依据,不管是三维还是二维,都要有一个标准的数值来判定距离

目前测试的几个逻辑:

二维

举例 (ab,80%),(ac,70%),(ef,75%)

三维

(a,b,80%),(a,c,70%),(e,f,75%)

距离计算的算法要求每一个坐标点都有一定的含义,但是a,b,c,是单独的一个企业,在算法里没有距离上的含义,没法计算,硬算出来的也是不对的

(3) 暴力穷举法

现在想到的就是暴力穷举法,反复多次验证,将有关联的企业放入一个团伙里。实现起来比较麻烦。

(4) 前端实现有关联的展示,类似之前的企业关联网

类似有关联的都会有相互连线,只是展示的时候不用这些线展示

目录
相关文章
|
9月前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
1045 30
|
10月前
|
人工智能 监控 机器人
阿里云开发者社区博文规范及指引
阿里云开发者社区博文规范及指引
2668 20
阿里云开发者社区博文规范及指引
|
9月前
|
数据采集 人工智能 自然语言处理
Qwen模型角色扮演最佳实践
角色扮演大模型通过模拟特定角色的行为、语言风格和情感表达,实现高度拟人化和定制化的互动体验。与传统通用模型相比,角色扮演模型在语言风格、性格特征和情绪反应上更加细腻,提供更真实的交互体验。本文介绍了如何通过system prompt、few-shot学习和微调等技术实现大模型的拟人化,包括使用阿里云百炼平台进行角色扮演测试,以及如何通过合成数据和Lora微调提高模型的表演效果。最终,展示了如何通过优化数据质量和训练策略,显著提升角色扮演模型的表现。
|
9月前
|
存储 人工智能 运维
AI导购革命:揭秘主动式智能导购AI助手的构建之道
本文基于《主动式智能导购AI助手构建》解决方案的实际部署体验,从引导与文档帮助、解决方案原理与架构理解、百炼大模型及函数计算应用明晰度、生产环境步骤指导四个方面进行了详细评估。指出尽管该方案具有创新性和实用性,但在文档详尽性、技术细节解释及生产环境适应性等方面仍有待提升。通过进一步优化,可增强解决方案的可用性和用户满意度。
354 31
|
10月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
9月前
|
存储 编解码 人工智能
【AI系统】FBNet 系列
本文介绍了FBNet系列的三种版本,从FBNetV1基于NAS的轻量级网络设计,到FBNetV2通过DMaskingNAS增加搜索空间,再到FBNetV3联合搜索网络结构与训练参数,展示了如何利用NAS技术优化网络结构和提升模型性能。文章详细解释了各版本的技术特点和实现方法,为读者提供了深入了解和应用NAS技术的宝贵资料。
197 10
【AI系统】FBNet 系列
|
9月前
|
人工智能 大数据 Apache
Flink Forward Asia 2024 即将盛大开幕!
Flink Forward Asia 2024是由Apache官方授权的技术大会,聚焦流式湖仓、流批一体、AI大模型等热点方向,旨在分享Flink社区最新动态及实践经验,是Flink开发者和使用者不容错过的盛会。大会不仅探讨了Flink在实时大数据分析中的应用,还深入讨论了Data+AI领域的新成果,如基于Flink和Elasticsearch的企业级高级RAG架构设计,展示了Flink在多模态数据处理、实时数据向量化等方面的强大能力。
|
9月前
|
人工智能 Android开发 C++
《跨越平台壁垒:C++ 人工智能模型在移动设备的部署之路》
在AI技术蓬勃发展的今天,C++因其卓越性能和高效资源利用,在AI模型开发中占据重要地位。将C++实现的AI模型部署至移动设备,实现快速响应与离线运行,成为当前技术热点。本文探讨了C++模型在移动设备上的部署挑战与解决方案,包括模型优化、跨平台适配、硬件加速及性能调试,展望了未来移动AI应用的广阔前景。
189 12
|
9月前
|
人工智能 算法 数据挖掘
《C++ 赋能 K-Means 聚类算法:开启智能数据分类之旅》
在数字化时代,人工智能成为科技变革的核心驱动力,数据分类与聚类技术尤为重要。K-Means算法作为数据聚类的经典方法,以其高效简洁著称。结合C++的强大性能,K-Means不仅在执行效率上表现出色,还能灵活管理内存,支持大规模数据处理。本文深入解析了K-Means算法原理、C++实现优势及核心步骤,并展示了性能优化策略和实际应用案例,展望了其在图像识别、市场分析、生物信息学等领域的广泛应用前景。
101 8
|
9月前
|
算法 Java 测试技术
Benchmark.NET:让 C# 测试程序性能变得既酷又简单
Benchmark.NET是一款专为 .NET 平台设计的性能基准测试框架,它可以帮助你测量代码的执行时间、内存使用情况等性能指标。它就像是你代码的 "健身教练",帮助你找到瓶颈,优化性能,让你的应用跑得更快、更稳!希望这个小教程能让你在追求高性能的路上越走越远,享受编程带来的无限乐趣!
390 13