山东省第二届数据应用创新创业大赛-算法赛(上)

简介: 山东省第二届数据应用创新创业大赛-算法赛(上)

山东省第二届数据应用创新创业大赛-日照分赛场-公积金贷款逾期预测


比赛链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=26


竞赛背景


维持和发展信用关系,是保护社会经济秩序的重要前提。随着金融市场的发展,信贷业务日益增多,金融机构迫切需要了解信贷主体的信息情况,对信贷资产的安全性、信贷主体的偿债能力给与科学评价,最大限度地防范贷款逾期风险。


竞赛奖项


赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。

  1. 一等奖:¥30,000元 ,1名
  2. 二等奖:¥15,000元 ,2名
  3. 三等奖:¥10,000元 ,3名
  4. 优秀奖:¥2,500元 ,4名


时间安排


2020年11月:举行大赛启动仪式,发布赛事信息

2020年11月—2021年3月:以线上评审形式,开展初赛、复赛

2021年3月—2021年4月:线上线下结合,开展决赛

2021年4月:举办颁奖仪式


任务


从真实场景和实际应用出发,利用个人的基本身份信息、个人的住房公积金缴存和贷款等数据信息,需要参赛者建立准确的风险控制模型,来预测用户是否会逾期还款。


提交说明:


  1. 结果

提交csv格式,编码为UTF-8,第一行为表头,如下例:

id,label

1,0.556

2,0.987

....

注:对于label字段,其中越接近0代表无逾期,越接近1代表逾期。


数据


备注:报名参赛或加入队伍后,可获取数据下载权限。

训练集提供40000名,测试集提供15000名的缴存人基本信息、缴存信息,贷款信息。选手可以下载数据,在本地进行算法调试,在比赛页面提交结果。


数据样本如下:

15.png

image


为了保证比赛的公平性,本次比赛仅允许使用官方发布的数据和标注,否则比赛成绩将被视为无效。


注:此数据测试集增加了干扰样本,这些干扰样本不参与最终分数的计算。 1.数据使用有哪些要求? 本次大赛提供的全部数据、信息等,视为公积金业务的保密信息。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。 2、限制原则是什么? 作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;

一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。


评分标准


本次比赛成绩排名根据测试集的在公积金逾期风险监控中,需要尽可能做到尽可能少的误伤和尽可能准确地探测,于是我们选择“在FPR较低时的TPR加权平均值”作为平均指标。


给定一个阀值,可根据混淆矩阵计算TPR(覆盖率)和FPR(打扰率) TPR = TP /(TP + FN) FPR = FP /(FP + TN) 其中,TP、FN、FP、TN分别为真正例、假反例、假正例、真反例。 这里的评分指标,首先计算了3个覆盖率TPR: TPR1:FPR=0.001时的TPR TPR2:FPR=0.005时的TPR TPR3:FPR=0.01时的TPR 最终成绩= 0.4 * TPR1 + 0.3 * TPR2 + 0.3 * TPR3 代码如下:

def tpr_weight_funtion(y_true,y_predict):

d = pd.DataFrame()

d['prob'] = list(y_predict)

d['y'] = list(y_true)

d = d.sort_values(['prob'], ascending=[0])

y = d.y

PosAll = pd.Series(y).value_counts()[1]

NegAll = pd.Series(y).value_counts()[0]

pCumsum = d['y'].cumsum()

nCumsum = np.arange(len(y)) - pCumsum + 1

pCumsumPer = pCumsum / PosAll

nCumsumPer = nCumsum / NegAll

TR1 = pCumsumPer[abs(nCumsumPer-0.001).idxmin()]

TR2 = pCumsumPer[abs(nCumsumPer-0.005).idxmin()]

TR3 = pCumsumPer[abs(nCumsumPer-0.01).idxmin()]

return 0.4 * TR1 + 0.3 * TR2 + 0.3 * TR3


注:

1. 每支团队每天最多提交3次。

2. 比赛采用公榜私榜,公榜成绩供参赛队伍比赛中查看,比赛结束时公布私榜。


山东省第二届数据应用创新创业大赛-临沂分赛场-供水管网压力预测


比赛链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=24


竞赛背景


随着某新区城市规模的持续发展,该城市供水管网规模不断扩大,以供水管网压力大数据为基础,深度挖掘供水管网大数据的价值,为生态链中的供水企业提供多样的数据服务与应用,实现供水管网精细化管理和供水服务事业健康发展,提高供水管网压力预警分析能力,避免水损,保障居民用水。


竞赛奖项


赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。

  1. 一等奖:¥30,000元,1名
  2. 二等奖:¥15,000元, 2名
  3. 三等奖:¥10,000元,3名
  4. 优秀奖:¥2,500元,4名


时间安排


2020年11月:线上启动,发布赛事信息

2020年12月—2021年2月:以线上评审形式,开展初赛、复赛

2021年3月:线上线下结合,开展决赛

2021年4月:举办颁奖仪式


任务


通过某新区供水管网的历史压力数据、天气数据和供水管网互通图,预测未来某时间点的压力数据。


数据


备注:报名参赛或加入队伍后,可获取数据下载权限。

主办方提供某新区供水管网数据,数据划分如下:

训练集:2018至2019年的30个压力监测点近两年的压力数据、2018年至2019年的天气数据,以及标明了30个压力监测点位置的供水管网互通图。

测试集:以下4段时间的每小时的压力数据、每天的天气数据,需要分别去预测对应日期每小时的压力数据。


16.png

具体数据字段描述如下:


(1)压力数据


17.png

image


(2)气象数据


18.png

image


(3)供水管网互通图


19.png

image


注1:压力监测点数值中数值为0或者负数时为非有效数值。

注2:压力数据,每小时1条数据记录;气象数据,每天1条数据记录。

注3:选手不能利用“未来的实际数据”预测“过去的数据”,例如,假设要预测2020/2/13 23:00的压力值,就不能利用这个时间点以后的真实数据进行预测,尤其需要注意气象数据的使用。


注4:天气原因会对居民用水造成影响,而居民用水情况又会对压力产生一定的影响。例如,假设某新区内管网总供水数量保持恒定,30个压力监测点都同时受居民用水量增减影响,居民用水量大,必然造成管网压力监测点数值下降,反之压力升高。


注5:本次大赛提供的全部数据、信息等,视为水务的保密信息。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。


评分标准


本模型依据提交的结果文件,采用均方误差MSE进行评价。

观测值actual(t),预测值forecast(t),待预测的样本数为n,计算公式如下:


20.png

image


参考代码如下:

from sklearn.metrics import mean_squared_error y_true = [0.1,0.2,0.3,0.4] y_pred = [0.2,0.2,0.2,0.3] mse = mean_squared_error(p_true, y_pred)


山东省第二届数据应用创新创业大赛-枣庄分赛场-螺母螺栓产品质量智能检测


比赛链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=17


竞赛背景


智能制造是枣庄市优先发展的战略方向。枣庄市高新科技企业借助人工智能为工业赋能,建设智慧车间,增强工业产能,提高产品质量。本赛题需要参赛团队对成品螺母螺栓的质量进行智能检测,提高智能制造产品质检的智能化水平。


竞赛奖项


赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。

  1. 一等奖:¥30000元,1名
  2. 二等奖:¥15000元, 2名
  3. 三等奖:¥10000元,3名
  4. 优秀奖:¥2500元,4名


时间安排


2020年11月24日:举行大赛启动仪式,发布赛事信息

2020年11月—2021年3月:以线上评审形式,开展初赛、复赛

2021年4月:线上线下结合,开展决赛

2021年4月:举办颁奖仪式


任务


建立机器学习模型,判断成品螺母质量是否达标。

注:产品质量检测标准,详见数据下载链接;简单来讲,产品允许一定程度的瑕疵。


数据


备注:报名参赛或加入队伍后,可获取数据下载权限。

训练集共有200张照片,包含100张合格产品的照片和100张张不合格产品的照片。测试集不开放,共计777张。


选手需要提交包含模型的压缩文件,在服务器端执行对测试集图片的预测。


注:


1.数据使用有哪些要求?

本次大赛提供的全部数据、信息等,视为保密信息。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。


2、限制原则是什么?

作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。


评分标准


比赛采用标准的macro F1,参考代码如下:

from sklearn.metrics import f1_score

y_true = [1, 0, 1, 0]

y_pred = [1, 1, 1, 0]

score = f1_score(y_true, y_pred, average='macro')


3.2 评测及排行

本次比赛进行线上评测,评测时需要被测团队将算法源代码、模型压缩打包发送给承办方,承办方将使用新的测试集进行统一评测。评测每天每个团队只有一次提交机会。

相关文章
|
6天前
|
运维 监控 算法
监控局域网其他电脑:Go 语言迪杰斯特拉算法的高效应用
在信息化时代,监控局域网成为网络管理与安全防护的关键需求。本文探讨了迪杰斯特拉(Dijkstra)算法在监控局域网中的应用,通过计算最短路径优化数据传输和故障检测。文中提供了使用Go语言实现的代码例程,展示了如何高效地进行网络监控,确保局域网的稳定运行和数据安全。迪杰斯特拉算法能减少传输延迟和带宽消耗,及时发现并处理网络故障,适用于复杂网络环境下的管理和维护。
|
17天前
|
机器学习/深度学习 算法 搜索推荐
联邦学习的未来:深入剖析FedAvg算法与数据不均衡的解决之道
随着数据隐私和数据安全法规的不断加强,传统的集中式机器学习方法受到越来越多的限制。为了在分布式数据场景中高效训练模型,同时保护用户数据隐私,联邦学习(Federated Learning, FL)应运而生。它允许多个参与方在本地数据上训练模型,并通过共享模型参数而非原始数据,实现协同建模。
|
3月前
|
存储 监控 算法
员工上网行为监控中的Go语言算法:布隆过滤器的应用
在信息化高速发展的时代,企业上网行为监管至关重要。布隆过滤器作为一种高效、节省空间的概率性数据结构,适用于大规模URL查询与匹配,是实现精准上网行为管理的理想选择。本文探讨了布隆过滤器的原理及其优缺点,并展示了如何使用Go语言实现该算法,以提升企业网络管理效率和安全性。尽管存在误报等局限性,但合理配置下,布隆过滤器为企业提供了经济有效的解决方案。
102 8
员工上网行为监控中的Go语言算法:布隆过滤器的应用
|
1天前
|
存储 人工智能 算法
通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统
阿里云向量检索服务Milvus 2.5版本在全文检索、关键词匹配以及混合检索(Hybrid Search)方面实现了显著的增强,在多模态检索、RAG等多场景中检索结果能够兼顾召回率与精确性。本文将详细介绍如何利用 Milvus 2.5 版本实现这些功能,并阐述其在RAG 应用的 Retrieve 阶段的最佳实践。
通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统
|
8天前
|
存储 缓存 监控
企业监控软件中 Go 语言哈希表算法的应用研究与分析
在数字化时代,企业监控软件对企业的稳定运营至关重要。哈希表(散列表)作为高效的数据结构,广泛应用于企业监控中,如设备状态管理、数据分类和缓存机制。Go 语言中的 map 实现了哈希表,能快速处理海量监控数据,确保实时准确反映设备状态,提升系统性能,助力企业实现智能化管理。
25 3
|
10天前
|
算法 图形学 数据安全/隐私保护
基于NURBS曲线的数据拟合算法matlab仿真
本程序基于NURBS曲线实现数据拟合,适用于计算机图形学、CAD/CAM等领域。通过控制顶点和权重,精确表示复杂形状,特别适合真实对象建模和数据点光滑拟合。程序在MATLAB2022A上运行,展示了T1至T7的测试结果,无水印输出。核心算法采用梯度下降等优化技术调整参数,最小化误差函数E,确保迭代收敛,提供高质量的拟合效果。
|
18天前
|
算法 Serverless 数据处理
从集思录可转债数据探秘:Python与C++实现的移动平均算法应用
本文探讨了如何利用移动平均算法分析集思录提供的可转债数据,帮助投资者把握价格趋势。通过Python和C++两种编程语言实现简单移动平均(SMA),展示了数据处理的具体方法。Python代码借助`pandas`库轻松计算5日SMA,而C++代码则通过高效的数据处理展示了SMA的计算过程。集思录平台提供了详尽且及时的可转债数据,助力投资者结合算法与社区讨论,做出更明智的投资决策。掌握这些工具和技术,有助于在复杂多变的金融市场中挖掘更多价值。
46 12
|
16天前
|
算法 安全 网络安全
基于 Python 的布隆过滤器算法在内网行为管理中的应用探究
在复杂多变的网络环境中,内网行为管理至关重要。本文介绍布隆过滤器(Bloom Filter),一种高效的空间节省型概率数据结构,用于判断元素是否存在于集合中。通过多个哈希函数映射到位数组,实现快速访问控制。Python代码示例展示了如何构建和使用布隆过滤器,有效提升企业内网安全性和资源管理效率。
48 9
|
9天前
|
存储 监控 算法
公司监控上网软件架构:基于 C++ 链表算法的数据关联机制探讨
在数字化办公时代,公司监控上网软件成为企业管理网络资源和保障信息安全的关键工具。本文深入剖析C++中的链表数据结构及其在该软件中的应用。链表通过节点存储网络访问记录,具备高效插入、删除操作及节省内存的优势,助力企业实时追踪员工上网行为,提升运营效率并降低安全风险。示例代码展示了如何用C++实现链表记录上网行为,并模拟发送至服务器。链表为公司监控上网软件提供了灵活高效的数据管理方式,但实际开发还需考虑安全性、隐私保护等多方面因素。
15 0
公司监控上网软件架构:基于 C++ 链表算法的数据关联机制探讨
|
8天前
|
算法 安全 Java
探讨组合加密算法在IM中的应用
本文深入分析了即时通信(IM)系统中所面临的各种安全问题,综合利用对称加密算法(DES算法)、公开密钥算法(RSA算法)和Hash算法(MD5)的优点,探讨组合加密算法在即时通信中的应用。
14 0

热门文章

最新文章