山东省第二届数据应用创新创业大赛-算法赛(下)

简介: 山东省第二届数据应用创新创业大赛-算法赛(下)

山东省第二届数据应用创新创业大赛-济南分赛场-健康医疗


比赛链接 http://data.sd.gov.cn/cmpt/cmptDetail.html?id=22


竞赛背景


2019年济南首次迎来国家卫生城市复审,以参审省会城市第一名的成绩高分通过。2020年济南发布《济南市人民政府关于推进健康济南行动的实施意见》,促进以治病为中心向以健康为中心转变,提高人民群众健康水平。围绕打造国际医疗康养名城,济南市稳步提高全民健康素养水平,加快推广健康生活方式,有效控制重大慢性病发病率上升趋势。


竞赛奖项


赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。

  1. 一等奖:¥30,000元 ,1名
  2. 二等奖 :¥15,000元, 2名
  3. 三等奖 :¥10,000元, 3名
  4. 优秀奖 :¥2,500元, 4名


时间安排


2020年11月9日:线上启动,发布赛事信息

2020年12月—2021年2月:以线上评审形式,开展初赛、复赛

2021年3月:线上线下结合,开展决赛

2021年4月:举办颁奖仪式


任务


分析门诊/急诊就诊记录数据,预测未来疾病病例数量,为医疗卫生部门统筹规划医疗资源、提前预防疾病提供数据支持。


数据


备注:报名参赛或加入队伍后,可获取数据下载权限。

主办方提供2017年-2020年的疾病数据,数据划分如下:

训练集:2017至2018年的近两年的门诊数据,以及关于需要预测的30个病种的病例数量数据。


测试集:以下6段时间的门诊数据,以及对应的30个病种的病例数量数据。需要分别预测对应日期的病例数量。


21.png


具体字段描述如下:


1、门诊/急诊就诊记录(train_2017、train_2018、test_2019、test_2020)

22.png

image


2、疾病数量统计(count_2017、count_2018、count_2019、count_2020)

23.png

image

注:数据不是每天都有记录,部分日期的数据缺失。


作品提交要求

1、文件格式:按照csv格式提交

2、文件大小:无要求

3、提交次数限制:每支队伍每天最多3次

4、文件详细说明:

  1. 以csv格式提交,编码为UTF-8,第一行为表头
  2. 提交格式见样例submit.csv

5、不需要上传其他文件


评分标准


本模型依据提交的结果文件,采用均方误差MSE进行评价。

观测值actual(t),预测值forecast(t),待预测的样本数为n,计算公式如下:


24.png

image


参考代码如下:

from sklearn.metrics import mean_squared_error

y_true = [0.1,0.2,0.3,0.4]

y_pred = [0.2,0.2,0.2,0.3]

mse = mean_squared_error(p_true, y_pred)


山东省第二届数据应用创新创业大赛-主赛场-检验报告单识别


比赛链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=19

竞赛背景


检验报告是当前患者就医时最常见到的报告类型。大部分情况下,由于患者医学知识的缺失,对于自己的检验报告单往往不知所云。如果能对广大的患者群体,提供一种简便、高效、易用且准确的检验报告单的录入方法,则会对于后续报告自动化解读、健康档案普及、健康管理系统的普及推广产生强有力的推动效应。本题目从真实的业务需求出发,提供了更贴近真实场景更具挑战性更加务实的任务,期待参赛选手们在这些任务上相互切磋、共同进步。


竞赛奖项


赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。

  1. 一等奖: ¥30,000元, 1名
  2. 二等奖: ¥15,000元, 2名
  3. 三等奖: ¥10,000元, 3名
  4. 优秀奖: ¥2,500元, 4名


时间安排


2020年11月9日:线上启动、发布赛事信息、开启报名通道

2020年11月—2021年3月:以线上评审形式开展初赛

2021年3月11日—4月15日:线上线下结合开展决赛

2021年4月16日:举办颁奖仪式


任务


25.png


根据以上给定的检验报告单,将图片中的文字内容,识别提取出检验项目、结果、单位三项内容。根据上图结果如下:


26.png

image


数据


备注:报名参赛或加入队伍后,可获取数据下载权限。

本题目的开发不限制数据集的使用,鼓励使用生成数据的方法来进行训练开发。

本次比赛仅公开提供100个报告单图片数据,作为参赛选手线下测评使用。


注:


1.数据使用有哪些要求?

本次大赛提供的全部数据、信息等,视为保密信息。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。


2、限制原则是什么?

作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。


评分标准


使用ROUGE-L算法来评价识别输出的结果与真实结果。

单个图片对应的表格数据依照从左上到右下的顺序将每个单元格内的字符串连接起来,形成原始字符串。将模型输出的表格数据作相同处理,生成识别字符串。

对原始字符串与识别字符串作ROUGE-L计算,不同的图片之间,求平均结果,作为最终的评价指标。最终评价指标详见样例评分代码。


评测及排行:

由于OCR任务性质的特殊,本次比赛进行线上评测,评测时需要被测团队将算法源代码、模型压缩打包发送给承办方,承办方将使用新的测试集进行统一评测。评测每天每个团队只有一次提交机会。

相关文章
|
16天前
|
存储 监控 算法
员工上网行为监控中的Go语言算法:布隆过滤器的应用
在信息化高速发展的时代,企业上网行为监管至关重要。布隆过滤器作为一种高效、节省空间的概率性数据结构,适用于大规模URL查询与匹配,是实现精准上网行为管理的理想选择。本文探讨了布隆过滤器的原理及其优缺点,并展示了如何使用Go语言实现该算法,以提升企业网络管理效率和安全性。尽管存在误报等局限性,但合理配置下,布隆过滤器为企业提供了经济有效的解决方案。
60 8
员工上网行为监控中的Go语言算法:布隆过滤器的应用
|
3月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
69 3
|
16天前
|
存储 缓存 算法
探索企业文件管理软件:Python中的哈希表算法应用
企业文件管理软件依赖哈希表实现高效的数据管理和安全保障。哈希表通过键值映射,提供平均O(1)时间复杂度的快速访问,适用于海量文件处理。在Python中,字典类型基于哈希表实现,可用于管理文件元数据、缓存机制、版本控制及快速搜索等功能,极大提升工作效率和数据安全性。
52 0
|
2月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
56 1
|
2月前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
71 1
|
2月前
|
缓存 算法 网络协议
OSPF的路由计算算法:原理与应用
OSPF的路由计算算法:原理与应用
74 4
|
2月前
|
机器学习/深度学习 监控 算法
基于反光衣和检测算法的应用探索
本文探讨了利用机器学习和计算机视觉技术进行反光衣检测的方法,涵盖图像预处理、目标检测与分类、特征提取等关键技术。通过YOLOv5等模型的训练与优化,展示了实现高效反光衣识别的完整流程,旨在提升智能检测系统的性能,应用于交通安全、工地监控等领域。
|
2月前
|
存储 算法 网络协议
OSPF的SPF算法介绍:原理、实现与应用
OSPF的SPF算法介绍:原理、实现与应用
95 3
|
2月前
|
存储 编解码 负载均衡
数据分片算法
【10月更文挑战第25天】不同的数据分片算法适用于不同的应用场景和数据特点,在实际应用中,需要根据具体的业务需求、数据分布情况、系统性能要求等因素综合考虑,选择合适的数据分片算法,以实现数据的高效存储、查询和处理。