一文速览-江西开放数据大赛VET风险预测诊断单特征思路分享

简介: 一文速览-江西开放数据大赛VET风险预测诊断单特征思路分享

前言


经过了差不多一个月的不断实验数据工程又跑模型,最终还是发现诊断文本单特征最靠谱了。其他特征与flag关联都挺一般的,官方是根据评分来划分flag的:>5为1,<5为0.由此锁定Caprini模型评估表格中高分重点指标即可预测评分指数从而预测风险。本文提供做标签化文本预测和做文本分析预测思路,但仅提供处理思路,后续比赛结束代码开源,可参考。


5a25ad0629284e56844a31c09325e986.png


提示:以下是本篇文章正文内容,下面案例可供参考


一、诊断文本标签化预测


诊断
结缔组织病
高血压肾损害
脊椎源性痛综合征
结肠恶性肿瘤
开角型青光眼
肺恶性肿瘤
胃炎
肺恶性肿瘤
胃恶性肿瘤
肺继发恶性肿瘤
脑梗死
躯干三度烧伤
特发性肾积水
肝硬化伴食管静脉曲张破裂出血
冠状动脉粥样硬化
胃炎
腹痛
头位顺产
为肿瘤化学治疗疗程


等这些单文本特征,由于这些特征符合Caprini模型表格:


2dc6342c7da24950859f8dc0baaa3b4c.png


8ae7093aaaab41aaa201da94b9cf643e.png

进行评分等级风险的。而对于其他数据特征如D二聚体或凝血酶时间等特征来说关联性太小,和其他flag为0的数据拉不开太大差距(这就是人工标签和算法标签的差距,如果不能让人工标签做到尽可能精确,那只能让算法更趋近于人工的算法) 。

对这些特征进行标签化:


诊断
0
1
2
3
4
5
6
5
7
8
9
10
11
12
13
6
14



如上述对整个文本诊断特征进行处理(得和预测文本一起进行标签化)。当然预测文本也是一样进行标签化处理。


随后进行你们想使用的机器学习模型或是深度学习模型进行预测即可。


二、词袋模型文本特征预测


此方法和上文思路仅是多了一个参考Caprini模型表格进行文本词向量划分。这里提供python处理方法:


首先利用jieba库进行词性划分:

d82f2adffb3640e090d558066980441d.png

例如这个效果进行词向量分类从而构建词袋模型分类。

#创建一个空集
def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document) #创建两个集合的并集 划掉重复出现的单词
    return list(vocabSet)
#处理样本输出为向量形式
def setOfWords2Vec(vocaList , inputSet):
    returnVec = [0]*len(vocaList)#创建一个其中所含元素全为0的向量代替文本
    for word in inputSet:
        if word in vocaList:
            returnVec[vocaList.index(word)] += 1
        else:
            print("the word:%s is not in my Vocabulary!"" % word")
    return returnVec

如果对文本词向量处理不是很了解的话可以看我另一篇文章:

image.png


之后构建完词袋模型对不同词向量根据其标签打上即可完成,随后进行预测调参数即可。


三、总结


总之我觉得挺遗憾的,最后卷的居然是单特征,而其他给的二十多个维度的特征数据全部浪费了没用用上去。当然第二总方法肯定会比第一种方法得分更高但是第一种更快出结果。

目录
相关文章
|
2月前
|
存储 编解码 算法
微帧科技:综合多项指标评价视频质量,才能更接近主观感受
视频质量评价指标如PSNR、SSIM和VMAF是衡量画面质量的重要工具,但不应成为视频工作者的唯一目标。微帧致力于优化画质,提升观看体验,强调综合评估指标,以实现最接近人眼主观感受的效果。本文探讨了PSNR avg.MSE与PSNR avg.log的区别,以及VMAF的优势与不足。
|
4月前
|
数据采集 机器学习/深度学习 人工智能
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析
关于2021年第五届“达观杯”基于大规模预训练模型的风险事件标签识别竞赛的初赛Rank12团队的总结与分析,详细介绍了赛题分析、传统深度学习方案、预训练方案、提分技巧、加速训练方法以及团队的总结和反思。
50 0
|
4月前
|
数据采集 人工智能 数据挖掘
2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案
2021第五届“达观杯”基于大规模预训练模型的风险事件标签识别比赛中使用的NEZHA和Bert方案,包括预训练、微调、模型融合、TTA测试集数据增强以及总结和反思。
46 0
|
6月前
|
机器学习/深度学习 人工智能 数据库
克雷研究所100万美元奖金要归AI了,数学界规则大改,未来数学家如何应对海量猜想
【6月更文挑战第1天】AI在数学领域的突破正在改写数学研究规则。伦敦数学科学研究所的AI预测椭圆曲线秩,与克雷研究所的千禧年问题相关,显示AI在高风险数学问题上的潜力。AI还发现了纽结理论中的新关系,并能生成数学公式的猜想。尽管AI有助于发现模式和猜想,但它仍依赖于数学家的直觉来判断猜想的重要性。未来,AI将成为数学家的工具,加速研究进程,但人类的创造力和洞察力仍是关键。
100 7
|
7月前
|
数据可视化 数据挖掘 Python
【视频】因子分析简介及R语言应用实例:对地区经济研究分析重庆市经济指标
【视频】因子分析简介及R语言应用实例:对地区经济研究分析重庆市经济指标
|
机器学习/深度学习 JSON 自然语言处理
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
全国大数据与计算智能挑战赛:面向低资源的命名实体识别baseline,排名13/64。第一名:0.68962791,基线:0.67902593 ,感兴趣小伙伴可以刷刷榜。 国防科技大学系统工程学院(大数据与决策实验室)
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
|
安全 API 开发者
《开发者评测局》之DetectLivingFace人脸活体检测评测征集令发布
写下你的使用体验,就有机会赢取Kindle Paperwhite4、评测局定制卫衣、云小宝帆布包、50万点图像类通用资源包等好礼!🎁
《开发者评测局》之DetectLivingFace人脸活体检测评测征集令发布
|
机器学习/深度学习 传感器 算法
北大&北航团队揭示电子转移规律,深度学习定量预测96种元素在任意压力下的电负性
北大&北航团队揭示电子转移规律,深度学习定量预测96种元素在任意压力下的电负性
171 0
|
自然语言处理 达摩院 数据格式
带你读《达摩院智能客服知识运营白皮书》——3.2 如何进行知识收集?--基于知识来源收集候选知识
带你读《达摩院智能客服知识运营白皮书》——3.2 如何进行知识收集?--基于知识来源收集候选知识
148 0
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
176 0