资源 | 从医疗语音到灾难响应,这八大优质数据集快抱走

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

找靠谱数据集的痛苦数据科学领域的宝宝们都懂。文摘菌今天强力推荐一个很棒的数据平台Figure Eight。

先上网站链接:www.figure-eight.com

相比其他数据平台,这个平台的一大特点是,用于标注数据集的模板都可以复制,而且能够在Figure Eight平台扩展其应用。每个数据集里包含了原始数据、工作设计、教程、说明等等。

以下是几个被文摘菌选中的优质数据集:

谷歌数据集Open Images Dataset v4(包围盒)

5eb0047b4b2ca4a4b4a09eb38cde4ce85d85de9f

Open Images是一个包含九百万图片的数据集,使用了几千类图像级标签和包围盒进行标注。Open Images的第4版侧重于对象检测,用包围盒标注了170万图像,这些标注覆盖了按层次分组的600类对象。

这份数据集是2018年欧洲计算机视觉大会上举办的公开图像挑战赛的特征集。

数据集的更多信息

https://storage.googleapis.com/openimages/web/challenge.html

2018欧洲计算机视觉大会

https://storage.googleapis.com/openimages/web/index.html

数据集链接

https://www.figure-eight.com/dataset/open-images-annotated-with-bounding-boxes/

核分割的医学图像数据集

49e8abb949cdcc96552cb07545e7ea4679169482

医学专家标注的来自几种不同器官的21000个细胞核

该数据集包含标注过的苏木精-伊红染色(H&E)图像,这种图像是组织病理学中最常见的几类之一。这些图像裁剪自30个全切片成像系统中的数字化组织样本,这些组织样本来自癌症和肿瘤基因图谱中所提到的7个器官。

这些图像从18所不同的医院采集,因此不同实验室中染色实验操作的差异,也额外引入了影响成像的因素。器官中组织最密集的部分裁剪出了大小为1000 x 1000像素的图片。为了进一步保障细胞核表征的丰富性,这个数据库囊括了乳腺、肝脏、肾脏、前列腺、膀胱、结肠和胃等的良性和病变样本。

数字显微组织的核分割图像可为计算病理学中的提取核形态测量和其他分析提取出高质量的特征。诸如密度、细胞核质比、大小、形状特征、多形性等核形态测量特征和外观特征,不仅有助于评估肿瘤分级,也可用于治疗效果预测。

此数据集整合了30张裁剪后的图像,包含了超过21000个细胞核。并且每张图片经由医学专家标注和验证,可供研究人员开发和测试更普适的核分割技术,以应用于多种类型细胞核。

数据集链接

https://www.figure-eight.com/dataset/nucleus-segmentation-in-histopathological-images/

笔迹识别数据集

dbb8f8ef849fcc5a2c54ec0c5851194b06960487

OCR(光学字符识别)的40万手写姓名的抄本

这个数据集有40多万个样本之多,基本上是从帮助世界各地弱势儿童的慈善项目中收集到的。

OCR(光学字符识别)利用图像处理技术,将扫描文件上的字符转换成数字信息。这项技术应用于机器打印的字体时通常表现良好,但对于辨认风格迥异的手写字体则稍显无力。

这个数据集共包括206,799个名和207,024个姓,分为了331059个训练集、41382个测试集和41382个验证集。

此外,这个数据集提供了所有Figure Eight平台上通过人机闭环标注系统(human-in-the-loop annotation)创建的图像标签,以方便人们用自己的数据扩充数据集。

数据集链接

https://www.figure-eight.com/dataset/handwritten-name-transcription-from-an-image/

旧金山停车标志探测数据集

1da7a79cfb485ed3cd6636627d83a4d2810d0c80

从旧金山街景图像中探测并解析停车标志

该数据集收集了旧金山不同街区形状、颜色、方向、大小各异的停车标志图像,并通过Figure Eight平台进行了标注,实现对停车标志探测模型的训练。这些标注过的停车标志可以帮助训练OCR模型,从而使模型识别出停车、自动驾驶汽车相关的标志,而忽略商店、广告牌和其他干扰性的标志。

停车标志探测模型结合了计算机视觉、自然语言处理和空间推理技术,是Figure Eight正在运行的的项目之一。我们的目标是利用深度学习算法深入研究,以建立更精准的模型,并应用于其他城市,尤其是停车标志易与人造物体混淆的密集区域。

此项目的更多信息

https://ascelibrary.org/doi/abs/10.1061/9780784480823.037?cookieSet=1

数据集链接

https://www.figure-eight.com/dataset/parking-sign-detection/

提取药物信息数据集

3c23b956b64f621da517c484fe609bfd70d805bf

PubMed文章中医学术语间关系的数据集,用于关系提取和相关自然语言处理任务。

该数据集包括从PubMed文章摘要中选取的3984个医学相关语句,并标注了不相关术语间的联系。其中“治疗”关系和“因果”关系是主要关注点,共有1043个句子含有治疗关系,1787个句子含有因果关系。

人机闭环标注系统进行向标注者提供两个术语(例如“路易体痴呆(LBD)”和“真性视幻觉”),而标注者则按照要求标注两个术语间的关系(对于上述例子应为“路易体痴呆导致真性视幻觉”)。

数据集链接

https://www.figure-eight.com/dataset/medical-sentence-summary-and-relation-extraction/

医疗相关谈话语音、转换文本与意图的数据集

8b2a64150d12cc058eb34512d2022e30422b5d45

将8.5小时的语音与常见症状的文本配对

这份8.5小时的语音里包含了数以千计的常见症状,比如“膝盖疼痛”、“头疼”等等。每一条症状语音都由真实的人,基于特定症状提供。这些音频片段可用于培训医疗领域的诊断助理。

Figure Eight通过多作业工作流创建了这个数据集。第一位参与者写下文字短语来描述设定的症状,比如对于“头疼”,他可能会写下“我想治一下偏头痛”,随后的工作则是为已接收的字符串捕捉音频。

注:这个数据集既包括音频,也包括了相应的文本。

数据集链接

https://www.figure-eight.com/dataset/audio-recording-and-transcription-for-medical-scenarios/

斯瓦西里语翻译健康主题数据集

f9d7e9e5054951ca76e22c3bd88c62ce4c8a45b8

将灾害和与威胁相关的数据由英语翻译成斯瓦西里语

这项工作的输入数据库是来自红十字会的灾难和与威胁相关的信息,包括疾病、受伤情况、自然灾害等项目。对于每一个类别,这个数据集都提供了特定情况下行事的指导,以及如何利用可用工具,从而在可能威胁生命的情况中生存下来的指导。

这份数据还包括了每个文本字符串的斯瓦希里语翻译。Figure Eight的工作旨在纠正斯瓦西里语翻译中的错误(如果需要的话),并为需要译为斯瓦西里短语的人提供所收集到的语音片段。此外,贡献者需要根据给定主题的文本片段,将短语分为三类:对特定情况有帮助的物品、提升存活几率的行为和其他。

数据集链接

https://www.figure-eight.com/dataset/english-to-swahili-audio-recording-and-transcription/

多语言灾难响应消息数据集

38dd03b2666c652f64e01ef3f8c8959232478f06

一组于灾难响应相关的信息,涵盖了多种语言,适用于文本分类、相关的自然语言处理任务。

该数据集将会包含30类与灾难响应相关的信息,这些类别包括:发出信息者的意图(例如:寻求援助、提供援助),援助主题(例如:水、食物、药品),运输或物流相关类,和某个人是否在传递一手信息、是不是直接证人。这些类别可以作为任一现存语言的预测标签。

不同类别反映了人员和组织在灾难发生后需要的不同类的的信息。灾难过后,由于不同组织会对不同方面作出回应,没有统一的标准评判哪些信息是重要的。比如,某个组织可能专注于饮用水情况,而另一个组织则侧重于确保道路畅通。不同信息的优先级也常随时间而变化。因此,不同的子类可以映射到不同的需求和回应,这些子类所属的广泛的大类则用于标记数据集。

数据主要分为三种类型:直接发送给救灾组织的消息,社交媒体上流传的消息,以及灾难相关文章的标题。这些数据里有大约20%与灾难无关,但与其他相关数据来自于相同的文章和消息。这些不相关的数据使得研究人员能够评估他们从风格相似的数据中区分相关与不相关信息的能力。


原文发布时间为:2018-05-23

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 人工智能 监控
AI视频监控技术在公租房管理中的应用:提升监管精准度与效率
该AI视频监控系统具备1080P高清与夜视能力,采用深度学习技术实现高精度人脸识别(误识率1%),并支持实时预警功能,响应时间小于5秒。系统支持私有化部署,保障数据隐私安全,适用于大规模公租房社区管理,可容纳10万以上人脸库。基于开源架构和Docker镜像,一键部署简单快捷,确保24小时稳定运行,并提供详细的后台数据分析报表,助力政府决策。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。
|
5月前
|
自然语言处理
从零到英雄:手把手教你打造专属医疗领域智能医生——微调生成私有模型的惊人之旅,颠覆传统医疗咨询方式
【10月更文挑战第8天】本文介绍如何通过微调预训练模型(如BERT),创建一个专用于医疗领域的智能医生模型。该模型能根据患者症状提供初步诊断建议,同时保护患者隐私。文章详细说明了所需库的安装、数据集准备、模型微调及训练过程,并提供了代码示例。
78 7
|
机器学习/深度学习 JSON 自然语言处理
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
全国大数据与计算智能挑战赛:面向低资源的命名实体识别baseline,排名13/64。第一名:0.68962791,基线:0.67902593 ,感兴趣小伙伴可以刷刷榜。 国防科技大学系统工程学院(大数据与决策实验室)
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
《总监课第五期第五节:质量保障 - 大规模原生云质量保障浅析》电子版地址
总监课第五期第五节:质量保障 - 大规模原生云质量保障浅析
74 0
《总监课第五期第五节:质量保障 - 大规模原生云质量保障浅析》电子版地址
|
机器学习/深度学习 人工智能 运维
AI+实时监控技术提升公共服务的十种方式
利用实时监控方案成功实现网络与物理安全性合并,将帮助公共事业部门更好地为客户服务、实现更加一致的运营稳定性,同时避免各类计划外停机事件。
|
机器学习/深度学习 人工智能 文字识别
AI技术帮助视觉障碍人士在疫情隔离期间继续学习
19岁的攀岩世界冠军Abbie Robinson在COVID-19疫情期间使用OrCam MyEye2设备继续完成学业。
|
存储 弹性计算 运维
【云栖号案例 | 医疗健康 】基因科研公司上云 低成本进一步保证重要数据安全
基因科研公司在本地部署IDC机房,线下部署成本高。需要高性能的弹性IT架构。这套架构成本低,解决数据读取、数据分析需求,进一步保证重要数据安全。
|
存储 数据可视化 数据库
混合现实手术规划模拟系统——阿里云资源+MR技术在医疗行业的典型应用
混合现实手术规划模拟系统是一款主要用于外科手术方案规划和模拟的现代医学影像控制系统,以及与之配套的云服务平台和数据服务的总称。借助三维图像技术、混合现实技术、人机交互技术等一系列前沿计算机科技,将患者身体的各个组织、器官,以直观、准确的可视化三维图形呈现在混合现实设备中,并提供了一系列数字模拟工具,使手术医生可以在此数据的基础上,对即将进行的手术进行模拟,从而更好的制定手术方案并与他人交流沟通。
3968 0