Apache Hudi在医疗大数据中的应用-阿里云开发者社区

Apache Hudi在医疗大数据中的应用

2022-05-06 384

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 本篇文章主要介绍Hudi在医疗大数据中的应用，主要分为５个部分进行介绍：1. 建设背景，2. 为什么选择Hudi，3. Hudi数据同步，4. 存储类型选择及查询优化，5. 未来发展与思考。

1. 建设背景

我们公司主要为医院建立大数据应用平台，需要从各个医院系统中抽取数据建立大数据平台。如医院信息系统，实验室（检验科）信息系统，体检信息系统，临床信息系统，放射科信息管理系统，电子病例系统等等。

在这么多系统中构建大数据平台有哪些痛点呢？大致列举如下。

接入的数据库多样化。其中包括很多系统，而系统又是基于不同数据库进行开发的，所以要支持的数据库比较多,例如MySQL，Oracle，Mongo db，SQLServer，Cache等等。
统一数据建模。针对不同的医院不同的系统里面的表结构，字段含义都不一样，但是最终数据模型是一定的要应用到大数据产品上的，这样需要考虑数据模型的量化。
数据量级差别巨大。不一样的医院，不一样的系统，库和表都有着很大的数据量差异，处理方式是需要考虑兼容多种场景的。
数据的时效性。数据应用产品需要提供更高效的实时应用分析，这也是数据产品的核心竞争力。

2. 为什么选择Hudi

我们早期的数据合并方案，如下图所示

即先通过binlog解析工具进行日志解析，解析后变为JSON数据格式发送到Kafka 队列中，通过Spark Streaming 进行数据消费写入HBase，由HBase完成数据CDC操作，HBase即我们ODS数据层。由于HBase 无法提供复杂关联查询，这对后续的数据仓库建模并不是很友好，所以我们设计了HBase二级索引来解决两个问题：1. 增量数据的快速拉取，2. 解决数据的一致性。然后就是自研ETL工具通过DataX 根据最后更新时间增量拉取数据到Hadoop ，最后通过Impala数据模型建模后写入Greenplum提供数据产品查询。

上述方案面临了如下几个问题

数据流程环节复杂，数据要经过Kafka，HBase，Hdfs，Impala。
数据校验困难，每层数据质量校验比较麻烦。
数据存储冗余，HBase存储一份，Hive Hdfs 也存储一份。
查询负载高，HBase表有上限一旦表比较多，维护的Region个数就比较多，Region Server 容易出现频繁GC。
时效性不高，流程长不能保证每张表都能在10分钟内同步，有些数据表有滞后现象。

面对上述的问题，我们开始调研开源的实现方案，然后选择了Hudi，选择Hudi 优势如下

多种模式的选择。目前Hudi 提供了两种模式：Copy On Write和Merge On Read，针对不同的应用场景，可选择不同模式，并且每种模式还提供不同视图查询，。
支持多种查询引擎。Hudi 提供Hive，Spark SQL，presto、Impala 等查询方式，应用选择更多。
Hudi现在只是Spark的一个库， Hudi为Spark提供format写入接口，相当于Spark的一个库，而Spark在大数据领域广泛使用。
Hudi 支持多种索引。目前Hudi 支持索引类型HBASE，INMEMORY，BLOOM，GLOBAL_BLOOM 四种索引以及用户自定义索引以加速查询性能，避免不必要的文件扫描。
存储优势， Hudi 使用Parquet列式存储，并带有小文合并功能。

3. Hudi 数据同步

Hudi数据同步主要分为两个部分：1. 初始化全量数据离线同步；2. 近实时数据同步。

离线同步方面：主要是使用DataX根据业务时间多线程拉取，避免一次请求过大数据和使用数据库驱动JDBC拉取数据慢问题，另外我们也实现多种datax 插件来支持各种数据源，其中包括Hudi的写入插件。

近实时同步方面：主要是多表通过JSON的方式写入Kafka，在通过Flink多输出写入到Hdfs目录，Flink会根据binlog json的更新时间划分时间间隔，比如0点0分到0点5分的数据在一个目录，0点5分到0点10分数据一个目录，根据数据实时要求选择目录时间的间隔。接着通过另外一个服务轮询监控Hdfs是否有新目录生成，然后调用Hudi Merge脚本任务。运行任务都是提交到线程池，可以根据集群的资源调整并合并的数量。

这里可能大家有疑问，为什么不是Kafka 直接写入Hudi ？官方是有这样例子，但是是基于单表的写入，如果表的数据多达上万张时怎么处理？不可能创建几万个Topic。还有就是分流的时候是无法使用Spark Write进行直接写入。

4. 存储类型选择及查询优化

我们根据自身业务场景，选择了Copy On Write模式，主要出于以下两个方面考虑。

查询时的延迟，
基于读优化视图增量模式的使用。

关于使用Spark SQL查询Hudi也还是SQL拆分和优化、设置合理分区个数（Hudi可自定义分区可实现上层接口）,提升Job并行度、小表的广播变量、防止数据倾斜参数等等。

关于使用Presto查询测试比Spark SQL要快3倍，合理的分区对优化非常重要，Presto 不支持Copy On Write 增量视图，在此基础我们修改了hive-hadoop2插件以支持增量模式，减少文件的扫描。

5. 未来发展与思考

离线同步接入类似于FlinkX框架，有助于资源统一管理。FlinkX是参考了DataX的配置方式，把配置转化为Flink 任务运行完成数据的同步。Flink可运行在Yarn上也方便资源统一管理。
Spark消费可以支持多输出写入，避免需要落地Hdfs再次导入。这里需要考虑如果多表传输过来有数据倾斜的问题，还有Hudi 的写入不仅仅只有Parquert数据写入，还包括元数据写入、布隆索引的变更、数据合并逻辑等，如果大表合并比较慢会影响上游的消费速度。
Flink对Hudi的支持，社区正在推进这块的代码合入。
更多参与社区，希望Hudi社区越来越好。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

Apache Hudi在医疗大数据中的应用

1. 建设背景

2. 为什么选择Hudi

3. Hudi 数据同步

4. 存储类型选择及查询优化

5. 未来发展与思考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

Apache Hudi在医疗大数据中的应用

1. 建设背景

2. 为什么选择Hudi

3. Hudi 数据同步

4. 存储类型选择及查询优化

5. 未来发展与思考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像