开发者社区> 问答> 正文
1
0
分享

求教:动态字段的处理怎么做?

现状: 目前实时数仓的存储和对外数据服务使用hbase,列是不固定的。 举个例子,如果用户新增了一个指标并生成了数据,来源系统的数据总线(kafka)会把生成的数据发送过来(没有声明是新的指标), hbase中需要增加一个指标名称的列并保存和更新相应数据。(实际场景比这个复杂一些) 之前是用python脚本(数据平台完全是python开发的)实现的,实现很简单,但是性能上有一些瓶颈。现在想切换到pyflink,不知道有没有好的方式。 python脚本优化过后(消费kafka->逻辑加工->写入hbase)大概3000条/秒,能勉强满足现有数据的峰值处理。但是数据一直在增长,可见的未来性能一定跟不上了。 请问有没有处理过类似问题的专家方便解答一下?*来自志愿者整理的flink邮件归档

展开
收起
EXCEED 2021-12-01 16:48:20 704 0
举报
飞天免费试用计划
领取免费云资源,开启云上实践第一步
实时数仓Hologres
5000CU*H 100GB 3个月
额度3个月内有效
实时计算 Flink 版
5000CU*H 3个月
额度3个月内有效
云原生大数据计算服务 MaxCompute
5000CU*H 100GB 3个月
额度3个月内有效
1 条回答
写回答
取消 提交回答
  • 由于你的DDL是变化的,无法提前预知所有字段,所以首先可以确定的是这个场景无法使用Flink SQL解决。

    如果使用DataStream解决的话是可行的,唯一可能存在的问题就是目前社区没有提供DataStream的HBase sink。

    如果你需要在DataStream中使用HBase sink的话,可能需要你自定义一个HBase sink或者基于社区的HBase SQL connector做一些更改。不过这些更改是需要在Java代码层面的。

    至于其他的处理逻辑可以用pyFlink很方便的改写。*来自志愿者整理的flink邮件归档

    2021-12-01 16:59:24 举报
    赞同 评论 打赏

    评论

    全部评论 (0)

    登录后可评论
问答排行榜
最热
最新

相关电子书

更多
动态、高效,蚂蚁动态卡片的内核逻辑 立即下载
RowKey与索引设计:技巧与案例分析 立即下载
继承与功能组合 立即下载
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等