开发者社区> 问答> 正文

求教:动态字段的处理怎么做?

现状: 目前实时数仓的存储和对外数据服务使用hbase,列是不固定的。 举个例子,如果用户新增了一个指标并生成了数据,来源系统的数据总线(kafka)会把生成的数据发送过来(没有声明是新的指标), hbase中需要增加一个指标名称的列并保存和更新相应数据。(实际场景比这个复杂一些) 之前是用python脚本(数据平台完全是python开发的)实现的,实现很简单,但是性能上有一些瓶颈。现在想切换到pyflink,不知道有没有好的方式。 python脚本优化过后(消费kafka->逻辑加工->写入hbase)大概3000条/秒,能勉强满足现有数据的峰值处理。但是数据一直在增长,可见的未来性能一定跟不上了。 请问有没有处理过类似问题的专家方便解答一下?*来自志愿者整理的flink邮件归档

展开
收起
EXCEED 2021-12-01 16:48:20 699 0
1 条回答
写回答
取消 提交回答
  • 由于你的DDL是变化的,无法提前预知所有字段,所以首先可以确定的是这个场景无法使用Flink SQL解决。

    如果使用DataStream解决的话是可行的,唯一可能存在的问题就是目前社区没有提供DataStream的HBase sink。

    如果你需要在DataStream中使用HBase sink的话,可能需要你自定义一个HBase sink或者基于社区的HBase SQL connector做一些更改。不过这些更改是需要在Java代码层面的。

    至于其他的处理逻辑可以用pyFlink很方便的改写。*来自志愿者整理的flink邮件归档

    2021-12-01 16:59:24
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
动态、高效,蚂蚁动态卡片的内核逻辑 立即下载
RowKey与索引设计:技巧与案例分析 立即下载
Phoenix 全局索引原理与实践 立即下载