开发者社区> 问答> 正文

公司数据密文,如何实现group by和join

目前公司数据都是密文,要进行密文数据的比较或者计算的话,只能调用公司密文计算的接口,去看了下flink的分组和join算子,都只能指定分组的key或者join的key,不知道怎么改写比较的规则,我用mapreduce实现了重写shuffle的比较规则,可以实现密文下的join和group by,对于使用spark和flink算子不知道如何实现。

问题: 请问有啥办法,实现密文下的join和group by操作吗?(在不能解密,只能调用公司密文计算的接口)

谢谢您。*来自志愿者整理的flink邮件归档

展开
收起
彗星halation 2021-12-02 17:20:23 616 0
1 条回答
写回答
取消 提交回答
  • 没太明白你的需求。你的需求是不是

    1. 调用一个自定义函数,用某一列密文算出一个值 k,用这个 k 作为 join key 或者 group key。

    如果是这个需求,只要实现一个 udf 即可。详见 [1]。

    1. 调用一个自定义函数,用某两列密文算出一个 true 或 false,如果是 true 说明 join key 匹配。

    如果是这个需求,仍然只需要实现一个 udf。join 条件中调用这个 udf 即可。但如果是这个需求,不太明白你期望中的 group by

    是什么样的,因为不能仅通过 true false 就判断哪些数据属于同一个 group。

    [1]

    https://nightlies.apache.org/flink/flink-docs-release-1.14/zh/docs/dev/table/functions/udfs/*来自志愿者整理的FLINK邮件归档

    2021-12-02 17:43:18
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
对 2000 多亿条数据做一次 group by 需要多久? 立即下载
对2000多亿条数据做一次Group By 需要多久 立即下载
低代码开发师(初级)实战教程 立即下载