开发者社区问答正文

公司数据密文，如何实现group by和join

目前公司数据都是密文，要进行密文数据的比较或者计算的话，只能调用公司密文计算的接口，去看了下flink的分组和join算子，都只能指定分组的key或者join的key，不知道怎么改写比较的规则，我用mapreduce实现了重写shuffle的比较规则，可以实现密文下的join和group by，对于使用spark和flink算子不知道如何实现。

问题: 请问有啥办法，实现密文下的join和group by操作吗？(在不能解密，只能调用公司密文计算的接口)

谢谢您。*来自志愿者整理的flink邮件归档

展开

收起

彗星halation 2021-12-02 17:20:23 679 版权

1 条回答

写回答

取消提交回答

EXCEED
没太明白你的需求。你的需求是不是
1. 调用一个自定义函数，用某一列密文算出一个值 k，用这个 k 作为 join key 或者 group key。
如果是这个需求，只要实现一个 udf 即可。详见 [1]。
1. 调用一个自定义函数，用某两列密文算出一个 true 或 false，如果是 true 说明 join key 匹配。
如果是这个需求，仍然只需要实现一个 udf。join 条件中调用这个 udf 即可。但如果是这个需求，不太明白你期望中的 group by

是什么样的，因为不能仅通过 true false 就判断哪些数据属于同一个 group。

[1]

https://nightlies.apache.org/flink/flink-docs-release-1.14/zh/docs/dev/table/functions/udfs/*来自志愿者整理的FLINK邮件归档
2021-12-02 17:43:18

赞同展开评论

问答分类：

分布式计算流计算 Spark 实时计算 Flink版

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

公司数据密文，如何实现group by和join

相关文章