开发者社区> 问答> 正文

将一行中的每个列传递到Spark SQL中的哈希函数

社区小助手 2018-12-06 15:14:57 535

我有一个包含N列的表,我想将它们连接到一个字符串列,然后在该列上执行哈希。我在Scala中发现了类似的问题。

我想在Spark SQL中完全做到这一点,理想情况下,我已经尝试过,HASH(*) as myhashcolumn但由于有些列有时为null,我无法按照我的预期使其工作。

如果我必须创建一个UDF并注册它以实现这一点,我需要使用Python而不是Scala,因为我的所有其他代码都在Python中。

SQL 分布式计算 Scala Spark Python
分享到
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:18:33

    试试下面的代码。

    df.select([hash(col) for col in df.columns]).show()

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程