如何使用scala将特定函数转换为apache spark中的udf函数?[重复]-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

如何使用scala将特定函数转换为apache spark中的udf函数?[重复]

社区小助手 2018-12-21 11:57:54 1524

我在apache spark中有一个数据框,使用Scala创建。此数据框有两列Array [String]类型。我写了一个简单的函数,它接受这两列并返回单词的交集(返回常用单词的数量:Int)。我的数据框的一个例子如下所示。

数据框示例及其列

功能如下:

def findNumberCommonWordsTitle(string1:Array[String], string2:Array[String]) ={
val intersection = string1.intersect(string2)
intersection.length }
我想将此函数转换为udf函数。我试过这个:

val fncwt=udf(findNumberCommonWordsTitle(_:Array[String],_:Array[String]))

finalDF.select(fncwt(finalDF("title_from_words"),finalDF("title_to_words"))).show(5)
但我收到的错误如下:

错误

错误消息说:引起:java.lang.ClassCastException:scala.collection.mutable.WrappedArray $ ofRef无法强制转换为[Ljava.lang.String;

我做错了什么?我认为问题是类型不匹配但我不确定。

之后,我想在我的数据框上创建一个新列,其中包含上述函数的返回值。

我怎样才能做到这一点?我该怎么做才能解决这个错误?

分布式计算 Apache Scala Spark
分享到
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:23:21

    功能应该是

    def findNumberCommonWordsTitle(string1: Seq[String], string2: Seq[String]) ={
    ...
    }

    0 0
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程