开发者社区> 问答> 正文

如何使用scala将特定函数转换为apache spark中的udf函数?[重复]

我在apache spark中有一个数据框,使用Scala创建。此数据框有两列Array [String]类型。我写了一个简单的函数,它接受这两列并返回单词的交集(返回常用单词的数量:Int)。我的数据框的一个例子如下所示。

数据框示例及其列

功能如下:

def findNumberCommonWordsTitle(string1:Array[String], string2:Array[String]) ={
val intersection = string1.intersect(string2)
intersection.length }
我想将此函数转换为udf函数。我试过这个:

val fncwt=udf(findNumberCommonWordsTitle(_:Array[String],_:Array[String]))

finalDF.select(fncwt(finalDF("title_from_words"),finalDF("title_to_words"))).show(5)
但我收到的错误如下:

错误

错误消息说:引起:java.lang.ClassCastException:scala.collection.mutable.WrappedArray $ ofRef无法强制转换为[Ljava.lang.String;

我做错了什么?我认为问题是类型不匹配但我不确定。

之后,我想在我的数据框上创建一个新列,其中包含上述函数的返回值。

我怎样才能做到这一点?我该怎么做才能解决这个错误?

展开
收起
社区小助手 2018-12-21 11:57:54 2804 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    功能应该是

    def findNumberCommonWordsTitle(string1: Seq[String], string2: Seq[String]) ={
    ...
    }

    2019-07-17 23:23:21
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Apache Flink技术进阶 立即下载
Apache Spark: Cloud and On-Prem 立即下载
Hybrid Cloud and Apache Spark 立即下载

相关镜像