我在apache spark中有一个数据框,使用Scala创建。此数据框有两列Array [String]类型。我写了一个简单的函数,它接受这两列并返回单词的交集(返回常用单词的数量:Int)。我的数据框的一个例子如下所示。
数据框示例及其列
功能如下:
def findNumberCommonWordsTitle(string1:Array[String], string2:Array[String]) ={
val intersection = string1.intersect(string2)
intersection.length }
我想将此函数转换为udf函数。我试过这个:
val fncwt=udf(findNumberCommonWordsTitle(_:Array[String],_:Array[String]))
finalDF.select(fncwt(finalDF("title_from_words"),finalDF("title_to_words"))).show(5)
但我收到的错误如下:
错误
错误消息说:引起:java.lang.ClassCastException:scala.collection.mutable.WrappedArray $ ofRef无法强制转换为[Ljava.lang.String;
我做错了什么?我认为问题是类型不匹配但我不确定。
之后,我想在我的数据框上创建一个新列,其中包含上述函数的返回值。
我怎样才能做到这一点?我该怎么做才能解决这个错误?
功能应该是
def findNumberCommonWordsTitle(string1: Seq[String], string2: Seq[String]) ={
...
}
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。