如何使用JohnSnowLabs NLP拼写纠错模块NorvigSweetingModel？

names	age	color
[abc, cde]	19	red, abc
[eefg, efa, efb]	192	efg, efz efz

names

age

color

[abc, cde]

red, abc

[eefg, efa, efb]

192

efg, efz efz

spark-nlp 设计用于其自己的特定管道，并且不同变换器的输入列必须包含特殊元数据。

该异常已经告诉您NorvigSweetingModel应该对该输入进行标记化：

确保此类列具有以下注释器类型：token

如果我没有弄错的话，至少你会收集文件并在这里进行标记。

import com.johnsnowlabs.nlp.DocumentAssembler
import com.johnsnowlabs.nlp.annotator.NorvigSweetingModel
import com.johnsnowlabs.nlp.annotators.Tokenizer
import org.apache.spark.ml.Pipeline

val df = Seq(Seq("abc", "cde"), Seq("eefg", "efa", "efb")).toDF("names")

val nlpPipeline = new Pipeline().setStages(Array(
new DocumentAssembler().setInputCol("names").setOutputCol("document"),
new Tokenizer().setInputCols("document").setOutputCol("tokens"),
NorvigSweetingModel.pretrained().setInputCols("tokens").setOutputCol("corrected")
))
Pipeline像这样，可以在小的调整下应用到你的数据-输入数据必须是string不是array*：

val result = df
.transform(_.withColumn("names", concat_ws(" ", $"names")))
.transform(df => nlpPipeline.fit(df).transform(df))

result.show()
names	document	tokens	corrected
abc cde	[[document, 0, 6,...	[[token, 0, 2, ab...	[[token, 0, 2, ab...
eefg efa efb	[[document, 0, 11...	[[token, 0, 3, ee...	[[token, 0, 3, ee...

如果你想要一个可以导出的输出你应该扩展你Pipeline的Finisher。

import com.johnsnowlabs.nlp.Finisher

可以读取String列或Array [String]

但它看起来不像1.7.3中的实际工作：

df.transform(df => nlpPipeline.fit(df).transform(df)).show()
org.apache.spark.sql.AnalysisException: cannot resolve 'UDF(names)' due to data type mismatch: argument 1 requires string type, however, 'names' is of array type.;;
'Project [names#62, UDF(names#62) AS document#343]
+- AnalysisBarrier

  +- Project [value#60 AS names#62]
     +- LocalRelation [value#60]

如何使用JohnSnowLabs NLP拼写纠错模块NorvigSweetingModel？

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

如何使用JohnSnowLabs NLP拼写纠错模块NorvigSweetingModel？

相关课程

相关文章

相关电子书

相关实验场景