可以用简单的语言解释一下Spark模型导出如何在预测期间不依赖于Spark集群吗?
我的意思是,如果我们在ML管道训练中使用像ml.feature.stopwordremover这样的Spark函数并以PMML格式导出它,那么在我没有Spark安装的生产中部署时,如何重新生成此函数。可能是我们使用JPMML时。我在这里浏览了PMML维基页面,但它只是解释了PMML的结构。但是,那里没有提供功能描述。
请尝试使用JPMML-SparkML库(或其PySpark2PMML或Sparklyr2PMML前端)来查看不同的Apache Spark变换器和模型是如何映射到PMML标准的。
例如,PMML标准不提供专门的“删除停用词”元素。相反,使用通用TextIndex和TextIndexNormalization元素处理所有低级文本操作。删除停用词表示/实现为正则表达式转换,其中它们简单地用空字符串替换。要评估此类PMML文档,您的运行时必须只提供基本的正则表达式功能 - 绝对不需要Apache Spark运行时或其转换器和模型算法/类。
从Apache Spark ML到PMML的转换效果令人惊讶(例如,与其他翻译方法(如MLeap)相比,覆盖范围要大得多)。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。