开发者社区> 问答> 正文

如何减少Spark依赖模型导出的工作原理?

可以用简单的语言解释一下Spark模型导出如何在预测期间不依赖于Spark集群吗?

我的意思是,如果我们在ML管道训练中使用像ml.feature.stopwordremover这样的Spark函数并以PMML格式导出它,那么在我没有Spark安装的生产中部署时,如何重新生成此函数。可能是我们使用JPMML时。我在这里浏览了PMML维基页面,但它只是解释了PMML的结构。但是,那里没有提供功能描述。

展开
收起
社区小助手 2018-12-05 14:50:39 1813 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    请尝试使用JPMML-SparkML库(或其PySpark2PMML或Sparklyr2PMML前端)来查看不同的Apache Spark变换器和模型是如何映射到PMML标准的。

    例如,PMML标准不提供专门的“删除停用词”元素。相反,使用通用TextIndex和TextIndexNormalization元素处理所有低级文本操作。删除停用词表示/实现为正则表达式转换,其中它们简单地用空字符串替换。要评估此类PMML文档,您的运行时必须只提供基本的正则表达式功能 - 绝对不需要Apache Spark运行时或其转换器和模型算法/类。

    从Apache Spark ML到PMML的转换效果令人惊讶(例如,与其他翻译方法(如MLeap)相比,覆盖范围要大得多)。

    2019-07-17 23:18:23
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载