开发者社区> 问答> 正文

将spark feature转换管道导出到文件

PMML,Mleap,PFA目前仅支持基于行的转换。它们都不支持基于帧的转换,如聚合或groupby或join。导出由这些操作组成的spark管道的推荐方法是什么?

展开
收起
社区小助手 2018-12-12 13:18:43 1351 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    PMML和PFA是表示机器学习模型的标准,而不是数据处理流水线。机器学习模型接收数据记录,对其执行一些计算,并发出输出数据记录。因此,根据定义,您使用的是单个隔离数据记录,而不是数据记录的集合/框架/矩阵。

    如果您需要表示完整的数据处理管道(ML模型只是工作流程的一部分),那么您需要寻找其他/组合标准。也许SQL与PMML搭配将是一个不错的选择。这个想法是你想要在ML模型之外而不是在它内部执行数据聚合(例如,SQL数据库比任何PMML或PFA运行时都要好得多)。

    2019-07-17 23:20:06
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载