开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

想问下机器学习PAI,fg_on_odps-1.3.59-jar-with-java版吗?

想问下机器学习PAI,fg_on_odps-1.3.59-jar-with-dependencies.jar
https://github.com/alibaba/FeatureGenerator的java版吗?

展开
收起
真的很搞笑 2023-07-30 17:47:40 55 0
2 条回答
写回答
取消 提交回答
  • 问题1:fg_on_odps-1.3.59-jar-with-dependencies.jar 是机器学习 PAI 中使用的特征生成工具包。虽然与 Alibaba 的 FeatureGenerator 项目有一些相似之处,但它们并不完全相同。fg_on_odps-1.3.59-jar-with-dependencies.jar 是机器学习 PAI 团队基于自己的需求和场景开发的特征处理工具包。

    问题2:对于大数据量的特征处理,将其处理成一个 jar 包,并通过 MapReduce 或其他分布式计算框架来执行是一种常见的做法。这样可以利用分布式计算的优势,提高特征处理的效率和扩展性。具体的特征处理写法因任务和需求而异。你可以参考分布式计算框架(如 Hadoop、Spark 等)相关的文档和示例,了解如何使用它们进行大规模特征处理。

    问题3:如果直接在 UDF 中进行特征处理,可能会面临内存限制的问题,尤其是对于大数据量的情况。一种解决方法是将数据划分为较小的批次,在多次处理中逐批处理数据,以减少内存占用。另外,你也可以考虑使用分布式计算框架来处理大规模数据集,并将特征处理过程与该框架相结合。

    关于特征处理的具体写法和示例,在机器学习 PAI 的文档、相关论坛或社区可能能找到一些参考。此外,你也可以查阅分布式计算框架的文档和示例,以了解如何在大数据环境下进行特征处理。根据你的具体需求和环境,可以选择适合的方法来进行特征处理。

    2023-07-31 16:55:26
    赞同 展开评论 打赏
  • 是的,MaxCompute上的MR任务都有系统的SQL引擎执行,MR任务处理成sql + udf 来执行的。,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-07-30 17:58:26
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    微博机器学习平台架构和实践 立即下载
    机器学习及人机交互实战 立即下载
    大数据与机器学习支撑的个性化大屏 立即下载