开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

小打卡如何结合开源算法?

已解决

小打卡如何结合开源算法?

展开
收起
游客lmkkns5ck6auu 2022-08-16 15:00:41 354 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    PAI 提供的机器学习算法仍然有限,如果想要使用开源项目来实现算法部分怎么办呢?我们对此也做了尝试,我们则结合 MaxCompute+PAI+xLearn实现了基于 FM 算法的 CTR 预估模型。 由于 xLearn 需要在单独的一台 ECS 上执行,那么问题就来了: 1. 如何从 MaxCompute 拉取数据,又如何上传结果? MaxCompute 提供了 pyodps,可以很方便的使用 python 读写 MaxCompute的离线表。因此,我们在 python 循环检测 PAI 任务的特征工程结果表是否生成完成。生成完成,则启动下载数据和算法训练任务。算法执行结束后,则将模型文件通过 pyodps 写入 MaxCompute,当然也可以使用 tunnel 工具来完成。

    1. 如何周期性调度? DataWorks 上的任务与 ECS 上的任务,如何形成依赖关系?对于拉取,我们通过循环实现了 python 与 MaxCompute 表的依赖关系,那么 算法训练完成了,DataWorks 的下游怎么知道呢?幸好,DataWorks 提供了 do-while 控制流组件,我们可以在 while 条件中检测模型表相应分区的数据是否存在了,在 do 组件中,则采用 shell 执行 sleep。跳出 while 后,则下游也开始正常执行了。之后便可以将模型和映射文件同步写入到 oss,以供后端使用了。

    以上内容摘自《5天入门视觉AI》电子书,点击https://developer.aliyun.com/topic/download?id=31可下载完整版

    2022-08-17 16:17:37
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
数据+算法定义新世界 立即下载
袋鼠云基于实时计算的反黄牛算法 立即下载
Alink:基于Apache Flink的算法平台 立即下载