开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI的 split和hitrate 怎么使用?

机器学习PAI的 split和hitrate 怎么使用?

展开
收起
真的很搞笑 2024-01-04 16:04:55 89 0
4 条回答
写回答
取消 提交回答
  • Split 和 Hitrate 是阿里云机器学习平台 PAI 的两个组件,它们分别用于数据拆分和向量召回评估。以下是这两个组件的使用方法:

    1. Split 组件:
      Split 组件用于将输入表的数据拆分为两个或多个输出表。您可以通过 SQL 脚本组件调用 PAI 命令来配置和使用 Split 组件。例如,以下命令将输入表 wbpc 的前 25% 数据拆分到输出表 wpbc_split1,其余数据拆分到输出表 wpbc_split2:

      PAI -name split -project algo_public -DinputTableName=wbpc -Doutput1TableName=wpbc_split1 -Doutput2TableName=wpbc_split2 -Dfraction=0.25
      

      请注意,您需要根据实际情况修改命令中的参数,如 inputTableName、output1TableName、output2TableName 和 fraction。

    2. Hitrate 组件:
      Hitrate 组件用于计算向量召回的准确率。它接受三个输入:item embedding 表、user embedding 表和真实序列表。您可以通过 SQL 脚本组件调用 PAI 命令来配置和使用 Hitrate 组件。例如,以下命令使用 Hitrate 组件计算向量召回的准确率:

      PAI -name hitrate -project algo_public -DinputTableName=your_input_table
      

      请注意,您需要根据实际情况修改命令中的参数,如 inputTableName。

    2024-01-05 10:45:18
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    机器学习PAI的split和hitrate是用于评估模型性能的两个重要指标。

    1. split:split是将数据集划分为训练集和测试集的过程。在机器学习中,我们通常将数据集按照一定比例划分为训练集和测试集,用训练集来训练模型,然后用测试集来评估模型的性能。split的目的是为了避免过拟合,即模型只对训练数据表现良好,但对新数据的泛化能力较差。

    使用split的方法如下:

    • 首先,确定要划分的比例,例如70%的数据作为训练集,30%的数据作为测试集。
    • 然后,使用相应的函数或方法进行划分。在机器学习库中,通常会提供相关的函数或方法来实现split操作。
    • 最后,将划分后的训练集和测试集分别用于模型的训练和评估。
    1. hitrate:hitrate是指在分类问题中,正确预测为正类的样本数占总样本数的比例。它是衡量分类器性能的一个重要指标之一。

    使用hitrate的方法如下:

    • 首先,根据实际需求确定正类和负类的定义。
    • 然后,使用分类器对测试集中的样本进行预测,得到预测结果。
    • 接着,统计预测结果中正确预测为正类的样本数和总样本数。
    • 最后,计算hitrate的值,即正确预测为正类的样本数除以总样本数。

    需要注意的是,hitrate只能用于二分类问题,对于多分类问题需要使用其他指标来评估模型的性能。

    2024-01-04 20:42:39
    赞同 展开评论 打赏
  • 用split的代码,可以放到oss之类的,然后在mc正常调tf那样用。pai的文档上有调tf的方法 ,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2024-01-04 19:08:03
    赞同 展开评论 打赏
  • 模型hitrate评估https://help.aliyun.com/zh/pai/user-guide/model-hitrate-eval?spm=a2c4g.11186623.0.i39
    该组件使用hit_rate_pai.py脚本,实现向量召回评估的功能。

    2024-01-04 17:37:43
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    微博机器学习平台架构和实践 立即下载
    机器学习及人机交互实战 立即下载
    大数据与机器学习支撑的个性化大屏 立即下载