Split 和 Hitrate 是阿里云机器学习平台 PAI 的两个组件,它们分别用于数据拆分和向量召回评估。以下是这两个组件的使用方法:
Split 组件:
Split 组件用于将输入表的数据拆分为两个或多个输出表。您可以通过 SQL 脚本组件调用 PAI 命令来配置和使用 Split 组件。例如,以下命令将输入表 wbpc 的前 25% 数据拆分到输出表 wpbc_split1,其余数据拆分到输出表 wpbc_split2:
PAI -name split -project algo_public -DinputTableName=wbpc -Doutput1TableName=wpbc_split1 -Doutput2TableName=wpbc_split2 -Dfraction=0.25
请注意,您需要根据实际情况修改命令中的参数,如 inputTableName、output1TableName、output2TableName 和 fraction。
Hitrate 组件:
Hitrate 组件用于计算向量召回的准确率。它接受三个输入:item embedding 表、user embedding 表和真实序列表。您可以通过 SQL 脚本组件调用 PAI 命令来配置和使用 Hitrate 组件。例如,以下命令使用 Hitrate 组件计算向量召回的准确率:
PAI -name hitrate -project algo_public -DinputTableName=your_input_table
请注意,您需要根据实际情况修改命令中的参数,如 inputTableName。
机器学习PAI的split和hitrate是用于评估模型性能的两个重要指标。
使用split的方法如下:
使用hitrate的方法如下:
需要注意的是,hitrate只能用于二分类问题,对于多分类问题需要使用其他指标来评估模型的性能。
用split的代码,可以放到oss之类的,然后在mc正常调tf那样用。pai的文档上有调tf的方法 ,此回答整理自钉群“【EasyRec】推荐算法交流群”
模型hitrate评估https://help.aliyun.com/zh/pai/user-guide/model-hitrate-eval?spm=a2c4g.11186623.0.i39
该组件使用hit_rate_pai.py脚本,实现向量召回评估的功能。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。