请问一下机器学习PAI DSSM模型负采样item表的schema要求是什么?

请问一下机器学习PAI DSSM模型负采样item表的schema要求是什么?负采样item表的字段是不是要求都在训练数据表里出现并且在data_configs里进行配置?0565fc0f48b1bd20cee107dc001e3db4.png

展开
收起
真的很搞笑 2023-11-19 14:52:27 96 分享 版权
3 条回答
写回答
取消 提交回答
  • 负采样item表的字段数量没有固定的规定,可以包含任意数量的列。然而,为了确保模型的正确训练,需要至少包含一个与训练数据表中的文本特征列相对应的列。如果负采样表中的列名不同于训练数据表,则需要在data_configs配置中进行映射,以便于模型识别和比较。

    此外,对于DSSM 负采样版本中的 attr_fields 和 item_id_fields 参数,它们是用来定义用于采样的表的列名。具体来说,attr_fields 参数是用于采样的列名称,这些列可以是特征列或者其他用于采样的列。

    负采样是一种常用的解决计算量大的问题的策略,例如在DSSM模型中就采用负采样来近似分母从而减小计算量。其方法包括基于启发式的算法和基于模型的算法等。

    2023-11-29 16:15:21
    赞同 展开评论
  • 是的,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-11-19 23:16:14
    赞同 展开评论
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在 MaxCompute PAI DSSM 模型中,负采样 item 表的 schema 不一定要完全与训练数据表相同。但是,通常来说,负采样表的列应该至少包含训练数据表中的文本特征列,以便于 DSSM 对比评估。同时,如果负采样表中的列名不同于训练数据表中的列名,则需要在 data_configs 配置中进行映射,以便于模型识别和比较。
    以下是负采样 item 表的基本要求:

    1. 字段格式要求:负采样 item 表中的列应该采用字符串格式。
    2. 字段数量:负采样表可以包含任意数量的列,但需要确保至少包含一个与训练数据表中的文本特征列相对应的列。
    3. 字段映射:如果负采样表中的列名不同于训练数据表,则需要在 data_configs 配置中进行映射,以便于模型识别和比较。

    以下是一个负采样 item 表的例子:

    CREATE TABLE dssm_sample_table (
       id INT,
       title STRING,
       description STRING
    );
    

    其中 id 代表样本的唯一标识符(ID),title 和 description 则分别是文本特征列。

    2023-11-19 15:01:32
    赞同 展开评论

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

还有其他疑问?
咨询AI助理