开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

请问一下机器学习PAI DSSM模型负采样item表的schema要求是什么?

请问一下机器学习PAI DSSM模型负采样item表的schema要求是什么?负采样item表的字段是不是要求都在训练数据表里出现并且在data_configs里进行配置?

展开
收起
cuicuicuic 2023-11-19 14:52:27 36 0
3 条回答
写回答
取消 提交回答
  • 机器学习PAI DSSM模型负采样item表的schema要求如下:

    1. item_id:负采样的item ID,需要与训练数据表中的item ID保持一致。
    2. weight:负采样item的权重,用于控制每个item被采样的概率。
    3. label:负采样item的标签,通常为0或1,表示正例或负例。
    4. feature:负采样item的特征向量,与训练数据表中的特征向量保持一致。

    负采样item表的字段需要在训练数据表里出现,并且在data_configs里进行配置。这是因为在训练过程中,模型会根据这些字段来生成负采样样本,以增强模型的泛化能力。

    2023-11-29 16:15:20
    赞同 展开评论 打赏
  • DSSM模型负采样item表的schema要求是在训练数据表中存在一个名为item_id的字段,并且在data_configs中进行配置。负采样item表的字段并不要求都在训练数据表里出现,但是在进行配置时需要确保字段名称和顺序的一致性。,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-11-19 23:16:14
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在 MaxCompute PAI DSSM 模型中,负采样 item 表的 schema 不一定要完全与训练数据表相同。但是,通常来说,负采样表的列应该至少包含训练数据表中的文本特征列,以便于 DSSM 对比评估。同时,如果负采样表中的列名不同于训练数据表中的列名,则需要在 data_configs 配置中进行映射,以便于模型识别和比较。
    以下是负采样 item 表的基本要求:

    1. 字段格式要求:负采样 item 表中的列应该采用字符串格式。
    2. 字段数量:负采样表可以包含任意数量的列,但需要确保至少包含一个与训练数据表中的文本特征列相对应的列。
    3. 字段映射:如果负采样表中的列名不同于训练数据表,则需要在 data_configs 配置中进行映射,以便于模型识别和比较。

    以下是一个负采样 item 表的例子:

    CREATE TABLE dssm_sample_table (
       id INT,
       title STRING,
       description STRING
    );
    

    其中 id 代表样本的唯一标识符(ID),title 和 description 则分别是文本特征列。

    2023-11-19 15:01:33
    赞同 展开评论 打赏

相关电子书

更多
大规模机器学习在蚂蚁+阿里的应用 立即下载
阿里巴巴机器学习平台AI 立即下载
机器学习及人机交互实战 立即下载