开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

请问机器学习PAI easyrec是否支持文本特征输入?另外中文需要提前分词吧

请问机器学习PAI easyrec是否支持文本特征输入?另外中文需要提前分词吧

展开
收起
真的很搞笑 2023-12-10 17:05:02 45 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    阿里云机器学习PAI的EasyRec算法库支持文本特征输入,可以读取MaxCompute数据或HDFS数据,其中MaxCompute表中的每一列或CSV文件中的某一列,都需要与data_config中的一个input_fields对应。

    关于文本特征的输入,需要特别注意的是,使用csv格式的输入需要指定separator作为列之间的分隔符,默认是半角逗号”。除此之外,也可以使用不可见字符作为分隔符,如’\001’, ‘\002’等。在处理文本特征时,除了这种以字符为基本单位的特征表示外,还可以通过卷积神经网络(如TextCNN)来提取句子中n-gram的特征表示。此外,EasyRec还支持对输入的离散值进行组合,比如age + sex等。

    对于中文文本特征,确实需要进行分词处理。例如,你可以根据词表的规则进行分词,也可以使用基于统计的方法。统计分词方法会利用已经分词的文本,基于统计机器学习模型学习词语切分的规律。另外,有些复杂的分词方法还会考虑上下文特征和句法知识。这样,即使面对"机器学习"这样的词汇,也能准确地将其分割为"机器"和"学习"两个部分。

    2023-12-11 13:42:51
    赞同 展开评论 打赏
  • TextCNN特征聚合(Sequence Combiner) 特征配置模块支持使用TextCNN算子对序列特征进行embedding聚合,示例:

    feature_configs: {
    input_names: 'title'
    feature_type: SequenceFeature
    separator: ' '
    embedding_dim: 32
    hash_bucket_size: 10000
    sequence_combiner: {
    text_cnn: {
    filter_sizes: [2, 3, 4]
    num_filters: [16, 8, 8]
    }
    }
    }
    中文需要提前分词,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-12-11 13:12:54
    赞同 展开评论 打赏

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    基于Spark的面向十亿级别特征的 大规模机器学习 立即下载
    基于Spark的大规模机器学习在微博的应用 立即下载