请问机器学习PAI easyrec是否支持文本特征输入?另外中文需要提前分词吧
阿里云机器学习PAI的EasyRec算法库支持文本特征输入,可以读取MaxCompute数据或HDFS数据,其中MaxCompute表中的每一列或CSV文件中的某一列,都需要与data_config中的一个input_fields对应。
关于文本特征的输入,需要特别注意的是,使用csv格式的输入需要指定separator作为列之间的分隔符,默认是半角逗号”。除此之外,也可以使用不可见字符作为分隔符,如’\001’, ‘\002’等。在处理文本特征时,除了这种以字符为基本单位的特征表示外,还可以通过卷积神经网络(如TextCNN)来提取句子中n-gram的特征表示。此外,EasyRec还支持对输入的离散值进行组合,比如age + sex等。
对于中文文本特征,确实需要进行分词处理。例如,你可以根据词表的规则进行分词,也可以使用基于统计的方法。统计分词方法会利用已经分词的文本,基于统计机器学习模型学习词语切分的规律。另外,有些复杂的分词方法还会考虑上下文特征和句法知识。这样,即使面对"机器学习"这样的词汇,也能准确地将其分割为"机器"和"学习"两个部分。
TextCNN特征聚合(Sequence Combiner) 特征配置模块支持使用TextCNN算子对序列特征进行embedding聚合,示例:
feature_configs: {
input_names: 'title'
feature_type: SequenceFeature
separator: ' '
embedding_dim: 32
hash_bucket_size: 10000
sequence_combiner: {
text_cnn: {
filter_sizes: [2, 3, 4]
num_filters: [16, 8, 8]
}
}
}
中文需要提前分词,此回答整理自钉群“【EasyRec】推荐算法交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。