问题一:机器学习PAI的EasyRec 加入ETA模型了吗?
机器学习PAI的EasyRec 加入ETA模型了吗?
参考答案:
还没有加ETA
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/589098
问题二:机器学习PAI有没有feature-generate-mr 的文档啊?
机器学习PAI有没有feature-generate-mr 的文档啊?
参考答案:
DROP TABLE IF EXISTS test_mapreduce;
CREATE TABLE IF NOT EXISTS test_mapreduce
(
pro_id STRING
,request_id string
,dt STRING
,click_seq STRING
,add_seq string
,buy_seq string
,lover_seq string
)
PARTITIONED BY (ds STRING COMMENT '分区')
LIFECYCLE 7
;
--@resource_reference{"feature-generate-mr-v1.5.jar"}
jar -resources feature-generate-mr-v1.5.jar
-classpath feature-generate-mr-v1.5.jar
com.aliyun.pai.feature_generate_mr.SeqFeature
-pid "pro_id"
-pid_type "string"
-time_stamp "dt"
-time_stamp_type "string"
-event "event"
-valid_events "click,add,buy,lover"
-valid_event_selections "click,add,buy,lover|like"
-seq_fields "stock_number,price,event,dt,sz_stock_number,js_stock_number"
-seq_fields_side "item,item,user,user,item,item"
-seq_len "10,8,6,3"
-input_table "test_seq_data"
-output_table "test_mapreduce/ds=20211230"
-default_v "-1024"
-event_seq_type "split"
-sequence_delim "?"
-attribute_delim "*"
-pre_seconds "300"
-requestid "request_id"
;
配置介绍
-pid: 只能是一个,一般是userid,表示给谁创造序列
-pid_type pid的数据类型,是string or bigint
-time_stamp: 时间戳,用来排序,并且会保留在原表上的
-time_stamp_type time_stamp的数据类型,是string or bigint
-event: 表示输入表中的行为时间的名称
-valid_events: 有效的事件类构成的序列名称,和最结果表挂钩,都好分割,分割后的数量和valid_event_selections都好分割后的数量一样多
-valid_event_selections: 有效事件类型的具体行为名,一个事件类型可以包含多个具体行为名,例如 click 可以包含 discover_click 和 popular_click, 输入时以 "|" 分隔
-seq_fields: 序列特征中包含哪些字段,用逗号分割;并且根据第一个子特征会在序列特征中去重
-seq_fields_side 序列特征子特征的属性,属于user侧或者item侧
-seq_len: 序列长度,1个值时,表示所有的序列都是这么长,多个值时则需要等于valid_events的配置数量,表示不同的事件类型有不同的序列长度
-input_table 输入表,可以是分区表活非分区表
-output_table 输出表,要预先存在
-default_v 表示序列字段是空的默认值,改配置是一个值的时候则seq_fields的所有空都是改值,改值数量配置多个的时候,数量必须等于seq_fields的数量,表示对应位字段是null的填充值
-event_seq_type 表示序列生成类型,等于all,则以上的行为事件类型会融合生成一个序列特征,如果不是all,则以上行为事件类型按照不同的事件类型会生成不同的序列特征
-sequence_delim 序列特征之间的分割符号
-attribute_delim 序列特征子特征的分割符号
-pre_seconds 多少秒之前发生的行为才可以构成序列,防止穿越用的
-requestid 行为表的请求id字段,可以不配置,则每秒输出一次结果,同时输出表应该没有请求id的字段。如果有,则每个用户,每个requestid输出一次
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/589097
问题三:机器学习PAI序列特征,每个item,框起来的那个对应多个tag怎么办呢?
机器学习PAI序列特征,每个item,框起来的那个对应多个tag怎么办呢?
参考答案:
可以设置seq_multi_sep,sequence里面是多值特征的话。特征配置那里把多值的改成这样
features: {
input_names: 'tag_category_list'
feature_type: SequenceFeature
separator: ';'
hash_bucket_size: 10000
embedding_dim: 16
seq_multi_sep:'|'
}
separator 是第一层分隔,seq_multi_sep 是第二层分隔符
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/589096
问题四:机器学习PAI安装部署卡住了,采取了很多方法,不是各种报错就是卡住不动 试着换了好几个源也不行怎么办
alink安装部署这一步就卡住了,无论是windows系统还是mac还是linux系统 不是各种报错就是卡住不动 试着换了好几个源,也没有解决问题
参考答案:
你看一下这两篇是否对你有帮助,https://alinklab.cn/tutorial/book_python_01_2_1_1.html, https://alinklab.cn/tutorial/book_java_01_2_1.html, 网站上还有其它安装相关的内容
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/588824
问题五:有方式获取到机器学习PAI每个算子执行的状态吗?
有方式获取到机器学习PAI每个算子执行的状态吗?我在webui 上配置好了一套流程,然后提交到flink 上运行,有办法获取到各个节点的执行状态吗?
就是这个文档说的这个功能
参考答案:
这咋感觉是ai生成的文章
关于本问题的更多回答可点击进行查看: