人工智能平台PAI产品使用合集之如何使用separator进行多值特征的分割

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

问题一:机器学习PAI我现在要hard负采,input4个表进去不太清楚PAI上怎么写?


机器学习PAI负采样表写config里的话,就没法制定分区了。

我看之前交付的demo是-Dtables里 把train,eval,负采样表都写进去了。

然后 -Dedit_config_json里面再配一遍负采样表。

但是这只是一个负采样表的情况。

我现在要hard负采,input4个表进去不太清楚PAI上怎么写?这个文档上没有PAI上负采样的配置demo


参考回答:

你看model_dir下面的pipeline.config 确认


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/582137



问题二:机器学习PAI我删除一列试试,但是这个没有做读取的字段匹配吗?


机器学习PAI我的输入的训练maxcompute表比input_fields多一列导致的,我删除一列试试,但是这个没有做读取的字段匹配吗?


参考回答:

你可以在 EasyRec config 里面的 input 里面加上就好了。可以只加在 input 里面,后续的 feature config 没有用到也是可以的。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/582119



问题三:机器学习PAI我离线测了一下, 这里的separator 是针对单特征 多值的分割吗?


机器学习PAI我离线测了一下, 这里的separator 是针对单特征 多值的分割吗? 感觉没生效哇

这个是离线fg的代码吗?


参考回答:

这个目前是分为两步,一个是 fg, 一个是 EasyRec 。fg 的话你只需要看到 fg 的结果满足你的要求就可以。EasyRec 的话你这个应该是只需要关注 EasyRec config 的配置就可以。序列之间的分隔符用 separator (详细处理过程见代码:https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/input/input.py#L667) ,多值的分隔符用 seq_multi_sep (见代码:https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/input/input.py#L668C23-L668C36)


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/577008



问题四:机器学习PAI同一张表,也要加几个分区,写几遍表名吗?


机器学习PAI同一张表,也要加几个分区,写几遍表名吗?

"空间名.表名/分区1,空间名.表名/分区2,空间名.表名/分区3"

这样的吗?


参考回答:

好像是这样: -i pri_name.table/dt=20220101 -i pri_name.table/dt=20220102

Option option = new Option("i", "in_table", true, "input table");

final String [] inputTables = cmd.getOptionValues("in_table");


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/577015



问题五:机器学习PAI通过模型评估的模型,怎么进入不了模型流文件啊?


通过模型评估的模型,怎么进入不了模型流文件啊?

模型只能看到schema,底下是过滤通过的模型打印的评估结果

另外我设的200条一次


参考回答:

模型应该是半个小时生成一次。可以通过这个参数设置timeInterval ;另外 timeInterval是决定模型输出的, 要调整这个。 batchSize是更新使用的数据量,不是模型输出的时间


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/577670

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
【昆虫识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50
昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集('蜜蜂', '甲虫', '蝴蝶', '蝉', '蜻蜓', '蚱蜢', '蛾', '蝎子', '蜗牛', '蜘蛛')进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一张昆虫图片识别其名称。
88 7
【昆虫识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 一文看懂人工智能、机器学习、深度学习是什么、有什么区别!
**摘要:** 了解AI、ML和DL的旅程。AI是模拟人类智能的科学,ML是其分支,让机器从数据中学习。DL是ML的深化,利用多层神经网络处理复杂数据。AI应用广泛,包括医疗诊断、金融服务、自动驾驶等。ML助力个性化推荐和疾病预测。DL推动计算机视觉和自然语言处理的进步。从基础到实践,这些技术正改变我们的生活。想要深入学习,可参考《人工智能:一种现代的方法》和《深度学习》。一起探索智能的乐趣!
37 1
算法金 | 一文看懂人工智能、机器学习、深度学习是什么、有什么区别!
|
1天前
|
机器学习/深度学习 数据采集 人工智能
人工智能:构建自定义机器学习模型的步骤与技巧
【6月更文挑战第25天】构建自定义机器学习模型涉及明确问题、数据收集预处理、特征工程、模型选择训练、评估优化及部署监控。关键技巧包括选择适配的算法、重视数据预处理、精巧的特征工程、有效评估优化和适时的模型更新。通过这些步骤和技巧,可提升模型性能与泛化能力。
|
6天前
|
机器学习/深度学习 传感器 数据采集
机器学习和人工智能在实际业务场景中的应用
机器学习和人工智能在实际业务场景中的应用
31 7
|
4天前
|
机器学习/深度学习 算法 C++
机器学习归一化特征编码(二)
这篇文档讨论了机器学习中的特征编码,特别是独热编码(OneHotEncoder)在处理离散变量时的作用。它指出,对于多分类变量,独热编码是常用方法,但对二分类变量通常不需要。在Python的`sklearn`库中,`OneHotEncoder`可以用来实现这一过程,并可以通过设置`drop='if_binary'`来忽略二分类变量。文档还提到了逻辑回归,解释了正则化参数`C`和`penalty`,并列举了不同的优化算法,如`liblinear`、`lbfgs`等。
|
4天前
|
机器学习/深度学习 API Python
机器学习特征降维
这篇内容概述了特征降维在机器学习中的重要性,包括三个主要方法:低方差过滤法、PCA(主成分分析)和相关系数法。低方差过滤法通过删除方差低于阈值的特征来减少无关信息;PCA通过正交变换降低数据的维数,保留大部分信息;相关系数法(如皮尔逊和斯皮尔曼相关系数)用于评估特征间的相关性,去除高度相关的特征以简化模型。这些技术有助于提高模型效率和泛化能力。
|
4天前
|
机器学习/深度学习 算法 数据处理
机器学习归一化特征编码(一)
特征缩放是机器学习预处理的关键步骤,它包括归一化和标准化。归一化通过最大最小值缩放,将数据转换到[0,1]区间,有助于梯度下降算法更快收敛,减少数值较大特征的影响。标准化则通过减去均值并除以标准差,确保数据具有零均值和单位方差,适用于关注数据分布情况的算法。例如,欧氏距离计算时,未归一化的特征可能导致模型偏向数值较大的特征。归一化能提升模型精度,尤其是当距离度量如欧式距离时。常见的实现方法有`MinMaxScaler`,它将每个特征值缩放到用户指定的范围,如[0,1]。而`StandardScaler`执行Z-Score标准化,数据分布符合标准正态分布。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
6天前
|
机器学习/深度学习 数据采集 人工智能
机器学习是人工智能的一个重要分支
机器学习是人工智能的一个重要分支
11 1
|
6天前
|
机器学习/深度学习 计算机视觉
【机器学习】LoFTR:革命性图像特征批评技术等领跑者
【机器学习】LoFTR:革命性图像特征批评技术等领跑者
19 1

热门文章

最新文章

相关产品

  • 人工智能平台 PAI