请问一下机器学习PAI,这个不单纯是基本数据类型的,而且是对象类型。这里参数如何填啊?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在阿里云机器学习平台PAI中,处理对象类型的数据集时,参数的填写需要根据具体的存储类型和使用场景进行配置。以下是针对对象类型数据集的参数填写说明:
在创建基础数据集时,支持的对象存储类型包括对象存储(OSS)、文件存储(NAS、CPFS等)以及云原生大数据计算服务(MaxCompute)。对于对象类型的数据,通常会涉及以下关键参数配置:
当导入格式为文件夹时,支持开启数据集版本加速,关键配置如下: - 最大容量:配置数据集加速槽容量,需大于等于数据集容量。 - 加速挂载点:默认使用内部挂载点,也可以选择已有挂载点或新建挂载点。注意:在使用灵骏智算资源时,如果选择新建挂载点,则挂载点类型需选择VPC,并确保VPC和交换机与灵骏智算资源一致。 - 加速版本默认挂载路径:指定数据集版本的默认挂载路径。
如果存储类型为文件存储(如NAS、CPFS等),则需要额外配置以下参数: - 选择文件系统:选择与存储类型对应的文件系统。 - 文件系统挂载点:配置挂载点以访问NAS文件系统。 - 文件系统路径:指定NAS中已有的存储路径,例如/
。 - 默认挂载路径:与OSS类似,用于DSW和DLC中的文件访问。 - 开启版本加速(可选):支持通用型NAS、极速型NAS或CPFS,配置方式与OSS类似。
对于对象类型的数据(如JSON、Base64编码的向量数据等),需要特别注意以下几点: - 索引列数据类型:对象类型数据通常包含复杂的结构化信息,例如向量数据或嵌套字段。在配置时,需明确指定索引列名称及其数据类型。 - 请求向量列表:支持两种格式: - Matrix:JSON格式的向量请求列表,适用于批量请求。 - Features:Base64编码的字符串标识的请求向量,适用于单个或批量请求。 - 过滤条件参数:可以通过query_filter
设置过滤条件,支持表达式或节点之间的关系(AND/OR),并指定比较列名、比较算符(EQ、NE、GT等)及比较值。
以下是一个针对对象类型数据集的参数填写示例,假设存储类型为OSS且数据为JSON格式的向量数据:
类型:通用
所有者:admin
导入格式:文件夹
OSS路径:oss://your-bucket-name/your-folder-path/
默认挂载路径:/root/data/
{
"column_name": "vector_column",
"matrix": [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]],
"batch_count": 2,
"dimension": 3,
"data_type": "FLOAT",
"radius": 0.5,
"is_linear": true,
"extra_params": {
"post_filter_topk": 10
}
}
{
"query_filter": {
"filter_node": "AND",
"expressions": [
{
"column_name": "age",
"rel_type": "GT",
"value": "30"
},
{
"column_name": "income",
"rel_type": "LT",
"value": "50000"
}
]
}
}
enableSparse
参数,并正确配置KV对的分隔符。通过以上步骤和参数配置,您可以成功创建并管理对象类型的数据集,并在机器学习任务中高效使用这些数据。如有进一步问题,请随时咨询!
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。