请问一下机器学习PAI,这个不单纯是基本数据类型的,而且是对象类型。这里参数如何填啊?

请问一下机器学习PAI,这个不单纯是基本数据类型的,而且是对象类型。这里参数如何填啊?88143deb790cceeed6a26b3ed9f3eb54.jpg

展开
收起
真的很搞笑 2024-05-02 23:49:04 75 分享 版权
阿里云 AI 助理回答

在阿里云机器学习平台PAI中,处理对象类型的数据集时,参数的填写需要根据具体的存储类型和使用场景进行配置。以下是针对对象类型数据集的参数填写说明:


1. 数据集创建与存储类型选择

在创建基础数据集时,支持的对象存储类型包括对象存储(OSS)文件存储(NAS、CPFS等)以及云原生大数据计算服务(MaxCompute)。对于对象类型的数据,通常会涉及以下关键参数配置:

1.1 存储类型为对象存储(OSS)

  • 类型:选择数据的类型,例如图片、文本、音频、视频、表格或通用。如果选择了特定类型,系统会在后续标注场景中自动筛选数据。
  • 所有者:仅工作空间管理员可配置该参数,用于指定数据集的所有者。
  • 导入格式/OSS路径
    • 如果导入格式为文件,需指定一个OSS路径指向具体文件,常用于iTAG的数据集创建。
    • 如果导入格式为文件夹,需指定一个OSS路径指向文件夹,常用于DSW、DLC或EAS的数据集。
  • 默认挂载路径:指定数据的默认挂载路径,用于DSW或DLC中的文件访问。例如,在DSW中创建实例时,可以将文件系统挂载到该路径;在DLC中运行代码时,系统会在该目录下寻找文件。

1.2 开启版本加速(可选)

当导入格式为文件夹时,支持开启数据集版本加速,关键配置如下: - 最大容量:配置数据集加速槽容量,需大于等于数据集容量。 - 加速挂载点:默认使用内部挂载点,也可以选择已有挂载点或新建挂载点。注意:在使用灵骏智算资源时,如果选择新建挂载点,则挂载点类型需选择VPC,并确保VPC和交换机与灵骏智算资源一致。 - 加速版本默认挂载路径:指定数据集版本的默认挂载路径。


2. 文件存储类型的参数配置

如果存储类型为文件存储(如NAS、CPFS等),则需要额外配置以下参数: - 选择文件系统:选择与存储类型对应的文件系统。 - 文件系统挂载点:配置挂载点以访问NAS文件系统。 - 文件系统路径:指定NAS中已有的存储路径,例如/。 - 默认挂载路径:与OSS类似,用于DSW和DLC中的文件访问。 - 开启版本加速(可选):支持通用型NAS、极速型NAS或CPFS,配置方式与OSS类似。


3. 对象类型数据的特殊处理

对于对象类型的数据(如JSON、Base64编码的向量数据等),需要特别注意以下几点: - 索引列数据类型:对象类型数据通常包含复杂的结构化信息,例如向量数据或嵌套字段。在配置时,需明确指定索引列名称及其数据类型。 - 请求向量列表:支持两种格式: - Matrix:JSON格式的向量请求列表,适用于批量请求。 - Features:Base64编码的字符串标识的请求向量,适用于单个或批量请求。 - 过滤条件参数:可以通过query_filter设置过滤条件,支持表达式或节点之间的关系(AND/OR),并指定比较列名、比较算符(EQ、NE、GT等)及比较值。


4. 参数填写示例

以下是一个针对对象类型数据集的参数填写示例,假设存储类型为OSS且数据为JSON格式的向量数据:

4.1 创建数据集

类型:通用
所有者:admin
导入格式:文件夹
OSS路径:oss://your-bucket-name/your-folder-path/
默认挂载路径:/root/data/

4.2 配置近邻检索参数

{
  "column_name": "vector_column",
  "matrix": [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]],
  "batch_count": 2,
  "dimension": 3,
  "data_type": "FLOAT",
  "radius": 0.5,
  "is_linear": true,
  "extra_params": {
    "post_filter_topk": 10
  }
}

4.3 设置过滤条件

{
  "query_filter": {
    "filter_node": "AND",
    "expressions": [
      {
        "column_name": "age",
        "rel_type": "GT",
        "value": "30"
      },
      {
        "column_name": "income",
        "rel_type": "LT",
        "value": "50000"
      }
    ]
  }
}

5. 注意事项

  • 数据类型匹配:确保输入数据的类型与组件要求一致,例如特征列需为数值类型(BIGINT或DOUBLE),标签列支持STRING或数值类型。
  • 稀疏数据处理:如果数据为稀疏格式,需启用enableSparse参数,并正确配置KV对的分隔符。
  • 生命周期管理:合理设置输出表的生命周期,避免数据过期导致任务失败。

通过以上步骤和参数配置,您可以成功创建并管理对象类型的数据集,并在机器学习任务中高效使用这些数据。如有进一步问题,请随时咨询!

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

还有其他疑问?
咨询AI助理