开发者社区大数据与机器学习人工智能平台PAI 正文

请问一下机器学习PAI，这个不单纯是基本数据类型的，而且是对象类型。这里参数如何填啊？

展开

收起

真的很搞笑 2024-05-02 23:49:04 75 版权

阿里云 AI 助理回答

在阿里云机器学习平台PAI中，处理对象类型的数据集时，参数的填写需要根据具体的存储类型和使用场景进行配置。以下是针对对象类型数据集的参数填写说明：

1. 数据集创建与存储类型选择

在创建基础数据集时，支持的对象存储类型包括对象存储（OSS）、文件存储（NAS、CPFS等）以及云原生大数据计算服务（MaxCompute）。对于对象类型的数据，通常会涉及以下关键参数配置：

1.1 存储类型为对象存储（OSS）

类型：选择数据的类型，例如图片、文本、音频、视频、表格或通用。如果选择了特定类型，系统会在后续标注场景中自动筛选数据。
所有者：仅工作空间管理员可配置该参数，用于指定数据集的所有者。
导入格式/OSS路径：
- 如果导入格式为文件，需指定一个OSS路径指向具体文件，常用于iTAG的数据集创建。
- 如果导入格式为文件夹，需指定一个OSS路径指向文件夹，常用于DSW、DLC或EAS的数据集。
默认挂载路径：指定数据的默认挂载路径，用于DSW或DLC中的文件访问。例如，在DSW中创建实例时，可以将文件系统挂载到该路径；在DLC中运行代码时，系统会在该目录下寻找文件。

1.2 开启版本加速（可选）

当导入格式为文件夹时，支持开启数据集版本加速，关键配置如下： - 最大容量：配置数据集加速槽容量，需大于等于数据集容量。 - 加速挂载点：默认使用内部挂载点，也可以选择已有挂载点或新建挂载点。注意：在使用灵骏智算资源时，如果选择新建挂载点，则挂载点类型需选择VPC，并确保VPC和交换机与灵骏智算资源一致。 - 加速版本默认挂载路径：指定数据集版本的默认挂载路径。

2. 文件存储类型的参数配置

如果存储类型为文件存储（如NAS、CPFS等），则需要额外配置以下参数： - 选择文件系统：选择与存储类型对应的文件系统。 - 文件系统挂载点：配置挂载点以访问NAS文件系统。 - 文件系统路径：指定NAS中已有的存储路径，例如/。 - 默认挂载路径：与OSS类似，用于DSW和DLC中的文件访问。 - 开启版本加速（可选）：支持通用型NAS、极速型NAS或CPFS，配置方式与OSS类似。

3. 对象类型数据的特殊处理

对于对象类型的数据（如JSON、Base64编码的向量数据等），需要特别注意以下几点： - 索引列数据类型：对象类型数据通常包含复杂的结构化信息，例如向量数据或嵌套字段。在配置时，需明确指定索引列名称及其数据类型。 - 请求向量列表：支持两种格式： - Matrix：JSON格式的向量请求列表，适用于批量请求。 - Features：Base64编码的字符串标识的请求向量，适用于单个或批量请求。 - 过滤条件参数：可以通过query_filter设置过滤条件，支持表达式或节点之间的关系（AND/OR），并指定比较列名、比较算符（EQ、NE、GT等）及比较值。

4. 参数填写示例

以下是一个针对对象类型数据集的参数填写示例，假设存储类型为OSS且数据为JSON格式的向量数据：

4.1 创建数据集

类型：通用
所有者：admin
导入格式：文件夹
OSS路径：oss://your-bucket-name/your-folder-path/
默认挂载路径：/root/data/

4.2 配置近邻检索参数

{
  "column_name": "vector_column",
  "matrix": [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]],
  "batch_count": 2,
  "dimension": 3,
  "data_type": "FLOAT",
  "radius": 0.5,
  "is_linear": true,
  "extra_params": {
    "post_filter_topk": 10
  }
}

4.3 设置过滤条件

{
  "query_filter": {
    "filter_node": "AND",
    "expressions": [
      {
        "column_name": "age",
        "rel_type": "GT",
        "value": "30"
      },
      {
        "column_name": "income",
        "rel_type": "LT",
        "value": "50000"
      }
    ]
  }
}

5. 注意事项

数据类型匹配：确保输入数据的类型与组件要求一致，例如特征列需为数值类型（BIGINT或DOUBLE），标签列支持STRING或数值类型。
稀疏数据处理：如果数据为稀疏格式，需启用enableSparse参数，并正确配置KV对的分隔符。
生命周期管理：合理设置输出表的生命周期，避免数据过期导致任务失败。

通过以上步骤和参数配置，您可以成功创建并管理对象类型的数据集，并在机器学习任务中高效使用这些数据。如有进一步问题，请随时咨询！

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

机器学习/深度学习人工智能平台 PAI

问答标签：

人工智能平台 PAI参数

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问