ModelScope训练的时候有没有相关的schema设计？

目前设计的schema很简单{"标的": null}，这样的设计很多数据抽取不出来，ModelScope训练的时候有没有相关的schema设计？

展开

收起

小小爱吃香菜 2024-04-02 17:18:57 63 版权

阿里云 AI 助理回答

在设计Schema时，如果当前的Schema结构过于简单（例如{"标的": null}），可能会导致数据抽取不完整或无法满足后续模型训练的需求。根据您提到的ModelScope训练场景，合理的Schema设计对于数据的有效组织和高效使用至关重要。以下是基于知识库资料提供的专业建议：

1. Schema设计的基本原则

Schema的设计需要结合具体业务场景和数据特点，确保数据能够被高效存储、查询和处理。以下是一些通用的设计原则： - 列簇数量控制：HBase等分布式数据库中，列簇数量不宜过多，建议控制在1-3个之间。过多的列簇会导致flush和compaction操作产生不必要的I/O负载。 - 列簇基数平衡：如果表存在多个列簇，需注意列簇之间的行数差异不要过大，否则可能导致扫描效率低下。 - 字段命名简短：列簇名应尽量简短，因为存储时每个value都会包含列簇名，过长的列簇名会增加存储开销。 - 版本管理：合理设置行的版本数量（默认为3），避免因历史数据过多导致存储文件过大。

2. 针对ModelScope训练的Schema设计建议

ModelScope训练通常涉及大量结构化或半结构化数据，因此Schema设计需要特别关注以下几点：

(1) 明确数据分类与分组

根据数据的用途和访问频率，将相关性高的字段归为同一列簇。例如：
- 如果“标的”相关的字段包括价格、时间、交易量等，可以将这些字段归为一个列簇（如cf_trade）。
- 如果还有其他元数据（如用户信息、设备信息），可以单独设计另一个列簇（如cf_meta）。

示例Schema：

{
"cf_trade": {
  "price": "float",
  "timestamp": "long",
  "volume": "int"
},
"cf_meta": {
  "user_id": "string",
  "device_id": "string"
}
}

(2) 支持动态扩展

如果数据字段可能动态增加，建议采用弱约束策略（如Lindorm的弱约束模式）。这种模式允许在写入数据时自动添加新字段，但需要注意字段类型的一致性。

示例配置：

ClientOptions options = ClientOptions.newBuilder(url)
  .setSchemaPolicy(SchemaPolicy.WEAK)
  .build();
LindormTSDBClient client = LindormTSDBFactory.connect(options);

(3) 优化RowKey设计

RowKey的设计直接影响数据的分布和查询性能。对于时序数据，建议将RowKey设计为设备ID+时间戳的形式，避免热点问题。
示例RowKey：
```
device_id:timestamp
```

(4) 版本控制与数据清理

如果训练数据需要保留多个版本，可以通过设置列簇的版本数量来管理历史数据。例如，设置最大版本数为5：

HColumnDescriptor columnDescriptor = new HColumnDescriptor("cf_trade");
columnDescriptor.setMaxVersions(5);
admin.modifyColumn(table, columnDescriptor);

3. Schema功能的开启与适配

如果您使用的是MaxCompute或其他云原生服务，需确保Schema功能已正确开启并适配： - MaxCompute Schema功能开启： - 对于新项目，可以在租户管理页面打开租户级Schema语法开关。 - 对于存量项目，需先升级为Schema模式，再开启开关。 - 权限管理： - 在Hologres中，可以通过slpm_enable()函数启用简单权限模型，确保不同角色（如开发者、写入者、查看者）对Schema的访问权限得到合理分配。