TorchEasyRec为什么推荐用 OdpsDataset 而不是 OdpsDatasetV1来读数据？-阿里云开发者社区

TorchEasyRec为什么推荐用 OdpsDataset 而不是 OdpsDatasetV1来读数据？

2026-04-06 180

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： OdpsDataset（默认）是阿里TorchEasyRec推荐的数据集实现，相比旧版OdpsDatasetV1，其性能更优（批量Arrow读取+LZ4压缩）、支持断点续训、分布式协调精准分片、兼容30+复杂类型；V1仅作旧PAI环境兼容保留。

从 data.proto 可以看到，OdpsDataset 是默认值（default = OdpsDataset），OdpsDatasetV1 是后来加的编号 4，实际上是保留的旧版兼容入口。

核心原因有以下几点：

维度	OdpsDatasetV1 (common_io)	OdpsDataset (Storage API)
读取方式	逐行 Python 循环 `_do_read_with_retry()`	批量 Arrow RecordBatch（C++ 层一次数万行）
序列化	每行独立序列化 → Python 对象 → `pa.array`	Arrow IPC 列式格式，零拷贝
压缩	无	LZ4_FRAME（减少 ~60% 网络传输）
列裁剪	弱（`selected_cols` 字符串传入）	强（`required_data_columns` 服务端只发需要的列）

训练时数据量大（数十亿样本），V1 的逐行 Python 循环会成为严重瓶颈，数据加载速度远跟不上 GPU 计算速度。

V2 支持完整的断点续训机制：

V1 没有任何 checkpoint 支持，训练中断后只能从头开始。

V2 内置分布式协调：

V1 只有简单的 slice_id / slice_count，没有分布式协调，多机训练时容易出问题。

V1 只支持 5 种基础类型（bigint, double, boolean, string, datetime），训练中常见的 ARRAY<BIGINT>、MAP<STRING,FLOAT> 等特征类型无法直接读取，需要预先序列化为字符串。

V2 支持 30+ 种类型，包括嵌套的 ARRAY<ARRAY<T>> 和 MAP<K,V>，直接读取无需额外预处理。

V1 保留下来主要是为了兼容旧版 PAI 平台环境，那些环境只有 common_io 而没有新版 Storage API SDK。新的训练任务都应该使用 OdpsDataset（默认值）。

OdpsDataset 是生产训练的唯一合理选择，V1 在性能、断点续训、分布式、类型支持上全面落后，仅作为旧环境的兜底方案保留。

TorchEasyRec为什么推荐用 OdpsDataset 而不是 OdpsDatasetV1来读数据？