管理离线和在线特征
在线共享多种特征:降低在线存储的用量
离线特征视图:
支持每天例行同步离线数据到在线数据源中:离线特征数据如何推送到在线数据源?
实时特征视图:
管理实时特征,实时统计特征可以通过FeatureDB自动增量更新到processor中。
- 实时特征包含属性特征,例如商品的价格可以动态变化
- 实时特征包含统计特征,例如新闻最近4小时的点击、点击率、播放、评论量。
- 实时视图支持用户实时行为序列特征,行为序列特征是推荐系统的重要特征,文档
行为序列特征视图:
- 序列特征文档,注意向下翻页
- 支持行为表的注册,以及离线序列特征表注册
- go sdk 支持查询行为表数据,以及根据序列特征配置生成拼装好的序列特征数据。
- 支持离线行为表数据同步,以及实时行为数据写入
FeatureStore SDK:
- go-sdk。支持高性能点查
- java-sdk。支持高性能点查,以及实时特征的写入。
- 使用DataWorks独享资源组安装FeatureStore Python SDK
- 如何使用FeatureStore Python SDK
- 集成在 EasyRec Processor,TorchEasyRec Processor中的 FeatureStore c++ sdk,支持高性能查询,支持全量拉取数据(包含从离线MaxCompute表拉取数据),以及轮询拉取实时特征数据到内存,加速查询。
特征生产:SDK
- 独立的sdk,不依赖FeatureStore平台
- 降低特征生产的复杂度
- 使用天级别中间数据,大大节约特征的计算量
FeatureDB存储:文档,计费方案
- 高性能:通过map、array的高效存储、在打分服务中能够高效缓存,整体提高模型推理性能 性能测试
- 低成本:按照硬盘、内存、读写计费,整体能提供更低的成本
- 及时性:打分服务的缓存能够高效缓存增量实时数据
导出样本:
- 导出训练样本
- 训练样本自动关联实时特征,不需要部署Callback服务
提供自动化特征工程
挖掘新特征(组合特征):AutoFE文档
依赖:
- DataWorks安装通用资源组(包月),安装手册