阿里云机器学习PAI全新推出特征平台 (Feature Store),助力AI建模场景特征数据高效利用

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 机器学习平台 PAI 推出特征平台(PAI-FeatureStore),在所有需要特征的AI建模场景,用户可通过 Feature Store 轻松地共享和重用特征数据,减少资源和时间成本、提升工作效率。

推荐算法与系统在全球范围内已得到广泛应用,为用户提供了更个性化和智能化的产品推荐体验。在推荐系统领域,AI建模中特征数据的复用、一致性等问题严重影响了建模效率。阿里云机器学习平台 PAI 推出特征平台(PAI-FeatureStore)。在所有需要特征的AI建模场景,用户可通过 Feature Store 轻松地共享和重用特征数据,减少资源和时间成本、提升工作效率。

1. 什么是特征平台

特征平台(Feature Store) 是一种中心化的数据管理和共享平台,用于组织、存储和管理机器学习和数据科学中使用的特征数据。在多个细分场景解决AI模型的训练和推理输入特征数据问题。

阿里云机器学习平台 PAI-FeatureStore 与阿里云多个云产品的深度结合,封装从特征到模型的全链路。并且,基于推荐算法流程的开发,实现与已有的成熟推荐流程无缝衔接,进一步提升算法工程师和开发人员的效率。

通过 PAI-FeatureStore,有效地提升工作效率、减少资源成本和开发时间。作为一个集中的、可扩展的、高效的特征数据存储和访问解决方案,解决了在AI建模中特征数据的复用、一致性、可发现性和可管理性等问题。PAI-FeatureStore 自动完成在线和离线表的构建,保证在线和离线的一致性,同时在特征表只存一份的情况下,能够向多人共享特征;离线存储方面支持阿里云云原生大数据计算服务MaxCompute,在线存储方面支持阿里云实时数仓Hologres、GraphCompute 和 TableStore 等产品,算法工程师无需深入了解各个存储产品的使用细节,通过网页手动操作或 Python SDK 即可完成特征处理。

111.png

112.png

image.png

2. PAI-FeatureStore 适用场景及优势功能

阿里云机器学习平台 PAI-FeatureStore 适用于推荐场景、用户增长、广告或者是金融风控场景等需要特征的AI建模场景,为数据分析师和建模人员提供统一的数据特征存储和管理平台,方便进行数据处理、特征提取和分析。

目前  PAI-FeatureStore 主要功能如下:

  • 离线数据和在线数据一致:PAI-FeatureStore 中,各个产品的数据同步操作都封装为一行数据同步的代码,帮忙用户屏蔽了不同存储产品繁琐的数据授权等操作细节,保证数据一致性,提高特征数据处理和使用的准确率和效率;
  • 自动关联特征表:PAI-FeatureStore 中,支持将模型训练所需要的各种特征组合在一起,导出成模型训练所需要的训练表。当训练所需的特征散落在多张不同的表里时,PAI-FeatureStore支持自动将多张表关联导出。并且,支持序列表导出、按event_time关联导出、自动按表大小排序及优化导出时间等;
  • 自动模型特征分析:PAI-FeatureStore 支持PAI-EAS自动分析出模型需要使用的特征,并且自动加载好相关特征。通过指定好PAI-FeatureStore 中的项目名、模型特征名等,预测引擎能自动分析出所需要的特征并进行加载,简化使用流程;
  • 实时特征秒级读取:PAI-FeatureStore 支持客户对特征进行分类的注册。在实时特征值存在秒级别变化的推荐场景中,对特征链路要求高,当有线上请求来读取特征时,PAI-FeatureStore会判断需要读取的若为实时特征,直接对在线存储的进行读取。上千个实时特征的读取可以在15ms,满足低延迟要求;
  • 多版本特征管理:PAI-FeatureStore 支持增量挖掘特征,解决特征种类复杂,线上数据来源多样的问题。方便线上模型迭代,同时节约存储资源;

此外,PAI-FeatureStore 还有深度结合PAI全链路推荐系统PAI-REC,实现离在线一致性检查;通过SDK可直接使用 PAI-FeatureStore 所有产品能力;支持 PAI-EAS 直接从 MaxCompute 拉取特征,减少在线存储压力等功能。

113.png

3. 如何使用 PAI-FeatureStore

使用步骤请参考产品文档

PAI-FeatureStore预计将于2023年9月中下旬在全Region正式上线。

目前PAI-FeatureStore仅供白名单申请使用,如果您希望使用 PAI-FeatureStore 功能,您在钉钉搜索群号“34415007523”或扫描下方二维码进入申请答疑群。

image.png

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1天前
|
监控 负载均衡 Java
【阿里云云原生专栏】微服务架构在阿里云云原生平台上的应用实例与优化策略
【5月更文挑战第20天】本文介绍了在阿里云云原生平台实现微服务架构的步骤,包括基于Spring Cloud的Docker化部署、使用ACK部署微服务,以及优化策略:服务发现与负载均衡(借助Istio)和监控日志管理。通过这种方式,企业能提升应用的可扩展性、可维护性和敏捷性。
149 5
|
3天前
|
人工智能 Serverless 异构计算
上海站丨飞天技术沙龙 Serverless + AI 专场开启报名!
"飞天技术沙龙——Serverless 技术实践营"将于2024年5月31日举行,聚焦Serverless在AI中的应用。活动包括演讲、实操,探讨Serverless演进趋势、AI应用开发及降低成本等议题。限额80人,报名审核制,现场还有大奖和证书待您领取。扫描链接<https://summit.aliyun.com/Serverless2024shanghai>报名。
上海站丨飞天技术沙龙 Serverless + AI 专场开启报名!
|
3天前
|
人工智能 云计算
阿里云携手合作伙伴得云AI举办《AI赋能 · 智能革新沙龙》
阿里云与得云AI联合举办了《AI赋能·智能革新沙龙》,探讨云计算和AI前沿技术。
|
6天前
|
人工智能 自然语言处理 JavaScript
阿里云发布 AI 编程助手 “通义灵码”——VSCode更强了 !!
阿里云发布 AI 编程助手 “通义灵码”——VSCode更强了 !!
106 3
|
6天前
|
消息中间件 人工智能 监控
|
6天前
|
人工智能 分布式计算 Cloud Native
阿里云PAI平台架构介绍
阿里云PAI平台架构介绍
30 0
|
6天前
|
机器学习/深度学习 人工智能 分布式计算
阿里云机器学习PAI介绍
阿里云机器学习PAI介绍
33 1
|
6天前
|
人工智能 自然语言处理 IDE
如何让阿里云AI001号员工帮我写代码(含IDEA插件使用)
AI 智能时代,将改变所有人的思维方式,学习方式,更注重人的创造力和思考力,如果你懒,你将会被 AI 替代,如果你只想干简单不用动脑的活,你将会被 AI 替代,如果你只会打螺丝,更会被 AI 替代。当下的 AI 人工智能时代,被认为是第四次工业革命的到来,我们更应该看到的是机会,而非跳进焦虑、困惑、悲观的一群人潮中。
|
6天前
|
弹性计算 运维 监控
解密阿里云弹性计算:探索云服务器ECS的核心功能
阿里云ECS是核心计算服务,提供弹性云服务器资源,支持实例按需配置、集群管理和监控,集成安全防护,确保服务稳定、安全,助力高效业务运营。
165 0
|
6天前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置详细指南,如何选择合适云服务器配置?
阿里云服务器配置选择涉及CPU、内存、公网带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型e实例,如2核2G3M配置,适合低流量网站。企业用户则应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。选择时考虑实际应用需求和性能稳定性。
215 6

热门文章

最新文章

相关产品

  • 人工智能平台 PAI