开发者社区 > 大数据与机器学习 > 实时数仓 Hologres > 正文

实时特征可以分为哪两类?

已解决

实时特征可以分为哪两类?

展开
收起
游客lmkkns5ck6auu 2022-09-26 22:12:38 381 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    • 系统会收集大量的用户行为事件(比如说浏览、点击等),以及交易记录(比如说从 OLTP 数据库同步过来的付款记录等)。这些数据量非常巨大(可能高达每秒种数千万甚至 上亿条),并且其中的绝大部分不是来自交易系统。为了方便以后使用,这些数据会导入 到系统里(图中的 a),同时它们会和各种维表数据做关联推导出一系列重要的特征(图 中的 1),这些特征会实时更新到推荐系统以优化用户体验。这里的实时维表关联需要低 延迟高吞吐的点查支持才能跟得上新产生的数据。

    • 系统也会使用滑动窗口等方式去计算出各种不同维度和时间粒度的特征(比如说一个商品 过去 5 分钟的点击数、过去 7 天的浏览量和过去 30 天的销售等)。根据滑动窗口的粒 度,这些聚合可能通过流计算或者批处理的方式完成。

    以上内容摘自《阿里云实时数仓Hologres最佳实践合集》电子书,点击https://developer.aliyun.com/topic/download?id=996 可下载完整版

    2022-09-26 23:08:47
    赞同 展开评论 打赏

本技术圈将为大家分析有关阿里云产品Hologres的最新产品动态、技术解读等,也欢迎大家加入钉钉群--实时数仓Hologres交流群32314975

相关电子书

更多
基于Spark的面向十亿级别特征的 大规模机器学习 立即下载
基于Spark的面向十亿级别特征的大规模机器学习 立即下载
千亿特征流式学习 在大规模推荐排序场景的应用 立即下载