如图所示,消息队列用的是 Kafka,离线的存储假设用的是 HDFS。不管是实时特征计算还是离线特征计算,现在都可以用 Flink 来进行计算,利用 Flink 流批一体的能力,能够保证实时和离线的特征计算所产生的结果是一致的。
Hologres 在这里的作用是特征存储,Hologres 特征存储的好处是可以提供非常高效的点查,另一个就是在做实时特征计算的时候,经常会产生一些不准确的特征,需要在后期对这些特征进行一些修正。可以通过 Flink 加 Hologres 的机制进行很好的特征的修正。
在推理服务这一侧,通过保留用来做推理的特征,放到后面的样本拼接里面,这里的消息队列也会使用 Kafka。样本拼接这个事情会用 Flink 来做,Flink 一个非常经典的应用场景做双流 Join。把样本给拼接出来后,在把特征给加上,接着把算好的样本同样也放进 Hologres。
在样本存储的情况下,Hologres 里面的样本既可以拿来做实时的模型训练,通过读取Hologres 的 Binlog 来做实时的模型训练,也可以通过 Hologres 批量的 Scan 去做离线的模型训练。
不管是在线还是离线的模型训练,都可以用 Flink 或者是 FlinkML,也就是 Alink 来做。如果是传统机器学习的话,也可以用 TensorFlow 来做深度学习的模型训练,这样的模型还是可能会存到 HDFS,然后通过 Flink 和 TensorFlow 做模型的验证,最后做线上的推理服务。
线上推理服务很多用户会有自己的推理引擎,如果有可以用,如果想用 Flink 和TensorFlow 的话也可以直接使用.
资料来源:《实时数仓“王炸组合”-实时计算 Flink 版+Hologre》链接:https://developer.aliyun.com/topic/download?id=7944
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。