基于flink的流计算平台已经成为了业界主流大数据实时处理平台,并基于流平台衍生出了一系列的用法。建议在公司内部启动Flink的调研和学习,为后续我司大数据平台的建设打下基础。当然,也需要进行配套设备的建设和研究,如消息中间件(Kafka、Pulsar、RocketMQ),YARN,时序数据库等等。可考虑与母公司合作。
目前可考虑发展并有一定需求的领域有,可考虑与算法团队合作进行Flink的调研和需求探讨:
基于流计算与人工智能的实时推荐
基于流计算与人工智能的监控
基于流计算和日志收集的日志检索和监控平台
将基于Spark的业务迁移至Flink,实现实时的模型训练
数据仓库建设……
在对Flink有一定了解后,可考虑平台化封装,可借鉴各互联网公司的建设思路,底层使用YARN,并对外封装SQL编写平台。