流计算平台建设
各公司随着各自的步调,在流计算平台的发展上快慢有所不同,但flink已经成为了业界主流,各互联网公司都有基于flink的流计算处理平台。目前来看国内发展最快的是阿里巴巴,其不仅仅成功将自己改造的Blink合并入Flink主版本,这次也开源了Alink算法平台,可以实现基于Flink的实时机器学习。在Flink Forward 2019大会上,阿里云智能总裁张建锋表示:“大量业务从批处理转变为流处理,实时化是数据处理的真正未来。”
其他各家公司基本处于通过使用Flink实现自身业务的阶段,和阿里相比,对Flink仍然处于实践和使用阶段。部分公司也基于Flink进行了二次开发,形成了自己的分支。主要解决的问题或未来想解决的问题集中在Task调度优化,SQL扩展等,Flink Docker化,任务调度的智能诊断的等方面。可期待未来Flink社区由于各公司的贡献在这些方面上得到进一步加强。
在使用场景方面,Flink在实时计算,监控等方面都有出色的应用,如:
字节跳动:数仓平台、风控和安全、机器学习、视频、广告
快手:卡顿率,中断率等监控、活跃、新增、留存等指标计算、直播
携程:基于Flink和Tensorflow的智能监控平台
网易:广告、电商大屏,数据分析,风控,监控,直播,ETL,推荐
爱奇艺:信息流推荐、实时分析平台(UV、精细化运营等)
中国农业银行:神荼反欺诈平台
在基于Flink的流计算平台建设方面,各家公司的路线基本一致,基本都经历了从试用、迁移(从spark,storm等)、平台建设、封装的技术路线。最终暴露给用户提供最简单的使用方式。