Flink入坑指南 第四章:SQL中的经典操作Group By+Agg
Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。
简介
Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。
Apache Beam WordCount编程实战及源码解读
概述:Apache Beam WordCount编程实战及源码解读,并通过intellij IDEA和terminal两种方式调试运行WordCount程序,Apache Beam对大数据的批处理和流处理,提供一套先进的统一的编程模型,并可以运行大数据处理引擎上。完整项目Github源码
负责公司大数据处理相关架构,但是具有多样性,极大的增加了开发成本,急需统一编程处理
如何在E-MapReduce上使用storm
Storm 使用指南
集群创建
目前E-MapReduce已经支持了apache社区的1.0.1版本的storm。用户可以通过选择E-MapReduce 最新的镜像版本EMR-2.0.0(以及后续的以上版本),通过在控制台软件列表中勾选storm软件进行安装,选择完毕后即可登录到master节点
Flink+HBase场景化解决方案
在中国HBase技术社区第十届Meetup杭州站上,阿里巴巴高级产品工程师高旸为大家分享了实时计算技术相关的发展背景,并介绍了基于Flink+HBase的实时计算场景化解决方案,并对于在线教育、城市大脑、实时风控等典型的实时计算方案应用场景进行了介绍。
开源大数据周刊-第80期
奇虎360正式开源其高性能KV存储平台Zeppelin,Zeppelin 是奇虎 360 开源的一个高性能,高可用的分布式 Key-Value 存储平台,它以高性能、大集群为目标,并希望能在 Zeppelin 的基础上,不仅能够提供 KV 的访问,还可以通过简单的一层转换满足更复杂的协议需求。
2018杭州云栖大会参会总结
本次云栖大会的主题是驱动数字中国,以阿里集团和阿里云的先进技术帮助中国更多的中小企业实现数字化转型,或者更好的利用数据、技术来提高自身的产能和行业竞争力。而传统企业的数字化转型的必经路线是:数字化 -> 在线化 -> 智能化,根据这个主题,我来对本次云栖大会做个简要的总结。
Flink在唯品会的实践
> 本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。
本文主要内容主要包括以下几个方面:
1. 唯品会实时平台现状
2. Flink在唯