现代流式计算的基石:Google DataFlow
0. 引言
今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Fli...
流计算StreamCompute
背景
每年的双十一除了“折扣”,全世界(特别是阿里人)都关注的另一个焦点是面向媒体直播的“实时大屏”(如下图所示)。包括总成交量在内的各项指标,通过数字维度展现了双十一狂欢节这一是买家,卖家及物流小二一起创造的奇迹!
双十一媒体直播大屏
这一大屏背后需要实时处理海量的庞大电商系统各个模块产生的
结构化大数据分析平台设计
前言
任何线上系统都离不开数据,有些数据是业务系统自身需要的,例如系统的账号,密码,页面展示的内容等。有些数据是业务系统或者用户实时产生的,例如业务系统的日志,用户浏览访问的记录,系统的购买订单,支付信息,会员的个人资料等。
通过Flink实时构建搜索引擎的索引
1.背景介绍
搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下:
互联网搜索,如谷歌,百度等;
垂直搜索,如淘宝、天猫的商品搜索;
站内搜索,各个内容网站提供的站内搜索服务;
企业内部搜索,员工查询企业内部信息;
广告投放,根据投放上下文检索出对应的广告主和广告内容;
搜索引擎的关键是让用户找到其所需信息,其整体架构如下:
从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。
搜索双链路实时计算体系@双11实战
该文章来自阿里巴巴技术协会(ATA)精选集
0. 前言
何为双链路实时计算体系?微观实时计算链路
a) 最细粒度商品/店铺/用户数据的实时
b) 底层模型的实时宏观实时计算链路
相比微观实时,宏观实时的对象粒度更粗,更上层
a) 以实时效果为目标,基于bandit learning的实