数据仓库介绍与实时数仓案例
1.数据仓库简介
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
独家专访阿里集团副总裁贾扬清:我为什么选择加入阿里巴巴?
在这次访谈中,贾扬清向我们透露了他加入阿里的原因,并对他目前在阿里主要负责的工作做了详细说明,他不仅回顾了过去 6 年 AI 框架领域发生的变化,也分享了自己对于 AI 领域现状的观察和对未来发展的思考。结合自己的经验,贾扬清也给出了一些针对 AI 方向选择和个人职业发展的建议,对于 AI 从业者来
现代流式计算的基石:Google DataFlow
0. 引言
今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Fli...
通过Flink实时构建搜索引擎的索引
1.背景介绍
搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下:
互联网搜索,如谷歌,百度等;
垂直搜索,如淘宝、天猫的商品搜索;
站内搜索,各个内容网站提供的站内搜索服务;
企业内部搜索,员工查询企业内部信息;
广告投放,根据投放上下文检索出对应的广告主和广告内容;
搜索引擎的关键是让用户找到其所需信息,其整体架构如下:
从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。
搜索双链路实时计算体系@双11实战
该文章来自阿里巴巴技术协会(ATA)精选集
0. 前言
何为双链路实时计算体系?微观实时计算链路
a) 最细粒度商品/店铺/用户数据的实时
b) 底层模型的实时宏观实时计算链路
相比微观实时,宏观实时的对象粒度更粗,更上层
a) 以实时效果为目标,基于bandit learning的实
Aliware-MQ消息队列技术架构与最佳实践
在阿里云生态日,阿里巴巴中间件产品专家不铭分享了《Aliware-MQ消息队列》。他从功能特性、技术架构、最佳实践、案例分析四个方面进行了分享。在分享中,他主要介绍了Aliware-MQ的线性扩展技术、存储模型、负载均衡、数据流、刷盘策略、高可靠/高可用方案进行了介绍,并通过案例进行了具体实践分享。