数据仓库介绍与实时数仓案例
1.数据仓库简介
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
通过Flink实时构建搜索引擎的索引
1.背景介绍
搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下:
互联网搜索,如谷歌,百度等;
垂直搜索,如淘宝、天猫的商品搜索;
站内搜索,各个内容网站提供的站内搜索服务;
企业内部搜索,员工查询企业内部信息;
广告投放,根据投放上下文检索出对应的广告主和广告内容;
搜索引擎的关键是让用户找到其所需信息,其整体架构如下:
从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。
接着!!Apache Flink 全领域干货合集(持续更新)
Apache Flink 下一代开源大数据计算引擎, 可对有限数据流和无限数据流进行有状态计算,可部署在各种集群环境,对各种大小的数据规模进行快速计算。Flink 1.9.0 发布,在批流融合与功能特性上有重大更新,本专题将持续更新新增特性的具体说明及全领域干货。
海量数据实时计算利器Tec
引子
在刚刚过去的2015年双11大促中,搜索事业部的实时计算和在线学习系统Pora经受住了前所未有的双11巨量用户行为消息的冲击,在流入实时消息量持续超过300w/s,甚至峰值飙升至501w/s的压力下始终保持了端到端秒级实时效果,助力相关的搜索和推荐实时业务取得了很好的效果。
Pora如何能