第五章 大数据
大数据部分,我们分别从开发处理层、分析服务层和业务应用层共选取了四个典型的云原生大数据产品进行讲述。
近几年,大数据处理从离线、批量逐渐过渡到实时化、流式化,在金融,泛互联网等行业出现流批一体、大数据实时化等发展趋势。基于此,我们在开发处理层不仅会分享云数仓市场明星产品MaxCompute的最佳实践,同时会介绍实时计算Flink版,Flink近年已逐步演进为流处理的领军角色和事实标准。
分析服务层,我们选取的是全托管云原生的Elasticsearch搜索分析服务。云上全托管,一键部署运维集群,专业的数据安全组件,并且有阿里巴巴达摩院NLP分词器等加持,在云搜索市场具备极高竞争力。
分析报表作为最常用的大数据应用之一,我们在最后一章节将介绍这一场景的利器——QuickBI。Quick BI是一个专为云上用户量身打造的新一代智能BI服务平台。提供海量数据交互式查询分析,轻松完成数据分析、业务数据探查、报表制作等工作。
白皮书大数据部分限于篇幅,未能详尽阿里云所有大数据产品。旨在给读者提供部分核心产品的最佳实践参考,欢迎阅读、交流。
5.1 检索分析服务 Elasticsearch版
5.1.1 产品介绍
阿里云Elasticsearch是基于开源Elasticsearch构建的全托管Elasticsearch云服务,在100%兼容开源功能的同时,支持开箱即用、按需付费。不仅提供云上开箱即用的Elasticsearch、Logstash、Kibana、Beats在内的Elastic Stack生态组件,还与Elastic官方合作提供免费X-Pack(白金版高级特性)商业插件,集成了安全、SQL、机器学习、告警、监控等高级特性,被广泛应用于实时日志分析处理、信息检索、以及数据的多维查询和统计分析等场景。
开源Elasticsearch是一个基于Lucene的实时分布式的搜索与分析引擎,是遵从Apache开源条款的一款开源产品,是当前主流的企业级搜索引擎。而Lucene是一个开源的全文检索引擎工具包,最初由Doug Cutting开发,2002年在Lucene的基础上,和Apache开源伙伴合作,开发出一款可以代替当时主流搜索引擎的Nutch,后来基于google提出的分布式文件系统GFS和分布式计算模型MapReduce,开发出了hadoop,所以是可以说Lucene是hadoop的起源。