《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一1.8 技术上的最新趋势-阿里云开发者社区

开发者社区> 华章计算机> 正文

《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一1.8 技术上的最新趋势

简介:
+关注继续查看

本节书摘来自华章出版社《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一书中的第1章,第1.8节,南森·马茨(Nathan Marz) [美] 詹姆斯·沃伦(JamesWarren) 著 马延辉 向 磊 魏东琦 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.8 技术上的最新趋势

理解本书中所使用的工具的背景是很有帮助的。技术上的众多趋势深深影响着构建大数据系统的方式。

1.8.1 CPU并不是越来越快

人们已经开始意识到单个CPU运行速度的物理限制。这意味着,如果想扩展到更多的数据,你必须能够并行化计算。
这导致了无共享的并行算法及其相应系统的增加,比如MapReduce。不是只通过购买更好的机器进行扩展(这被称为垂直扩展),而是通过添加更多的机器进行扩展(这被称为水平扩展)。

1.8.2 弹性云

技术上的另一个趋势是弹性云在不断崛起,弹性云又称为基础设施即服务(Infrastructure as a Service,IaaS)。Amazon Web Services(AWS)的基础设施就是最著名的弹性云。弹性云允许你根据需求租用硬件,而不是在自己的场地中拥有自己的硬件。弹性云几乎可以瞬间让你增加或减小集群的大小,所以如果要运行一个大的作业,你就可以临时地分配硬件。
弹性云大大简化了系统管理。它们还提供额外的存储和硬件分配选项,可以显著降低基础设施的价格。例如,AWS有一个被称为现买现卖(Spot Instances)的特性,即你对实例进行投标而不是支付固定的价格。如果有人出价比你更高,你就会失去该实例。因为现买现卖特性可以随时消失,所以它们往往是明显低于正常价格的实例。如MapReduce的分布式计算系统,由于在软件层处理容错性,因此它们是很好的选择。

1.8.3 大数据充满活力的开源生态系统

在过去的几年里,开源社区创造了数量庞大的大数据技术。本书中所授的所有技术都是开源且免费使用的。
你将学习五类开源项目。记住,这不是一本调研书—其目的不是只教一堆技术。你将学习基本原则,以便能够评估和选择适合自身需求的工具。
批处理计算系统—批处理计算系统是高吞吐量、高延迟的系统。批处理计算系统几乎可以做任意计算,但是它们可能需要几小时或几天。本书唯一使用的批处理计算系统是Hadoop。Hadoop项目有两个子项目:Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)和Hadoop MapReduce。HDFS是分布式的、容错的存储系统,可以扩展到PB级别的数据。MapReduce是一个集成了HDFS、水平可扩展的计算框架。
序列化框架—序列化框架为不同语言间使用的对象提供了工具和库。它们可以将任何语言的对象序列化为一个字节数组,然后将字节数组反序列化成任何语言的对象。序列化框架提供了一种模式定义语言(Schema Definition Language)来定义对象和对象的字段,它们为安全地版本化对象提供了机制,这样不用使现有对象无效就可以形成模式。三个著名的序列化框架是Thrift、Protocol Buffers和Avro。
随机访问NoSQL数据库—在过去的几年里,已经创建了大量的NoSQL数据库。如Cassandra、HBase、MongoDB、Voldemort、Riak、CouchDB等,完全理解它们是比较困难的。这些数据库都有一个共同点:它们牺牲SQL的完整表达,而专注于某些特定类型的操作。它们都有不同的语义,且用于特定的目的。它们不是作为任意的数据仓库被使用的。在很多方面,选择使用NoSQL数据库,就像在程序中,在散列映射(Hash Map)、排序映射(Sorted Map)、链表(Linked List)或者向量(Vector)之间选择使用数据结构一样。你事先要知道自己想做什么,然后恰当地进行选择。Cassandra将被用作我们构建的示例应用程序的一部分。
消息/队列系统—消息/队列系统提供了一种方法,以容错和异步的方式在进程之间发送和使用消息。消息队列是进行实时处理的一个关键组件。本书将使用的是ApacheKafka。
实时计算系统—实时计算系统是高吞吐量、低延迟、流处理的系统。它们无法进行批处理系统计算范围内的计算,但它们处理消息非常迅速。本书将使用的是Storm。Storm拓扑很容易编写和扩展。
随着这些开源项目的成熟,与之相关的企业已经成形并能提供企业级的支持,例如,Cloudera提供Hadoop支持,DataStax提供Cassandra支持,其他项目都是公司产品,例如,Riak是Basho科技的产品,MongoDB是10gen的产品,RabbitMQ是SpringSource的产品—它是VMWare的一个部门。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
ML之FE:Kaggle比赛之根据城市自行车共享系统数据进行FE+预测在某个时间段自行车被租出去的个数
ML之FE:Kaggle比赛之根据城市自行车共享系统数据进行FE+预测在某个时间段自行车被租出去的个数
27 0
《构建实时机器学习系统》一1.7 案例:Netflix在机器学习竞赛中学到的经验
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.7节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1495 0
NLPIR大数据语义系统KGB技术引领新方向
NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,
1218 0
使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。
2821 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载