《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8　技术上的最新趋势-阿里云开发者社区

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8　技术上的最新趋势

2017-05-02 1789

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一书中的第1章，第1.8节，南森·马茨（Nathan Marz） [美]　詹姆斯·沃伦（JamesWarren）　著马延辉　向　磊　魏东琦　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.8　技术上的最新趋势

理解本书中所使用的工具的背景是很有帮助的。技术上的众多趋势深深影响着构建大数据系统的方式。

1.8.1　CPU并不是越来越快

人们已经开始意识到单个CPU运行速度的物理限制。这意味着，如果想扩展到更多的数据，你必须能够并行化计算。
这导致了无共享的并行算法及其相应系统的增加，比如MapReduce。不是只通过购买更好的机器进行扩展（这被称为垂直扩展），而是通过添加更多的机器进行扩展（这被称为水平扩展）。

1.8.2　弹性云

技术上的另一个趋势是弹性云在不断崛起，弹性云又称为基础设施即服务（Infrastructure as a Service，IaaS）。Amazon Web Services（AWS）的基础设施就是最著名的弹性云。弹性云允许你根据需求租用硬件，而不是在自己的场地中拥有自己的硬件。弹性云几乎可以瞬间让你增加或减小集群的大小，所以如果要运行一个大的作业，你就可以临时地分配硬件。
弹性云大大简化了系统管理。它们还提供额外的存储和硬件分配选项，可以显著降低基础设施的价格。例如，AWS有一个被称为现买现卖（Spot Instances）的特性，即你对实例进行投标而不是支付固定的价格。如果有人出价比你更高，你就会失去该实例。因为现买现卖特性可以随时消失，所以它们往往是明显低于正常价格的实例。如MapReduce的分布式计算系统，由于在软件层处理容错性，因此它们是很好的选择。

1.8.3　大数据充满活力的开源生态系统

在过去的几年里，开源社区创造了数量庞大的大数据技术。本书中所授的所有技术都是开源且免费使用的。
你将学习五类开源项目。记住，这不是一本调研书—其目的不是只教一堆技术。你将学习基本原则，以便能够评估和选择适合自身需求的工具。
批处理计算系统—批处理计算系统是高吞吐量、高延迟的系统。批处理计算系统几乎可以做任意计算，但是它们可能需要几小时或几天。本书唯一使用的批处理计算系统是Hadoop。Hadoop项目有两个子项目：Hadoop分布式文件系统（Hadoop Distributed File System, HDFS）和Hadoop MapReduce。HDFS是分布式的、容错的存储系统，可以扩展到PB级别的数据。MapReduce是一个集成了HDFS、水平可扩展的计算框架。
序列化框架—序列化框架为不同语言间使用的对象提供了工具和库。它们可以将任何语言的对象序列化为一个字节数组，然后将字节数组反序列化成任何语言的对象。序列化框架提供了一种模式定义语言（Schema Definition Language）来定义对象和对象的字段，它们为安全地版本化对象提供了机制，这样不用使现有对象无效就可以形成模式。三个著名的序列化框架是Thrift、Protocol Buffers和Avro。
随机访问NoSQL数据库—在过去的几年里，已经创建了大量的NoSQL数据库。如Cassandra、HBase、MongoDB、Voldemort、Riak、CouchDB等，完全理解它们是比较困难的。这些数据库都有一个共同点：它们牺牲SQL的完整表达，而专注于某些特定类型的操作。它们都有不同的语义，且用于特定的目的。它们不是作为任意的数据仓库被使用的。在很多方面，选择使用NoSQL数据库，就像在程序中，在散列映射（Hash Map）、排序映射（Sorted Map）、链表（Linked List）或者向量（Vector）之间选择使用数据结构一样。你事先要知道自己想做什么，然后恰当地进行选择。Cassandra将被用作我们构建的示例应用程序的一部分。
消息/队列系统—消息/队列系统提供了一种方法，以容错和异步的方式在进程之间发送和使用消息。消息队列是进行实时处理的一个关键组件。本书将使用的是ApacheKafka。
实时计算系统—实时计算系统是高吞吐量、低延迟、流处理的系统。它们无法进行批处理系统计算范围内的计算，但它们处理消息非常迅速。本书将使用的是Storm。Storm拓扑很容易编写和扩展。
随着这些开源项目的成熟，与之相关的企业已经成形并能提供企业级的支持，例如，Cloudera提供Hadoop支持，DataStax提供Cassandra支持，其他项目都是公司产品，例如，Riak是Basho科技的产品，MongoDB是10gen的产品，RabbitMQ是SpringSource的产品—它是VMWare的一个部门。

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8　技术上的最新趋势

1.8　技术上的最新趋势

1.8.1　CPU并不是越来越快

1.8.2　弹性云

1.8.3　大数据充满活力的开源生态系统

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8 技术上的最新趋势

1.8 技术上的最新趋势

1.8.1 CPU并不是越来越快

1.8.2 弹性云

1.8.3 大数据充满活力的开源生态系统

华章出版社

热门文章

最新文章

相关课程

相关电子书

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8　技术上的最新趋势

1.8　技术上的最新趋势

1.8.1　CPU并不是越来越快

1.8.2　弹性云

1.8.3　大数据充满活力的开源生态系统