《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一1.8 技术上的最新趋势

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一书中的第1章,第1.8节,南森·马茨(Nathan Marz) [美] 詹姆斯·沃伦(JamesWarren) 著 马延辉 向 磊 魏东琦 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.8 技术上的最新趋势

理解本书中所使用的工具的背景是很有帮助的。技术上的众多趋势深深影响着构建大数据系统的方式。

1.8.1 CPU并不是越来越快

人们已经开始意识到单个CPU运行速度的物理限制。这意味着,如果想扩展到更多的数据,你必须能够并行化计算。
这导致了无共享的并行算法及其相应系统的增加,比如MapReduce。不是只通过购买更好的机器进行扩展(这被称为垂直扩展),而是通过添加更多的机器进行扩展(这被称为水平扩展)。

1.8.2 弹性云

技术上的另一个趋势是弹性云在不断崛起,弹性云又称为基础设施即服务(Infrastructure as a Service,IaaS)。Amazon Web Services(AWS)的基础设施就是最著名的弹性云。弹性云允许你根据需求租用硬件,而不是在自己的场地中拥有自己的硬件。弹性云几乎可以瞬间让你增加或减小集群的大小,所以如果要运行一个大的作业,你就可以临时地分配硬件。
弹性云大大简化了系统管理。它们还提供额外的存储和硬件分配选项,可以显著降低基础设施的价格。例如,AWS有一个被称为现买现卖(Spot Instances)的特性,即你对实例进行投标而不是支付固定的价格。如果有人出价比你更高,你就会失去该实例。因为现买现卖特性可以随时消失,所以它们往往是明显低于正常价格的实例。如MapReduce的分布式计算系统,由于在软件层处理容错性,因此它们是很好的选择。

1.8.3 大数据充满活力的开源生态系统

在过去的几年里,开源社区创造了数量庞大的大数据技术。本书中所授的所有技术都是开源且免费使用的。
你将学习五类开源项目。记住,这不是一本调研书—其目的不是只教一堆技术。你将学习基本原则,以便能够评估和选择适合自身需求的工具。
批处理计算系统—批处理计算系统是高吞吐量、高延迟的系统。批处理计算系统几乎可以做任意计算,但是它们可能需要几小时或几天。本书唯一使用的批处理计算系统是Hadoop。Hadoop项目有两个子项目:Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)和Hadoop MapReduce。HDFS是分布式的、容错的存储系统,可以扩展到PB级别的数据。MapReduce是一个集成了HDFS、水平可扩展的计算框架。
序列化框架—序列化框架为不同语言间使用的对象提供了工具和库。它们可以将任何语言的对象序列化为一个字节数组,然后将字节数组反序列化成任何语言的对象。序列化框架提供了一种模式定义语言(Schema Definition Language)来定义对象和对象的字段,它们为安全地版本化对象提供了机制,这样不用使现有对象无效就可以形成模式。三个著名的序列化框架是Thrift、Protocol Buffers和Avro。
随机访问NoSQL数据库—在过去的几年里,已经创建了大量的NoSQL数据库。如Cassandra、HBase、MongoDB、Voldemort、Riak、CouchDB等,完全理解它们是比较困难的。这些数据库都有一个共同点:它们牺牲SQL的完整表达,而专注于某些特定类型的操作。它们都有不同的语义,且用于特定的目的。它们不是作为任意的数据仓库被使用的。在很多方面,选择使用NoSQL数据库,就像在程序中,在散列映射(Hash Map)、排序映射(Sorted Map)、链表(Linked List)或者向量(Vector)之间选择使用数据结构一样。你事先要知道自己想做什么,然后恰当地进行选择。Cassandra将被用作我们构建的示例应用程序的一部分。
消息/队列系统—消息/队列系统提供了一种方法,以容错和异步的方式在进程之间发送和使用消息。消息队列是进行实时处理的一个关键组件。本书将使用的是ApacheKafka。
实时计算系统—实时计算系统是高吞吐量、低延迟、流处理的系统。它们无法进行批处理系统计算范围内的计算,但它们处理消息非常迅速。本书将使用的是Storm。Storm拓扑很容易编写和扩展。
随着这些开源项目的成熟,与之相关的企业已经成形并能提供企业级的支持,例如,Cloudera提供Hadoop支持,DataStax提供Cassandra支持,其他项目都是公司产品,例如,Riak是Basho科技的产品,MongoDB是10gen的产品,RabbitMQ是SpringSource的产品—它是VMWare的一个部门。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
传感器 人工智能 大数据
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
|
3月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
230 2
|
1月前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
4月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
259 4
|
3月前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
210 0
|
2月前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
2月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
111 2
|
2月前
|
存储 分布式计算 安全
MaxCompute Bloomfilter index 在蚂蚁安全溯源场景大规模点查询的最佳实践
MaxCompute 在11月最新版本中全新上线了 Bloomfilter index 能力,针对大规模数据点查场景,支持更细粒度的数据裁剪,减少查询过程中不必要的数据扫描,从而提高整体的查询效率和性能。
|
2月前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
3月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
174 4