【云计算与大数据技术】分布式计算、虚拟化技术、并行编程技术等技术讲解(超详细必看)

简介: 【云计算与大数据技术】分布式计算、虚拟化技术、并行编程技术等技术讲解(超详细必看)

一、分布式计算

分布式计算是一种计算方法,和集中式计算相对,随着计算的发展,一些应用需要巨大的计算能力才能完成,如果采用集中式计算则需要耗费很长的时间,而分布式计算将应用分解成许多更小的部分,分配到多台计算机进行处理,这样可以节省整体计算时间,大大提高计算效率。云计算是分布式计算技术的一种,也是分布式计算这种科学概念的商业实现

分布式计算的优点就是发挥集体的力量,将大任务分解成小任务,分配给多个计算节点去同时计算,分布式计算将计算扩展到多台计算机,甚至是多个网络,在网络上有序的执行一个共同的任务,当然离不开Web技术,但在分布式计算发展起来之前的网络协议并不能满足分布式计算的要求,于是产生了Web Service计算

分布式计算的另一种应用是Web Service 它是一个平台独立的  低耦合的 自包含的 基于可编程的Web的应用程序,可使用开放的XML标准来描述,发布,发现,协调和配置这些应用程序,用于开发分布式的,互操作的应用程序

简单地说,这种技术的功能和中间件的功能有相似之处,Web Service技术是屏蔽掉不同开发平台开发的功能模块互相调用的障碍,从而可以利用HTTP和SOAP使商业数据在Web上传输,可以调用这些开发平台不同的功能模块来完成计算任务,这样看来,要在互联网上实施大规模的分布式计算,就需要Web Service作支撑

二、云计算的基本概念

云计算的组成可以分为六个部分,它们由下至上分别是:  

基础设施(Infrastructure)

云基础设施使经过虚拟化的硬件资源和相关管理功能的集合,对内通过虚拟化技术对物理资源进行抽象,对外提供动态 灵活的资源服务

存储(Storage)  

云存储设计提供数据存储作为一项服务,包括类似数据库的服务,通常以使用的存储量为结算基础

平台(Platform)  

云平台直接提供计算平台和解决方案作为服务,以方便应用程序部署,从而节省购买和管理底层硬件和软件的成本

应用(Application)

云应用利用云软件架构,往往不再需要用户在自己的计算机上安装和运行该应用程序,从而减轻软件维护 操作和售后支持的负担

服务(Services)

云服务是指包括产品、服务和解决方案都实时的在互联网上进行交付和使用

客户端(Clients)

云客户端包括专为提供云服务的计算机硬件和计算机软件中断

三、云计算的关键技术

1:分布式海量数据存储

  以移动通信运营商为例,随着移动业务和用户规模的不断扩大,每天都产生海量的业务、计费以及网管数据,然而庞大的数据量使得传统的数据库存储已经无法满足存储和分析需求,主要有以下问题

数据库容量有限

 并行取数困难  

JDBC访问效率太低  

数据库并发访问数太多

理想的解决方案是把大数据存储到分布式文件系统中,云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性

云计算系统中广泛使用的数据存储系统是GFS和HDFS。

2:虚拟化技术

虚拟化技术是云计算系统的核心组成部分之一,是将各种计算及存储资源充分整合和高效利用的关键技术。云计算的虚拟化技术不同于传统的单一虚拟化,它是涵盖整个IT架构的,包括资源,网络,应用和桌面在内的全系统虚拟化,通过虚拟化技术可以实现将所有硬件设备,软件应用和数据隔离开来,打破硬件配置,软件部署和数据分布的界限,实现IT架构的动态化,虚拟化技术可以提供以下特点

资源分享

通过虚拟机封装用户各自的运行环境,有效实现多用户分布分享数据中心资源

资源定制

用户利用虚拟化技术,配置私有的服务器,指定所需的CPU数目 内存容量 磁盘空间 实现资源的按需分配

细粒度资源管理

将物理服务器拆分成若干虚拟机,可以提高服务器的资源利用率,减少浪费,而且有助于服务器的负载均衡和节能

3:云平台技术

云平台技术能够使大量的服务器协同工作,方便地进行业务部署,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运营。  

云计算平台的主要特点是用户不必关心云平台底层的实现。

4:并行编程技术

目前两种最重要的并行编程模式四数据并行和消息传递。数据并行编程模型的编程级别比较高,编程相对简单,但它仅适用于数据并行问题,消息传递编程模型的编程级别相对较低,但消息传递编程模型可以有更广泛的应用范围

5:数据管理技术

数据管理技术必须能够高效地管理大数据集,其次,如何在规模巨大的数据中找到特定的数据,也是云计算数据管理技术所必须解决的问题。

应用于云计算的数据管理技术最常见的是Google的BigTable数据管理技术,它采用列存储的方式管理数据。

BigTable技术建立在GFS和MapReduce之上的一个大型分布式数据库,它实际上是一个很庞大的表,它将所有数据都作为对象来处理,形成一个巨大的表格。

创作不易 觉得有帮助请点赞关注收藏~~~

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
1787 4
|
7月前
|
消息中间件 监控 Java
Apache Kafka 分布式流处理平台技术详解与实践指南
本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统,Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制,帮助开发者构建可靠、可扩展的实时数据流处理系统。
691 4
|
6月前
|
机器学习/深度学习 监控 PyTorch
68_分布式训练技术:DDP与Horovod
随着大型语言模型(LLM)规模的不断扩大,从早期的BERT(数亿参数)到如今的GPT-4(万亿级参数),单卡训练已经成为不可能完成的任务。分布式训练技术应运而生,成为大模型开发的核心基础设施。2025年,分布式训练技术已经发展到相当成熟的阶段,各种优化策略和框架不断涌现,为大模型训练提供了强大的支持。
889 0
|
7月前
|
JSON 监控 Java
Elasticsearch 分布式搜索与分析引擎技术详解与实践指南
本文档全面介绍 Elasticsearch 分布式搜索与分析引擎的核心概念、架构设计和实践应用。作为基于 Lucene 的分布式搜索引擎,Elasticsearch 提供了近实时的搜索能力、强大的数据分析功能和可扩展的分布式架构。本文将深入探讨其索引机制、查询 DSL、集群管理、性能优化以及与各种应用场景的集成,帮助开发者构建高性能的搜索和分析系统。
508 0
|
11月前
|
安全 JavaScript 前端开发
HarmonyOS NEXT~HarmonyOS 语言仓颉:下一代分布式开发语言的技术解析与应用实践
HarmonyOS语言仓颉是华为专为HarmonyOS生态系统设计的新型编程语言,旨在解决分布式环境下的开发挑战。它以“编码创造”为理念,具备分布式原生、高性能与高效率、安全可靠三大核心特性。仓颉语言通过内置分布式能力简化跨设备开发,提供统一的编程模型和开发体验。文章从语言基础、关键特性、开发实践及未来展望四个方面剖析其技术优势,助力开发者掌握这一新兴工具,构建全场景分布式应用。
992 35
|
7月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
499 14
|
9月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
331 4
|
8月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
668 0
|
7月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
237 14
|
7月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
236 1
下一篇
开通oss服务