一幅长文细学华为MRS大数据开发(一)—— 大数据时代的挑战和机遇

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文主要讲述了大数据的定义,以及华为鲲鹏对于日益见长的大数据的解决方案

1 大数据时代的挑战和机遇

1.1 大数据基础概念

1.1.1 大数据时代的发展

蒸汽时代——电气时代——信息时代——智能时代


1.1.2 大数据定义

大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集


1.1.3 大数据的4V

  • 体量巨大Volume
  • 处理速度快Velocity
  • 类型繁多Variety
  • 价值密度低Value


1.1.4 大数据处理和传统数据处理的差异

大数据处理 传统数据处理
数据规模
数据类型 繁多 单一
模式和数据的关系 先有数据后有模式,模式随数据增多不断演变 先有模式后有数据
处理工具 No size fits all One size fits all


1.1.5 并行计算相关知识

节点:指的就是某一个服务器,或者是某一台计算机,或者是某一台主机

机架:存放服务器的架子。一般来说全1U设备部署数量一般不超过16台,全2U设备一般不超过12台,全4U设备一般4到7台。也就是说,一台机架上有多个服务器。


1.2 大数据应用领域

image-20220808131727936


1.2.1 大数据金融应用

image-20220808131851336


1.2.2 大数据教育应用

image-20220808132004819


1.2.3 大数据公共安全应用

image-20220808132053314


1.2.4 大数据交通规划应用

image-20220808132137734


1.3 大数据计算

1.3.1 计算任务的分类

IO密集型任务

计算密集型任务

数据密集型任务

1.3.2 大数据应用的主要计算模式

批处理计算:针对大规模数据的批量处理,如MapReduce、Spark等

流计算:针对流数据的实时计算处理,如Spark、Storm、Flink、Flume、Dstream等

图计算:针对大规模图结构数据的处理,如GraphX、Gelly、Giraph、PowerGraph等

查询分析计算:大规模数据的存储管理和查询分析,如Hive、Impala、Dremel等


1.3.3 Hadoop大数据生态圈

image-20220808133822526


1.4 企业面临的挑战和机遇

1.4.1 挑战

  • 业务部门无清晰的大数据需求
  • 企业内部数据孤岛严重
  • 数据可用性低、质量差
  • 数据相关管理技术和架构
  • 数据安全问题
  • 大数据人才缺乏
  • 数据开放和隐私的权衡


1.4.2 机遇

大数据挖掘成为商业分析的核心

大数据成为信息技术应用的支撑点

大数据成为信息产业持续增长的新引擎


1.5 华为鲲鹏解决方案

1.5.1 新时代的需求

万物互联——海量数据产生需要更高算力

应用和数据的多样性需要新的计算架构

超万亿规模的计算产业空间


1.5.2 鲲鹏计算产业优势

以中国市场孵化和完善行业应用,与全球产业形成良性循环

和ARM共享优势生态,协同加速发展


1.5.3 鲲鹏计算产业整体架构

鲲鹏计算产业是基于Kunpeng处理器构建的全栈IT基础设施、行业应用及服务,包括PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务、行业应用以及咨询管理服务等。


1.5.4 鲲鹏大数据解决方案

华为安全可控大数据解决方案,提供一站式高性能大数据计算及数据安全解决方案,解决公共安全行业大数据智能化建设的数据安全、效率、能耗等基础性难题。


1.5.5 BIgData Pro大数据解决方案

该方案采用基于公有云的存储和计算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务为统一的存储数据湖。

提供了“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提高了大数据集群的资源利用率。


1.5.6 华为大数据解决方案优势

  • 高安全
  • 高性能
  • 高开放


1.5.7 华为云大数据服务

image-20220808171408971


1.5.8 华为云MRS服务

image-20220808171536141


1.5.9 华为云MRS服务的优势

  • 高性能
  • 易运维
  • 高安全
  • 低成本
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
275 2
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
715 19
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
1294 14
|
SQL 分布式计算 资源调度
ODPS开发大全:进阶篇(1)
ODPS开发大全:进阶篇
1045 13
|
9月前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
373 1
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
666 14
|
SQL 分布式计算 MaxCompute
SQL开发问题之对于ODPS中的UNION操作,执行计划的问题如何解决
SQL开发问题之对于ODPS中的UNION操作,执行计划的问题如何解决
228 7
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
199 8
|
SQL 分布式计算 资源调度
ODPS开发大全:进阶篇(4)
ODPS开发大全:进阶篇
592 10
|
SQL 分布式计算 Java
ODPS开发大全:进阶篇(3)
ODPS开发大全:进阶篇
384 9

热门文章

最新文章