何为大数据平台

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据分为结构化数据(如人员信息、项目信息)和非结构化数据(如图片,文档),传统上讲,我们采用数据库来存结构化数据,如MySQL Oracle SQLServer,用NFS来存非结构化数据。

数据分为结构化数据(如人员信息、项目信息)和非结构化数据(如图片,文档),传统上讲,我们采用数据库来存结构化数据,如MySQL Oracle SQLServer,用NFS来存非结构化数据。

大数据,意味着数据多,如果记录数达到了上亿,一般数据库可能也就拖不动了。如果存储文件数达到几个T,甚至更多。那么NFS硬件又如何布局呢?

有时可能一台机器上的硬盘插满都不够。 有人说,不是可以用群集么,群集可以解决计算时多台,但解决不了存储容量的扩容。

能否有这样的一个平台:
这里写图片描述

这样的架构中,数据节点可以随意增加,容量不够,添加个节点就行,总容量等于数据节点之和。然后我们读取数据时,只与总管节点打交道,至于有几个数据节点,对程序来说是透明的。这样的平台,就可以完全达到我们随意扩容的功能。同时针对备份,该平台能自己能解决,一份数据可以直接复制到两个数据节点上,完成备份功能。数据节点所用的服务器,还要以不用再单独配存储设备,直接利服务器自带存储即可。

有这样的平台哇?——有,有个牛人写了这样的软件,名叫Hadoop。

目前业内流行很多大数据平台,如华为、华三、星环、腾讯。

其实本质上都是基于Hadoop来的,稍加包装和改造。 就这点功能?——No。

它还有个更强大的用处,就叫计算。

有了大数据,毫无疑问需要便用,否则那就数据垃圾堆、数据坟墓。如何用呢?比如我想写统计程序,统计一下所有文档中,哪个词语使用的频次最高。

试想一下,传统怎么做? 我们会写一个程序放在业务应用服务器上,然后程序从“总管节点”读数取文档数据,然后读到后进行统计累加。

问题来了,我的数据是海量的,有几十个T,请问你这个程序执行完,从“总管节点”到“业务应用”这台电脑上的网络中,要走到多少流量?应该就是这几十个T吧,是不是有点恐怖?
也就是你把所有的数据,从存储全部移动到了应用端,只不过没有落地而已。

于是大牛们就想,这些存储结点上不也有CPU么,不也有计算能力么。能否利用这些CPU资源,而不要把数据进行搬移,称之为移动计算(体)。

这个在Hadoop上执行计算的架构,叫MapReduce。其中包含两个过程,Map是把计算任务下发到各计算结点上,Reduce是把各计算结点算出的结点回收回来,最终返回给用户。

MapReduce存在个缺陷,就是计算的中间结果是落地在磁盘上,也就增加了IO操作。
后来有人改造了下,把中间结果写入内存中,于是出现了Spark。

好了,这就是大数据平台,提供了统一存储以及计算的统一解决方案。各类应用都最终化解为MapReduce过程在Hadoop上执行,包括各类机器学习算法。

试想个问题:Google搜索一条信息为什么这么快?是不是就是这个思路?先把收集的各网页信息,存于无数台服务器上,当你执行搜索时,其实每台服务器都在帮你执行,然后每台上处理的数据量相对小,于是就快了,再把最终结果汇给你。

其实,Hadoop就是借鉴了Google的思想,做出的开源产品。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
10月前
|
网络协议 数据挖掘 5G
适用于金融和交易应用的低延迟网络:技术、架构与应用
适用于金融和交易应用的低延迟网络:技术、架构与应用
441 5
|
10月前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
494 9
|
存储 缓存 运维
优化高并发环境下的数据库查询性能:实战经验与技巧
在高并发环境下,数据库性能往往成为系统瓶颈。本文将深入探讨在高并发场景下优化数据库查询性能的策略与实践,包括索引优化、查询优化、数据库架构设计以及缓存机制的应用。通过对具体案例的分析,读者将能够掌握提升数据库性能的关键技术,从而在面对大规模用户请求时提高系统的响应速度和稳定性。
|
存储 移动开发 JavaScript
IRS应用发布之十一:应用部署发布
开发商工作台基于Docker体系和NodeJS构建发布系统,Docker镜像版本为NodeJS Long Term Support (LTS)版(node:lts),根据NodeJS升级计划自动更新默认版本。构建流程如下所示:
IRS应用发布之十一:应用部署发布
|
存储 SQL 搜索推荐
一站式实时数仓Hologres整体能力介绍—2024实时数仓Hologres公开课 01
一站式实时数仓Hologres整体能力介绍—2024实时数仓Hologres公开课 01
|
数据采集 分布式计算 大数据
森马基于MaxCompute+Hologres+DataWorks构建数据中台
本次案例主要分享森马集团面对多年自建的多套数仓产品体系,通过阿里云MaxCompute+Hologres+DataWorks统一数仓平台,保障数据生产稳定性与数据质量,减少ETL链路及计算时间,每年数仓整体费用从300多万降到180万。
|
消息中间件 存储 监控
RabbitMQ面试题汇总
RabbitMQ面试题汇总
1035 0
RabbitMQ面试题汇总
|
小程序 前端开发 JavaScript
轻松学会微信小程序开发(一)
轻松学会微信小程序开发(一)
327 0
|
定位技术 开发工具 Python
python实现超级玛丽游戏
Pygame是一个Python模块,旨在使编写视频游戏等多媒体应用程序变得更加轻松。它提供了一个用于处理音频、图像和鼠标/键盘输入等方面的工具集。Pygame也提供了一些预先编写好的模块,如Sprites(用于管理游戏中的对象)和Pygame.display(用于创建和管理窗口)。 Pygame基于SDL库(Simple DirectMedia Layer),它是一个跨平台的开源的低级多媒体库,用于对音频、键盘、鼠标、图形硬件以及低级的操作系统特性进行访问。 当使用Pygame时,你能够创建游戏窗口、读取键盘输入、播放音频、处理碰撞以及执行游戏逻辑。这些功能使Pygame称为一个适用于初学
822 19
python实现超级玛丽游戏