何为大数据平台

简介: 数据分为结构化数据(如人员信息、项目信息)和非结构化数据(如图片,文档),传统上讲,我们采用数据库来存结构化数据,如MySQL Oracle SQLServer,用NFS来存非结构化数据。

数据分为结构化数据(如人员信息、项目信息)和非结构化数据(如图片,文档),传统上讲,我们采用数据库来存结构化数据,如MySQL Oracle SQLServer,用NFS来存非结构化数据。

大数据,意味着数据多,如果记录数达到了上亿,一般数据库可能也就拖不动了。如果存储文件数达到几个T,甚至更多。那么NFS硬件又如何布局呢?

有时可能一台机器上的硬盘插满都不够。 有人说,不是可以用群集么,群集可以解决计算时多台,但解决不了存储容量的扩容。

能否有这样的一个平台:
这里写图片描述

这样的架构中,数据节点可以随意增加,容量不够,添加个节点就行,总容量等于数据节点之和。然后我们读取数据时,只与总管节点打交道,至于有几个数据节点,对程序来说是透明的。这样的平台,就可以完全达到我们随意扩容的功能。同时针对备份,该平台能自己能解决,一份数据可以直接复制到两个数据节点上,完成备份功能。数据节点所用的服务器,还要以不用再单独配存储设备,直接利服务器自带存储即可。

有这样的平台哇?——有,有个牛人写了这样的软件,名叫Hadoop。

目前业内流行很多大数据平台,如华为、华三、星环、腾讯。

其实本质上都是基于Hadoop来的,稍加包装和改造。 就这点功能?——No。

它还有个更强大的用处,就叫计算。

有了大数据,毫无疑问需要便用,否则那就数据垃圾堆、数据坟墓。如何用呢?比如我想写统计程序,统计一下所有文档中,哪个词语使用的频次最高。

试想一下,传统怎么做? 我们会写一个程序放在业务应用服务器上,然后程序从“总管节点”读数取文档数据,然后读到后进行统计累加。

问题来了,我的数据是海量的,有几十个T,请问你这个程序执行完,从“总管节点”到“业务应用”这台电脑上的网络中,要走到多少流量?应该就是这几十个T吧,是不是有点恐怖?
也就是你把所有的数据,从存储全部移动到了应用端,只不过没有落地而已。

于是大牛们就想,这些存储结点上不也有CPU么,不也有计算能力么。能否利用这些CPU资源,而不要把数据进行搬移,称之为移动计算(体)。

这个在Hadoop上执行计算的架构,叫MapReduce。其中包含两个过程,Map是把计算任务下发到各计算结点上,Reduce是把各计算结点算出的结点回收回来,最终返回给用户。

MapReduce存在个缺陷,就是计算的中间结果是落地在磁盘上,也就增加了IO操作。
后来有人改造了下,把中间结果写入内存中,于是出现了Spark。

好了,这就是大数据平台,提供了统一存储以及计算的统一解决方案。各类应用都最终化解为MapReduce过程在Hadoop上执行,包括各类机器学习算法。

试想个问题:Google搜索一条信息为什么这么快?是不是就是这个思路?先把收集的各网页信息,存于无数台服务器上,当你执行搜索时,其实每台服务器都在帮你执行,然后每台上处理的数据量相对小,于是就快了,再把最终结果汇给你。

其实,Hadoop就是借鉴了Google的思想,做出的开源产品。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
SQL 存储 数据采集
一图看懂企业大数据平台核心架构,值得参考!
一图看懂企业大数据平台核心架构,值得参考!
421 0
一图看懂企业大数据平台核心架构,值得参考!
|
存储 人工智能 Cloud Native
再谈数据湖3.0:降本增效背后的创新原动力
越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时,数据湖的应用场景也在不断发展,各行各业都在云上构建数据湖,从一开始的简单分析,到互联网搜索推广和深度分析以及近两年大规模的AI训练,都是基于数据湖架构进行的。
13410 25
再谈数据湖3.0:降本增效背后的创新原动力
|
存储 SQL 消息中间件
如何做一个好的大数据平台架构
如何做一个好的大数据平台架构
518 0
如何做一个好的大数据平台架构
|
数据采集 SQL 机器学习/深度学习
大数据平台架构设计探究
本文介绍了一些数据平台设计思路来帮助业务减少数据开发中的痛点和难点。
4109 0
|
存储 SQL NoSQL
实用干货!大数据入门的常用技术栈全在这里了
大数据自 2009 年走向人们的视野,亦如所有新技术的发展,经历了一波炒作后,由风口回归理性发展。我们可以看到,随着 IOT 技术的发展和成熟,以及 5G 业务的全面铺开,数据规模还将持续增长。新晋技术风口 AI、区块链、RPA 的发展也都离不开大数据技术。大数据技术将作为一项基础技术,应用在各个角落。
1888 0
实用干货!大数据入门的常用技术栈全在这里了
|
流计算 SQL HIVE
小红书如何实现高效推荐?解密背后的大数据计算平台架构
小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。
小红书如何实现高效推荐?解密背后的大数据计算平台架构
|
存储 大数据 数据库
何为大数据架构?
大数据架构是用以提取和处理海量数据(一般称之为“大数据”)的整体系统,因而能够针对业务目的进行分析整理。该架构可视作基于机构业务需求的大数据解决方案的蓝图。 大数据架构旨在处理下列类别的业务: •批量处理大数据源。
1581 0
|
数据采集 监控 大数据
后端技术杂谈12:捋一捋大数据研发的基本概念
你了解你的数据吗(开篇) 转自http://www.mdjs.info/2018/03/05/data-warehouse/concept-of-dw/0x00 前言你了解你的数据吗? 前几天突然来了点灵感,想梳理一下自己对数据的理解,因此便有了这篇博客或者说这系列博客来聊聊数据。
|
存储 分布式计算 物联网