三分钟了解大数据技术发展史-阿里云开发者社区

三分钟了解大数据技术发展史

2021-08-27 920

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 梳理下大数据技术发展

我们常说的大数据技术，大致主要起源于Google在2004年前后发表的三篇论文，其实数据处理早就存在，每个公司或者个人都有自己的大数据处理系统，并没有形成编程框架和理念，而这三篇论文也就是我们熟知的大数据三驾马车，分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库BigTable，这三篇论文影响了当今大数据生态，可以称得上大数据的基石，Doug cutting大佬在基于谷歌的三篇论文开发出了hadoop hdfs分布式文件存储、MapReduce计算框架，实际上从hadoop开源代码中窥见大数据并没有多么高深的技术难点，大部分实现都是基础的java编程，但是对业界的影响是非常深远的。那个时候大多数公司还是聚焦在单机上，如何尽可能提升单机的性能，需求更贵的服务器，谷歌通过把许多廉价的服务器通过分布式技术组成一个大的存储、计算集群给业界应对存储计算问题提供了新的发展思路。

   2006年hadoop发布后，Yahoo首先运用起来，随后越来越多大公司开始采用hadoop进行大数据存储和计算，2008年hadoop  正式成为Apache顶级项目，许多大数据商业公司也开始出现，与此同时MapReduce编程模型编写较为复杂，Yahoo内部开发出了Pig一门脚本语言，提供类SQL的语法，开发者可以用pig脚本描述要对数据集进行的操作，Pig经过编译后会生成MapReduce程序，然后运行到Hadoop集群中。
        
          
        
        
        
          
          AI 代码解读

Pig有个问题虽然比直接编写MR成需要容器但是仍然需要去学习新的脚本语法，于是Facebook又发明了HIve 支持使用SQL语言进行大数据计算，然后转化成MR计算程序运行，极大的简化了MapReduce分布式程序的门槛，让数据开发人员、数据分析师也能够快速入手，因此hive迅速得到了开发者和企业的追捧。随后众多Hadoop周边产品开始出现，其中包括：
专门将关系数据库中的数据导入导出到hadoop平台的Sqoop
数据收集诸如大规模日志进行分布式收集、聚合和传输的Flume
MapReduce工作流调度引擎Oozie、Airflow、Azkaban
在Hadoop早起MapReduce即是一个执行引擎又是一个资源调度框架，其中包含许多组件使得MapReduce非常臃肿也不利于资源复用，于是出现了Yarn可以将MapReduce的资源调度与执行引擎分离开来，随后被各类大数据产品支持，成为大数据平台上最主流的资源调度系统。
经历了多年的发展从2016年前后MapReduce慢慢的被其他产品取代了，为什么会被取代了？
主要有以下原因，高昂的维护成本，使用MapReduce需要严格的遵循Map和Reduce编程规范，当要处理更为复杂的业务流程，往往需要协调多个Map和多个Reduce任务。然而每一步的MapReduce都可能出错，另外在机器学习业务场景非常复杂的，往往需要经历数据ETL处理完成数据导入、特征处理、数据压缩、数据备份、数据验证、数据训练等等，一个完整的业务流程需要多个任务，每一个Mr任务都可能出错，都需要重试和异常处理机制，所以维护和开发这些系统比较难受。另外主要就是性能问题，机器学习迭代计算一个MapReduce程序就是进城运行，运行就需要启动一次，带来了大量时间性能损失，另外就是MR主要采取磁盘作为存储介质，中间数据都经过磁盘进行数据的读取和结果的写入。另外就是MapReduce程序配置麻烦，比如缓冲大小、分片多少、都需要经过时间去调试。
在2012年左右，UC伯克利AMP实验室开发的Spark逐渐展露头角，spark以Rdd的数据使方式、采用内存计算模型，再加上慢慢的Spark Sql 、Spark MLlib、Spark Graph等生态的完善，逐步取代了MapReduce在企业应用中的地位。

一般来说像MapReduce、Spark这类框架主要处理的业务场景都被称为批处理系统，其中的计算时间较长及面对的数据也是历史数据，而不是在线实时数据，所以这类计算称之为大数据离线计算，而在大数据领域还有一类需要对实时产生的数据进行即使计算，相应的有Storm、Flink、SparkStreaming、等流计算框架来处理实时在线产生的数据去满足实时大数据的应用场景，这类计算也称为大数据实时计算。当然大数据业务场景需要同时采用批处理技术对历史数据进行计算，同时采用实时计算处理实时新增的数据，而像Flink这样的计算引擎，就可以同时支持流批一体计算了。
另外除了大数据计算外，还会有解决大规模数据存储与访问的NoSql系统也被称之为大数据技术，比如Hbase、Cassandra、ClickHouse等。
        
          
        
        
        
          
          AI 代码解读

大数据处理的主要应用场景包括数据分析、数据挖掘、数据可视化与机器学习。数据分析主要使用 Hive、Spark SQL 等 SQL 引擎完成;数据挖掘与机器学习则有专门的机器学习框架 Spark 、TensorFlow、Mahout 、PyTorch、Alink等，内置了主要的机器学习和数据挖掘算法。大数据要存入分布式文件系统(HDFS)，要有序调度 MapReduce 和 Spark 作业执行，并能把执行结果写入到各个应用系统的数据库中，需要大数据调度平台，如何去管理整个大数据生态为业务赋能，还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。
大数据与云原生，谷歌进化的角度依旧没有停止从2014年谷歌又推出k8s，又给业界带来了巨大的震撼，如今有一种趋势，大数据开始结合云原生已经成为一种趋势了，可以关注下这个

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

三分钟了解大数据技术发展史

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

三分钟了解大数据技术发展史

热门文章

最新文章

相关课程

相关电子书

相关实验场景