大数据浅谈1

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 小弟不才,针对于大数据入门的一些小总结,希望能共同成长进步,大咖请绕路!!!

大数据框架简介
1.HDFS:服务器的硬盘存储空间交给HDFS去管理
2.YARN服务器的CPU和内存交给YARN去管理(2x)
3.HBase:HBase分布式列式数据库:支不支持transcation rollback,分布式不支持rollback,半实时数据库(数据入库,不一定能查的到,之前能查出来现在也不一定能查出来)

   HBase优势:满足两个条件(集群足够大-内存足够大;查询的条件是rowkey的精确匹配;),不管查询的数据量多大,时间都是毫秒级。
   HBase劣势:对于编程和维护,比较头疼。
   HBASE替代方案:1)redis,有数据压力,不管是不是大数据,都可以使用redis(MongDB存在安全问题)
                     redis主要担心问题,内存爆掉。需要手动干预,写内存清理规则。
                  2)Cassandra(性能)+kylin(用于查询):Kylin的限制-多张表做JOIN,最多支持到亿级别。cassandra是一套开源分布式NoSQL数据库系统;提升存储性能。kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP(联机分析处理))能力以支持超大规模数据。
                  3)Kudu:适用于中小型企业;有HBase的好处,避开了HBase所有缺点。只要符合sql标准,就可以在kudu上直接跑;可以直接把存在oracle和MySQL上的表拿到kudu上。注:如果想用一套集群解决所有问题,就用kudu框架。
   美团是国内应用HBase最好的一家公司

4.Batch(MapReduce):一个作业涉及到40T数据以上,用MR(Spark经过优化后可以跑80T的数据,80T以上会有局限)

  MR能做的事情:SQL03标准能做的,MR可做;分布式下已经实现的数学模型,MR也能做;

5.Streaming(Storm,Flink,Spark streaming)

  处理速度最快的是Storm,spark streaming抗压性非常好。流对接时用storm

6.In-Memory(Spark):Spark是分布式内存计算,搭建Spark Server时,需要配内存和CPU。Spark的缺陷,CPU利用率不高(一个任务最多能使用70%)

  实例:一亿条数据,一个字段的模糊查询+排序:关系型数据库20min左右;Spark(20核20G内存),需8s2。

7.Interacting(Tez):对MR优化,业务较复杂,做一些复杂的存储时,推进使用Tez
8.Pig被淘汰了
9.Hive:底层是MR,给不会大数据,又想玩大数据的人用的。给老DB人员使用的,能写出高质量SQL+语义分析。
10.Mahout:数据建模+AI使用,底层是MR,将MR的缺陷无限制的扩大,主要是注重底层的算法。

          AI不是随便哪个企业都可以上,上了效果也会不佳。
          AI应用较实在的(用户喜好比较假,成果大都不佳):医疗方面-抗癌药;
          AI招聘人才:以前要求-985数学系本科生;211/985数学相关专业的硕士、博士;其他人-中西方课程相结合(中-求答案;西-求过程和为什么),把所有数学相关课程捡起来;
          AI薪资:30万+,上不封顶;BAT年薪70~80万;

11.Flume:把远程数据,安全拽到中心机房来;flume和kafka
12.Sqoop:底层是MR,Sqoop对Oracle的支持非常差,替代方案dataX(datax是阿里云开源的一个项目,是一个异构数据源离线同步工具)
13.Oozie:调度器
14.ZooKeeper:投票器,分布式锁,协同;部署节点数按基数算,至少3个,用于保证投票。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 存储 分布式计算
大数据介绍
大数据介绍
60 2
|
8月前
|
供应链 大数据 数据挖掘
大数据应用
大数据应用
78 1
|
SQL 数据采集 算法
大数据到底应该如何学?
大数据到底应该如何学?
97 0
|
存储 分布式计算 资源调度
大数据1
大数据1
569 0
大数据1
|
安全 大数据
|
分布式计算 数据可视化 大数据
|
新零售 Web App开发 算法