大数据-问答-阿里云开发者社区-阿里云

开发者社区> 小萝莉飞刀> 正文

大数据

2019-10-30 14:07:55 1846 1

学习大数据之前需要学习那些知识,最后还要学习那些关于大数据知识?

取消 提交回答
全部回答(1)
  • 游客z26npzhujwpdw
    2019-10-30 20:58:09
    1. Java编程 编程是大数据开发的基础,大数据中很多技术都是使用Java编写的,例如Hadoop、Spark、MapReduce等,因此,想要学大数据,Java编程是必备技能之一

    2. Linux 运维企业大数据开发往往是在Linux操作系统下完成的,因此,想从事大数据相关工作,需要掌握Linux系统操作方法和相关命令。

    3. ZooKeeper ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    4. Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架,HDFS和MapReduce是其核心设计,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,是大数据开发必不可少的框架技能。

    5. Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。

    6. Hbase 这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多

    7. Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据,通过Hadoop的并行加载机制来统一线上和离线的消息处理,通过集群来提供实时的消息。

    8. Spark Spark是专为大规模数据处理而设计的快速通用的计算引擎,拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    0 0
相关问答

16

回答

直击AWDC2014阿里云生态系统观察-《凌云》2014.12总第六期

tech君 2014-12-09 17:57:38 33535浏览量 回答数 16

22

回答

关于“云盾web应用防火墙(高级防护)”的通知

安全百晓生 2015-09-16 17:04:50 45525浏览量 回答数 22

1

回答

在使用大数据开发套件时,一个任务流流下的一个shell节点、在如图图形界面下可以找到。但是在列表界面下找不到。,下面只显示一页数据。没有点击下一页按钮。节点找不到。

祁同伟 2017-06-09 15:27:22 36532浏览量 回答数 1

10

回答

新的技术,比如大数据、AI如何应用在航空行业?

诺诺罗亚 2019-06-26 16:15:54 117501浏览量 回答数 10

7

回答

大数据如何应用在航空领域?

游客evqqr7nnmkzcs 2019-06-26 17:58:27 118044浏览量 回答数 7

13

回答

基于大数据的全球电商系统架构性能优化【精品问答集锦】

管理贝贝 2016-07-21 17:20:39 36458浏览量 回答数 13

54

回答

作弊队伍处罚公告

天渡 2014-03-31 20:39:11 59972浏览量 回答数 54

18

回答

MaxCompute百问集锦(持续更新20171011)

隐林 2017-06-30 18:30:36 50883浏览量 回答数 18

11

回答

速戳 | 20位阿里出题专家-备战阿里必不可少的题目

Runt 2020-04-15 10:54:04 56780浏览量 回答数 11

13

回答

游戏云精彩帖汇总

nono20011908 2014-08-22 11:00:12 203672浏览量 回答数 13
0
文章
6
问答
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载