java,mysql,hadoop,cdh,hive,spark,ntp,zookeeper,kafka,storm,redis,flume,git 安装详解
顶部
----------------------------------------------------------------------------------------------------------------------------------
0.
HBase数据访问的一些常用方式
类型 特点 场合 优缺点分析
Native Java API 最常规和高效的访问方式
适合MapReduce作业并行批处理HBase表数据
Hbase Shell HBase的命令行工具,最简单的访问方式 适合HBase管理使用
T...
Hbase万亿级存储性能优化总结
背景
hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对hbase集群服务和应用全面监控的报警系统。
大数据利器
大数据利器.xls
类别
名称
官网
备注
查询引擎
Phoenix
https://phoenix.
YARN和MapReduce的内存设置参考
如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如cpu密集、内存密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。
Hadoop的加速发动机Impala
应用场景
在使用Hive的过程中,编写了HQL语句,发现HQL执行过程是非常慢的,因为hive采用的是把HQL转化成hadoop的MapReduce任务,然后编译,打包成jar包,分发到各个server上去执行,这个过程会很慢很慢!而impala也可以执行SQL,但是比Hive快很多,而Impala根本不用Hadoop的Mapreduce机制,直接调用HDFS的API获取文件,在内存中快速计算!
但是Impala也并不是完全比Hive好。