暂无个人介绍
从源码层面,总结下Hadoop客户端提交作业的流程: 1. 选择使用分布式环境通信协议,还是本地调试通信协议 org.apache.hadoop.mapreduce.Job#connect 2. 上传作业代码jobjar, libjar等,从本地文件系统到HDFS中去。  
我之前参与过一个日志系统的开发,存储用HBase。我简单罗列下用到的HBase优化,备忘。以后把它整理成更友好的介绍性文章。 # 系统简介 * 有一张大的日志数据表,保存所有日志。row key是 hash + app id + log-severity + timestamp + host等,cell保存日志正文数据。 * 可以看到row key的hash保证日志散列在各