2015年上海hadoop in china见闻-阿里云开发者社区

开发者社区> 阿里云EMR> 正文

2015年上海hadoop in china见闻

简介: 今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。

过程

今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。下面讲述下我听的一些场次:

上午场次:

  • 孙先生讲的 《Towards consistent distributed system》,给我们带来了从CAP理论出发,以新的视角去看待分布式系统,怎么权衡去设计分布式软件系统。
  • cloudera中国区的CTO,苗先生的《hadoop and cloudera》讲述了公司的发展,08年成立,目前1000人左右,54%的hadoop Committer,hadoop从批处理往实时化方向发展,基本听下来就是公司对hadoop有很大的控制力。
  • IBM讲了对开源的投入,特别提到了对spark的投入,OpenPower怎么从底层硬件去加速hadoop,由于我不专业也没有记住。基本听下来就是10x的性能提高,成本有时候还低,特别牛的。

下午场次:

  • 星环吕先生《hadoop on docker》,把hadoop直接搭建在docker上,星环解决了网络、隔离、安全等一些问题后跑了起来,期待后面大规模的使用。
  • 星环陈博士《A comparison study of SQL-on-Hadoop engines》主要通过TPC-DS测试集,对比了impala、tez、sparksql、greemplum与星环基于spark自研的sql解析器对比了下,当然PPT中说星环在性能上是最好的,说了性能主要差异点在CBO、codegen、DAG、分布式处理上
    -《Apache Drill》介绍了MapR的发展,11年-13年用c++重写了hdfs,重要优化在直接操作磁盘及没有单点,后做了MapR-DB,类似hbase,基于自身的mgs做了一些优化。再后就做了Drill,讲述了Schema-free SQL的思考,怎么处理非结构化数据。
  • 听了《apache Hive的现状和未来》主要讲了stinger计划,从存储ORCFile、Tez及CBO三个主要方面入手优化性能提高了100倍,再将来计划从Vector Engine、LLAP、用hbase替换mysql等方面达到亚秒的级别,让我们期待。

总结

技术发展还是很快的,日新月异,作为技术的人,需要不停去学习,去思考。hadoop本身作为技术是免费的,这会促进整大数据的应用向前发展,特别是上层的应用越来越多,也会带来更多的广义效应,造福整个社会。
其它的一些场次,特别是分析及应用的我没有去听,其实我本人也是非常有兴趣的,奈何冲突了。
晚上有幸参加了晚宴,特别跟华为的李同学及ted Yu等同学同桌吃饭交流技术问题,还是很赞的。
非常感谢 组委会提供这样的机会让大家去交流及学习,更多的可以关注 China Hadoop Summit 2015:http://www.chinahadoop.com/2015/July/Shanghai/ 了解更多的信息.

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

阿里巴巴开源大数据技术团队成立阿里云EMR技术圈, 每周推送前沿技术文章,直播分享经典案例、在线答疑,营造纯粹的开源大数据氛围,欢迎加入!加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
官网链接