2015年上海hadoop in china见闻

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。

过程

今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。下面讲述下我听的一些场次:

上午场次:

  • 孙先生讲的 《Towards consistent distributed system》,给我们带来了从CAP理论出发,以新的视角去看待分布式系统,怎么权衡去设计分布式软件系统。
  • cloudera中国区的CTO,苗先生的《hadoop and cloudera》讲述了公司的发展,08年成立,目前1000人左右,54%的hadoop Committer,hadoop从批处理往实时化方向发展,基本听下来就是公司对hadoop有很大的控制力。
  • IBM讲了对开源的投入,特别提到了对spark的投入,OpenPower怎么从底层硬件去加速hadoop,由于我不专业也没有记住。基本听下来就是10x的性能提高,成本有时候还低,特别牛的。

下午场次:

  • 星环吕先生《hadoop on docker》,把hadoop直接搭建在docker上,星环解决了网络、隔离、安全等一些问题后跑了起来,期待后面大规模的使用。
  • 星环陈博士《A comparison study of SQL-on-Hadoop engines》主要通过TPC-DS测试集,对比了impala、tez、sparksql、greemplum与星环基于spark自研的sql解析器对比了下,当然PPT中说星环在性能上是最好的,说了性能主要差异点在CBO、codegen、DAG、分布式处理上
    -《Apache Drill》介绍了MapR的发展,11年-13年用c++重写了hdfs,重要优化在直接操作磁盘及没有单点,后做了MapR-DB,类似hbase,基于自身的mgs做了一些优化。再后就做了Drill,讲述了Schema-free SQL的思考,怎么处理非结构化数据。
  • 听了《apache Hive的现状和未来》主要讲了stinger计划,从存储ORCFile、Tez及CBO三个主要方面入手优化性能提高了100倍,再将来计划从Vector Engine、LLAP、用hbase替换mysql等方面达到亚秒的级别,让我们期待。

总结

技术发展还是很快的,日新月异,作为技术的人,需要不停去学习,去思考。hadoop本身作为技术是免费的,这会促进整大数据的应用向前发展,特别是上层的应用越来越多,也会带来更多的广义效应,造福整个社会。
其它的一些场次,特别是分析及应用的我没有去听,其实我本人也是非常有兴趣的,奈何冲突了。
晚上有幸参加了晚宴,特别跟华为的李同学及ted Yu等同学同桌吃饭交流技术问题,还是很赞的。
非常感谢 组委会提供这样的机会让大家去交流及学习,更多的可以关注 China Hadoop Summit 2015:http://www.chinahadoop.com/2015/July/Shanghai/ 了解更多的信息.

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
分布式计算 Hadoop 大数据
2016年北京hadoop in china见闻
笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享。今年的议题是假设参加会议的同学有一定的基础,没有过多的去介绍基础的内容,比如,没有人说hadoop是啥了,单刀直入,趋势、产品、新技术。大数据改变人类的未来,正在渗透到每个行业中,甚至是人的基因分析。
3293 0
|
分布式计算 Hadoop 云计算
2015年上海hadoop in china见闻
市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!
1959 0
|
分布式计算 资源调度 Hadoop
2013年北京hadoop in china见闻
谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和
1697 0
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
148 6
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
64 2
|
15天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
59 2
|
16天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
56 1
|
1月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
53 1
|
1月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
74 5
|
1月前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
35 4

相关实验场景

更多