2015年上海hadoop in china见闻

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!

上午场次

  • jeff的《entierprise Hadoop:Past,Present, and Future》主要从功能、性能、安全等方面说明了hadoop是个啥,由于本人一直关注在这快,所以没有太大的新的知识点,这些点也可以在社区的文档上看到。
  • 永洪的《敏捷BI最佳实践》我听起来就是用现有的hadoop技术来提供快速敏捷的BI分析,从老板才能看数据到每个人都可以看,使用数据。其实阿里目前已经做的很好的。只不过我想说的是,一家独立的公司来给别的公司提供此类的解决方案,其中更多应该是非技术问题。当然分享者也没有怎么说他们说的技术及非技术问题,主要还是在推销他们的产品。最后还不忘招聘。
  • Oracle上海分公司总经理黄经理讲述《甲骨文云战略》,我们已经转型,8000多人的云计算团队,10000多人的芯片研发团队,主要亮点在一体机,说混合云是以后的趋势,提供全栈的云计算解决方案。给我的感觉是巨头转转身,大地都颤抖。说在中国即将建数据中心,最后也不忘招聘。
  • EMC的首席科学家王先生讲述《EMC business data Lake》主要提出了data lake的解决方案,里面也用了hadoop的解决方案。强调让用户自由选择技术, 不管是开源还是他们自己研发的。
    最后一场是《大数据金融发5大实践阶段》分布式计算框架的引入;数据融合,大数据基础设施的建设;业务引导,知识发现;多元数据结构建设;全量计算。

下午场次

  • Ted Yu讲了Hbase最新的一些进展,怎么去提高性能,基本是纯技术,也仅限于Hbase,目前在做hbase研发的同学可以仔细一听。
  • 周同学讲述了《Apache Kylin》,Kylin是基于Hbase的一款用空间换取时间的产品,主要讲述了他们怎么用空间换取时间,目前在ebay内部也有很多使用的,外部如baidu也用了他们的产品。
  • Intel李同学的《HiMeter-大数据性能分析框架》讲述了怎么去分析spark job,说明了spark的ui提供的信息不足,不过目前各大公司要么自己研发了一套,要么用开源的如Ganglia产品,只能说对于自己研发,可以做一些比较好的功能。HiMeter目前没有计划开源。
  • 星环《Streaming density clustering algorithm to detect crowd movement》主要讲述了怎么用spark streaming监控人流的问题,只能说spark streaming已经可以商用了。

总结

  • hadoop技术已经在银行、电信等非互联网公司得到大规模的使用,去IOE更加彻底。
  • 此次会议IOE三大公司都来齐了,基本的说的是,我已经转型,提供云的解决方案。IBM基本以open power+hadoop+云提供云计算解决方案,Oracle提供一体机+hadoop+云提供全栈(iass,pass,rass)云计算解决方案,EMC基本提供hadoop+云提供用户自由选择的云计算解决方案。IOE的厂商们也在自我革命。加上亚马逊、微软等国际公司,阿里云等国内的各大云计算厂商,只能说明云计算时代已经到来,鹿死谁手,拭目以待。
  • 市场急缺云计算人才,各大巨头都在打招聘广告。
  • 无论是小公司还是大公司基本都在基于hadoop做云计算中计算的方案,除了少数的几家公司自主研发外。
  • 小公司做大数据的成本在降低,用开源的技术,再没有内部纷繁的人际关系,做好服务,小公司也能在市场中有一些份额。
  • hadoop生态圈包含的内容会越来越大,组件也越来越多。

市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!

非常感谢 组委会提供这样的机会让大家去交流及学习,更多的可以关注 China Hadoop Summit 2015:http://www.chinahadoop.com/2015/July/Shanghai/ 了解更多的信息.

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
分布式计算 Hadoop 大数据
2016年北京hadoop in china见闻
笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享。今年的议题是假设参加会议的同学有一定的基础,没有过多的去介绍基础的内容,比如,没有人说hadoop是啥了,单刀直入,趋势、产品、新技术。大数据改变人类的未来,正在渗透到每个行业中,甚至是人的基因分析。
3298 0
|
SQL 分布式计算 Hadoop
2015年上海hadoop in china见闻
今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。
1897 0
|
分布式计算 资源调度 Hadoop
2013年北京hadoop in china见闻
谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和
1699 0
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
181 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
74 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
103 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
72 1
|
2月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
69 1
|
2月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
80 5
|
2月前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
37 4

相关实验场景

更多