上午场次
- jeff的《entierprise Hadoop:Past,Present, and Future》主要从功能、性能、安全等方面说明了hadoop是个啥,由于本人一直关注在这快,所以没有太大的新的知识点,这些点也可以在社区的文档上看到。
- 永洪的《敏捷BI最佳实践》我听起来就是用现有的hadoop技术来提供快速敏捷的BI分析,从老板才能看数据到每个人都可以看,使用数据。其实阿里目前已经做的很好的。只不过我想说的是,一家独立的公司来给别的公司提供此类的解决方案,其中更多应该是非技术问题。当然分享者也没有怎么说他们说的技术及非技术问题,主要还是在推销他们的产品。最后还不忘招聘。
- Oracle上海分公司总经理黄经理讲述《甲骨文云战略》,我们已经转型,8000多人的云计算团队,10000多人的芯片研发团队,主要亮点在一体机,说混合云是以后的趋势,提供全栈的云计算解决方案。给我的感觉是巨头转转身,大地都颤抖。说在中国即将建数据中心,最后也不忘招聘。
- EMC的首席科学家王先生讲述《EMC business data Lake》主要提出了data lake的解决方案,里面也用了hadoop的解决方案。强调让用户自由选择技术, 不管是开源还是他们自己研发的。
最后一场是《大数据金融发5大实践阶段》分布式计算框架的引入;数据融合,大数据基础设施的建设;业务引导,知识发现;多元数据结构建设;全量计算。
下午场次
- Ted Yu讲了Hbase最新的一些进展,怎么去提高性能,基本是纯技术,也仅限于Hbase,目前在做hbase研发的同学可以仔细一听。
- 周同学讲述了《Apache Kylin》,Kylin是基于Hbase的一款用空间换取时间的产品,主要讲述了他们怎么用空间换取时间,目前在ebay内部也有很多使用的,外部如baidu也用了他们的产品。
- Intel李同学的《HiMeter-大数据性能分析框架》讲述了怎么去分析spark job,说明了spark的ui提供的信息不足,不过目前各大公司要么自己研发了一套,要么用开源的如Ganglia产品,只能说对于自己研发,可以做一些比较好的功能。HiMeter目前没有计划开源。
- 星环《Streaming density clustering algorithm to detect crowd movement》主要讲述了怎么用spark streaming监控人流的问题,只能说spark streaming已经可以商用了。
总结
- hadoop技术已经在银行、电信等非互联网公司得到大规模的使用,去IOE更加彻底。
- 此次会议IOE三大公司都来齐了,基本的说的是,我已经转型,提供云的解决方案。IBM基本以open power+hadoop+云提供云计算解决方案,Oracle提供一体机+hadoop+云提供全栈(iass,pass,rass)云计算解决方案,EMC基本提供hadoop+云提供用户自由选择的云计算解决方案。IOE的厂商们也在自我革命。加上亚马逊、微软等国际公司,阿里云等国内的各大云计算厂商,只能说明云计算时代已经到来,鹿死谁手,拭目以待。
- 市场急缺云计算人才,各大巨头都在打招聘广告。
- 无论是小公司还是大公司基本都在基于hadoop做云计算中计算的方案,除了少数的几家公司自主研发外。
- 小公司做大数据的成本在降低,用开源的技术,再没有内部纷繁的人际关系,做好服务,小公司也能在市场中有一些份额。
- hadoop生态圈包含的内容会越来越大,组件也越来越多。
市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!
非常感谢 组委会提供这样的机会让大家去交流及学习,更多的可以关注 China Hadoop Summit 2015:http://www.chinahadoop.com/2015/July/Shanghai/ 了解更多的信息.