谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和深度挖掘。
非技术的来看,本次大会传递的信息有:
- 银行、电信也在用hadoop
- hadoop生态圈依然是大数据相关技术的首选
- 国内很多大小公司正在使用hadoop
- 因为开源,所以繁荣
技术来看,本次大会传递的信息有:
- YARN将是下一代hadoop平台,多种计算模型即将随YARN一起整合资源。
- 硬件结合hadoop来提升性能。
- 可以尝试在虚拟机上做YARN,如EMR。
- 准实时的时代即将到来,也可以说spark等基于内存的分布式时代即将到来。
数据的收集、交换、存储、计算 (分析)、管理及监控等共同构成了大数据的技术生态圈。基本每个公司都会涉及到其中的方方面面,小的公司可能比较简单直接用社区的版本去做,大点的就直接成立相关的团队专门研发相关的工具及维护相当大的集群。
目前,其中计算之上的分析能带来实际的价值,技术一般包括:实时计算、图计算、流式计算、机器学习相关、数据挖掘相关。这些实际应用于广告、个性化推荐、搜索、社交图谱及基于特定行业的多维分析等等。
说说BAT吧,百度没有人来讲,比较可惜。腾讯走corona+CDH,随后也将考虑YARN的方案。阿里分享了跨机房方案,这可不是2T直接换4T所能解决的,计算层面阿里也将走YARN的方案。目前阿里和腾讯都有团队在走社区的方案。
不能说小公司就没有大数据,适合自己的业务系统的才是最合适的。如用YARN,小公司可以直接用,对于阿里就有很大的历史包袱。
如果想学习大数据特别是hadoop,把分布式的理论弄清楚,实际部署这些分布式的软件,多看看源码,多关注业界的动态。
最后比较感谢 Hadoop中国技术峰会 提供这样的学习交流机会。不过 纠结的是 还有一场是CSDN办理的。
其他具体的可以参考:http://www.it168.com/redian/Hadoop2013/