2013年北京hadoop in china见闻

简介: 谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和

谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和深度挖掘。

非技术的来看,本次大会传递的信息有:

  • 银行、电信也在用hadoop
  • hadoop生态圈依然是大数据相关技术的首选
  • 国内很多大小公司正在使用hadoop
  • 因为开源,所以繁荣

技术来看,本次大会传递的信息有:

  • YARN将是下一代hadoop平台,多种计算模型即将随YARN一起整合资源。
  • 硬件结合hadoop来提升性能。
  • 可以尝试在虚拟机上做YARN,如EMR。
  • 准实时的时代即将到来,也可以说spark等基于内存的分布式时代即将到来。
    数据的收集、交换、存储、计算 (分析)、管理及监控等共同构成了大数据的技术生态圈。基本每个公司都会涉及到其中的方方面面,小的公司可能比较简单直接用社区的版本去做,大点的就直接成立相关的团队专门研发相关的工具及维护相当大的集群。

目前,其中计算之上的分析能带来实际的价值,技术一般包括:实时计算、图计算、流式计算、机器学习相关、数据挖掘相关。这些实际应用于广告、个性化推荐、搜索、社交图谱及基于特定行业的多维分析等等。

说说BAT吧,百度没有人来讲,比较可惜。腾讯走corona+CDH,随后也将考虑YARN的方案。阿里分享了跨机房方案,这可不是2T直接换4T所能解决的,计算层面阿里也将走YARN的方案。目前阿里和腾讯都有团队在走社区的方案。
不能说小公司就没有大数据,适合自己的业务系统的才是最合适的。如用YARN,小公司可以直接用,对于阿里就有很大的历史包袱。

如果想学习大数据特别是hadoop,把分布式的理论弄清楚,实际部署这些分布式的软件,多看看源码,多关注业界的动态。

最后比较感谢 Hadoop中国技术峰会 提供这样的学习交流机会。不过 纠结的是 还有一场是CSDN办理的。
其他具体的可以参考:http://www.it168.com/redian/Hadoop2013/

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
分布式计算 Hadoop 大数据
2016年北京hadoop in china见闻
笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享。今年的议题是假设参加会议的同学有一定的基础,没有过多的去介绍基础的内容,比如,没有人说hadoop是啥了,单刀直入,趋势、产品、新技术。大数据改变人类的未来,正在渗透到每个行业中,甚至是人的基因分析。
3268 0
|
分布式计算 Hadoop 云计算
2015年上海hadoop in china见闻
市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!
1933 0
|
SQL 分布式计算 Hadoop
2015年上海hadoop in china见闻
今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。
1869 0
|
20天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
109 2
|
20天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
7天前
|
分布式计算 Hadoop 大数据
探索大数据技术:Hadoop与Spark的奥秘之旅
【5月更文挑战第28天】本文探讨了大数据技术中的Hadoop和Spark,Hadoop作为分布式系统基础架构,通过HDFS和MapReduce处理大规模数据,适用于搜索引擎等场景。Spark是快速数据处理引擎,采用内存计算和DAG模型,适用于实时推荐和机器学习。两者各有优势,未来将继续发展和完善,助力大数据时代的发展。
|
14天前
|
存储 分布式计算 Hadoop
大数据存储技术(1)—— Hadoop简介及安装配置
大数据存储技术(1)—— Hadoop简介及安装配置
52 0
|
20天前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
|
20天前
|
分布式计算 资源调度 Hadoop
java与大数据:Hadoop与MapReduce
java与大数据:Hadoop与MapReduce
29 0
|
20天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。

相关实验场景

更多