2016年北京hadoop in china见闻

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享。今年的议题是假设参加会议的同学有一定的基础,没有过多的去介绍基础的内容,比如,没有人说hadoop是啥了,单刀直入,趋势、产品、新技术。大数据改变人类的未来,正在渗透到每个行业中,甚至是人的基因分析。

一、 概况

笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享。今年的hadoop in china整体来看,参加会议的人比较多,在第一天上午场的topic里,大厅人都满了,内容也比较多。今年主题内容从大局观、产品、技术都有很多的内容。貌似今年的议题是假设参加会议的同学有一定的基础,没有过多的去介绍基础的内容,比如,没有人说hadoop是啥了,单刀直入,趋势、产品、新技术。大数据改变人类的未来,正在渗透到每个行业中,甚至是人的基因分析。

二、 云化

今年开始,有一个明显的趋势是,很多公司都开始在云化自己的产品,创业公司基本是使用公共云,传统的公司基本是私有云加上混合云的方案。但总体来讲,大家都一致认为最终的形态还是公用云的,不管是业务还是大数据。

三、 实时大数据

在第二天的下午场次里,最热是实时大数据处理,技术比较多,到了17点的时候还座无虚席。大家关注最新的实时化的技术点,如jstorm、druid、streamSql、kudu都是目前比较火的,当然包括flink、spark(因有spark submit所以这个会就少了)等更好了。其实说实在的,根据笔者个人的观察,目前hadoop+spark+hbase已经满足90%+的需求,对与一些新的技术的探求目前还是仅仅在大公司,为了满足一些特别的业务场景。对于小公司也许这些技术也可以满足你的需求,但是是否有必要,还需要想想。

四、 大数据创业的黄金时期

大数据应该会慢慢深入到了各行各业,新型的创业公司,业务创新公司正在层出不穷的在涌现。几年前,想要听关于大数据的产品是都没有,只有技术的。如今,来讲的基本都会带产品来,基本都是宣传下产品,再讲下怎么做的,最后有的还不忘招聘。BAT来的人比较少了,一般的创业公司其实还没有到BAT的规模基本也不会出现BAT的问题。创业公司基本还是比较关注自己的业务模式的问题。大数据的重心会从技术本身转移到专业的产品、业务上来。毕竟,大数据技术Hadoop已经为业务、产品铺好了路。

五、 笔者比较关注的

笔者第二天的下午场次要主持《云计算与大数据》,这个场次主要是讲述怎么在云端搭建hadoop,包括了各家的产品,比如:星环的、微软的、VMWare的,当然我也宣传了下自家的产品阿里云的。另外就是华大基因、思迈特分别介绍了下各自的业务。云化,也会遇到很多问题,不过可惜的是,各家基本都在讲自家的产品多么的好,也没有太多讲有啥问题,怎么去解决问题,毕竟各家还存在一定的竞争。比较有意思的是第一次权威的听了关于基因的测讯的历史现状及未来。

《HDFS在云环境下架构演变》,笔者听了下,主要讲了怎么把HDFS做成没有状态的,把数据存放到阿里云的OSS或者AWS的S3上。当在带宽充足或者不是瓶颈的情况下,这样可以让计算动态伸缩,且原有的code又不需要动。

星环的同学讲的比较多,各个层面都讲了下,星环在原有的hadoop的基础上开发出基于自己的一套引擎着实不容易,在私有云场景下,跟阿里云、华为在激烈的竞争。

ebay到了上万的规模,跟他们聊了下,只能说当年的云梯1做的还是真不错的。也跟cloudera、Hortonworks、微软的同学聊了下,大家的想法还是比较类似的。

行业应用需要具体到具体的行业中,基本是用streaming加上机器学习,解决特定的问题,如百分点讲的PHM硬件损坏检测,预测;特定行业的分析,如华大的基因,金融行业大数据等。

六 、一些思考

我生活在互联网时代,在人工智能、智能驾驶、智能家居、虚拟现实、量子计算快要来临的时代,有人说这是第四次工业革命-智慧革命,还有人预言2050年人有机会获取永生,我们翘首以待,当然,我们也可以投入其中,迎接未来。
但是,也有另一个声音,核武器是人类第一次有把人类灭亡的能力,那么未来,人类也可能制造出人类的主人,类似《黑客帝国》中的人类似,一生都生活在虚拟世界中。人类一次次发展,到底是否更加幸福?很多人都认为现代人更加不幸福。这些深奥关于人类的命运,人生意义的话题也许就是如《2001太空漫游》中讲述,人类本身就是高等智慧生命的试验场,又或者根本没有意义,一切的意义也就是人类自己认为的罢了。

七、 接下来呢?

云是载体,计算才能发挥价值,计算的核心就是机器学习,只有具体的业务产品才会普惠所有人。
听起来就是废话,也是。具体怎么做,目前大家都类似,新的谁也不知道。好处就是不知道明天会咋样,坏处也是不知道明天会咋样。又是废话,额,好吧。

非常感谢组委员组织此次会议,具体的相关信息及PPT,请关注:http://chinahadoop.com/

版权声明

笔者微博:阿里封神 欢迎转载,但请保留原文地址

社群

技术交流钉钉大群 阿里云 HBase+Spark社区 【强烈推荐!】 群内每周进行群直播技术分享及问答

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
分布式计算 Hadoop 云计算
2015年上海hadoop in china见闻
市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!
1967 0
|
SQL 分布式计算 Hadoop
2015年上海hadoop in china见闻
今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。
1901 0
|
分布式计算 资源调度 Hadoop
2013年北京hadoop in china见闻
谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和
1699 0
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
193 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
83 2
|
6天前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
34 4
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
115 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
84 1
|
2月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
81 1
|
2月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
88 5

相关实验场景

更多