Hadoop World:中国企业崛起 开源贡献迅速攀升

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

8月4日,由O'Reilly和Cloudera共同举办的全球顶尖的大数据会议Strata+Hadoop World在北京召开。Strata+Hadoop World (SHW) 是世界最大的大数据盛会,它为各种技术提供了深度交流的机会,参会者在这里能看到最领先的技术、最广泛的应用场景、最有趣的用例教学,以及最全面的大数据行业和趋势探讨。

作为致力于聚集大数据领域最有影响力的产业决策者、战略专家、架构师、开发人员和分析师的国际性会议,从硅谷首次走进中国,旨在汇聚Hadoop生态最前沿科学与新兴商业基础的相互碰撞,共同打造产业和技术的未来。

SHW的演讲不仅涵盖了全世界大数据领域顶尖技术专家,同时还有各种大数据应用场景的经验介绍,包括金融、多媒体、零售、物流等。

我们现在的生活已经完全进入了信息化时代,可能所有人都间接用过Doug Cutting的作品,他是Lucene、Nutch 、Hadoop等项目的发起人。是他,把高深莫测的搜索技术形成产品,贡献给普通用户,同时还打造了目前在云计算和大数据领域里如日中天的 Hadoop。Doug Cutting现任Cloudera首席架构师,对于Hadoop在国内的推动,最近又有新进展。

清华大学数据科学研究院近日宣布与数据管理和分析平台Cloudera合作。在Cloudera CAP学术合作项目的支持下,清华大学和Cloudera将联合发布BASE (Big Analytics Skill Enablement)倡议,以期解决中国大数据行业的人才稀缺困境。

在合作项目仪式之后,笔者有幸对这位传奇人物Doug Cutting进行了采访,接下来让我们一起来听听创始人是如何解读Hadoop的吧。

Hadoop越来越重视安全

Hadoop如今已经成为开源的代名词之一,其应用范围也非常之广,但安全方面一直饱受争议。据Doug介绍:其实十年前在Hadoop创立的时候是没有做安全这块的,但是我们后来不断的加强对安全模块的研发,现在Hadoop也成为了非常安全的平台。

首先,Hadoop在登录安全方面已经做了增强,可以确保登录的人群是有着合法认证的。另外在文件层面也有安全保护,可以做到某一个栏或者某一个表格都只有一部分人能登录,经过认证的人能看到,其他没有权限的人看不到,所以这种权限管理和登录认证管理,还有文件保护管理都做得非常好。

动态保护方面,在网络上进行数据传输的时候也会有数据加密,通过数据加密的方式保护正在传输中的数据不会有泄密或者是安全的漏洞。而且Cloudera也在不断的研发新技术,对于Hadoop这个平台有层出不穷新的部分加入进来。

  与高校合作推动开源发展,培养更多人才

在高校合作方面Cloudera也是早有建树,据Doug介绍:我们在海外也跟很多大学在展开合作,这些合作的名单非常长,包括美国的大学,包括新加坡的大学还有亚洲其他国家大学,也包括欧洲的一些大学和研究机构。

合作的主要形式就是提供免费的课程,这些全套免费的课程Cloudera开发了很多年,免费提供给这样的大学共同展开合作。Cloudera在中国选取的第一个合作方是清华大学,今后还将会与更多的中国大学展开合作。

Doug Cutting亲自印证,国内企业对开源贡献非常多

最近一段时间笔者重点听了很多著名国内企业技术人员的演讲,他们大都会提到对开源社区的代码贡献。但实际情况到底如何呢?这个问题甩给Doug最好不过了。

Doug表示:中国的企业确实为整个Hadoop的开源社区做了大量的贡献,例如华为。华为很多年一直参与到Hadoop的开发,也贡献了很多,像阿里巴巴、腾讯包括一些大的中国互联网企业,他们都是Hadoop的使用者,同时也是Hadoop技术的贡献者,中国企业确实贡献非常多。

关于Hadoop开发包含两个层面,一个是Hadoop这个项目本身,第二就是围绕Hadoop的中心有很多其他组件进行开发。比如Linux,提到的不仅仅是内核,除了Linux内核以外还有很多其他应用软件运行在Linux之上,Hadoop也是如此。目前90%的Hadoop软件都是运行在Hadoop系统平台之上的,它来自Hadoop平台之外的开发。比如一些美国开发的软件是隶属于Hadoop整个生态体系之内的,相信越来越多开发者虽然不是直接来自Hadoop,但是在整个生态系统环境内Cloudera会打造一个非常丰富的生态系统,让更多的参与者能够进行开发。

Cloudera的模式之所以成功,也是基于Cloudera自身特点的,但对其他的开源厂商并非合适。Doug Cutting最后表示:每家公司都要去探索最适合自己的路和商业模式。我们也拭目以待看下一个十年会出现哪些商业模式。


本文作者:云中子

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
188 1
|
存储 弹性计算 分布式计算
【ECS生长万物之开源】基于ECS实例搭建Hadoop环境
Hadoop是一款由Apache基金会用Java语言开发的分布式开源软件框架,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的能力进行高速运算和存储。本教程介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop伪分布式环境。
|
存储 分布式计算 资源调度
平台服务 开源 Hadoop|学习笔记
快速学习平台服务 开源 Hadoop
平台服务 开源 Hadoop|学习笔记
|
SQL 分布式计算 监控
监控hadoop生态系统企业应该用什么监控软件
监控hadoop生态系统企业应该用什么监控软件
225 0
|
缓存 运维 分布式计算
GitHub开源比Hadoop快至少10倍的物联网大数据平台
GitHub开源比Hadoop快至少10倍的物联网大数据平台
GitHub开源比Hadoop快至少10倍的物联网大数据平台
|
SQL 分布式计算 Hadoop
基于Hadoop的企业人力资源管理
基于Hadoop的企业人力资源管理
141 0
基于Hadoop的企业人力资源管理