开源大数据周刊-第40期-阿里云开发者社区

开发者社区> 阿里云EMR> 正文

开源大数据周刊-第40期

简介: 阿里云HBase支持PB级别的分布式数据库即将开始公测

阿里云E-MapReduce动态

  • 阿里云HBase支持PB级别的分布式数据库即将开始公测

资讯

2016年,大数据已从前两年的预期膨胀阶段、炒作阶段转入理性发展阶段、落地应用阶段。2017年,大数据依然处于理性发展期,依然存在诸多挑战,但前景依然非常乐观。

作为传统IT厂商的Oracle,眼看自己被逐步碾压,也不甘示弱开始加速转型,积极投身云计算。最近在纽约举行的“云世界”活动中,Oracle高管直接阐述了他们将如何与亚马逊、微软和Salesforce等同台竞技的愿景,以期赶超这些云计算巨头公司。

2月2号,Snap公布了IPO白皮书,准备登陆纽交所,期望估值达到了250亿美元。值得一提的是,Snap在S1文件中披露了在未来5年将总共斥资20亿美元用于购买Google的云基础设施服务。

我国首个大数据流通与交易技术国家工程实验室已获国家发改委正式批复认定,将由浪潮集团和上海数据交易中心联合共建。这也是继“主机系统国家工程实验室”之后浪潮获得的第二个国家工程实验室。

技术

HBase 提供很方便的shell脚本,可以对数据表进行 CURD 操作,但是有一定的学习成本的。Apache Phoenix 组件可以把 sql 语句转换成 hbase的原生API。这样就可以通过普通平常的 sql 来对HBase 进行数据的管理,使用成本大大降低。通过官方说明,Phoenix 的性能很高,相对于 HBase 原生的scan 并不会差多少,而对于类似的组件 hive、Impala等,性能有着显著的提升。

大家期待已久的Apache Flink 1.2.0今天终于正式发布了。本版本一共解决了650个issues。主要特性和改动包括:支持从不同并行度的SavePoint修改作业的并行度;支持Mesos资源调度器;支持异步I/O操作符;支持算子的状态查询等等。

过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新的功能。

Apache Spark 是用于大规模数据处理的快速和通用引擎,它运行在 Hadoop,Mesos,可以离线或云端运行,具有高速、可扩展等特点。近年来,在 IBM 等大公司和众多社区贡献者的推动下,Spark 得到了越来越多的应用。今天,Facebook 团队也展示了他们使用 Apache Spark 进行大型语言模型训练的方法。

欢迎加入阿里云开源大数据交流钉钉群

screenshot

版权声明

信息都是来自互联网,都给出了原文的链接,如果侵权,请联系我们,我们负责删除。

阿里云E-MapReduce团队 出品

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

阿里巴巴开源大数据技术团队成立阿里云EMR技术圈, 每周推送前沿技术文章,直播分享经典案例、在线答疑,营造纯粹的开源大数据氛围,欢迎加入!加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
官网链接