海量数据分布式存储--Apache HDFS之最新进展-阿里云开发者社区

开发者社区> 云计算小粉> 正文

海量数据分布式存储--Apache HDFS之最新进展

简介: 本文PPT来自Intel研发经理、Hadoop committee成员郑锴于10月16日在2016年杭州云栖大会上发表的《海量数据分布式存储--Apache HDFS》。
+关注继续查看

本文PPT来自Intel研发经理、Hadoop committee成员郑锴于10月16日在2016年杭州云栖大会上发表的《海量数据分布式存储--Apache HDFS》。

目前,大数据正在迅猛地发展,同时大数据技术本身也在不断地发展和完善,以满足人们日益庞大的数据处理需求。这些需求主要体现以下这六个方面:

第一,大数据要存储和处理的数据量越来越庞大。
第二,人们对处理数据速度的期望越来越高。
第三,存储的场景更复杂和丰富。
第四,存储设备开始变得廉价、读取速度变得更快。
第五,网络带宽越来越高,10Gb的网络已经是标配,40Gb乃至100Gb也将到来。

第六,存储和计算相分离,大数据加速向云端迁移。

到目前为止,在HDFS的存储演化中相继出现了Cace缓存支持、HSM多层次存储体系、EC纠删码等等技术,极大地提高了HDFS的性能和安全性。在未来,HDFS将把重点转移到智能存储管理、对象存储和云端存储三大方面上。其中,智能储存管理能提供端到端储存解决方案,完整收集集群储存和数据访问信息,智能感知存储状态变化并作出策略调整;对象存储将使对象变得更为轻量,使其对一些场景更为友好;云端存储则利用统一的Hadoop文件系统API和快速弹性的HDFS缓存层使存储更为便利。相信随着Apache HDFS日益发展,海量数据分布式存储将变得更加便捷快速。

262f471038e7385342a3543871f6856e6585aa15

c930fae2ee81c38fbc36d53f4aad99f9109acb67

ab3c208ee980a1f650f76d3a003d29099d45f0ef

f2cf15f99d37601f2867e7b8779701af9156ce15



702fa6b194d5f0776262a4c4407e19fdee9a025c

0ed4834c7c6226106ab83bd33c3a46c7ee7cff1a

d14aa3fddb6f04311df708f2db4db2aa19c72fc5

ade96698c2b0b10f50c48ee7076fa73e91689ed4





1ca36688f765032286abf6002d40b610d929ff06

55e1b5b6bfa1fc14ab6fc799b81c2195c488d8be

d2668a9d43fbc6ea01d25d60dcb6bade7c6460bd

b75769fc4e8ab19497c6ca650ef094f8b8799f3d

d7d89a3aedd220015b16a3ae7fe325009a1ba28a

66738ae2cab78f94fb616ffe308491f122cc7f10

e87063e5c886c89e08f69e3cf40dec3b9f7f3823




版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
鹰角网络全球海量数据,一键轻松统一存储与处理
对于鹰角网络遇到的数据激增以及数据统一收治方面的问题,阿里云对象存储 OSS 为其提供了统一的数据存储 池,方便鹰角网络将全球收集到的海量不同数据进行统一存储,同时阿里云对象存储 OSS 可无缝对接 云原生数据湖 分析 DLA,DLA 提供扫描量版与 CU 版的 SQL 服务,可以针对 Kudu 与 OSS 做开箱即用的数据分析。帮助鹰角网 络快速产出数据报表,让 IT 人员能投入到更多的精力在技术上,推进业务发展。
655 0
分布式系统 in 2010s :存储之数据库篇
回看这几年,分布式系统领域出现了很多新东西,特别是云和 AI 的崛起,让这个过去其实不太 sexy 的领域一下到了风口浪尖,在这期间诞生了很多新技术、新思想,让这个古老的领域重新焕发生机。站在 2010s 的尾巴上,我想跟大家一起聊聊分布式系统令人振奋的进化路程,以及谈一些对 2020s 的大胆猜想。 无论哪个时代,存储都是一个重要的话题,今天先聊聊数据库。在过去的几年,数据库技术上出现了几个很明显的趋势。 存储和计算进一步分离 我印象中最早的存储-计算分离的尝试是 Snowflake,Snowflake 团队在 2016 年发表的论文《The Snowflake Elastic Data
28 0
存储大量爬虫数据的数据库,了解一下?
"当然, 并不是所有数据都适合" 在学习爬虫的过程中, 遇到过不少坑. 今天这个坑可能以后你也会遇到, 随着爬取数据量的增加, 以及爬取的网站数据字段的变化, 以往在爬虫入门时使用的方法局限性可能会骤增.
3972 0
Tablestore Timestream:为海量时序数据存储设计的全新数据模型
引言 随着近几年物联网的发展,时序数据迎来了一个不小的爆发。为了存储这些时序数据,各大企业纷纷推出自己的时序数据库。Tablestore作为阿里云自研的NoSQL多模型数据库,能够提供海量结构化数据存储以及快速的查询和分析服务,其在存储模型、数据规模以及写入和查询能力上,都能很好的满足时序数据的场景,另外已经支持很多时序类业务,例如监控类的云监控,事件类的阿里健康药品追踪以及快递包裹轨迹等。
4802 0
189
文章
6218
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载