Hadoop 大数据系统在文件存储 HDFS 版上的最佳实践-阿里云开发者社区

开发者社区> alidfs> 正文

Hadoop 大数据系统在文件存储 HDFS 版上的最佳实践

简介: 介绍Hadoop 大数据系统在文件存储 HDFS 版上的最佳实践
+关注继续查看

在当前的数字经济时代,数据被列为跟土地,资本等并列的新生产要素,数据的存储和处理被众多行业所深度依赖。Hadoop经过多年的发展,已经成为了事实上的开源大数据标准解决方案,被众多公司采纳和使用;而且随着技术的不断迭代更新,Hadoop生态也已经从最初狭义的HDFS,MapReduce和YARN三大服务组件,逐渐发展出了Spark,Flink等新的处理框架,成长为功能更加完善和丰富的广义Hadoop生态。同时以阿里云和AWS为代表的的云服务平台,也提供了支持广义Hadoop生态系统的编排产品EMR,进一步推动了大数据生态的发展。

虽然Hadoop生态中的计算框架不断演进,但都继续选择HDFS作为底层的分布式存储系统,HDFS也因此成长为开源大数据场景的统一分布式存储系统,是自建大数据存储的首选系统:


image


随着大数据领域的深入发展,在HDFS之上直接生长着丰富的基础计算引擎,KV存储引擎,多种OLAP引擎,以及不同领域的机器学习引擎;另外还有多种数据导入系统,方便不同来源的数据进入HDFS:负责结构化数据导入的Sqoop,负责日志数据导入的Flume,负责消息数据导入的Kafka。这些引擎和系统在数据处理的不同阶段发挥各自的特有的作用,HDFS作为统一的中转站来存储和交换数据,共同来完成数据全生命周期的处理。


HDFS经过多年的发展已经相对成熟,但由于分布式存储系统自身的复杂性,在应对日渐重要且复杂的大数据处理需求的时候,自建HDFS集群面临诸多痛点:

  1. 成本高
    1. 硬件成本高
      1. 集群起建成本高:为了保证数据安全性,即使初始需要较少的存储空间,HDFS集群也需要保证3台机器以上的规模。
      2. 单次扩容步长大:每次都需要以整物理机的粒度进行扩容,新增存储需求很小的情况下也不例外。
      3. 容量下降后无法自动缩容:为了应对容量峰值扩容的机器,在容量下降后也无法自动缩容。
    1. 存算分离难,存储和计算资源必须同步扩容
      1. 链接和线程是Stream独占,难以支撑存算分离后的高并发
      2. Shuffle数据依赖本地存储,存储和计算无法完全分离
  1. 运维难
    1. 运维复杂
      1. 硬件运维:需要解决硬件机型设计,预算采购,集群扩缩容,硬件故障,机器过保等诸多问题。
      2. 软件运维:需要面对访问失败/访问慢,社区版本引入与测试,软件版本线上升级等软件难题。
    1. 运维人才要求高:系统复杂度高,需要专业的运维人才。
    2. 稳定性难以保证:没有SLA保障,复杂的开源存储系统对监控报警和故障响应要求高,容易导致故障。
  1. 性能差
    1. 隔离性差:多业务公用集群的情况下无法做到性能隔离,相互干扰影响性能。
    2. 延迟高:软件栈复杂,难以发挥高速介质 US级别的延迟优势,延迟敏感性业务难以落地。
    3. 无异步接口:没有异步接口,存储访问并发度受限于线程资源,难以提升。


考虑到HDFS在大数据领域的发展现状,阿里云的文件存储HDFS版提供了一个云上统一的大数据存储方案:既能够兼容HDFS,保证原有的大数据处理系统可以无缝迁移,继续正常运转;同时又能够解决掉自建HDFS的痛点,上层业务更专注于大数据处理系统本身的演进,更好的解决业务问题。


为了方便Hadoop生态系统平滑的迁移到文件存储HDFS版,会陆续推出常用的大数据系统在文件存储HDFS版的最佳实践。

  • 在文件存储HDFS版上使用 Apache Spark
  • 文件存储HDFS版和对象存储OSS双向数据迁移
  • 在文件存储HDFS版上使用 Apache Flink
  • 在文件存储HDFS版上使用 Apache HBase
  • 在文件存储HDFS版上使用 Presto
  • 在文件存储HDFS版上使用 Apache Tez
  • 使用 Fuse-DFS 挂载文件存储HDFS版
  • 文件存储HDFS版和数据库MySQL双向数据迁移
  • 迁移开源HDFS数据到文件存储HDFS版
  • 在文件存储HDFS版上使用 CDH6
  • 在文件存储HDFS版上使用 TensorFlow

  • 了解更多关于文件存储HDFS版的产品信息,欢迎访问https://www.aliyun.com/product/alidfs

    如果您对文件存储HDFS版有任何问题,欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

    image

    版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

    相关文章
    MongoDB最佳实践畅谈-计费系统
    MongoDB最佳实践畅谈-计费系统 MongoDB的最佳实践,在以下情况,你应该使用MongoDB。 1)高写负载的场景 MongoDB默认更适合高写入而不是事务安全。
    1344 0
    《vSphere性能设计:性能密集场景下CPU、内存、存储及网络的最佳设计实践》一3.3.2 实验室小结
    本节书摘来华章计算机《vSphere性能设计:性能密集场景下CPU、内存、存储及网络的最佳设计实践》一书中的第3章 ,第3.3.2节,[美] 克里斯托弗·库塞克(Christopher Kusek) 著 吕南德特·施皮斯(Rynardt Spies)姚海鹏 刘韵洁 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
    1107 0
    【云吞铺子】业务系统性能压测最佳实践(二)--业务压测注意事项
    云吞铺子--双11最佳技术实践系列# 本期继续为大家带来阿里云在本次双11实战中沉淀的前沿经验和满满干货!由阿里云技术高手霄翎为您深度阐述云上业务压测全流程注意事项!大牛出品,必属精品!
    8968 0
    带你入坑大数据(二) --- HDFS的读写流程和一些重要策略
    HDFS的读写流程分析,高可用和联邦的一些简短说明
    252 0
    NLPIR大数据语义系统KGB技术引领新方向
    NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,
    1226 0
    [喵咪大数据]Hadoop集群模式
    既然是大数据无论存储和处理都需要相当大的磁盘或者是处理的资源消耗,那么单机肯定是满足不了我们的需求的,所以本节我们就来了解Hadoop的集群模式搭建,在集群情况下一同配合处理任务分发,存储分担等相关的功能进行实践.
    104 0
    这可能是大型复杂项目下数据流的最佳实践
    实际项目中沉淀的数据流最佳实践。
    1233 0
    《vSphere性能设计:性能密集场景下CPU、内存、存储及网络的最佳设计实践》一3.3.5 实验室的事后分析
    本节书摘来华章计算机《vSphere性能设计:性能密集场景下CPU、内存、存储及网络的最佳设计实践》一书中的第3章 ,第3.3.5节,[美] 克里斯托弗·库塞克(Christopher Kusek) 著 吕南德特·施皮斯(Rynardt Spies)姚海鹏 刘韵洁 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
    997 0
    [喵咪大数据]Hadoop单机模式
    千里之行始于足下,学习大数据我们首先就要先接触Hadoop,上节介绍到Hadoop分为Hadoop-HDFS,Hadoop-YARN,Hadoop-Mapreduce组成,分别负责分布式文件存储,任务调度,计算处理,本机我们在单机模式下把Hadoop运行起来并且简单的使用接触Hadoop相关的机制.
    68 0
    +关注
    12
    文章
    0
    问答
    来源圈子
    更多
    阿里云存储基于飞天盘古2.0分布式存储系统,产品包括对象存储OSS、块存储Block Storage、共享文件存储NAS、表格存储、日志存储与分析、归档存储及混合云存储等,充分满足用户数据存储和迁移上云需求,连续三年跻身全球云存储魔力象限四强。
    + 订阅
    文章排行榜
    最热
    最新
    相关电子书
    更多
    《2021云上架构与运维峰会演讲合集》
    立即下载
    《零基础CSS入门教程》
    立即下载
    《零基础HTML入门教程》
    立即下载