为数据计算提供强力引擎,阿里云文件存储HDFS v1.0公测发布

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 在2019年3月的北京云栖峰会上,阿里云正式推出全球首个云原生HDFS存储服务—文件存储HDFS,为数据分析业务在云上提供可线性扩展的吞吐能力和免运维的快速弹性伸缩能力,降低用户TCO。阿里云文件存储HDFS的发布真正解决了HDFS文件系统不适应云上场景的缺陷问题,用户无须花费精力维护和优化底层存储。

在2019年3月的北京云栖峰会上,阿里云正式推出全球首个云原生HDFS存储服务—文件存储HDFS,为数据分析业务在云上提供可线性扩展的吞吐能力和免运维的快速弹性伸缩能力,降低用户TCO。阿里云文件存储HDFS的发布真正解决了HDFS文件系统不适应云上场景的缺陷问题,用户无须花费精力维护和优化底层存储。
云时代,通过借助虚拟化技术,大数据分析的计算框架在云上逐渐实现了快速部署和弹性伸缩。但是作为数据底座的HDFS文件系统,它在设计之初并没有考虑到上云场景。其数据的扩缩容、故障硬件排除都依赖大量手工运维,因此其服务质量难以保证。在随着其他计算引擎一起弹性部署时,HDFS会成为整个计算框架的短板,限制了业务的整体弹性伸缩能力,增加了规划和运维难度。
image

为响应用户在云上使用HDFS的诉求,文件存储HDFS应运而生。产品设计方面,得益于文件存储HDFS兼容标准Hadoop文件接口,基于HDFS进行开发的分析服务无须进行改造即可直接连接文件存储HDFS进行数据分析,可作为serverless计算架构的后端数据引擎。用户无须花费精力维护和优化底层存储,聚焦在计算和业务本身。
用户场景方面,文件存储HDFS的多租户和权限控制能力可以有效支撑企业内部多业务数据管理的场景。用户可以将生产集群的数据直接写入文件存储HDFS,也可以将存储在自建HDFS、阿里云OSS、文件存储NAS中的数据导入到文件存储HDFS,再利用Spark/Mapreduce/Flink/Hive/Tensoflow等不同的分析框架对文件存储HDFS上的数据进行处理,处理结果可以按需输出到不同的系统中。广泛用于实时统计与分析、离线用户画像、实时分析、机器学习等业务场景中。
image

技术能力方面,作为聚焦大数据分析场景的云存储产品,文件存储HDFS针对计算中最关注的吞吐性能进行了软硬一体的优化,提供远超自建HDFS的吞吐能力。在模拟离线分析场景的Terasort测试中,在使用同等数量的CPU和内存的情况下,用文件存储HDFS替代HDFS可以使整体的分析性能提升一倍。
image

了解更多关于文件存储HDFS的产品信息和申请公测资格,欢迎访问https://www.aliyun.com/product/alidfs

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
10月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
496 0
|
10月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
1383 0
|
7月前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
436 1
|
7月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
627 0
|
8月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
632 2
|
8月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
732 1
|
10月前
|
人工智能 分布式计算 DataWorks
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
阿里云ODPS技术栈通过MaxCompute、Object Table与MaxFrame等核心组件,实现了多模态数据的高效处理与智能分析。该架构支持结构化与非结构化数据的统一管理,并深度融合AI能力,显著降低了分布式计算门槛,推动企业数字化转型。未来,其在智慧城市、数字医疗、智能制造等领域具有广泛应用前景。
808 6
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
|
10月前
|
分布式计算 关系型数据库 MySQL
【赵渝强老师】大数据交换引擎Sqoop
Sqoop是一款开源工具,用于在Hadoop与传统数据库如Oracle、MySQL之间传输数据。它基于MapReduce实现,支持数据导入导出、生成Java类及Hive表结构等操作,适用于大数据处理场景。
253 3
【赵渝强老师】大数据交换引擎Sqoop