专访阿里云罗庆超:对象存储的过去、现在、未来

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
对象存储 OSS,内容安全 1000次 1年
简介: 发展到现在,数据湖越来越受企业重视,美国知名科技企业风投机构 A16Z 经过调查发现数据湖已成为现代化数据分析架构中的中流砥柱,处于数据分析架构的核心位置。HDFS 和对象存储都是可以用来构建数据湖的组件,但对象存储更能适应当前存算分离的发展趋势,所以越来越多的企业转向了对象存储,阿里的数据湖在 2019 年也从 Hadoop 生态转向了对象存储 OSS。

发展到现在,数据湖越来越受企业重视,美国知名科技企业风投机构 A16Z 经过调查发现数据湖已成为现代化数据分析架构中的中流砥柱,处于数据分析架构的核心位置。HDFS 和对象存储都是可以用来构建数据湖的组件,但对象存储更能适应当前存算分离的发展趋势,所以越来越多的企业转向了对象存储,阿里的数据湖在 2019 年也从 Hadoop 生态转向了对象存储 OSS。

其实对象存储并不是一个新生事物,具有 20 多年的发展历史,那么这些年它有什么样的演变?在适应数据湖的过程中,又有哪些需要改进的地方呢?未来有什么样的发展趋势?为解答这些问题,InfoQ 采访了阿里云对象存储负责人罗庆超。

采访嘉宾简介:罗庆超,阿里巴巴资深技术专家,阿里云对象存储负责人,在企业存储和云存储领域有丰富的技术与产品经验。曾就职于世界 500 强以及知名跨国公司的存储团队,负责过高端存储阵列的数据路径架构设计和开发,作为海量存储首席架构师负责文件存储、对象存储以及下一代分布式云存储的架构设计和实现,同时在灾备以及数据管理领域亦有多年开发和运维经验。带领技术研发团队,多次在大规模商业项目中成功落地。毕业于电子科技大学计算机系统结构专业,并获得硕士学位,在相关技术研究领域,支持并参与多本行业专业书籍的编写工作,被授予包括块存储、文件存储、对象存储、数据湖等方向 30 多项发明专利,技术成果成功应用到产品创新迭代。《对象存储实战指南》图书作者。QCon 上海 2021“明星讲师”,QCon 北京 2022“数据湖存储底座”专题出品人。

InfoQ:您在存储行业工作多年,对象存储从 90 年代就开始出现了,是否能解释下这些年对象存储技术的主要演变?

罗庆超:对象存储并非近期出现的新技术,它具有 20 多年的历史,大致可以分为 3 个阶段:

从专有云的存储技术到产品阶段。1996 年 Paul Carpentier 创建内容寻址存储初创公司 FilePool,逐步发展出 ByCast、Caringo、CleverSafe 等产品。

走向对象存储公共云服务阶段。2006 年 AWS 发布 S3 对象存储服务,在云计算领域得到大规模应用,并成为海量数据存储底座。

未来向跨云对象存储资源池演进。最近 10 年出现多家公共云对象存储服务,以及专有云对象存储产品,客户构建跨云的对象存储资源池,能够在不同厂家切换,是重要演进方向。

整体来看,技术演进背后的核心逻辑就是“稳定可靠、弹性扩展、简单易用”。

InfoQ:作为一项底层技术,为什么发展到现在对象存储还备受关注?

罗庆超:对象存储被持续的广泛应用和关注,最关键在于“它提供简单易扩展的名字空间,通过 RESTful 接口提供在任何时间、任何地点、任何互联网设备上进行上传和下载数据的能力”。正式由于对象存储的简单易用,天然的云原生特性,在诸多领域都能看到规模的增长,特别是多媒体数据存储、大数据和数据湖存储、AI 和高性能计算存储等行业。

InfoQ:在选择不同厂商的对象存储解决方案时,应该从哪些关键特性来进行判断?

罗庆超:对象存储领域竞争异常激烈,功能同质化明显。所以除了功能外,还要从安全合规、稳定性、弹性扩展、一致性、性能、生态等维度衡量。选择不同的云方案关注点也有差异,选择公共云对象存储时,数据安全合规、全球弹性扩展、丰富的生态等通常是重要考察点;选择专有云对象存储时,稳定性、数据一致性、性能等是典型的判断点。

InfoQ:看阿里数据湖发展历史,从 1.0 到 2.0 的发展是从 hadoop 存储转变为对象存储,当时是有一个什么样的决策思考过程?

罗庆超:阿里云见证了数据湖存储发展过程,技术的演进就是解决客户需求的过程。

数据湖存储 1.0 阶段。它是用 HDFS 存热数据,对象存储 OSS 存温冷数据,实现冷热分级。

数据湖存储 2.0 阶段。它指数据全部采用对象存储,但在客户计算环境还需部署 HDFS 元数据。

通过数据湖存储 1.0 到 2.0,可以减少客户计算环境部署、运维热数据的 HDFS 集群(通常几十 PB)的痛点,只需要维护少量的元数据,从而大大降低客户的成本开销。

InfoQ:在您看来,云上数据湖的发展趋势对存储提出了哪些诉求?

罗庆超:阿里云的数据湖存储已经演进到 3.0 阶段,数据湖存储 1.0 发展到 2.0 是优化掉客户计算环境的 HDFS 热数据集群来降低成本,数据湖存储 2.0 发展到 3.0 是优化掉客户计算环境的 HDFS 元数据来减少运维难度,现在的数据湖存储 3.0 通过 OSS-HDFS 提供全兼容的接口,让 Hadoop 生态应用平滑上云。在云上数据湖的过程中,深深的感受到生态兼容、性价比、易用性是非常关键的需求。

InfoQ:面向云原生的存储计算分离场景下,为了应对性能瓶颈,OSS 需要在哪些地方进行针对性的优化?

罗庆超:众所周知,云原生的关键技术包括容器、服务网格、微服务、不可变基础设施和声明式 API,而容器的弹性伸缩、快速拉起带来迫切的性能需求,OSS 提供了如下 2 个典型的优化项:

单位容量的带宽和 OPS 能力提升。整体来说就是性能密度,从而实现容器镜像的秒级拉起。

热点数据加速器服务。云原生场景下,存在多个容器并发读相同数据的场景,通过热点数据的缓存加速,提高并发访问的速度。

InfoQ:目前企业客户(ToB)在采用对象存储方面面临哪些主要挑战或障碍?阿里如何帮助缓解这些痛点?

罗庆超:不同领域企业客户上云关注点有差异,但不管是互联网企业、政府,还是金融都关注如下挑战:

数据如何保证安全。存储的数据要不丢不错,能够加密存储、访问,满足行业法规要求。

应用如何适配。企业应用运行周期长,部分只能运行在传统存储上,暂时不支持对象存储。

简单易用好运维。通常企业有自己的运维系统,如何同云运维结合,让企业更加易用。

阿里云通过多年和 B 端客户上云的经验积累,提供全面的安全合规能力让客户数据上云放心,构建丰富的生态支持各种应用无缝接入,实现企业易用的运维特性,从而让客户安心上云。

InfoQ:您如何展望下一代对象存储技术?

罗庆超:对象存储已经有 20 多年的历史,公共云的对象存储服务也流行了 10 多年,下一代的对象存储的演进将受到应用场景和底层技术的影响。应用场景方面,数据湖、混合云、自动驾驶等都会给对象存储带来更多的需求输入;底层技术层面,存储介质密度越来越高,但每 TB 的性能越来越差,同时 100/200G 高性能网络、众核的 CPU 已广泛流行,如何平衡存储、网络、计算成为对象存储系统设计的难点。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
4月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
5月前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
存储 运维 安全
阿里云OSS的优势
【7月更文挑战第19天】阿里云OSS的优势
217 2
|
5月前
|
存储 API 开发工具
阿里云OSS
【7月更文挑战第19天】阿里云OSS
198 1
|
5月前
|
存储 弹性计算 对象存储
预留空间是什么?阿里云OSS对象存储预留空间说明
阿里云OSS预留空间是预付费存储产品,提供折扣价以锁定特定容量,适用于抵扣有地域属性的Bucket标准存储费用及ECS快照费。通过购买预留空间,如500GB通用预留+100GB标准-本地冗余存储包,用户可优化成本。
221 4
|
5月前
|
人工智能 对象存储
【阿里云AI助理】自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
134 1
|
6月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
|
7月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56602 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

相关产品

  • 对象存储