【2018中国计算机大会】阿里云高级总监谈超大规模超高性能分布式快存储系统

简介: 10月27日下午,2018中国计算机大会上举办了主题“新型硬件环境下大数据处理技术”的技术论坛,一起探讨新型硬件带来的变化。论坛上,阿里云高级总监马涛针对超大规模超高性能分布式块存储系统ESSD进行了报告分析。

新型硬件(如NVRAM、RDMA、GPU/TPU等)及其构建的异构复杂环境,与既有硬件环境的巨大差异,导致传统的算法、数据结构甚至是涉及原则和经验法则等难以为继,对计算智能与大数据处理带来新的挑战和机遇。

10月27日下午,2018中国计算机大会上举办了主题“新型硬件环境下大数据处理技术”的技术论坛,一起探讨新型硬件带来的变化。论坛上,阿里云高级总监马涛针对超大规模超高性能分布式块存储系统ESSD进行了报告分析。
image001

专家简介:

马涛,阿里云高级总监,在IBM、ORACLE有多年的操作系统以及企业级存储的研发经验,2010年加入阿里巴巴集团淘宝核心系统部,负责淘宝底层操作系统的设计和研发工作。2014年转入阿里云,负责阿里云弹性计算存储相关产品的研发工作。

在报告中,马涛指出面对企业上云实现数字化转型以及新硬件架构层出不穷,现有存储产品已无法满足业务的需求,亟需新一代的超大规模、超高性能分布式快存储(ESSD)提升系统的业务能力,目前ESSD的性能已将单块云盘性能提升到100万IOPS、100微秒延迟、4000MB吞吐量的全新高度。
image002
image003
image004

随后,马涛介绍了ESSD系统的设计和实现,展示了阿里云在软硬一体协同优化方面的探索,基于NVMe SDD和3D Xpoint新一代存储介质,采用了全用户态协议栈,通过用户态Polling模式驱动程序架构如SPDK、DPDK等,让ESSD达到释放数百万IOPS的能力,完成计算机体系结构的全面调优,满足超低延迟、超高性能和超大规模的设计要求。
image005
image006
image007
image008

最后,马涛对块存储的未来发展提出了一些新的思考和方向,包括如何应对数据中心内部的网络问题、如何解决高性能存储的资源隔离和软硬一体化、REDIS的教训、传统块存储产品如何使用、如何和CLOUD NATIVE更好的配合等。

了解更多阿里云产品请戳链接:
https://www.aliyun.com/product/list?utm_code=p_2018090501
点击了解“阿里云新品发布会频道”:
https://promotion.aliyun.com/ntms/act/cloud/product.html
阿里云总监系列课重磅上线!聚焦人工智能、弹性计算、数据库等热门领域,首次集齐12位阿里云技术高管,耗时半年精心打磨,从理论到实践倾囊相授,从零开始绘制技术大牛成长路径,限时直播课程免费报名中!欢迎戳“https://yq.aliyun.com/promotion/689”免费报名学习。
IMG_1996

相关文章
|
9月前
|
Kubernetes 大数据 调度
Airflow vs Argo Workflows:分布式任务调度系统的“华山论剑”
本文对比了Apache Airflow与Argo Workflows两大分布式任务调度系统。两者均支持复杂的DAG任务编排、社区支持及任务调度功能,且具备优秀的用户界面。Airflow以Python为核心语言,适合数据科学家使用,拥有丰富的Operator库和云服务集成能力;而Argo Workflows基于Kubernetes设计,支持YAML和Python双语定义工作流,具备轻量化、高性能并发调度的优势,并通过Kubernetes的RBAC机制实现多用户隔离。在大数据和AI场景中,Airflow擅长结合云厂商服务,Argo则更适配Kubernetes生态下的深度集成。
1094 34
|
7月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
5月前
|
存储 算法 安全
“卧槽,系统又崩了!”——别慌,这也许是你看过最通俗易懂的分布式入门
本文深入解析分布式系统核心机制:数据分片与冗余副本实现扩展与高可用,租约、多数派及Gossip协议保障一致性与容错。探讨节点故障、网络延迟等挑战,揭示CFT/BFT容错原理,剖析规模与性能关系,为构建可靠分布式系统提供理论支撑。
283 2
|
5月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
5月前
|
机器学习/深度学习 算法 安全
新型电力系统下多分布式电源接入配电网承载力评估方法研究(Matlab代码实现)
新型电力系统下多分布式电源接入配电网承载力评估方法研究(Matlab代码实现)
183 3
|
7月前
|
数据采集 缓存 NoSQL
分布式新闻数据采集系统的同步效率优化实战
本文介绍了一个针对高频新闻站点的分布式爬虫系统优化方案。通过引入异步任务机制、本地缓存池、Redis pipeline 批量写入及身份池策略,系统采集效率提升近两倍,数据同步延迟显著降低,实现了分钟级热点追踪能力,为实时舆情监控与分析提供了高效、稳定的数据支持。
291 1
分布式新闻数据采集系统的同步效率优化实战
|
9月前
|
消息中间件 缓存 算法
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
618 0
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
|
11月前
|
存储 人工智能 固态存储
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统
3FS是DeepSeek开源的高性能分布式文件系统,专为AI训练和推理任务设计,提供高达6.6 TiB/s的读取吞吐量,支持强一致性保障和通用文件接口,优化AI工作负载。
1573 2
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统
|
存储 运维 安全
盘古分布式存储系统的稳定性实践
本文介绍了阿里云飞天盘古分布式存储系统的稳定性实践。盘古作为阿里云的核心组件,支撑了阿里巴巴集团的众多业务,确保数据高可靠性、系统高可用性和安全生产运维是其关键目标。文章详细探讨了数据不丢不错、系统高可用性的实现方法,以及通过故障演练、自动化发布和健康检查等手段保障生产安全。总结指出,稳定性是一项系统工程,需要持续迭代演进,盘古经过十年以上的线上锤炼,积累了丰富的实践经验。
1035 7