企业数据创新之旅——高性能NAS助力业务上云

本文涉及的产品
文件存储 NAS,50GB 3个月
简介: 在2018年云栖大会·南京峰会的飞天技术汇专场中,阿里云产品专家王登宇带来了题为《企业数据创新之旅——高性能NAS助力业务上云》的精彩技术分享。在分享中,他首先介绍了企业上云面临的困难和阿里云存储之路;随后对NAS文件存储产品家族的技术架构和适用场景进行了分析;分享最后,他结合基因、视频、AI等具体客户对NAS助力业务上云进行了详细讲解。

2018年云栖大会·南京峰会的飞天技术汇专场中,阿里云产品专家王登宇带来了题为《企业数据创新之旅——高性能NAS助力业务上云》的精彩技术分享。在分享中,他首先介绍了企业上云面临的困难和阿里云存储之路;随后对NAS文件存储产品家族的技术架构和适用场景进行了分析;分享最后,他结合基因、视频、AI等具体客户对NAS助力业务上云进行了详细讲解。

数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!

直播回顾视频

以下内容根据现场分享整理。


时至今日,企业上云已不再是一个全新的话题。

5183d21505f63fe64ab59eb28e4ce794be65605e 

上图是IDC2016年对全球企业级存储市场增长趋势的预测:从2015年至2020年五年时间,本地IDC ON-PREM,大约增长了3倍;而云上OFF-PREM 大概增加了4-5倍。当更多企业选择云存储的同时,也给企业IT部门带来了更多的问题和挑战。

c664fdf8246050b10990aaf9a36ec663ecbfd9cf 

对于传统企业业务,如数据库、CRP等业务,一般是使用存储设备进行存储,当存储空间达到极限时,经常面临存储无法扩容、设备过保、升级换代、数据迁移、机房扩建等问题;对于互联网业务,它不同于传统业务,更多关注的是业务快速上线、避免IT投资风险、业务快速转型,从而需要横向扩展能力以及按需使用资源。

面对这些问题时,IT部门的负责人需要考虑如何以最优的方式解决这些问题。阿里云存储正是在解决此类问题的过程中成长起来的。


阿里云存储之路

1cbc57c0e96e64b9456719b13f950d79d0cedea7 

从最初接触云储存至今,阿里云存储之路已经整整走了十年。2008年,组建云存储团队,探索阿里集团大规模存储解决之道;仅隔一年,在2009年,云存储团队便推出了分布式存储引擎1.0,为虚拟机、阿里金融、邮箱、搜索提供通用存储服务;2013年,实现存储单集群5K计算节点,打破Sort Benchmark世界记录,在377秒内完成100TB排序;在2015年,单集群更是突破10K计算节点,基本完善阿里云存储产品体系,并在2016年,以$1.44/TB的成绩获得Indy专用目的排序和Daytona通用目的排序两个子项的世界冠军,打破了AWS年保持的纪录4.51$/TB,云计算效率世界第一;在2018年。阿里云存储团队推出了分布式存储引擎2.0,面向人工智能、科学计算、深度学习等未来存储场景实现存储引擎升级,构建全新一代存储引擎。

飞天统一存储

93dea1f74e1dcf1c34e19de179524c8738ef3e58 

对熟悉阿里云的同学而言,飞天一定不会陌生。上图给出了飞天统一存储架构图,作为阿里云自主研发、服务全球的超大规模通用计算操作系统,最底层是全球部署的19个地区,几十个数据中心;其上是基于海量的X86 Linux高性能通用服务器集群;通过分布式协同(女娲)、资源管理(伏羲)、安全管理、远程过程调用(夸父)构建中间盘古分布式存储;在盘古之上,是对外提供的不同类型的存储产品,包括块存储、文件存储、对象存储、表格存储等;在存储产品之上,是阿里云对外提供的MaxCompute、日志服务、GPUECS等各类云计算产品。

盘古分布式存储

c73a05f94388a73f1eee7421959a5448bc2af2c3 

上图给出了分布式存储服务盘古的架构图,主要由盘古核心基础层、盘古产品适应层和产品层构成;其中盘古核心基础层又分为软硬件一体化层、单机存储引擎和盘古核心功能模块。最底层的软硬件一体化层,主要采用了定制化的新硬件和新介质;在其上,将硬件抽象成单机存储引擎;在单机存储引擎之上,形成了盘古核心功能模块,包括多副本协议、元数据管理、磁盘管理、数据放置策略、数据校验、纠删码。盘古产品适配层提供了块存储适配和分布式文件系统适配,实现一套架构满足上层不同云存储产品的IO的需求;产品层为用户提供了实际使用的云存储产品,如对象/表格存储、日志/消息存储等等。

盘古整体分布式存储架构使用用户态的TCP网络协议栈,减少用户态与内核态的开销;同时采用了全面兼容RDMA网络,通过软硬件一体化增强网络的稳定性、降低网络延迟,逼近网络物理极限;此外,采用自适应的网络,针对不同场景自由切换识别网络特征;最后,在RPC方面也进行了全面优化,全面改进Protobuf的性能,并针对线程模型进行了全面优化。


NAS文件存储产品

437deaf9768b13e5969aa7ae902b9d51c9cb5906 

作为本次分享的主题——NAS文件存储,从2016年初正式上线至今,NAS文件存储产品家族已经聚合了通用型NAS(又可细分为容量型、性能型)、NAS PlusCPFS三大产品。

通用型NAS

962399371d385ec096c1ffb502ac14c5a26e9993 

通用型NAS底层基于盘古;盘古的上一层称之为前端,它主要是提供NFSSNB协议的集群;在前端机的上层是负载均衡;再往上一层就是客户端层,也就是说NAS产品一定是要配合计算节点进行使用的。

从整体架构来看,Metadata完全是完全是旁路的,不占用整体IO路径。当客户端请求经过负载均衡接入到处于空闲状态的前端机,前端机通过查询Metadata获取数据所在的存储位置,其中对Metadata采用了一些缓存策略,减少查询次数;查到数据之后,直接从盘古中对数据进行读取/写入等操作。从架构中可以看出,NAS并非像传统文件存储一样,在某些地方存在性能瓶颈,所有的节点均采用分布式部署,避免单点故障对系统造成的影响。

通过如上架构设计,通用性NAS实现了高性能、高可靠、高可用:

·单文件系统的吞吐量可到20GBpsIOPS可达到5k

·性能随容量线性增长;

·49设计高可用,119设计高可靠。

在协议支持方面,阿里云通用性NAS是实现了NFS V3.0/V4.0SMB v2.0/v2.1v3.0的多协议支持,业内首创;在安全方面,采用阿里云共有的安全特性,如VPC、安全组、ACL、多租户、主子账号等。

通用型NAS——场景

c2c12c66226d9b2ee686d67aba5da2496ef60d89 

由于通用型NAS简单易用,企业无需修改NFS/SMB接口;并且具备弹性扩展,容量无限扩展,性能按需满足;此外,用户可以按需购买,按使用量计费,无需额外费用;以及降低TCO,即开即用,无需Capex投入的特点,使得NAS在企业有着广泛的应用场景,如文档共享、视频存储、Web站点、移动应用、公共文件夹等。

CPFS并行文件系统

464ccc105000695dda1903bb68f016c7974c0d90 

通用性NAS能够覆盖企业百分之八十的应用场景。但是在一些行业的特殊场景、如AI、深度学习等,数据量非常巨大,通用性NAS是无法承受如此巨大的压力的。因此,阿里云与Intel合作,根据AI时代大数据量的需求,研发了CPFS并行文件系统。该系统的架构如上图所示:底层依赖于盘古分布式存储;中间一层是IntelLuster的协议和架构;最上层是客户计算节点,该系统利用了盘古存储的高可靠和扩展性,同时又兼具Luster并行文件系统高吞吐协议,能够实现单个文件系统1TBps吞吐,1亿IOPS

CPFS并行文件系统——场景

fbfb31d0f258c8d3d9caaee447eab5e210f3ced0 

目前CPFS系统处于公测阶段,使用者可以在CPFS的官网上申请测试使用。这里,强烈推荐无人机、大数据分析、高校科研、人工智能、安防大数据、个人信用画像、工业制造、生命科学等业务在云上试用下CPFS并行文件系统;此外,CPFS不仅仅在公有云上,在大客户的专有云上也有对应的输出。

NAS文件存储——网络访问方式

d5fbf7f46e580f8a438835522d6e376e4b6182f8 

文件存储和对象存储有很大的区别。目前,NAS文件存储支持多种网络链接模式,包括VPC、经典网络和IDC直连,其中VPC方式是我们最推荐的一种方式,最为安全。三种方式的具体实现结构如上图所示。

NAS File Sync文件同步

8d77bdafff9b586826daf728d14b4b0fa8c7b838 

NAS File Sync文件同步是云存储团队上个月刚推出的服务,该服务使得客户在云上的数据得以“流动”起来,支持用户本地数据中心、阿里云NAS、阿里云云盘之间的自由流动以及跨区域复制,进而实现数据全生命周期管理,实现热、冷数据分层(热数据采用文件存储,冷数据采用对象存储)。

 

d303c03813843b9032184f8367f4043a72d29663 

NAS File Sync文件同步的操作十分简单:第一步,创建数据源;第二步,创建文件同步任务。仅需在控制台上简单的两步操作就可以实现文件同步。通过对文件同步进行扩展,现在也支持跨区域的文件同步,通过在控制台设置跨区域复制,就可以实现不同区域(如图示华北、华南)的文件同步。

e7efdef29e92898808a6c1d078280cfac82ab6ff 

上图对目前NAS产品进行了总结,这里不再一一陈述,用户可以根据自身业务的特点和产品的适用场景选择性的使用。


NAS文件产品使用案例

下面结合上面提到的几个产品,具体讲解一下使用场景。

NAS/CPFS并行文件系统——基因测序存储利器

2fbc106f0be0b345680f2f33e1703360e277eee1 

上图是NAS产品在基因行业的一个具体案例。目前,国内Top3的基因公司都在使用阿里云的文件存储服务。基因公司其中具有代表性的业务场景是数百TB/月测序仪下机数据通过计算和存储进行后续的测序任务。针对这类业务,我们推荐使用CPFS并行文件系统,在实地测试中,CPFS17分钟内加载完1万个人类全基因组下机数据。通过使用CPFS文件并行系统,整体优化效果十分明显,业务流程由之前的5个小时缩短到15个小时以内;同时,云上资源按需使用,TCO降低70%

NAS Plus 极速IO—搭建高性能弹性Web Server

cbb87af51cb0904d40d29a2047d646de500e66d9 

Web Server方面,阿里云的某个客户的业务规模达到日活数百万。在没有极速IO之前,该客户的前端计算业务负负载存在较大压力。该客户目标是在六个月内会增加到上千万日活,原来的架构是远不能支持这一目标。通过在阿里云上构建高性能Web Server,采用NAS Plus极速IO文件系统和基于RDMA的网络以及NVMe SSD,能够提供稳定、500us的超低时延和1M IOPS。通过压测,满足每天千万数量级小文件读写能力;同时通过异步数据复制,实现跨Region灾备能力,实现业务高可用。

NAS Plus智能缓存——支撑云上视频非编系统

08b6d87b4e9bdd9f75f1dabe565a62ccf448b3df 

视频行也对IO要求也是极高的。NAS Plus智能缓存通过在客户端安装agent,实现对用户IO进行两个方面优化:一是预读,视频行业在做非编业务时,是将大量数据顺序读到计算节点中,因此可以通过预读加速;二是本地写聚合,所有写操作在本地进行缓存,进行聚合后再一起写下来。经过测试,NAS Plus可以支撑16台云图站每台204K高清编辑,业务流程缩短5倍,同时TCO降低60%

NAS文件系统—云上大规模渲染

54c9073191d77969709cbdd33086c09f1cec4abc 

NAS文件存储配合批量计算BCS形成了云上大规模渲染方案。阿里云在国内外有着大量的渲染客户,电影渲染对计算的要求是十分之高。客户在后期渲染时,需要云上数千台GPU同时运行,而一般的公司本地最多也就是几百台的规模,无法实现大规模场景渲染,因此需要将相应的素材数据和镜头数据上传到云端,利用云上的批量计算BCS同时加载几千个计算节点,从后端同时读取相应的素材数据进行渲染。在上图所示的架构中,我们在计算节点和NAS文件存储中增加了全局分布式缓存,使得几千个计算节点避免同时从NAS系统中读取数据。NAS文件存储配合批量计算BCS形成了云上大规模渲染方案。

NAS文件系统——助力AI和机器学习

d58b73f02d8ca85ac64d152aecb68ea579adf26b 

对于近年来相当火爆的AI和机器学习,所需的数据量越来越大,模型训练要求的计算资源也越来越多。目前,阿里云在华北提供了一个大型GPU渲染资源池,专门服务此类客户。客户的所有数据通过阿里云高速通道上传到NAS文件存储中,通过GPU计算资源来进行模型训练,大大提升了模型迭代速度。

 

NAS文件存储——全球部署

a5db21b91635dfc3d54484b2b921889aaa26fc5e 

NAS文件系统从20163月份上线,同年9月份公测,截止今日,历经两年多的风雨。最初,NAS主要服务于国内客户,集中于华北、华南、华东地区。目前,在阿里云全球19RegionNAS已经在16Region(图示绿点)开服,在2018年,将会实现全球19RegionNAS全覆盖。因此,当企业上云之路遇到困难时,不妨考虑下阿里云存储!

本文由云栖志愿小组刘崇鑫整理编辑

相关实践学习
基于ECS和NAS搭建个人网盘
本场景主要介绍如何基于ECS和NAS快速搭建个人网盘。
阿里云文件存储 NAS 使用教程
阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例、HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。 产品详情:https://www.aliyun.com/product/nas
相关文章
|
5月前
|
存储 容灾 Linux
中小微企业,软硬一体NAS还是企业文档管理软件?不必再纠结
中小企业选择NAS或企业私有文档管理软件各有优劣。NAS方案易于使用,可快速扩容,适合无专职IT人员的企业,但软硬件绑定紧密,后期扩展受限,价格较高。相比之下,企业文档管理软件不绑定硬件,功能更强大,尤其是权限管理,但需要更多技术知识来配置。考虑成本和灵活性,自建软件NAS或选择功能丰富的专业网盘软件是性价比高的选项,同时,备份和容灾策略不可或缺。
|
文件存储 数据库 存储
大语言模型转存至NAS并挂载到PAI-DSW构建企业专属知识库
介绍如何将模型库的大语言模型转载到文件存储NAS,并挂载到PAI-DSW,利用Langchain构建可更换大语言模型的企业专属知识库。
|
算法 文件存储 计算机视觉
CVPR‘2023 | PA&DA:联合优化路径和数据采样的超网一致性NAS
CVPR‘2023 | PA&DA:联合优化路径和数据采样的超网一致性NAS
258 0
|
存储 弹性计算 网络协议
NAS支持企业IPv4-IPv6全栈改造方案
简介:工信部在《推进IPv6规模部署行动计划》规定中央及省部级政务、央企、新闻广电单位网站将于2018年底全面支持IPv6访问,并提出下一代互联网自主技术体系和产业生态,2020年底,预计中国会有5亿终端支持IPv6,整体占比超过50%,NAT网关无法长时间维持海量会话,无法满足物联网的终端永久在线的述求。因此升级IPv6刻不容缓。阿里云文件存储(Network Attached Storage,简称 NAS) 提供VPC内的IPv4-IPv6的双栈访问,助力企业平滑升级到Ipv6架构。
12976 0
|
存储 Kubernetes 网络协议
容器存储:Flexvolume 迁移 CSI (NAS、OSS数据卷)
本文介绍如何将Flexvolume插件挂载的NAS、OSS类型存储转换到CSI插件类型;如果您使用了云盘数据卷,本文提供的方案还不适合这个场景,具体方案敬请期待。
1697 0
|
存储 Kubernetes Linux
阿里云 ACK 挂载 NAS 数据卷
记录在阿里云购买、配置、挂载 NAS 数据卷到 Kubernetes 集群,由于官方文档没有及时更新,可以看做是对官方文档的补充。
2855 0
|
存储 文件存储
企业云存储 | 为什么越来越多企业NAS用户转向企业网盘?
企业NAS和企业网盘都属于企业文档的存储、共享工具。虽然企业NAS的发展历史远比企业网盘悠久,但长江后浪推前浪,企业NAS的风头正在被企业网盘赶超。 在企业云存储这件事上,为什么更多的用户选择企业网盘而非企业NAS?通过走访了多位从企业NAS迁移至云盒子企业网盘的企业用户,我们总结出迁移原因主要有以下三点:  1. 企业NAS管理账号单一,NAS管理员责任过大 企业NAS只有一个管理员账号,因此,企业NAS管理员独揽大权。
2767 0
|
存储 大数据 文件存储
3分钟了解企业NAS和企业网盘的区别,及企业网盘后挂NAS存储解决方案
曾经,那些喜欢鼓捣小电影的技术男都喜欢自己在家里搞一台NAS,在充分体验家庭私有云的乐趣之后,他们把NAS带到了企业,以方便同事间分享文件。 但他们忽略了一个基本的问题,跟家庭环境不同,企业是有组织、有层级的复杂结构体,把NAS应用到企业之后,尽管NAS呈现出严重的水土不服,在没有别的选择的情况下...
3866 0
|
存储 运维 监控
阿里云的文件存储NAS使用心得
阿里云的文件存储NAS使用心得
372 0
|
运维 文件存储 对象存储
【运维知识进阶篇】用阿里云部署kod可道云网盘(配置Redis+MySQL+NAS+OSS)(三)
【运维知识进阶篇】用阿里云部署kod可道云网盘(配置Redis+MySQL+NAS+OSS)(三)
325 0