在海量数据的支撑下,电商、外卖、打车改变了人们日常的生活节奏;高性能计算的应用,让我们不仅能预测恶劣的天气还可以仰望星空探索宇宙;制造业的横排的机械手臂替代了人力,医疗大数据让部分癌症的治愈成为可能……
数字化正在改变整个世界,而数字世界的底层,则是庞大的不断产生、汇集、运算的数据。随着企业数字化转型的加速,数据已成为重要的新型生产要素,未来所有的场景都会以数据为驱动,而这些数据的价值挖掘,必须依赖强而有力的存储系统。
的确,我们正处于一个数据大爆炸的时代,新兴技术的快速发展,让所有企业都认识到了数据的重要性,数据由商业运营的额外产物,变成个人、组织和社会进化的关键性要素。数字化转型正在企业之间不断发酵,将我们引向一个数据驱动的变革时代,企业被数据挟裹,又收获颇丰。
1 企业数据管理面临五大挑战
根据《中国互联网发展报告2021》的统计,2020年中国数字经济规模达到39.2万亿元,占GDP比重达38.6%,保持9.7%的高位增长速度,成为稳定经济增长的关键动力。 我们知道,数字经济由千行百业的数字化组成,而数字化的前提就是数据化。数据价值的认定却已无可逆转,数据红利正在逐渐取代人口红利,已经成为数字经济的新型生产要素。无论是中国的“十四五”规划,还是2023远景建设目标建议,都提出要推动数据资源的开发利用。而随着云计算、大数据、人工智能、边缘计算等新技术在各行业的广泛应用,数据产生的密度和频次从未如此之大。据IDC数据,到2025年,全球数据圈将从2018年的33ZB增至2025年的175ZB。另一项Gartner的调研数据则显示,到2025年有75%的企业所生成的数据会在数据中心或云之外进行创建或处理。这意味着到2025年,无论是从数据中心到网络边缘都将面临大量数据处理的挑战。也许对身处数据时代的企业而言,“这既是最好的时代,也是最坏的时代。”对数据价值的善用,让企业加快了数字化转型的速度,但同时也面临着数据存储和管理的困扰。
中桥调研咨询认为,数字经济时代企业的数据存储和管理将面临五大挑战:第一,数据的存管分离。这其实是一个数据有序化管理的问题,如果数据存放杂乱无章,没有智能的数据标签、监控、管理,就会导致企业的数据存储利用率低,而且难以释放存放在各种孤岛上的数据的价值。第二,数据壁垒。这是一个数据全链条拉通和协同的问题,企业内部的数据要面向数据中心、边缘、云等的数据交换和处理,甚至在出海业务中跨地域、跨国内和国际,实现数据的交互和处理。这对大多数企业的全域数据管理提出了重要的挑战。第三,高碳低效。这是一个基于数字基础设施能耗管理的问题。数据中心尽管承载数字化转型,但数据中心又是能耗大户,而高能耗的其中一个原因就是数据存储消耗了大量电力资源。随着数据规模不断增长,低碳环保的挑战也相应提高。第四,数据多样性和复杂性的问题。在数字经济时代,存储的需求存在多样化、复杂化趋势,对一个企业而言,一种存储可能无法满足企业多样和复杂的需求。尤其是非结构化数据量的暴增,IDC的数据显示,2025年全球估计80%的数据将是非结构化,这也是数据复杂性的一种表现。第五,数据安全。这是一个老生常谈的话题。随着数据跨核心、边缘、云以及非结构化数据价值的不断凸显,如何在释放数据价值的同时,确保数据安全,已事关企业的生死存亡。那么,要如何面对这些挑战,什么样的存储系统会是这些问题的答案呢?
2 五个挑战,一个对策:PowerScale
2020年,戴尔推出的新一代分布式文件存储方案PowerScale。它的前身就是大名鼎鼎的,诞生于2000年的横向扩展NAS存储平台Isilon。
戴尔大中华区非结构化数据存储事业部总经理刘志洪
戴尔大中华区非结构化数据存储事业部总经理刘志洪说,“从Isilon算起,PowerScale已经走过了22年,无论是IDC还是Gartner的报告,我们都处在分布式存储的领导者的位置。”正是这种底气,让PowerScale有能力成为企业最值得托付的存储系统。针对企业对数据存储的五大挑战,PowerScale均有核心技术作为“破题”。
首先,数据的存管分离的处境,需要依靠超强的软件能力来解决。依靠DataIQ对非结构化数据的洞察力,可以很好地管理数据,帮助企业迁移、管理、并利用数据。刘志洪还表示,“关键一点是,DataIQ可以横跨包括第三方在内的多个存储平台,实现数据的快速的搜索和查询。客户在统一的界面管理所有的非结构化数据,消除了数据的孤岛,让客户做到洞察数据实际的价值。”其次,打破数据壁垒,有赖于PowerScale 强大的横向扩展能力,可以根据企业需求灵活部署,让企业轻松应对任何现代化工作负载。而且,客户依然可以通过DataIQ,实现异构存储平台的数据的统一的管理,跨地域数据的交互和共享。第三,高碳低效的挑战本质上代表了一种性价比,数据越是精细、精简越能降低存储的能耗。刘志洪提到了PowerScale内置的DRR技术,即联线数据精简压缩技术,能够对重复的数据做删除,让数据存储更极致,这就带来了更高的性价比,对能耗的要求也会降低。除此之外,PowerScale在数据全生命周期管理,自动化数据分层,释放更多存储容量,实现存储高效利用等方面也均有出色的表现。第四,解决数据多样性的不二法门当然是“一致性”。一方面,PowerScale智能的存储资源和数据管理,能够包容任何存储,不论数据是在边缘、核心还是云;另一方面,PowerScale 数据存储平台可实现跨异构(云、边缘和核心)的数据统一管理,跨地域数据交互共享,释放数据价值。第五,数据安全,这个问题能够被一再的提及,说明数据安全的防护做得并不够好。而PowerScale不仅能够通过内置数据保护功能,结合数据保护软件,以简单、高效地方式对数据资产提供全面保护,以安全享未来。OneFS内置各项数据安全防护功能和可集成的防护软件,为数据提供全面的防护,确保数据安全。客观地说,这些企业面对的数据挑战,都是从前所无法想象,而随着时代的不断进步,数据量的爆炸式增长,戴尔在过去22年通过技术的不断升级,帮助大量客户完成了“Mission Impossible”。刘志洪说,“在互联网金融、奥运高清转播、病毒基因溯源、芯片设计等新兴应用成功背后,如果没有非结构化数据的支撑,是无法想象。”将每一个“Mission Impossible”,从不可能变成可能,这亦是PowerScale对客户的承诺。
3 引领技术方向,不断突破新兴应用
简单总结PowerScale的价值,它可以提供从最小11TB到多PB规模的存储能力,支持对数百万个文件进行操作。它允许无缝进行新旧节点服务器过渡升级,不需要数据迁移,60秒内即可简单扩容一个节点。基于PowerScale,用户可以高效地存储、管理、保护和分析非结构化数据。作为分布式文件存储领域的一个标杆PowerScale也一直是技术方向的“引领者”,不断探索与新的应用场景相结合。例如在EDA芯片设计领域,作为芯片制造最上游、壁垒最高的部分,前端设计常常需要数千台工作终端并行工作,涉及大量小文件的密集读写,对存储系统的IOPS有非常高的要求。而后端设计中又包含大量的模拟仿真,动辄产生TB、甚至PB数据存储的需求。
那么,首先PowerScale凭借灵活的横向扩展架构,实现按需扩展容量和性能;其次,根据芯片设计的不同阶段,可以将不同的存储设备灵活组合,并形成了统一的文件系统;第三,PowerScale无需迁移数据更新换代的能力,可以轻松应对芯片设计长期数据的永久保存。做到了在保证系统安全稳定的前提下,帮助客户加快产品研发的效率。再比如,在当下最热门的人工智能、机器学习领域。人工智能对数据力量充分利用的过程中,不论是数据采集、准备,还是数据训练和推理,各个阶段读写的数据类型不同,工作负载不同,对存储的性能提出了苛刻的要求。
PowerScale则通过全闪高性能帮助这一类客户,消除了AI的I/O瓶颈,加快数据迭代,提供更快的AI模型训练和验证速度。并通过构建统一数据湖,支持多种协议接口,满足AI训练各阶段对数据的访问需求。并根据数据类型和属性,自动进行数据分层,进一步提升存储性能。同时,PowerScale也提供了高性能全闪存的存储型号和分布式的横向扩展架构保障了高带宽和大容量。在数据安全方面,PowerScale还提供了一系列的数据保护的机制,帮助客户快速地进行主动防御,以及灾难恢复,以确保将勒索病毒这样的威胁降至到最低。除了这两大场景之外,PowerScale还在HPDA高性能计算和VDI桌面云等领域有出色的赋能。
事实上,大部分的企业数据仍然是“躺平”的状态,没有对企业的业务产生价值,这既有应用水平的原因,也有存储系统能力不达标的问题。每一个数字化转型,本质上都是“Mission Impossible”,让数字化的愿景走向实现,PowerScale是一个最佳的选择。