数据是开启全新洞察和机器智能创新的基础,拥有高性能、稳定、可扩展性强的存储能力和充沛的计算力,才能全面释放数据价值。
阿里巴巴大数据计算平台MaxCompute,作为阿里巴巴统一的计算平台,支持了整个阿里巴巴集团内部几乎99%的数据存储,数据规模已至EB级。同时,MaxCompute也在为数以万计的云上用户提供快速、完全托管的 GB到EB 级数据仓库解决方案,解决用户海量数据存储与计算问题。所以说,如何提高数据存储效率、稳定性、可用性,是MaxCompute存储团队不断努力的方向。
从MaxCompute整体存储架构来看,存储层处于MaxCompute Tasks和底层盘古分布式文件系统之间,提供统一的逻辑数据模型给各种各样的计算任务(包括SQL,XLib,Graph,PAI等),以保证数据在不同类型的Task之间可以互联互通,同时存储引擎提供逻辑数据模型到DFS的映射、数据编码压缩和文件存储格式、冷热数据分离与文件合并归档等方面的服务。
在本次存储升级中,MaxCompute利用新一代数据压缩算法提供更高压缩率,并且在不同数据集中都有极佳性能,持续提升MaxCompute存储和计算能力,带来存储费用的下降和计算性能的提升。
新压缩算法在10TB TPC-DS测试集下,压缩节省8.38%, 计算节省4.35%。
从资源成本角度看,新压缩算法比原有算法快5.3%。
MaxCompute作为阿里巴巴的“水电煤”,数据规模巨大,数据的压缩率和压缩速度对整个平台的性能和成本都有着巨大的意义。MaxCompute存储团队采用新一代的压缩算法作为底层压缩的替代方案,为大规模数据存储和数据计算带来了巨大收益。
整体存储变化趋势
存储账单变化
经实践,在业务增长量不变的情况下,升级新一代数据压缩算法后,在阿里巴巴集团内部每年可节省存储费用可一个亿。
对于业务跑在MaxCompute上的公共云客户而言,本次存储升级无疑是阿里巴巴技术红利的又一次释放,为企业和开发者们提供具备更高存储效率、稳定性以及可用性的存储服务,降低存储成本的同时进一步提升计算性能。
一次升级,集团内外,每年节省不止一个亿。
接下来,MaxCompute会持续在存储加密、冷热数据分离与文件合并归档、文件格式支持AliOrc以及存储和计算的结合方面持续发力,用先进的技术不断打磨产品,为云上企业释放更多技术红利,帮助企业和开发者抓住更多市场机遇。
更多有关MaxCompute产品和技术问题,欢迎加入“MaxCompute开发者钉钉群”与大数据开发者一起交流。