数智创新行-阿里云OSS-HDFS技术与能力解析
嘉宾信息
梁明旭(旭一) 阿里云资深技术专家
阿里云OSS-HDFS技术与能力解析
内容介绍
一、 全托管OSS-HDFS元数据服务架构
二、 OSS-HDFS之协议全兼容
一、全托管OSS-HDFS元数据服务架构
大家可以看到的这个架构图里面,实际上是在o的标准服务之外,独立建设了元数据服务,这个元数据服务是基于架构实现了高可用,这样能够保证我们的整体的服务,能够低于本身的这样内容,同时我们通过自己的模块,实现了多租户的接入,整个服务它都是基于整个层下的,因此可以对用户呈现完整的服务的形态,通过客户端把元数据操作以及数据持久化操作进行分离,从而使得我们整体的架构的扩展性能够得到很好的保障,同时,所有的这个服务部都会接入到后端的整个运维框架,从而满足我们对于整个服务的高可用的运维能力。
在整体的这个服务里面,我们的整个的优势是通过一层元数据的加持,我们可以完全的用一些文件系统,它具备的空间的能力进行匹配,这个时候就可以更好地去面向用户各种各样的生态,包括一些实时的计算,包括机器学习,就更能够去充分的去支持用户的各种各样的计算的场景。
二、OSS-HDFS之协议全兼容
接下来大家可以看到我们讲的协议的全兼容,相比于来讲,其实我们特性上面是做了更全面的支持,包括一些的权限,认证,支持,在这种全面情况下,对用户来讲,它其实是可以降低用户在原来的系统里面,整个用户使用改造成本可以得到大幅的降低。
在迁移过程中会让用户使用起来更加的方便,那么它真正面向的场景,实际上对于目录这种操作的支持,包括说他对于目录原子性,扩展属性,包括本地缓存的加速,其实都有一些需求,你可以完全的去匹配到你的诉求,同时对于一些替换,在整个里面,只要去对接协议,那么它主要是遵循了这样的协议,我们都可以快速的去支持到这样的使用。
这里面可能一些文件,存储上面是很难做到的,那么我们基于完成对这样的系统的支持,相比于其他来讲,大家可以看到整个知识是全面的,也是现在非常好的竞争力,我们相比于比如社区的一些能力,我们可以看到那我们在存储的成本上面,可以支持我们的数据存储,它可以支持到各种各样的一些不同层级的或者不同性价比的存储系统,大幅的降低用户的存储成本,在数据的性能上面可以看到,当你数量不多的时候,大家差异不会特别大,但是当你的文件数量越多的时候,到了超过4个亿以后,传统的社区支持不了,那么在我们这里面,其实它可以更多的去支持到十亿以及以上的的性能。
整个性能随着数量的增长,整个性能是没有大幅的衰减,同时我们在一些标准的这个场景下面,其实也做了一些相关的对比,可以看到,在场景下面,我们会有大幅的性能提升,我们在这种大文件,大数量文件操作下,通过后台的任务,会去定期的把一些基本的数据保存,当你去查询的时候,我会用实时最新的数据和后台得到的历史数据进行拼接,能够快速的得到有效的数据结果,在这种优化情况下,大家可以看到大规模的数据耗时,相比传统的方法这就是上千倍的性能提升,同时在吞吐方面,我们的数据实都放在那里,它继承了以上的能力,从整体的结果来看,我们可以提供到这样的高吞吐,这是远远超越了所有文件系统的。
对用户来讲其实基本上没有什么运维成本,那从迁移层来讲,它的整个的协议的监控性能是非常好的,用户来讲,它的整个迁移成本其实是非常低的,对于用业务的代码,基本上没有任何的侵入性,这就是基本的情况介绍。