1、什么是ODPS?
1、开发数据处理服务(Open Data Processing Service,简称ODPS),2016年后更名MaxComputer。ODPS是一种由阿里云自主研发,针对TB/PB级数据、实时性要求不高的分布式处理服务。主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。
2、odps向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。该技术已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。
3、ODPS能够彻底无极限解决大数据存储与运算瓶颈,使我们专心于数据分析和挖掘,最大化发挥数据价值。且能够开箱即用,用户无需关心集群的搭建和运维,仅需简单的几步操作,即可开始数据的分析和挖掘任务。ODPS的多层次数据存储和访问安全机制保护数据不丢失、不泄露、不被窃取。此外ODPS实行按量付费,最大化降低数据使用成本,帮助用户解决数据烦恼,轻松实现大数据。
2、ODPS更新迭代
在2022年世界互联网大会乌镇峰会期间,2022年“世界互联网领先科技成果”发布。ODPS:数据驱动而生的超大规模多场景融合的大数据计算平台项目入选。
ODPS是阿里云自研的一体化大数据计算平台和数据仓库产品,为数字化转型提供多功能、低成本、高性能、稳定、安全、开放和易用的整套产品方案,
提供实时离线一体、流批一体、湖仓一体、大数据+AI一体的多场景能力。
3、新发布的阿里云ODPS技术突破主要在以下三方面:
一、是在数据底座的可靠性上,ODPS支撑EB级数据容量,全球化部署的能力,以及兼容级别的可靠性和安全性。
二、是在智能计算的规模和利用率上,ODPS对计算引擎和存储引擎进行深度优化,基于多基线保障的调度能力和自动化运维能力,实现10万级服务器、十余个数据中心、每天千万级计算任务作业的高性能数据计算。
三、是通过一体化架构与丰富的计算引擎支撑关系型数据、非结构化数据、机器智能等一系列场景;创新性地提出了数据湖和数据仓库一体化的架构,为科研创新提供坚实的算力基座。
4、集群能力
ODPS从2013年单集群突破5000台进行单独并行计算以来,目前,最高可支持超过10万台服务器进行并行计算,单日最大数据处理能力达到2.79EB,ODPS同时拥有海内外300多项技术专利。
采用比MapReduce框架更加灵活的计算模型。ODPS存储多份拷贝,所有计算在沙箱中运行。ODPS以Java SDK方式提供服务基于表的数据存储,用户不必关心文件存储格式,基于SQL的数据处理使得用户不必关心分布式技术细节。ODPS支持多用户协同分析数据,多种权限管理方式和灵活的数据访问控制策略。
5、ODPS分为三层:
接入层:以RESTful API方式提供服务,用户及数据应用通过Http/Https与接入层建立链接上传数据及提交数据分析作业;
逻辑层:ODPS的核心控制层,负责用户认证、签权、作业分发、Meta管理以及存储计算集群管理;
存储计算层:数据的存储及计算作业运行。该层是由多个集群构成,所有集群挂接到ODPS控制层。数据存储在飞天的盘古上,每个文件分三份存储。控制层将用户提交的计算作业调度不同的集群上。