#阿里云课堂# 王鹏飞(乌列)@高帅不富的飞哥 《离线关系型计算》这次分享主要回顾了阿里巴巴离线关系型计算技术,是如何从分布式的软件逐渐演进成服务,在这之中做了什么,哪些做对了,哪些做错了,以及我们是如何把握方向的。干货第一时间分享给大家~@CSDN云计算
微博互动地址:http://weibo.com/1644971875/BmOBEp7gk?ref=#_rnd1410597669026 (需要把链接复制到浏览器中打开)
王鹏飞:离线关系型计算
嘉宾介绍:数据平台事业部-计算平台组高级专家:王鹏飞(乌列),十年来一直从事数据库系统方面的工作,09年加入阿里巴巴后开始离线分布式关系型计算的研发,从此一直工作在第一线,从查询计划生成器到执行引擎和存储引擎,积累了丰富的经验。
这次分享主要回顾了阿里巴巴离线关系型计算技术上是如何从分布式的软件逐渐演进成服务,在这之中做了什么,哪些做对了,哪些做错了,以及我们是如何把握方向的。
著名的淘宝hadoop/HIVE就是10年启动的云梯I项目,云梯是帮助阿里云飞天最重要的项目之一。HIVE中有很多非常有名的feature,比如multi-distinct就来自于此,我们的团队拥有多位社区重量级的contributor。尽管如此,由于项目进度压力和代码距离社区越来越远,我们还有大量的patch尚未反馈回社区。
自主研发(当然,这词儿现在略囧)的项目和云梯I同时进行,一堆土人撞墙踩坑无数,摸爬滚打之中造就了现在的ODPS。从最开始“探索”应该如何设计Operator,如何驱动Operator DAG,甚至企图用一套存储引擎搞定高选择性在线查询和大范围数据扫描的离线计算任务开始,到现在作业系统拥有多部不同的执行引擎以解决用户不同的数据场景,并形成一整套的多集群协作的服务平台,中间颇多经历,希望能对大家有所帮助。
最后,分享一张架构图: