数据的有序主要用在2个方面,基于有序的IO裁剪,另外一个是尽量减少计算过程中的排序,IO裁剪在行列混存以及有较多的讨论,阿里主要讨论第二点,这里做的主要工作有哪些?
1、消除多余sorting操作。如果data本身有序,且满足排序要求,则不需要加sort操作。 2、最小化需要排序的列。例如希望对{c1,c2,..cn}排序,如果有谓词c1=5,则order简化成{c2,..cn},避免排序多一个字段。 3、order下推。在初始化阶段,降意向排序操作尽量下推。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。