Luke Han and Shaofeng Shi在Spark Summit 2017上做了主题为《Apache Kylin Speed Up Cubing with Spark》的演讲,就什么是Apache Kylin,MapReduce的挑战,通过Spark加速等进行了深入的分享。
https://yq.aliyun.com/download/947?spm=a2c4e.11154804.0.0.45326a79S3Y6DR
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Apache Kylin是一款开源的分布式分析引擎,专为大数据环境下的OLAP(在线分析处理)查询设计。它最初由eBay开发,并捐赠给Apache软件基金会,成为了顶级项目。Kylin的核心优势在于预计算技术,即通过预先对数据进行cube构建(也称为“cubing”),将多维数据分析查询转换为对预计算结果的快速查询,从而实现亚秒级响应时间,即使在海量数据集上也是如此。
在Luke Han和Shaofeng Shi的演讲中提到的MapReduce挑战,可能涉及以下几点: - 性能:MapReduce作业通常需要较长的执行时间,尤其是在复杂的多阶段任务中。 - 资源效率:MapReduce作业可能不是资源利用最优化的,特别是在迭代计算或内存密集型操作中。 - 延迟问题:对于需要即时反馈的交互式查询,MapReduce的高延迟成为瓶颈。
Spark是一个基于内存计算的大数据处理框架,相较于MapReduce,它提供了更高效的数据处理能力,尤其是在迭代计算和内存数据处理方面。在《Apache Kylin Speed Up Cubing with Spark》的演讲中,他们可能探讨了如何利用Spark的以下特性来加速Kylin的cubing过程:
综上所述,通过将Apache Kylin与Spark结合,可以有效提升数据立方体构建的速度和效率,进而改善大数据分析的性能和用户体验。