开发者社区问答正文

Apache Kylin Speed Up Cubing with Spark

Luke Han and Shaofeng Shi在Spark Summit 2017上做了主题为《Apache Kylin Speed Up Cubing with Spark》的演讲，就什么是Apache Kylin，MapReduce的挑战，通过Spark加速等进行了深入的分享。

https://yq.aliyun.com/download/947?spm=a2c4e.11154804.0.0.45326a79S3Y6DR

展开

收起

福利达人 2018-06-25 22:23:23 949 版权

阿里云 AI 助理回答

Apache Kylin是一款开源的分布式分析引擎，专为大数据环境下的OLAP（在线分析处理）查询设计。它最初由eBay开发，并捐赠给Apache软件基金会，成为了顶级项目。Kylin的核心优势在于预计算技术，即通过预先对数据进行cube构建（也称为“cubing”），将多维数据分析查询转换为对预计算结果的快速查询，从而实现亚秒级响应时间，即使在海量数据集上也是如此。

Apache Kylin的特点：

高性能：通过预计算和cube存储，Kylin能够提供亚秒级查询响应时间。
易用性：支持SQL查询接口，与BI工具无缝集成，便于业务分析师使用。
大规模数据处理：能够处理PB级别的数据。
高并发：支持大量用户同时进行复杂查询。

MapReduce的挑战：

在Luke Han和Shaofeng Shi的演讲中提到的MapReduce挑战，可能涉及以下几点： - 性能：MapReduce作业通常需要较长的执行时间，尤其是在复杂的多阶段任务中。 - 资源效率：MapReduce作业可能不是资源利用最优化的，特别是在迭代计算或内存密集型操作中。 - 延迟问题：对于需要即时反馈的交互式查询，MapReduce的高延迟成为瓶颈。

通过Spark加速：

Spark是一个基于内存计算的大数据处理框架，相较于MapReduce，它提供了更高效的数据处理能力，尤其是在迭代计算和内存数据处理方面。在《Apache Kylin Speed Up Cubing with Spark》的演讲中，他们可能探讨了如何利用Spark的以下特性来加速Kylin的cubing过程：

内存计算：Spark能够在内存中处理数据，显著减少磁盘I/O，提高数据处理速度。
DAG执行模型：相比于MapReduce的线性数据流，Spark的有向无环图（DAG）执行模型能更好地支持复杂的计算逻辑，减少中间结果的存储开销。
广泛的数据处理能力：Spark支持批处理、交互式查询（Spark SQL）、机器学习等多种计算场景，这使得它成为加速Kylin cubing的理想选择。

综上所述，通过将Apache Kylin与Spark结合，可以有效提升数据立方体构建的速度和效率，进而改善大数据分析的性能和用户体验。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 Apache Spark

问答标签：

Apache spark apache apache spark Apache kylin speed apache spark up apache spark

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Apache Kylin Speed Up Cubing with Spark

Apache Kylin的特点：

MapReduce的挑战：

通过Spark加速：

相关文章