开发者社区问答正文

Apache Kudu & Apache Spark SQL for Fast Analytics on Fast Data

在SPARK SUMMIT 2017上，Mike Percy Software Engineer at Cloudera Apache Kudu PMC member分享了题为《Apache Kudu & Apache Spark SQL for Fast Analytics on Fast Data》，就Kudu概述，Apache Kudu的使用性能等方面的内容做了深入的分析。

https://yq.aliyun.com/download/2093?spm=a2c4e.11154804.0.0.41216a79TWVDUc

展开

收起

福利达人 2018-07-29 00:33:44 1199 版权

阿里云 AI 助理回答

在SPARK SUMMIT 2017上，Mike Percy，作为Cloudera的软件工程师及Apache Kudu项目管理委员会（PMC）成员，分享了关于《Apache Kudu》的主题。虽然具体的分享内容没有直接包含在提供的知识库资料中，但我们可以从这些参考资料中获得有关Apache Kudu的重要信息及其在阿里云服务中的应用情况。

Apache Kudu简介与特性： - 填补Hadoop生态圈空白：Kudu作为一种存储引擎，提供了快速数据插入和随机存取功能，类似于HBase，同时支持数据修改，并能进行大规模数据分析和查询，类似于HDFS或Parquet。 - 版本与集成：EMR-3.22.x版本引入的Kudu基于Apache Kudu 1.10.0社区版本，集成了Impala、Spark以及Hive Metastore，意味着用户可以利用这些计算框架直接操作Kudu数据。 - API与高可用性：提供C++和Java API以支持二次开发，并且在EMR环境中，OpenLDAP作为新增组件替代ApacheDS，实现了高可用性配置。

在阿里云E-MapReduce集群的应用： - 迁移指南：针对自建Kudu集群迁移到E-MapReduce Hadoop集群，有详细的步骤指导。使用Kudu提供的Backup和Restore工具，可以通过Spark作业完成数据迁移，支持备份到OSS或HDFS，并确保数据一致性。 - 版本支持：EMR Kudu支持至少1.10及1.11版本，确保了与开源社区的兼容性和稳定性。

综上所述，Mike Percy在SPARK SUMMIT 2017上的分享虽然未直接详述，但从现有资料可推断，他可能讨论了Apache Kudu的设计理念、技术优势、与大数据生态系统的集成方式，以及它如何解决高速数据摄入与即时分析的需求。特别是在阿里云E-MapReduce服务中，Kudu作为一个高性能列式存储引擎，其部署和迁移机制得到了优化，以满足企业级用户对数据处理速度和灵活性的要求。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

SQL 分布式计算 Apache Spark

问答标签：

Apache data apache spark SQL apache apache spark Apache spark Apache kudu

问答地址：

开发者社区 > 大数据 > 问答

Apache Kudu & Apache Spark SQL for Fast Analytics on Fast Data

相关文章

相关解决方案

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Apache Kudu &amp; Apache Spark SQL for Fast Analytics on Fast Data

相关文章

相关解决方案

Apache Kudu & Apache Spark SQL for Fast Analytics on Fast Data