在SPARK SUMMIT 2017上,Mike Percy Software Engineer at Cloudera Apache Kudu PMC member分享了题为《Apache Kudu & Apache Spark SQL for Fast Analytics on Fast Data》,就Kudu概述,Apache Kudu的使用性能等方面的内容做了深入的分析。
https://yq.aliyun.com/download/2093?spm=a2c4e.11154804.0.0.41216a79TWVDUc
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在SPARK SUMMIT 2017上,Mike Percy,作为Cloudera的软件工程师及Apache Kudu项目管理委员会(PMC)成员,分享了关于《Apache Kudu》的主题。虽然具体的分享内容没有直接包含在提供的知识库资料中,但我们可以从这些参考资料中获得有关Apache Kudu的重要信息及其在阿里云服务中的应用情况。
Apache Kudu简介与特性: - 填补Hadoop生态圈空白:Kudu作为一种存储引擎,提供了快速数据插入和随机存取功能,类似于HBase,同时支持数据修改,并能进行大规模数据分析和查询,类似于HDFS或Parquet。 - 版本与集成:EMR-3.22.x版本引入的Kudu基于Apache Kudu 1.10.0社区版本,集成了Impala、Spark以及Hive Metastore,意味着用户可以利用这些计算框架直接操作Kudu数据。 - API与高可用性:提供C++和Java API以支持二次开发,并且在EMR环境中,OpenLDAP作为新增组件替代ApacheDS,实现了高可用性配置。
在阿里云E-MapReduce集群的应用: - 迁移指南:针对自建Kudu集群迁移到E-MapReduce Hadoop集群,有详细的步骤指导。使用Kudu提供的Backup和Restore工具,可以通过Spark作业完成数据迁移,支持备份到OSS或HDFS,并确保数据一致性。 - 版本支持:EMR Kudu支持至少1.10及1.11版本,确保了与开源社区的兼容性和稳定性。
综上所述,Mike Percy在SPARK SUMMIT 2017上的分享虽然未直接详述,但从现有资料可推断,他可能讨论了Apache Kudu的设计理念、技术优势、与大数据生态系统的集成方式,以及它如何解决高速数据摄入与即时分析的需求。特别是在阿里云E-MapReduce服务中,Kudu作为一个高性能列式存储引擎,其部署和迁移机制得到了优化,以满足企业级用户对数据处理速度和灵活性的要求。