[size=font-size:14.0pt,14.0pt][font="]ClouderaData Analyst Training: Using Pig, Hive, and Impala([size=font-size:14.0pt,14.0pt][font="]数据分析师课程)
[size=font-size:10.5pt,10.5pt][font="]建议学员[size=font-size:10.5pt,10.5pt][font="]:数据分析师和业务分析师
课时:3天
[size=font-size:10.5pt,10.5pt][font="]Cloudera[size=font-size:10.5pt,10.5pt][font="]的3天数据分析师课程专注于 Apache Pig, Hive 和 Cloudera Impala, 教授你将传统数据分析方法和商业智能的技巧运用到大数据里。Cloudera 展示了数据专家结合SQL和熟悉的脚本语言,用来访问,操纵和分析复杂数据组的工具。
[size=font-size:10.5pt,10.5pt][font="]提升你生态圈的经验:[size=font-size:10.5pt,10.5pt][font="]ApacheHive [size=font-size:10.5pt,10.5pt][font="]支持分析师,数据库管理员和其他没有Java编程经验的人访问多种结构的数据。 Apache Pig 对Hadoop集群应用了熟悉的基础的脚本语言。 Cloudera Impala 支持对存放在Hadoop里的数据通过原生SQL进行实时互动式分析。
[font="]【课程内容:】
[font="]1[font="]、Hadoop生态圈、实验场景介绍、用Hadoop工具导入数据;
[font="]2[font="]、pig的特性、使用案例、和pig交互、pig Latin语法、Field定义、用pig执行ETL流程;
[font="]3[font="]、pig处理复杂数据,复杂/nested嵌套的数据类型、用pig分析广告战役的数据
4、pig的多数据组操作,pig链接多数据组、用pig分析离散的数据组;
[font="]5[font="]、用流处理和UDFs扩展pig,Macros和Imports、contributed functions,用其他语言和pig一起处理数据;
[font="]6[font="]、pig故障排查和优化,用web界面排查一个故障的任务、Data采样和故障排查、理解执行计划、提高pig任务性能;
[font="]7[font="]、hive表结构和数据储存、对比hive和传统数据库、hive vs.pig、hive使用案例;
[font="]8[font="]、hive的关系数据分析、数据管理、文本处理、优化及扩展,在shell、脚本和hue上运行hive查询;
[font="] 9[font="]、impala和hive、pig、关系数据库的不同、使用impala shell;
[font="] 10[font="]、采样impala分析数据,过滤、排序and limiting results,提升impala性能,impala的交互式分析;
[font="] 11[font="]、对比map reduce、pig、hive、impala和关系数据库;
[size=font-size:12.0pt,12.0pt][font="]Cloudera
[size=font-size:12.0pt,12.0pt][font="]官方授权认证培训机构:北京精准数源信息技术有限公司
[size=font-size:12.0pt,12.0pt][font="](原厂讲师、原厂课程、同步轨迹最新的课程体系、全球最具权威的大数据国际认证)
[font="]【学员基础:】[font="]该课程适合有SQL经验和基本Unix和Linux命令的数据分析师、业务分析师和管理员。无需Java和Apache Hadoop经验
[font="]【授课形式:】[font="]面对面案例教学+上机实操
[font="]
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Cloudera Data Analyst Training 是一个专为数据分析师和业务分析师设计的培训课程,旨在通过3天的密集学习,使学员掌握使用Apache Pig、Hive以及Cloudera Impala进行大数据分析的技能。该课程内容丰富,涵盖了从基础知识到高级应用的各个方面,以下是课程的一些核心要点:
Hadoop生态系统介绍:课程起始会介绍Hadoop生态系统的基本概念,包括如何在Hadoop环境中导入数据。
Apache Pig深入学习:学员将学习Pig的特性、使用案例、Pig Latin语法等,以执行ETL(提取、转换、加载)流程,并处理复杂的数据类型和结构,如嵌套数据。此外,还会涉及UDFs(用户自定义函数)、流处理及性能优化。
Apache Hive应用:涵盖Hive的表结构、数据存储方式,与传统数据库的对比,以及如何在Hive中进行关系数据分析、文本处理和性能优化。同时,也会讨论Hive与Pig之间的区别及其适用场景。
Cloudera Impala实时分析:介绍Impala的特点,即如何提供基于SQL的实时交互式查询能力,对存于Hadoop中的数据进行快速分析。课程会涉及Impala的性能提升技巧、与Hive和Pig的比较,以及如何利用Impala Shell进行操作。
工具对比与综合运用:最后,课程会对MapReduce、Pig、Hive、Impala以及关系数据库进行综合对比,帮助学员理解各种工具的优劣及应用场景。
此课程由北京精准数源信息技术有限公司提供,作为Cloudera官方授权认证的培训机构,确保了课程内容的权威性和时效性,采用面对面教学结合上机实操的方式,适合具备SQL基础和Unix/Linux命令知识的学员参与,无需预先掌握Java或Hadoop经验。这样的培训对于希望在大数据领域深化技能、提高工作效率的数据专业人士来说,是一个非常有价值的学习机会。