Hortonworks(HDP)开发者认证-考试大纲

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本项目是 Hortonworks开发者认证官方文档的中文翻译版,Hortonworks致力于打造一个全新的大数据处理平台来满足大数据处理和分析的各个使用场景,它组合了大数据平台使用的各个组件, 比如Hadoop、Hbase、Hive、Spark等等一些列的组件, 它安装方便使用便捷, 而且已经在2000节点以上的节点上商用. 本次翻译主要针对对Hortonworks感兴趣和致力于从事大数据方法开发的人员提供有价值的中文资料,希望能够对大家的工作和学习有所帮助。

由于我公司鼓励大家考Hortonworks认证(呵呵,公司出费用),于是今天简单的看了下官方考试大纲,感觉还不错,故翻译了下供大家参考学习,本次翻译并没有咬文嚼字, 而是根据我个人的理解进行翻译, 由于本人能力有限难免有些地方翻译不到位,还希望大家谅解,同时也鼓励大家去看官方文档。

基于真才实学的认证

认证概述

Hortonworks重新设计了它的开发者认证程序, 为了创建一个通过在Hortonworks(HDP)集群上亲自操作所获取的专业知识的认证体系, 而不是回答多项选择问题. HDP开发者认证考试(HDPCD)第一个比较新颖的地方是亲自实践的, 基于性能的考试, 它设计的目的面向那些工作中经常使用像 Pig, Hive, Sqoop and Flume的开发者.

认证(考试)目的

开发者认证的目的是为了给组织和公司提供一种辨别是否是一个合格的大数据应用开发者, 这种认证实在开源的HDP平台对Pig, Hive, Sqoop and Flume组件对数据的存储、运行和分析的应用.

考试描述

考试主要涉及到三个分类:

  • 数据获取
  • 数据转换
  • 数据分析

考试是在HDP2.2版本上面进行, 通过 Ambari 1.7.0来进行管理, HDP2.2包括 Pig 0.14.0, Hive 0.14.0, Sqoop 1.4.5, 和Flume 1.5.0. 每位考生都可以访问HDP 2.2 集群并在集群上进行一些列任务操作.

考试目的

浏览完成下面任务, 它包括一些指向文档和资源的连接

怎么注册

在 www.examslocal.com 网站创建一个帐号. 注册之后登陆, 选择“Schedule an Exam”, 然后进入“Search Here”输入“Hortonworks”进行搜索,然后选择Hortonworks开发者认证考试.

考试卷购买之后一年之内有效.

时间
2小时

模拟考试

Hortonworks官方提供考生的模拟考试和认证考试的环境和任务是相似的 . 点击 [Practice Exam] 下载安装开始模拟考试.

考试及格情况说明
通过 (MQC)认证的考生需要通过开源的Hortonworks数据平台中的Pig、Hive、Sqoop和Flume对数据进行提取,转换和分析

Prerequisites

想获取HDPCD认证的考生需要完成考试大纲下面的所有任务.

语言

考试语言是英文

Hortonworks大学

Hortonworks 大学是你的专业指导对于Hadoop培训和认证. 考生可以通过公开课程和非公开课程是进行学习. 课程结合通过真实的Hadoop环境演示动手试验来进行.

HDP开发者考试的目的

HDPCD考试的考试需要完成下面每项操作:

类型 任务 源(s)
数据获取 通过Hadoop Shell把本地文件上传到HDFS http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#put
  使用Hadoop Shell在HDFS上创建一个新的目录 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#mkdir
  从一个关系型数据库中导入数据到HDFS http://sqoop.apache.org/docs/1.4.5/SqoopUserGuide.html#_literal_sqoop_import_literal
  导入关系型数据的查询结果到HDFS http://sqoop.apache.org/docs/1.4.5/SqoopUserGuide.html#_free_form_query_imports
  从一个关系型数据库中导入数据到一个新的或者已经存在的Hive表里 http://sqoop.apache.org/docs/1.4.5/SqoopUserGuide.html#_importing_data_into_hive
  从 HDFS里面插入和更新数据到关系型数据库里面 http://sqoop.apache.org/docs/1.4.5/SqoopUserGuide.html#_literal_sqoop_export_literal
   给你一个Flume配置文件,启动一个 Flume agent https://flume.apache.org/FlumeUserGuide.html#starting-an-agent
  给你一个配置好的 sink 和source, 配置一个 Flume 固定容量的内存 channel https://flume.apache.org/FlumeUserGuide.html#memory-channel
类别 任务 源(s)
数据转换 写出并执行一个pig脚本 https://pig.apache.org/docs/r0.14.0/start.html#run
   加载一个没有schema信息数据到Pig https://pig.apache.org/docs/r0.14.0/basic.html#load
  加载数据到Pig里面并关联一个schema https://pig.apache.org/docs/r0.14.0/basic.html#load
  从Hive表里面加载数据到Pig https://cwiki.apache.org/confluence/display/Hive/HCatalog+LoadStore
  通过Pig把加载的数据格式化 https://pig.apache.org/docs/r0.14.0/basic.html#foreach
  转换数据匹配一个给定的Hive schema https://pig.apache.org/docs/r0.14.0/basic.html#foreach
  对 Pig 中数据进行分组 https://pig.apache.org/docs/r0.14.0/basic.html#group
  使用Pig移除记录里面关联的空值 https://pig.apache.org/docs/r0.14.0/basic.html#filter
  把 Pig 中的数据保存到HDFS中指定目录里面 https://pig.apache.org/docs/r0.14.0/basic.html#store
  把 Pig中的数据保存到Hive表里 https://cwiki.apache.org/confluence/display/Hive/HCatalog+LoadStore
  对Pig数据进行排序输出 https://pig.apache.org/docs/r0.14.0/basic.html#order-by
  把Pig中关联重复数据移除 https://pig.apache.org/docs/r0.14.0/basic.html#distinct
  对Pig MapReduce指定reduce任务数量 https://pig.apache.org/docs/r0.14.0/perf.html#parallel
  使用Pig进行关联操作 https://pig.apache.org/docs/r0.14.0/basic.html#join-inner andhttps://pig.apache.org/docs/r0.14.0/basic.html#join-outer
  通过Pig join操作生成一个副本 https://pig.apache.org/docs/r0.14.0/perf.html#replicated-joins
   运行一个Pig 任务通过 Tez https://pig.apache.org/docs/r0.14.0/perf.html#tez-mode
  在一个Pig 脚本内,通过注册一个Jar来使用定义的函数 https://pig.apache.org/docs/r0.14.0/basic.html#register andhttps://pig.apache.org/docs/r0.14.0/udf.html#piggybank
  在Pig 脚本内, 使用定义的函数定义一个别名 https://pig.apache.org/docs/r0.14.0/basic.html#define-udfs
  在一个Pig 脚本内, 执行一个用户定义函数 https://pig.apache.org/docs/r0.14.0/basic.html#register
类型 任务 源(s)
数据分析 写并执行一个HIve查询 https://cwiki.apache.org/confluence/display/Hive/Tutorial
  定义一个内部表 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create/Drop/TruncateTable
  定义一个扩展表 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ExternalTables
  定义一个分区表 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-PartitionedTables
  定义一个桶表 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-BucketedSortedTables
  通过查询数据定义一个表 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableAsSelect(CTAS)
  使用ORCFile 文件格式定义一个表 http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/
  创建一个新的 ORCFile 表从一个非-ORCFile文件的 Hive 表 http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/
  为Hive表指定一个存储格式 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-RowFormat,StorageFormat,andSerDe
  为Hive表指定一个分隔符 http://hortonworks.com/hadoop-tutorial/using-hive-data-analysis/
  加载一个目录数据到Hive表中 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables
  从HDFS目录中加载数据到Hive表中 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables
  把查询的结果加载数据到Hive表中 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-InsertingdataintoHiveTablesfromqueries
  加载一个压缩数据到Hive表中 https://cwiki.apache.org/confluence/display/Hive/CompressedStorage
   在Hive表中更新一行记录 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Update
  从 Hive表中删除一条数据 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Delete
  插入一条数据到 Hive 表中 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-InsertingvaluesintotablesfromSQL
  对Hive表进行Join操作 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins
   通过Tez来执行Hive查询 http://hortonworks.com/hadoop-tutorial/supercharging-interactive-queries-hive-tez/
  使用向量化来执行 Hive 查询 http://hortonworks.com/hadoop-tutorial/supercharging-interactive-queries-hive-tez/
  输出Hive执行计划操作结果 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain
   对Hive进行子查询操作 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SubQueries
  输出Hive统计、排序、交叉、多重操作的查询结果 https://issues.apache.org/jira/browse/HIVE-1402
  设置Hadoop 或Hive 配置属性通过Hive的查询结果中 https://cwiki.apache.org/confluence/display/Hive/AdminManual+Configuration#AdminManualConfiguration-ConfiguringHive

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
缓存
内存学习(三):物理地址空间
内存学习(三):物理地址空间
405 0
|
4月前
|
API Android开发 数据安全/隐私保护
手机虚拟视频替换摄像头,虚拟摄像头手机版,安卓免root虚拟摄像头【python】
这个实现包含四个主要模块:虚拟摄像头核心功能、视频源管理、视频特效处理和主应用界面
|
2月前
|
关系型数据库 MySQL 分布式数据库
阿里云PolarDB云原生数据库收费价格:MySQL和PostgreSQL详细介绍
阿里云PolarDB兼容MySQL、PostgreSQL及Oracle语法,支持集中式与分布式架构。标准版2核4G年费1116元起,企业版最高性能达4核16G,支持HTAP与多级高可用,广泛应用于金融、政务、互联网等领域,TCO成本降低50%。
|
分布式计算 关系型数据库 MySQL
【产品升级】Dataphin V4.5 全新上线:研发效能再提升,资产运营更高效
Dataphin是瓴羊推出的智能数据建设与治理平台,基于阿里巴巴内部实践,提供一站式数据建设与治理能力。V4.5版本研发新增支持GaussDB和TDH 9.3.x作为离线计算引擎、支持MySQL分库分表集成、读取和写入MaxCompute Delta及Hudi湖仓表等;资产运营与消费持续提效,支持批量导入和导出目录与资产信息、对API按照主题进行编目并上架到资产目录、增加资产的血缘、质量评分和元数据变更记录等。
104 1
|
2月前
|
安全 Linux iOS开发
Burp Suite Professional 2025.9 发布 - Web 应用安全、测试和扫描
Burp Suite Professional 2025.9 (macOS, Linux, Windows) - Web 应用安全、测试和扫描
284 0
Burp Suite Professional 2025.9 发布 - Web 应用安全、测试和扫描
|
2月前
|
存储 弹性计算 固态存储
阿里云服务器收费价格参考,2核16G、4核32G、8核64G配置收费标准
阿里云服务器2核16G、4核32G、8核64G配置最新租用价格更新,2核16G配置按量收费最低收费标准为0.596元/小时,按月租用标准收费标准为286.2元/1月。4核32G配置的阿里云服务器按量收费标准最低为1.192元/小时。8核64G配置的阿里云服务器按量收费标准最低为2.385元/小时。云服务器实例规格的地域和实例规格不同,收费标准不一样,下面是2025年阿里云服务器2核16G、4核32G、8核64G配置的最新租用收费标准。
|
弹性计算 人工智能 小程序
99元云服务器,你最pick哪种新玩法?
【10月更文挑战第2天】本文介绍了99元一年的阿里云服务器ECS,阐述了其功能和应用场景,包括搭建个人网盘、小程序及AI助手等,并提供了购买链接。通过合理规划,ECS可为企业和个人用户提供高性价比的服务,提升用户体验。
|
语音技术 人工智能 机器学习/深度学习
构建基于AI的语音合成系统:技术探索与实践
【6月更文挑战第3天】本文探讨了构建基于AI的语音合成系统,包括文本预处理、声学模型、语音生成和后期处理四个步骤。关键技术和挑战涉及分词、词性标注、语调预测、HMM、DNN、RNN模型、波形合成及后期音质优化。实践中,获取高质量语音数据、训练计算资源和系统实时性是主要挑战。随着技术进步,未来语音合成将在多语种、个性化领域有更多应用。
1086 3
|
分布式计算 关系型数据库 MySQL
Hadoop学习笔记(HDP)-Part.07 安装MySQL
本文为HDP集群部署系列教程第七部分,详细介绍MySQL主从环境搭建。涵盖删除MariaDB、安装MySQL、配置主从复制、初始化数据库、设置系统服务及密码重置等步骤,并通过测试验证数据同步效果,确保高可用与数据一致性。
420 0
|
弹性计算 Windows
为什么雾锁王国游戏画面卡顿、回退?
本文介绍如何查看服务器负载及购买自定义配置的服务器。