阿里云-EMR团队成员,致力于推广开源大数据在云上的应用
问题背景 yarn的fair类型资源池,是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair,即分配资源时只考虑内存限制。 对一个多个团队混合使用的大集群来说,如果想要在分配资源时同时考虑内存和cpu限制,需要指定调度策略为drf。
为了迎接更好的自己。 过去的止步不前 程序员最反感别人没写文档,最不喜欢自己写文档。 我一直很认同技术人员应该持续写技术文章,可以总结经验,打造个人品牌,等等。但加上公司内部分享,实际也没写多少篇,这可能也是很多技术人员的通病吧。
hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。
本文介绍一些常见的集群跑hive作业参数优化,可以根据业务需要来使用。 提高hdfs性能 修改hdfs-site,注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.
自建集群要迁移到EMR集群,往往需要迁移已有数据。本文主要介绍hdfs数据和hive meta数据如何迁移。 前置 已按需求创建好EMR集群。 迁移hdfs数据 主要依靠distcp,核心是打通网络,确定hdfs参数和要迁移内容,测速,迁移。
集群,特别是包年报月集群,在使用过程中,可能会有新的安装第三方软件,修改集群运行环境的需求。 E-MapReduce控制台1.5.0版本提供了集群脚本的功能,可以在集群创建好后批量选择节点,运行您指定的脚本,以实现个性化的需求。
阿里云E-MapReduce从EMR-2.1.0版本镜像开始,Presto组件默认就支持访问oss数据了,不再需要引导操作额外支持。
目前EMR Presto 已经完全支持 OSS 访问,如有其他 Presto 集群访问 OSS 需求,请安装 JindoFS SDK,可以直接访问 oss https://developer.aliyun.com/article/767222
目标 了解E-MapReduce创建集群流程; 熟悉端口转发访问集群可视化组件zeppelin; 完成用zeppelin分析热播数据的示例。 创建集群 集群包括一组ecs实例和运行在实例上的分布式计算框架(Hadoop,Spark等),管控程序,是运行计算任务的资源基础。下面带大家熟悉创建
当前emr最新版本2.0.1没有impala组件,需要额外安装。本文介绍如何在emr 2.0.1版本上用E-MapReduce软件配置功能修改hdfs配置,引导操作安装impala 2.5.0 for cdf 5.7.1版本,shell作业来启动impala的完整过程。 软件配置 impala对
Presto架构 Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生
E-MapReduce产品的最新版本2.0.0现在支持Presto了,使用指南。本文主要介绍一下什么是Preosto。 Presto是一个分布式SQL查询引擎, 它被设计用来进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口
当前emr最新版本1.3.0没有presto组件,需要额外安装。本文介绍如何用E-MapReduce引导操作来安装presto 0.147版本。引导操作可以在集群创建时执行指定的脚本,详见: [帮助文档](https://help.aliyun.com/document_detail/28108..
5-15号笔者参加了2016中国spark技术峰会,各演讲嘉宾分享了很多spark实践经验,本文整理了笔者印象比较深的内容,ppt详见峰会ppt 《spark and yarn :better together》 Hortonworks技术专家邵赛赛分享了spark如何更好地跑在yarn上,主要
如果您的E-MapReduce集群需要和集群之外的数据库同步数据,需要确保网络是联通的。本文就RDS,ecs自搭,云下私有数据库三种情况,分别介绍如何配置网络。 一.RDS 经典网络RDS 想要访问经典网络RDS,EMR(E-MapReduce,下同)最好也指定用经典网络。 经典网络的RDS
sqoop简介 sqoop是什么 Sqoop是一款开源的软件工具,提供了Hadoop和关系型数据库中的数据相互转移的功能。可以将一个关系型数据库(例如 : MySQL)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 在E-MapReduce集群中使用sqo
presto安装目录是/usr/lib/presto-current
日志目录是/mnt/disk1/log/presto
初始化:
每个节点的/usr/local/emr/emr-bin/script/presto/init.sh,
先改masterIp=#master_ip#,将#master_ip#改为emr-header-1节点的内网ip
启动命令:
emr-header-1 用su -l hdfs -c "/usr/lib/presto-current/bin/launcher --config=/usr/lib/presto-current/etc/coordinator-config.properties start"
其他节点用su -l hdfs -c "/usr/lib/presto-current/bin/launcher --config=/usr/lib/presto-current/etc/worker-config.properties start"
没有
目前emr版本不支持升级
创建时可以用软件配置和引导操作更改配置,添加自定义组件,创建完成后目前只能登陆ecs手工修改安装
可以先ssh master,再用hadoop账户ssh上去,已经打通master到core节点hadoop账户免密码ssh了
sqoop是用map任务同步数据,由于经典网络EMR集群只有master节点可以访问公网,sqoop是用map任务同步数据可能在任意节点上运行,所以需要创建VPC集群同步私有公网数据库
https://yq.aliyun.com/articles/43799?spm=5176.team18.teamshow1.61.uLsfCq
这是因为指定了导入到hive的表里,
hive 表有自己的hdfs目录
sqoop会先先导入到指定的hdfs目录
然后mv进hive自己的目录里
为了避免脏数据,默认的用法,指定的目录不能存在,存在会报错,sqoop会创建这个目录并把数据文件放进去。
如果需要往已存在的目录导入,要用--apend参数,可以参考 https://yq.aliyun.com/articles/38620