阿里云-EMR团队成员,致力于推广开源大数据在云上的应用
presto安装目录是/usr/lib/presto-current
日志目录是/mnt/disk1/log/presto
初始化:
每个节点的/usr/local/emr/emr-bin/script/presto/init.sh,
先改masterIp=#master_ip#,将#master_ip#改为emr-header-1节点的内网ip
启动命令:
emr-header-1 用su -l hdfs -c "/usr/lib/presto-current/bin/launcher --config=/usr/lib/presto-current/etc/coordinator-config.properties start"
其他节点用su -l hdfs -c "/usr/lib/presto-current/bin/launcher --config=/usr/lib/presto-current/etc/worker-config.properties start"
没有
目前emr版本不支持升级
创建时可以用软件配置和引导操作更改配置,添加自定义组件,创建完成后目前只能登陆ecs手工修改安装
可以先ssh master,再用hadoop账户ssh上去,已经打通master到core节点hadoop账户免密码ssh了
sqoop是用map任务同步数据,由于经典网络EMR集群只有master节点可以访问公网,sqoop是用map任务同步数据可能在任意节点上运行,所以需要创建VPC集群同步私有公网数据库
https://yq.aliyun.com/articles/43799?spm=5176.team18.teamshow1.61.uLsfCq
这是因为指定了导入到hive的表里,
hive 表有自己的hdfs目录
sqoop会先先导入到指定的hdfs目录
然后mv进hive自己的目录里
为了避免脏数据,默认的用法,指定的目录不能存在,存在会报错,sqoop会创建这个目录并把数据文件放进去。
如果需要往已存在的目录导入,要用--apend参数,可以参考 https://yq.aliyun.com/articles/38620