2.0.0 以上版本支持
presto,选择支持 presto 的镜像并勾选 presto 软件即可在 E-MapReduce 中使用 presto。
集群创建后,登录 master,presto 软件被安装在 /usr/lib/presto-current 目录,可以 jps 看到 PrestoServer 进程。
presto 服务进程分为 coordinator 和 worker,master 上(HA 集群为 hostname 以emr-header-1 开头的 master 节点)启动 coordinator,core 节点启动 worker 进程。服务进程的配置在 /usr/lib/presto-current/etc 目录下,其中 coordinator 使用 coordinator-config.properties,worker 使用 worker-config.preperties,其他配置文件公用。web 端口设置为 9090。
presto 服务默认设置了 Hive 的支持,连接集群 hive 的 metastore,可以读取 Hive 的表信息,进行查询。集群预装了 presto cli,可以直接执行
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
您提到的是在阿里云E-MapReduce服务中使用Presto进行大数据查询的场景。E-MapReduce是阿里云提供的一种基于Hadoop、Spark等开源大数据组件的一站式大数据处理分析服务,它简化了大数据集群的搭建和管理过程,让用户能够更专注于数据处理和分析任务本身。
针对您的描述,这里有几个关键点的解释和补充:
Presto镜像选择与安装:在创建E-MapReduce集群时,确保选择支持Presto的镜像版本(2.0.0以上),这样系统会在集群创建过程中自动安装Presto。Presto会被安装到/usr/lib/presto-current
目录下,通过运行jps
命令可以查看到PrestoServer进程是否正常启动。
Coordinator与Worker角色:
emr-header-1
开头的Master节点上。配置文件:Presto的配置文件位于/usr/lib/presto-current/etc
目录下,包括coordinator-config.properties
用于Coordinator的配置,以及worker-config.properties
用于Worker的配置。其他通用配置文件也存放于此,用户可以根据需要调整这些配置来优化Presto性能或行为。
Hive集成:Presto默认集成了对Hive的支持,这意味着它可以访问Hive Metastore来获取表结构信息,从而直接查询Hive中的数据。这对于那些已经建立了Hive数据仓库的用户来说非常方便,因为无需额外的数据迁移工作即可利用Presto的强大查询能力。
Presto CLI使用:E-MapReduce集群预装了Presto命令行客户端(CLI),允许用户直接在集群上执行SQL查询。示例命令展示了如何连接到本地(即集群内部)的Presto服务(端口9090),指定Hive作为catalog,default为schema,使用hadoop作为用户名执行“show tables”命令来查看Hive中的表。请注意,由于元数据同步的延迟,刚创建或修改的Hive表可能需要几秒钟时间才能在Presto中可见。
总之,阿里云E-MapReduce通过集成Presto,为用户提供了一种高效、灵活的大数据查询解决方案,特别是在交互式分析和跨数据源查询方面表现出色。用户只需简单配置即可开始利用Presto的强大功能,大大降低了大数据处理和分析的门槛。