开发者社区 问答 正文

E-MapReducePresto 使用说明是什么?


2.0.0 以上版本支持 presto,选择支持 presto 的镜像并勾选 presto 软件即可在 E-MapReduce 中使用 presto。
集群创建后,登录 master,presto 软件被安装在 /usr/lib/presto-current 目录,可以 jps 看到 PrestoServer 进程。
presto 服务进程分为 coordinator 和 worker,master 上(HA 集群为 hostname 以emr-header-1 开头的 master 节点)启动 coordinator,core 节点启动 worker 进程。服务进程的配置在 /usr/lib/presto-current/etc 目录下,其中 coordinator 使用 coordinator-config.properties,worker 使用 worker-config.preperties,其他配置文件公用。web 端口设置为 9090。
presto 服务默认设置了 Hive 的支持,连接集群 hive 的 metastore,可以读取 Hive 的表信息,进行查询。集群预装了 presto cli,可以直接执行

  1. [backcolor=transparent]presto [backcolor=transparent]--[backcolor=transparent]server localhost[backcolor=transparent]:[backcolor=transparent] [backcolor=transparent]9090[backcolor=transparent] [backcolor=transparent]--[backcolor=transparent]catalog hive [backcolor=transparent]--[backcolor=transparent]schema [backcolor=transparent]default[backcolor=transparent] [backcolor=transparent]--[backcolor=transparent]user hadoop [backcolor=transparent]--[backcolor=transparent]execute [backcolor=transparent]"show tables"

查看 Hive 的表。需要注意同步 Hive 表会有几秒的延时。

展开
收起
nicenelly 2017-10-27 15:41:10 1785 分享 版权
阿里云 AI 助理回答

您提到的是在阿里云E-MapReduce服务中使用Presto进行大数据查询的场景。E-MapReduce是阿里云提供的一种基于Hadoop、Spark等开源大数据组件的一站式大数据处理分析服务,它简化了大数据集群的搭建和管理过程,让用户能够更专注于数据处理和分析任务本身。

针对您的描述,这里有几个关键点的解释和补充:

  1. Presto镜像选择与安装:在创建E-MapReduce集群时,确保选择支持Presto的镜像版本(2.0.0以上),这样系统会在集群创建过程中自动安装Presto。Presto会被安装到/usr/lib/presto-current目录下,通过运行jps命令可以查看到PrestoServer进程是否正常启动。

  2. Coordinator与Worker角色

    • Coordinator:负责接收SQL查询请求、解析SQL、生成执行计划并分配任务给Worker节点。在单个或HA(High Availability)集群中,Coordinator通常运行在名为以emr-header-1开头的Master节点上。
    • Worker:负责执行由Coordinator分配的具体计算任务,并将结果返回给Coordinator。在E-MapReduce集群中,Core节点通常会启动Worker进程。
  3. 配置文件:Presto的配置文件位于/usr/lib/presto-current/etc目录下,包括coordinator-config.properties用于Coordinator的配置,以及worker-config.properties用于Worker的配置。其他通用配置文件也存放于此,用户可以根据需要调整这些配置来优化Presto性能或行为。

  4. Hive集成:Presto默认集成了对Hive的支持,这意味着它可以访问Hive Metastore来获取表结构信息,从而直接查询Hive中的数据。这对于那些已经建立了Hive数据仓库的用户来说非常方便,因为无需额外的数据迁移工作即可利用Presto的强大查询能力。

  5. Presto CLI使用:E-MapReduce集群预装了Presto命令行客户端(CLI),允许用户直接在集群上执行SQL查询。示例命令展示了如何连接到本地(即集群内部)的Presto服务(端口9090),指定Hive作为catalog,default为schema,使用hadoop作为用户名执行“show tables”命令来查看Hive中的表。请注意,由于元数据同步的延迟,刚创建或修改的Hive表可能需要几秒钟时间才能在Presto中可见。

总之,阿里云E-MapReduce通过集成Presto,为用户提供了一种高效、灵活的大数据查询解决方案,特别是在交互式分析和跨数据源查询方面表现出色。用户只需简单配置即可开始利用Presto的强大功能,大大降低了大数据处理和分析的门槛。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答