Phoenix ODPSBulkLoadTool 使用案例

本文涉及的产品
云数据库 Redis 版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: 介绍Phoenix ODPSBulkLoadTool 使用案例

1.创建ODPS表

create table hbaseport.odps_test (
key string,
value1 string,
value2 bigint);

2.配置MR集群访问云HBASE环境

  1. 开通云 HBase HDFS 端口
  2. 配置hdfs-site.xml使之能访问云HBASE HA的hdfs, 具体参考这里
  3. 配置hbase-site.xml文件可访问云HBASE

在MR集群上创建临时conf目录, 执行hadoop命或者yarn命令时通过--config选项添加到命令运行时的classpath中,目录中包括如下:

ls conf/
core-site.xml  hbase-site.xml  hdfs-site.xml  
mapred-site.xml  yarn-site.xml

3.创建Phoenix测试表

DROP TABLE IF EXISTS TABLE1;

CREATE TABLE TABLE1 (
ID VARCHAR NOT NULL PRIMARY KEY,
V1 VARCHAR, 
V2 BIGINT)
SALT_BUCKETS = 10,UPDATE_CACHE_FREQUENCY = 120000;

CREATE INDEX V1_IDX on TABLE1(V1) include(v2);
CREATE INDEX V2_IDX on TABLE1(V2) include(v1);

4.导入测试数据到ODSP表

通过csv导入odps300w数据

5.执行Bulkload命令

使用 Phoenix 提供的 client jar 运行 Bulkload命令:

yarn --config  conf  \
jar ali-phoenix-4.12.0-AliHBase-1.1-0.4-Final/ali-phoenix-4.12.0-AliHBase-1.1-0.4-Final-client.jar \
org.apache.phoenix.mapreduce.ODPSBulkLoadTool \
--table "TABLE1" \
--access_id "xxx" \
--access_key "xxx" \
--odps_url  "http://odps-ext.aliyun-inc.com/api" \
--odps_tunnel_url "http://dt-ext.odps.aliyun-inc.com" \
--odps_project "hbaseport" \
--odps_table "odps_test" \
--odps_partition_number 15  \
--zookeeper "zk1,zk2,zk3" \
--output "hdfs://{hdfs-name-service}/tmp/tmp_data"

6.验证

Phoenix 表数据验证

0: jdbc:phoenix:localhost> select count(*) from TABLE1;
+-----------+
| COUNT(1)  |
+-----------+
| 3124856   |
+-----------+
1 row selected (4.618 seconds)
0: jdbc:phoenix:localhost> select count(*) from V1_IDX;
+-----------+
| COUNT(1)  |
+-----------+
| 3124856   |
+-----------+
1 row selected (3.149 seconds)
0: jdbc:phoenix:localhost> select count(*) from V2_IDX;
+-----------+
| COUNT(1)  |
+-----------+
| 3124856   |
+-----------+
1 row selected (4.386 seconds)
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
11月前
|
SQL 消息中间件 分布式计算
Apache Doris 系列: 入门篇-数据导入及查询
Apache Doris 系列: 入门篇-数据导入及查询
487 0
|
11月前
|
SQL 关系型数据库 Apache
Apache Doris 系列: 入门篇-创建数据表
Apache Doris 系列: 入门篇-创建数据表
606 0
|
3月前
|
SQL 存储 分布式计算
Apache Kylin 概述
Apache Kylin 概述
|
10月前
|
SQL 分布式计算 Hadoop
44 Hive简介
44 Hive简介
47 0
|
SQL 消息中间件 关系型数据库
Flink SQL Client综合实战
使用工具Flink SQL Client完成各种实时处理的操作
303 0
Flink SQL Client综合实战
|
分布式计算 分布式数据库 Scala
Spark查询Hbase小案例
写作目的 1)正好有些Spark连接HBase的需求,当个笔记本,到时候自己在写的时候,可以看 2)根据rowkey查询其实我还是查询了好久才找到,所以整理了一下 3)好久没发博客了,水一篇
200 0
Spark查询Hbase小案例
|
SQL BI API
【Flink】(十五)Flink SQL / Table 介绍与实战
【Flink】(十五)Flink SQL / Table 介绍与实战
164 0
【Flink】(十五)Flink SQL / Table 介绍与实战
|
SQL 存储 分布式计算
BigData之Hive:Hive数据管理的简介、下载、案例应用之详细攻略
BigData之Hive:Hive数据管理的简介、下载、案例应用之详细攻略
|
分布式计算 资源调度 Java
HBase&MR 集成官方案例 | 学习笔记
快速学习 HBase&MR 集成官方案例。
231 0
|
SQL 分布式数据库 数据库
Phoenix(HBase SQL)核心功能原理及应用场景介绍
概况了Phoenix(云HBase SQL) ) 入门到精通系列大多数内容,介绍了核心功能原理,相关生态工具及应用场景
13146 0
Phoenix(HBase SQL)核心功能原理及应用场景介绍