备案控制台

开发者社区问答正文

将hdfs数据写入到phoenix

1、spark方式：官网写入数据有不行，报org.apache.phoenix.mapreduce.PhoenixOutputFormat这个类找不到，但是我这累的jar我确定我已经导入了。
2、CsvBulkLoadTool导入数据，可不可以自定义分割符
3、使用jdbc写入数据，但是大量数据不行

展开

收起

hbase小能手 2018-11-07 16:26:09 3827 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

我是管理员

社区管理员
可以将csv文件上传至hdfs，然后使用spark读取csv，创建rdd，再使用phoenix的spark驱动，批量保存数据到hbase中。
举例
第一种方式：saveRDDs
import org.apache.spark.SparkContext
import org.apache.phoenix.spark._

val sc = new SparkContext("local", "phoenix-test")
val dataSet = List((1L, "1", 1), (2L, "2", 2), (3L, "3", 3))

sc
.parallelize(dataSet)
.saveToPhoenix(
```
"OUTPUT_TEST_TABLE",
Seq("ID","COL1","COL2"),
zkUrl = Some("phoenix-server:2181")
```
)

第二种方式：save Dataframes
import org.apache.spark.SparkContext
import org.apache.spark.sql._
import org.apache.phoenix.spark._

// Load INPUT_TABLE
val sc = new SparkContext("local", "phoenix-test")
val sqlContext = new SQLContext(sc)
val df = sqlContext.load("org.apache.phoenix.spark", Map("table" -> "INPUT_TABLE",
"zkUrl" -> hbaseConnectionString))

// Save to OUTPUT_TABLE
df.save("org.apache.phoenix.spark", SaveMode.Overwrite, Map("table" -> "OUTPUT_TABLE",
"zkUrl" -> hbaseConnectionString))

参考phoenix官方：https://phoenix.apache.org/phoenix_spark.html
2019-07-17 23:12:44

赞同展开评论

问答分类：

分布式计算 Java 数据库连接 Spark

问答标签：

文件存储HDFS版数据

问答地址：

开发者社区 > 大数据 > 问答

相关问答

各位，Flink 的离线计算的数据是怎么存放的？是存在 HDFS（或Hive）上的吗？

1695

6

0

通过HDFS将数据切成多个小块导致查询效率低该怎么办？

1692

1

0

HDFS写数据是怎么写的呀？

495

1

0

Java中HDFS写数据时有那些问题啊？

1274

1

0

Java中为什么HDFS不能很快的读取数据啊？

1333

1

0

Java中HDFS作为一个分布式文件系统且存储大量数据不适合什么情况啊？

1585

1

0

Java中HDFS数据被写入后还能改变数据的值吗？

1460

1

0

我现在碰到了批处理读取数据不落盘，全读完才去sink，这个临时文件我要怎么去找，是在hdfs里面吗？

482

1

0

请问一下从hdfs load数据到hive中 hive数据全部为null是什么情况呢，hdfs数据

1467

1

0

各位，有没有碰到过flinkcdc采集后的数据映射不到hdfs上，只出现. hoodie，怎么办？

436

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

传统动画创作 VS AI动画创作，你更偏向哪一个？

2025 年 AI 产业会迎来全面爆发吗？

在魔塔社区-模型服务里面一键部署的deepseek模型怎么使用？

开源PolarDB-X｜follow节点的binlog日志没有自动清理

通义灵码在vscode中无法正确工作

相关文章

EF应用阿里云上的 Salesforce，刷新客户服务体验

今天的功德，在通义代码模式攒足了......

【源码】【Java并发】【线程池】邀请您从0-1阅读ThreadPoolExecutor源码

重磅发布！AI 驱动的 Java 开发框架：Spring AI Alibaba

从理论到实践：使用JAVA实现RAG、Agent、微调等六种常见大模型定制策略

还有其他疑问?