备案控制台

开发者社区问答正文

Spark/Spark SQL 访问表格存储教程（Spark 访问示例）

Spark 访问示例

以下示例介绍如何使用 Spark 程序统计数据表 pet 的行数。 private static RangeRowQueryCriteria fetchCriteria() { RangeRowQueryCriteria res = new RangeRowQueryCriteria("YourTableName"); res.setMaxVersions(1); List<PrimaryKeyColumn> lower = new ArrayList<PrimaryKeyColumn>(); List<PrimaryKeyColumn> upper = new ArrayList<PrimaryKeyColumn>(); lower.add(new PrimaryKeyColumn("YourPkeyName", PrimaryKeyValue.INF_MIN)); upper.add(new PrimaryKeyColumn("YourPkeyName", PrimaryKeyValue.INF_MAX)); res.setInclusiveStartPrimaryKey(new PrimaryKey(lower)); res.setExclusiveEndPrimaryKey(new PrimaryKey(upper)); return res; } public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("RowCounter"); JavaSparkContext sc = new JavaSparkContext(sparkConf); Configuration hadoopConf = new Configuration(); TableStoreInputFormat.setCredential( hadoopConf, new Credential("YourAccessKeyId", "YourAccessKeySecret")); TableStoreInputFormat.setEndpoint( hadoopConf, new Endpoint("http://YourInstance.Region.ots.aliyuncs.com/")); TableStoreInputFormat.addCriteria(hadoopConf, fetchCriteria()); try { JavaPairRDD<PrimaryKeyWritable, RowWritable> rdd = sc.newAPIHadoopRDD( hadoopConf, TableStoreInputFormat.class, PrimaryKeyWritable.class, RowWritable.class); System.out.println( new Formatter().format("TOTAL: %d", rdd.count()).toString()); } finally { sc.close(); } }

[backcolor=transparent]注意：如果使用 scala，只需把 JavaSparkContext 换成 SparkContext，JavaPairRDD 换成 PairRDD 即可。或者更简单，交给编译器自行做类型推断。

运行程序$ bin/spark-submit --master local --jars hadoop-connector.jar row-counter.jar TOTAL: 9

展开

收起

云栖大讲堂 2017-10-25 10:41:05 2423 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

这个示例展示了如何使用 Apache Spark 来统计阿里云表格存储（Table Store，原 OTS）中数据表的行数。下面是对代码段的关键部分进行解释：

初始化Spark配置与上下文:
```
SparkConf sparkConf = new SparkConf().setAppName("RowCounter");
JavaSparkContext sc = new JavaSparkContext(sparkConf);
```
这里设置了Spark应用的名字为"RowCounter"并创建了JavaSparkContext，它是Spark程序的主要入口点。

配置Hadoop环境以接入表格存储:

Configuration hadoopConf = new Configuration();
TableStoreInputFormat.setCredential(hadoopConf, 
   new Credential("YourAccessKeyId", "YourAccessKeySecret"));
TableStoreInputFormat.setEndpoint(hadoopConf, 
   new Endpoint("http://YourInstance.Region.ots.aliyuncs.com/"));

配置Hadoop环境时，需要设置访问表格存储所需的凭证（AccessKeyId和AccessKeySecret）以及OTS实例的Endpoint地址。

定义查询范围:
```
private static RangeRowQueryCriteria fetchCriteria() { ... }
```
通过fetchCriteria方法定义了一个查询条件，用于从指定的表格（"YourTableName"）中获取所有记录。这里使用了最小值和最大值作为主键范围，意味着要检索整个表的数据。

读取数据并计数:

JavaPairRDD<PrimaryKeyWritable, RowWritable> rdd = 
   sc.newAPIHadoopRDD(hadoopConf, 
       TableStoreInputFormat.class, 
       PrimaryKeyWritable.class, 
       RowWritable.class);
System.out.println(new Formatter().format("TOTAL: %d", rdd.count()).toString());

使用newAPIHadoopRDD方法读取表格存储中的数据，并将其转换为Spark的RDD（弹性分布式数据集）。然后调用count方法计算数据集中元素的数量，即表中的行数。

运行程序: 在命令行中，使用spark-submit命令提交作业，指定了本地模式运行、依赖的hadoop-connector.jar以及主类或jar包路径。输出结果显示表中有9行数据。

注意：确保在运行此示例之前，已经正确安装了Spark环境，并且将阿里云表格存储的Hadoop Connector jar包（hadoop-connector.jar）添加到了Spark的类路径中。此外，替换示例中的"YourTableName"、"YourPkeyName"、"YourAccessKeyId"、"YourAccessKeySecret"以及Endpoint URL为实际的值。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

存储 SQL 分布式计算编译器 Spark 表格存储

问答标签：

SQL示例 apache spark SQL SQL spark SQL教程 apache spark访问

问答地址：

开发者社区 > 大数据 > 问答

相关问答

使用表格存储SQL查询功能时如何排除大小写敏感

87

1

0

给一段与ECS操作相关的SQL代码示例？

71

1

0

云数据仓库ADB Spark SQL访问MaxCompute数据源-支持的库表操作

124

1

0

在给出的 SQL 结构示例中，如何表示一个函数调用表达式（如 upper(name)）？

67

1

0

在表格存储中官网的spark这样读取OTS能否设置连接OTS的超时参数？

102

1

0

大数据计算MaxCompute sql查询平台，数据地图，数据调度等均无法访问，为什么？

90

0

0

为从MaxCompute提取数据并写入Hologre，上面的SQL语句如何编写，可以提供一个示例吗？

60

0

0

云数据仓库ADB Spark SQL访问OSS外表-（可选）步骤五：删除外表

111

1

0

怎么可以通过云函数计算来访问DMS的SQL数据库呢？

153

1

0

在表格存储中请问sdk的sql查询，可以查时序模型吗？

104

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

当Supabase遇上RDS——如何高效构建轻量级应用？

阿里云SSL证书价格一年多少钱？有免费的吗？

阿里云4核8G云服务器多少钱？一年、1个月或1小时收费价格查询

如何用"乐高式开发"实现前后端分离？

2025阿里云双十一优惠活动开启了吗？

相关文章

springboot项目集成大数据第三方dolphinscheduler调度器执行/停止任务

StarRocks 4.0：Real-Time Intelligence on Lakehouse

构建有记忆的 AI Agent：SQLite 存储 + 向量检索完整方案示例

throws 有没有性能影响，应该怎么合理使用

Neo4j-图数据库入门图文保姆攻略

还有其他疑问?