备案控制台

开发者社区问答正文

Spark - 从Hive读取并创建没有案例类的强类型数据集

我使用spark来从Hive表中读取数据，而我真正想要的是强类型 Dataset

这就是我在做的，这是有效的：

val myDF = spark.sql("select col1, col2 from hive_db.hive_table")

// Make sure that the field names in the case class exactly match the hive column names
case class MyCaseClass (col1: String, col2: String)

val myDS = myDF.as[myCaseClass]
我遇到的问题是我的Hive表非常长而且很多列都是结构体，因此定义case类并不容易。

有没有办法创建一个Dataset无需创建案例类？我想知道，因为Hive已经定义了所有列名以及数据类型，有没有办法Dataset直接创建？

展开

收起

社区小助手 2018-12-05 14:51:38 2467 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

TL; DR简短的回答是没有这样的选择。Dataset是根据存储的类型定义的Encoder，所以你不能只是跳过类型。
在实践中，您可以探索不同的选项，包括Scala反射，宏和代码生成，以从表metatdata派生所需的类型。其中的一些已经被成功地用于（您可以检查宏的用法ScalaRelational或代码生成ScalaLikeJDBC）来解决类似的问题。如今，没有内置工具在Apache Spark中扮演类似的角色。
但是，如果模式非常复杂，出于多种原因可能是死路一条，包括但不限于：
“类型”转换的运行时开销。
平台限制，例如限制JVM方法的参数数量（请参阅例如SI-7324）或JVM代码大小限制。
可用性，尤其是在使用Scala反射时。虽然代码生成可以提供相当不错的用户体验，但剩下的选项可能并不比使用简单命名的包Any（又名o.a.s.sql.Row）更好。

2019-07-17 23:18:23

赞同展开评论

问答分类：

SQL 分布式计算 HIVE Spark

问答标签：

Hive案例 Hive spark spark Hive apache spark Hive apache spark案例

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce开启使用DLF统一元数据后本地开发spark程序想访问emr hive中...

80

0

0

通过spark-sql客户端往hive的一个表随便插入一条数据，然后在hive中查询这个表报错.

301

1

0

大数据计算MaxCompute 执行 Hive Sql 时，用的什么引擎啊，是Spark 吗？

108

1

0

通过spark-sql往hive的一个表随便插入一条数据，然后在hive中查询这个表报错

164

0

0

MaxCompute Spark是否支持交互式和流计算类需求

81

1

0

Flink CDC同步到hudi 可以直接读取hudi 的数据吗例如用hive 或者spark？

119

2

0

Flink CDC写入了hive 后，要实时的出数据在页面展现吗？

96

0

0

各位，Flink 的离线计算的数据是怎么存放的？是存在 HDFS（或Hive）上的吗？

1808

6

0

flink1.16不支持hive2.1了吗？

854

1

0

flink CDC可以直接将mysql中的数据直接写入到hive中吗？

786

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云短信服务工程师连我方发送记录只会收阿里云错误码都不知道吗？

qwen3-32b和qwen-2.5-32b-Instruct有什么区别

我就想把本地的 vm 虚拟机迁移到 ECS，整的这些文档又臭又长，有这精力你录个视频不行吗？

为什么现在连qwen3-coder 之类的模型都不能选了，就一个智能回答？

biz.util.invokeWorkbench这个api打开窗口方式变了

相关文章

Linux环境下 java程序提交spark任务到Yarn报错

阿里云大数据AI产品月刊-2025年9月

AI Agent新范式：FastGPT+MCP协议实现工具增强型智能体构建

报表没完没了做不完，可能并不是程序员的问题

智能体协作革命：基于LangGraph实现复杂任务自动分工

还有其他疑问?