备案控制台

开发者社区问答正文

在Apache Flink中将自定义类写入HDFS

"在开始使用Spark之后，我试图熟悉Flink的语义。我想DataSet[IndexNode]在HDFS中写一个持久存储，以便以后可以通过另一个进程读取它。Spark有一个ObjectFile提供这种功能的简单API，但我在Flink中找不到类似的选项。

case class IndexNode(vec: Vector[IndexNode],

                 id: Int) extends Serializable {

// Getters and setters etc. here
}
内置接收器倾向于基于该toString方法序列化实例，由于该类的嵌套结构，这在这里不适合。我想解决方案是使用a FileOutputFormat并将实例转换为字节流。但是，我不确定如何序列化矢量，它具有任意长度并且可以有很多级别。
"

展开

收起

flink小助手 2018-11-28 15:56:09 5387 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

flink小助手

flink小助手会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关flink的问题及回答。
"您可以使用SerializedOutputFormat和实现此目的SerializedInputFormat。

请尝试以下步骤：

请IndexNode延长IOReadableWritable从flink接口。制作不可分割的字段@transient。实施write(DataOutputView out)和read(DataInputView in)方法。write方法将写出所有数据IndexNode，read方法将读取它们并构建所有内部数据字段。例如，我不是从类中的arr字段序列化所有数据，而是Result将所有值写出，然后将它们读回并以read方法重建数组。

class Result(var name: String, var count: Int) extends IOReadableWritable {

@transient
var arr = Array(count, count)

def this() {
```
this("""", 1)
```
}

override def write(out: DataOutputView): Unit = {
```
out.writeInt(count)
out.writeUTF(name)
```
}

override def read(in: DataInputView): Unit = {
```
count = in.readInt()

name = in.readUTF()

arr = Array(count, count)
```
}

override def toString: String = s""$name, $count, ${getArr}""

}
写出数据

myDataSet.write(new SerializedOutputFormat[Result], ""/tmp/test"")
并用它读回来

env.readFile(new SerializedInputFormat[Result], ""/tmp/test"")"
2019-07-17 23:16:48

赞同展开评论

问答分类：

存储分布式计算 API Apache 流计算 Spark 实时计算 Flink版

问答标签：

Apache flink 实时计算 Flink版Apache flink文件存储HDFS版实时计算 Flink版HDFS 实时计算 Flink版自定义

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink有使用MinIO替换HDFS么？

263

1

0

flink 读取oss-hdfs数据问题

138

1

0

flink CDC是否支持自定义?

93

0

0

flink里自定义连接器，有开发案例可以参考吗？

133

1

0

在Flink CDC中，怎么没字段 hdfs上文件也是空的？

106

0

0

在Flink CDC中，自己实现一个flink-dm-cdc链接器了，官网有相关自定义cdc得文档？

161

1

0

HDFS 在 Flink 作业中面临哪些压力？

84

1

0

Flink报错：是不是必须要指向HDFS的目录？

108

1

0

通过flink sql把数据写入hdfs，如何设置对生产的文件进行压缩？

436

1

0

为什么下载了Hadoop之后直接能够在Linux系统上运行hdfs文件呀？

1163

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

当Supabase遇上RDS——如何高效构建轻量级应用？

万小智官网链接在哪？

阿里云服务器4核8G配置多少钱？一年、1个月或1小时收费明细

相关文章

参数不是越多越好？聊聊模型规模与智能能力的那些“门道”

《理解MySQL数据库》查询执行器从执行计划到数据获取的完整流程

《理解MySQL数据库》从数据存储到日志管理的完整架构

《理解MySQL数据库》InnoDB存储引擎深度解析

Redis 搭建主从复用-读写分离和主备切换,及重要的关键词解释部分1

还有其他疑问?