在文件存储HDFS版上使用 TensorFlow

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储OSS,敏感数据保护2.0 200GB 1年
简介: 本文介绍如何在文件存储HDFS版上使用 TensorFlow。

一 目的

本文介绍如何在文件存储HDFS版上使用 TensorFlow。


二 背景信息

TensorFlow 是一个采用数据流图(Data Flow Graphs)用于数值计算的开源软件库。

注意:TensorFlow 对文件系统的 Scheme 有特别的指定,目前在文件存储HDFS版上使用 TensorFlow 时需要对TensorFlow 源码进行修改,您可参考第四章节重新编译安装 TensorFlow。


三 准备工作

  1. 开通文件存储HDFS版服务并创建文件系统实例和挂载点,详情请参见:快速入门
  2. 在 Hadoop 集群所有节点上安装JDK。版本不能低于1.8。
  3. 在 Hadoop 集群中配置文件存储HDFS版实例,详情请参见:挂载文件系统
  4. 根据您目前使用的 TensorFlow 版本下载源码,下载地址:官方链接。本文档中使用的 TensorFlow 版本为 2.5.2。


四 配置 TensorFlow 支持文件存储HDFS版

4.1 添加文件存储HDFS版支持

在 TensorFlow 源码中添加对文件存储HDFS支持 PatchSupport aliyun HDFS

说明:TensorFlow 代码版本差异较大,如果您使用的 TensorFlow 非 2.5.2 版本,遇到代码问题,可以联系文件存储HDFS版团队协助。


4.2 编译TensorFlow

按照 4.1 章节对TensorFlow源码修改进行编译,编译步骤请参考官方编译文档:Build from source


五 验证

参考以下步骤,通过 TensorFlow 读取文件存储HDFS版上的数据进行连通性验证:

## 在文件存储HDFS版上创建测试文件hadoop fs -mkdir  dfs://f-xxxx.cn-xxxx.dfs.aliyuncs.com:10290/test_tensorflow
hadoop fs -touchz  dfs://f-xxxx.cn-xxxx.dfs.aliyuncs.com:10290/test_tensorflow/words
echo"hello tensorflow" | hadoop fs -appendToFile- dfs://f-xxxx.cn-xxxx.dfs.aliyuncs.com:10290/test_tensorflow/words
## 使用 TensorFlow 查看文件存储HDFS版上的数据## 其中 f-xxxx.cn-xxxx.dfs.aliyuncs 为您的文件系统挂载点域名, 需根据实际情况进行修改。>>> import tensorflow as tf
>>> tf.__version__
'2.5.2'>>> tf.io.gfile.listdir('dfs://f-xxxx.cn-xxxx.dfs.aliyuncs.com:10290/test_tensorflow')
['words']
>>> with tf.compat.v2.io.gfile.GFile('dfs://f-xxxx.cn-xxxx.dfs.aliyuncs.com:10290/test_tensorflow/words') as rf:
...     rf.read()
...
'hello tensorflow\n'


了解更多关于文件存储HDFS版的产品信息,欢迎访问https://www.aliyun.com/product/alidfs

如果您对文件存储HDFS版有任何问题,欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

目录
相关文章
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用TFRecord和HDFS准备TensorFlow训练数据
本文将介绍如何将数据转化为TFRecord格式,并且将生成TFRecord文件保存到HDFS中, 这里我们直接使用的是阿里云EMR(E-MapReduce)的HDFS服务。
18221 0
|
7月前
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
712 70
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
457 6
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
181 3
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
263 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
141 4
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
441 5
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
187 4
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
490 4
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
308 4

热门文章

最新文章