文档备案控制台

开发者社区 Python技术进阶文章正文

[雪峰磁针石博客]大数据Hadoop工具python教程２-python访问HDFS

2019-01-28 1766

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： https://pypi.org/project/hdfs3　已经不维护PyArrow https://pypi.org/project/hdfs/https://pypi.org/project/snakebite/　python2中比较好，对python3支持不好。

https://pypi.org/project/hdfs3　已经不维护
PyArrow
https://pypi.org/project/hdfs/
https://pypi.org/project/snakebite/　python2中比较好，对python3支持不好。

hdfs和PyArrow比较常用，这里以hdfs为例：

　快速入门

from hdfs import InsecureClient
client = InsecureClient('http://localhost:50070', user='hduser_')

fs_folders_list = client.list("/")
print(fs_folders_list)
with client.read('/user/hduser/input.txt', encoding='utf-8') as reader:
    for line in reader:
        print(line)

执行结果：

['user']
https://china-testing.github.io/

https://diogoalexandrefranco.github.io/interacting-with-hdfs-from-pyspark/
https://www.thomashenson.com/hadoop-python-example/
https://blog.cloudera.com/blog/2013/01/a-guide-to-python-frameworks-for-hadoop/

https://community.hortonworks.com/articles/92321/interacting-with-hadoop-hdfs-using-python-codes.html
http://yizhanggou.top/python%E8%AE%BF%E9%97%AEhdfs%E7%9A%84%E5%87%A0%E7%A7%8D%E6%96%B9%E5%BC%8F/
https://blog.csdn.net/Gamer_gyt/article/details/52446757

文章标签：

云原生大数据计算服务 MaxCompute

Python

大数据

分布式计算

Hadoop

关键词：

Python大数据

Python教程

Python访问

Python工具

云原生大数据计算服务 MaxCompute python

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

python人工智能命理

目录

相关文章

Q一个好的名字容易让人记住你2483558220

|

9月前

|

存储分布式计算大数据

基于Python大数据的的电商用户行为分析系统

本系统基于Django、Scrapy与Hadoop技术，构建电商用户行为分析平台。通过爬取与处理海量用户数据，实现行为追踪、偏好分析与个性化推荐，助力企业提升营销精准度与用户体验，推动电商智能化发展。

Q一个好的名字容易让人记住你2483558220

1603 4 5

Q一个好的名字容易让人记住你2483558220

|

9月前

|

数据可视化关系型数据库 MySQL

基于python大数据的的海洋气象数据可视化平台

针对海洋气象数据量大、维度多的挑战，设计基于ECharts的可视化平台，结合Python、Django与MySQL，实现数据高效展示与交互分析，提升科研与决策效率。

Q一个好的名字容易让人记住你2483558220

435 1 1

Q一个好的名字容易让人记住你2483558220

|

9月前

|

机器学习/深度学习大数据关系型数据库

基于python大数据的台风灾害分析及预测系统

针对台风灾害预警滞后、精度不足等问题，本研究基于Python与大数据技术，构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率，结合Django框架实现动态可视化与实时预警，为防灾决策提供科学支持，显著提高应急响应效率，具有重要社会经济价值。

Q一个好的名字容易让人记住你2483558220

719 4 4

Q一个好的名字容易让人记住你2483558220

|

9月前

|

数据可视化大数据关系型数据库

基于python大数据技术的医疗数据分析与研究

在数字化时代，医疗数据呈爆炸式增长，涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展，结合Python、MySQL与B/S架构，推动医疗系统高效实现。

Q一个好的名字容易让人记住你2483558220

442 3 3

Q一个好的名字容易让人记住你2483558220

|

9月前

|

机器学习/深度学习大数据关系型数据库

基于python大数据的青少年网络使用情况分析及预测系统

本研究基于Python大数据技术，构建青少年网络行为分析系统，旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据，运用机器学习实现精准行为预测与实时干预，推动数字治理向“数据驱动”转型，为家庭、学校及政府提供科学决策支持，助力青少年健康上网。

Q一个好的名字容易让人记住你2483558220

752 2 2

蓝易云

|

10月前

|

数据采集存储 XML

Python爬虫技术：从基础到实战的完整教程

最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.

蓝易云

1105 19 19

Python技术进阶

热门文章

最新文章

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

MaxCompute问答整理之9月

AI加持的阿里云飞天大数据平台技术揭秘

2016大数据创新大赛——机场客流量的时空分布预测模型解析

阿里云TSDB在大数据集群监控中的方案与实战

如何使用Tunnel SDK上传/下载MaxCompute复杂类型数据

GIS：开源webgl大数据地图类库整理

MaxFrame：链接大数据与AI的高效分布式计算框架深度评测与实践！

大数据真的在云计算上的快车上吗？

MaxCompute操作报错合集之通过UDF（用户定义函数）请求外部数据库资源并遇到报错，是什么原因

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

ClickHouse如何整合数据源：MySQL、HDFS...

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

【赵渝强老师】基于RBF的HDFS联邦架构

【赵渝强老师】基于ViewFS的HDFS联邦架构

【赵渝强老师】HDFS数据上传和下载的过程

大数据-140 - ClickHouse 集群表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

相关课程

更多

大数据Impala教程

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第四阶段）

2020版大数据实战项目之DMP广告系统（第六阶段）

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

推荐镜像

更多

python-release

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！