文档备案控制台

开发者社区大数据文章正文

[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子

2017-12-19 2318

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
$ cat customers.txt
1 Ali us
2 Bsb ca
3 Carls mx

$ hive

hive>
> CREATE TABLE IF NOT EXISTS customers(
> cust_id string,
> name string,
> country string
> )
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

hive> load data local inpath '/home/training/customers.txt' into table customers;

hive>exit

$pyspark

sqlContext =HiveContext(sc)
filterDF=sqlContext.sql(""" SELECT * FROM customers WHERE name LIKE "A%" """)

filterDF.limit(3).show()

+-------+----+-------+
|cust_id|name|country|
+-------+----+-------+
| 001| Ani| us|
+-------+----+-------+

本文转自健哥的数据花园博客园博客，原文链接：http://www.cnblogs.com/gaojian/p/7634234.html，如需转载请自行联系原作者

文章标签：

SQL

Python

HIVE

分布式计算

Spark

关键词：

Hive spark

hive apache spark

spark Hive

Hive表

python apache spark

嗯哼9925

目录

相关文章

路边两盏灯

|

SQL 自然语言处理数据库

【Azure Developer】分享两段Python代码处理表格(CSV格式)数据 : 根据每列的内容生成SQL语句

本文介绍了使用Python Pandas处理数据收集任务中格式不统一的问题。针对两种情况：服务名对应多人拥有状态（1/0表示），以及服务名与人名重复列的情况，分别采用双层for循环和字典数据结构实现数据转换，最终生成Name对应的Services列表（逗号分隔）。此方法高效解决大量数据的人工处理难题，减少错误并提升效率。文中附带代码示例及执行结果截图，便于理解和实践。

路边两盏灯

384 5 5

游客kufrkwrbkmpsa

|

SQL Oracle 关系型数据库

【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法

【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法

游客kufrkwrbkmpsa

310 1 1

瓴羊Dataphin

|

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

535 4 4

bruce_xiaowei

|

SQL 存储数据挖掘

使用Python和PDFPlumber进行简历筛选：以SQL技能为例

本文介绍了一种使用Python和`pdfplumber`库自动筛选简历的方法，特别是针对包含“SQL”技能的简历。通过环境准备、代码解析等步骤，实现从指定文件夹中筛选出含有“SQL”关键词的简历，并将其移动到新的文件夹中，提高招聘效率。

bruce_xiaowei

585 8 8

使用Python和PDFPlumber进行简历筛选：以SQL技能为例

游客kufrkwrbkmpsa

|

SQL Oracle 关系型数据库

【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法

本文来自YashanDB官网，介绍如何处理Oracle客户端sql*plus中使用@@调用同级目录SQL脚本的场景。崖山数据库23.2.x.100已支持@@用法，但旧版本可通过Python脚本批量重写SQL文件，将@@替换为绝对路径。文章通过Oracle示例展示了具体用法，并提供Python脚本实现自动化处理，最后调整批处理脚本以适配YashanDB运行环境。

游客kufrkwrbkmpsa

300 0 0

武子康

|

SQL 分布式计算 Hadoop

Hadoop-12-Hive 基本介绍下载安装配置 MariaDB安装 3台云服务Hadoop集群架构图对比SQL HQL

Hadoop-12-Hive 基本介绍下载安装配置 MariaDB安装 3台云服务Hadoop集群架构图对比SQL HQL

武子康

451 3 3

游客nsyhaoxcmeiq6

|

SQL 数据挖掘 Python

数据分析编程：SQL,Python or SPL?

数据分析编程用什么，SQL、python or SPL?话不多说，直接上代码，对比明显，明眼人一看就明了：本案例涵盖五个数据分析任务：1) 计算用户会话次数；2) 球员连续得分分析；3) 连续三天活跃用户数统计；4) 新用户次日留存率计算；5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。

游客nsyhaoxcmeiq6

417 0 0

涛7453243251

|

SQL 安全数据库

Python防止SQL注入攻击的方法

Python防止SQL注入攻击的方法

涛7453243251

767 0 0

1919324350086154

|

SQL 机器学习/深度学习数据采集

SQL与Python集成：数据库操作无缝衔接2a.bijius.com

Python与SQL的集成是现代数据科学和工程实践的核心。通过有效的数据查询、管理与自动化，可以显著提升数据分析和决策过程的效率与准确性。随着技术的不断发展，这种集成的应用场景将更加广泛，为数据驱动的创新提供更强大的支持。

1919324350086154

298 0 0

武子康

|

SQL 分布式计算关系型数据库

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

武子康

492 0 0

热门文章

最新文章

Spark SQL玩起来

Spark SQL性能优化

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

Spark 与 MapReduce 的 Shuffle 的区别？

基于Spark技术的银行客户数据分析

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

《Spark大数据处理：技术、应用与性能优化》——2.2　Spark集群初试

网易云信 x Doris：降本70%、提速11倍，统一 ES/InfluxDB/Hive 多技术栈的落地实践

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

Hive的基础操作指南

分布式存储数据恢复—hbase和hive数据库数据恢复案例

【YashanDB知识库】DataX迁移Hive到崖山分布式

【YashanDB知识库】Hive 命令工具insert崖山数据库报错

【YashanDB 知识库】Hive 命令工具 insert 崖山数据库报错

【YashanDB知识库】hive初始化崖山报错YAS-04209

【YashanDB知识库】hive初始化崖山报错YAS-04209

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！