SparkSQL初识_4

简介: 快速学习SparkSQL初识_4

开发者学堂课程【大数据实时计算框架Spark快速入门SparkSQL初识_4】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/100/detail/1701


SparkSQL初识4


内容简介:


一、Dataframe 的最佳搭档-- Spark SQL

二、RDD 与 DataFrame 的区别

三、创建 DataFrame


一、Dataframe 的最佳搭档-- Spark SQL


Spark SQL 是 Spark 的核心组件之一, 于2014年4月随 Spark 1.0版一同面世,在 Spark 1.3当中,Spark SQL  终于从 alpha 阶段毕业,除了部分  developer API以外,所有的公共API都已经稳定,可以放心使用了。

Spark 1.3更加完整的表达了 Spark SQL 的愿景:让开发者用更精简的代码处理尽量少的数据,同时让 Spark SQL 自动优化执行过程,以达到降低开发成本,提升数据分析执行效率的目的。为此,在 Spark 1.3中引入了与 R 和 Python Pandas 接口类似的 DataFrame API。

与 RDD 类似, DataFrame  也是一个分布式数据容器。然而 DataFrame 更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即 schema.同时,与 Hive 类似,DataFrame 也支持故套数培类型( struct、 array和map) 。从 API 易用性的角度上看, DataFrame API 提供的是一套高层的关系操作,比函数式的  RDD API  要更加友好,门槛更低。由于与 R 和 Pandas 的 DataFrame 类似,Spark DataFrame 很好地继承了传统单机数据分析的开发体验。


二、RDD 与 DataFrame 的区别


RDD VS DataFrame( RDD 对比 DataFrame)

the Catalyst optimizer 优化器

Tungsten execution engine 钨丝计划

 

三、创建 DataFrame


http://spark.apache.org/docs/latest/sql-programming-guide.html

val sc: SparkContext // An existing SparkContext.

val sql Context =new org. apache.spark. sql. SQLContext(sc)

//this is used to implicitly convert an RDD to a DataFrame.

import sql Context. implicits

相关文章
|
自然语言处理 算法 数据处理
持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)
Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的 Whisper 模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等,用以提高模型的运行效率。 本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践,看看效率如何。
持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)
|
11月前
|
Java 调度 Spring
Spring之定时任务基本使用篇
本文介绍了在Spring Boot项目中使用定时任务的基本方法。主要通过`@Scheduled`注解实现,需添加`@EnableScheduling`开启定时任务功能。文中详细解析了Cron表达式的语法及常见实例,如每秒、每天特定时间执行等。此外,还探讨了多个定时任务的执行方式(并行或串行)及其潜在问题,并留待后续深入讨论。
393 64
|
12月前
|
人工智能 内存技术
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
谷歌推出的实验性推理模型Gemini 2.0 Flash Thinking,展示了详细的思考过程,能够在多个领域快速解决问题,并提供推理路径。本文将详细介绍该模型的功能、技术原理及使用限制。
591 26
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
|
10月前
|
JSON 监控 API
速卖通商品列表接口(速卖通API系列)
速卖通提供商品列表API,开发者可通过关键词、类目、价格范围等条件获取商品标题、价格、销量等基本信息。使用前需注册开发者账号、创建应用并授权获取access_token。Python示例代码展示了如何调用接口,返回JSON格式数据,包含商品列表、总数、页码等信息。应用场景包括商品监控、数据分析和个性化推荐。注意API会更新,请参考官方文档。
|
11月前
|
敏捷开发 存储 API
《小型开发者在鸿蒙Next上的成本与收益平衡之道》
鸿蒙Next系统的开发对小型开发者存在一定挑战。学习成本方面,需掌握新架构和API;开发成本受功能复杂度影响,经验不足会增加支出;设备成本因多设备测试需求较高;市场推广成本受限于资金资源。然而,鸿蒙系统也带来机遇:用户群体庞大、创新空间广阔、华为激励政策支持。通过利用开源资源、敏捷开发、聚焦垂直领域及合作,小型开发者可在鸿蒙生态中实现成功并获得收益。
407 4
|
存储 JSON API
精选6个C++项目,推荐新人练手首选!(上)
精选6个C++项目,推荐新人练手首选!
精选6个C++项目,推荐新人练手首选!(上)
|
SQL 前端开发 JavaScript
前端三剑客之JavaScript基础入门
前端三剑客之JavaScript基础入门
195 1
|
Web App开发 自然语言处理 数据可视化
Selenium36万条数据告诉你:网易云音乐热评究竟有什么规律?
Selenium36万条数据告诉你:网易云音乐热评究竟有什么规律?
203 4
Selenium36万条数据告诉你:网易云音乐热评究竟有什么规律?
|
数据采集 存储 JavaScript
JS逆向案例:巨潮资讯数据采集
JS逆向案例:巨潮资讯数据采集
384 0
|
安全 算法 网络安全

热门文章

最新文章