大模型
产品
解决方案
权益
定价
云市场
伙伴
服务
了解阿里云
查看 "" 全部搜索结果
AI 助理
文档
备案
控制台
开发者社区
首页
MaxCompute
Hologres
Flink
E-MapReduce
DataWorks
Elasticsearch
PAI
智能搜索推荐
Milvus
DataV
免费试用
探索云世界
热门
百炼大模型
Modelscope模型即服务
弹性计算
通义灵码
云原生
数据库
云效DevOps
龙蜥操作系统
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
数据可视化DataV
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
镜像站
开发者社区
大数据与机器学习
开源大数据平台 E-MapReduce
文章
正文
Apache Spark 系列技术直播 - Spark SQL进阶与实战
2018-12-05
3468
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
简介:
Spark SQL进阶与实战 Spark相关组件介绍 Spark及其依赖组件 Hive Metastore介绍 Spark Thrift Server介绍 表与ETL Spark表基本概念 Spark建表最佳实践 Spark ETL最佳实践 动态分区表示例分析 Spark SQL查询最佳实践 Sp.
Spark SQL进阶与实战
Spark相关组件介绍
Spark及其依赖组件
Hive Metastore介绍
Spark Thrift Server介绍
表与ETL
Spark表基本概念
Spark建表最佳实践
Spark ETL最佳实践
动态分区表示例分析
Spark SQL查询最佳实践
Spark SQL查询常见问题
Join优化策略
数据倾斜优化策略
详情请查看附件
欢迎加入钉钉群收看直播回放
入群方式:
文章标签:
开源大数据平台 E-MapReduce
SQL
Apache
分布式计算
Spark
HIVE
关键词:
Apache技术
apache spark SQL
apache spark实战
apache spark技术
SQL spark
开源大数据EMR
目录
相关文章
TiAmoZhang
|
8月前
|
SQL
数据可视化
关系型数据库
MCP与PolarDB集成技术分析:降低SQL门槛与简化数据可视化流程的机制解析
阿里云PolarDB与MCP协议融合,打造“自然语言即分析”的新范式。通过云原生数据库与标准化AI接口协同,实现零代码、分钟级从数据到可视化洞察,打破技术壁垒,提升分析效率99%,推动企业数据能力普惠化。
TiAmoZhang
617
3
3
wiker24
|
SQL
存储
关系型数据库
【SQL技术】不同数据库引擎 SQL 优化方案剖析
不同数据库系统(MySQL、PostgreSQL、Doris、Hive)的SQL优化策略。存储引擎特点、SQL执行流程及常见操作(如条件查询、排序、聚合函数)的优化方法。针对各数据库,索引使用、分区裁剪、谓词下推等技术,并提供了具体的SQL示例。通用的SQL调优技巧,如避免使用`COUNT(DISTINCT)`、减少小文件问题、慎重使用`SELECT *`等。通过合理选择和应用这些优化策略,可以显著提升数据库查询性能和系统稳定性。
wiker24
661
9
10
游客nsyhaoxcmeiq6
|
SQL
存储
算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
游客nsyhaoxcmeiq6
317
1
1
龙大吉
|
分布式计算
大数据
Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
龙大吉
478
1
1
游客qsxez56gggwqy
|
SQL
安全
数据库
sql注入技术
sql注入技术
游客qsxez56gggwqy
234
2
2
阿里云开发者
|
SQL
机器学习/深度学习
自然语言处理
Text-to-SQL技术演进 - 阿里云OpenSearch-SQL在BIRD榜单夺冠方法剖析
本文主要介绍了阿里云OpenSearch在Text-to-SQL任务中的最新进展和技术细节。
阿里云开发者
1191
8
8
蓝易云
|
SQL
安全
数据库
基于SQL Server事务日志的数据库恢复技术及实战代码详解
基于事务日志的数据库恢复技术是SQL Server中一个非常强大的功能,它能够帮助数据库管理员在数据丢失或损坏的情况下,有效地恢复数据。通过定期备份数据库和事务日志,并在需要时按照正确的步骤恢复,可以最大限度地减少数据丢失的风险。需要注意的是,恢复数据是一个需要谨慎操作的过程,建议在执行恢复操作之前,详细了解相关的操作步骤和注意事项,以确保数据的安全和完整。
蓝易云
777
0
0
土木林森
|
测试技术
Java
揭秘Struts 2测试的秘密:如何打造无懈可击的Web应用?
【8月更文挑战第31天】在软件开发中,确保代码质量的关键在于全面测试。对于基于Struts 2框架的应用,结合单元测试与集成测试是一种有效的策略。单元测试聚焦于独立组件的功能验证,如Action类的执行逻辑;而集成测试则关注组件间的交互,确保框架各部分协同工作。使用JUnit进行单元测试,可通过简单示例验证Action类的返回值;利用Struts 2 Testing插件进行集成测试,则可模拟HTTP请求,确保Action方法正确处理请求并返回预期结果。这种结合测试的方法不仅提高了代码质量和可靠性,还保证了系统各部分按需协作。
土木林森
164
0
0
wljslmz
|
SQL
数据挖掘
数据库
SQL中的重复行删除:技术与策略
【8月更文挑战第31天】
wljslmz
542
0
0
土木林森
|
SQL
数据管理
关系型数据库
SQL分区表技术的奥秘:如何用分区策略让你的大规模数据飞起来?
【8月更文挑战第31天】在现代软件开发中,处理大规模数据是常见挑战,而SQL分区表技术提供了一种高效的解决方案。本文详细介绍了SQL分区表的概念、类型(范围、列表、哈希和键分区)及其创建与维护方法,并通过示例代码展示了如何添加、删除和重组分区。遵循了解查询模式、定期维护分区及使用数据库性能工具等最佳实践,可以帮助开发者更高效地进行数据管理。随着SQL生态的发展,分区表技术将在未来发挥更大作用。
土木林森
305
0
0
大数据与机器学习
开源大数据平台 E-MapReduce
热门文章
最新文章
1
分布式快照算法: Chandy-Lamport
2
Spark in action on Kubernetes - Playground搭建与架构浅析
3
JindoFS解析 - 云上大数据高性能数据湖存储方案
4
如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue
5
基于Alluxio系统的Spark DataFrame高效存储管理技术
6
HIVE MapJoin异常问题处理总结
7
漫谈分布式计算框架
8
阿里封神-大数据处理技术漫谈
9
5W1H(六何分析法)全景洞察大数据
10
助力云上开源生态 - 阿里云开源大数据平台的发展
1
迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升
118
2
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
293
3
一套底座支撑多场景:高德地图基于 Paimon + StarRocks 轨迹服务实践
208
4
EMR Serverless Spark 携手 PAI/百炼,开启“SQL 即 AI”的新篇章
179
5
诗悦游戏基于DLF与EMR StarRocks降本38%
267
6
基于DLF构建实时数据湖
215
7
数仓-湖仓-湖流,人力家基于阿里云OpenLake架构演进与思考
284
8
淘宝闪购基于阿里云 EMR Serverless Spark&Paimon的湖仓实践:超大规模下的特征生产&多维分析双提效
452
9
有奖实践:EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能
601
10
大模型RAG实战:从零搭建专属知识库问答助手
1129
相关课程
更多
SQL完全自学手册
SQL Server on Linux入门教程
SQL入门与实践
Apache Flink 入门
数据库及SQL/MySQL基础
SQL进阶及查询
相关电子书
更多
Apache Flink技术进阶
Apache Spark: Cloud and On-Prem
Hybrid Cloud and Apache Spark
推荐镜像
更多
apache
下一篇
阿里云重磅发布Agentic SOC,企业级AI Agent驱动的安全运营平台