大模型
产品
解决方案
权益
定价
云市场
伙伴
服务
了解阿里云
查看 “
” 全部搜索结果
AI 助理
文档
备案
控制台
开发者社区
首页
MaxCompute
Hologres
Flink
E-MapReduce
DataWorks
Elasticsearch
PAI
智能搜索推荐
Milvus
DataV
免费试用
探索云世界
热门
百炼大模型
Modelscope模型即服务
弹性计算
通义灵码
云原生
数据库
云效DevOps
龙蜥操作系统
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
数据可视化DataV
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
镜像站
开发者社区
大数据与机器学习
开源大数据平台 E-MapReduce
文章
正文
Apache Spark 系列技术直播 - Spark SQL进阶与实战
2018-12-05
3441
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
简介:
Spark SQL进阶与实战 Spark相关组件介绍 Spark及其依赖组件 Hive Metastore介绍 Spark Thrift Server介绍 表与ETL Spark表基本概念 Spark建表最佳实践 Spark ETL最佳实践 动态分区表示例分析 Spark SQL查询最佳实践 Sp.
Spark SQL进阶与实战
Spark相关组件介绍
Spark及其依赖组件
Hive Metastore介绍
Spark Thrift Server介绍
表与ETL
Spark表基本概念
Spark建表最佳实践
Spark ETL最佳实践
动态分区表示例分析
Spark SQL查询最佳实践
Spark SQL查询常见问题
Join优化策略
数据倾斜优化策略
详情请查看附件
欢迎加入钉钉群收看直播回放
入群方式:
文章标签:
开源大数据平台 E-MapReduce
SQL
Apache
分布式计算
Spark
HIVE
关键词:
Apache技术
apache spark SQL
apache spark实战
apache spark技术
SQL spark
开源大数据EMR
目录
相关文章
SelectDB
|
7月前
|
消息中间件
OLAP
Kafka
Apache Doris 实时更新技术揭秘:为何在 OLAP 领域表现卓越?
Apache Doris 为何在 OLAP 领域表现卓越?凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现,在分析领域展现了独特的实时更新能力。
SelectDB
677
9
9
大熊计算机
|
9月前
|
人工智能
分布式计算
大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
大熊计算机
452
0
0
JJLIN距离
|
6月前
|
消息中间件
监控
Java
Apache Kafka 分布式流处理平台技术详解与实践指南
本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统,Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制,帮助开发者构建可靠、可扩展的实时数据流处理系统。
JJLIN距离
582
4
4
郑小健
|
分布式计算
大数据
Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
郑小健
1090
2
3
Echo_Wish
|
12月前
|
存储
分布式计算
Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
Echo_Wish
602
79
80
Aron_NeAr
|
8月前
|
SQL
JSON
分布式计算
Spark SQL架构及高级用法
Spark SQL基于Catalyst优化器与Tungsten引擎,提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行,支持复杂数据类型、窗口函数与多样化聚合操作,结合自适应查询与代码生成技术,实现高性能大数据分析。
Aron_NeAr
549
2
3
蚂蚁数据智能技术
|
8月前
|
人工智能
自然语言处理
测试技术
新晋社区PMC李攀:“在Apache Fory,技术实力是唯一的通行证”
一起走近开源项目的幕后英雄——PMC成员
蚂蚁数据智能技术
283
0
0
NineData
|
10月前
|
安全
Apache
数据库
【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup,5月24日深圳见!
5月24日,NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域,邀请行业专家分享技术趋势、产品实践及解决方案,助力企业构建高效安全的数据管理体系。时间:14:00-17:30;地点:深圳新一代产业园2栋20楼会议室。线下名额有限(80人),速报名参与深度交流!
NineData
283
1
1
SelectDB
|
11月前
|
存储
SQL
缓存
Apache Doris & SelectDB 技术能力全面解析
本文将对 Doris & SelectDB 适合的分析场景和技术能力进行概述解析
SelectDB
1698
1
1
瓴羊Dataphin
|
SQL
分布式计算
资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
瓴羊Dataphin
449
4
4
大数据与机器学习
开源大数据平台 E-MapReduce
热门文章
最新文章
1
分布式快照算法: Chandy-Lamport
2
如何使用Kafka Connect实现同步RDS binlog数据
3
JindoFS解析 - 云上大数据高性能数据湖存储方案
4
阿里封神-大数据处理技术漫谈
5
5W1H(六何分析法)全景洞察大数据
6
基于Spark Streaming 进行 MySQL Binlog 日志准实时传输
7
开源大数据周刊-第90期
8
在 Apache Spark 中利用 HyperLogLog 函数实现高级分析
9
Apache Spark 3.0 将内置支持 GPU 调度
10
HBase写性能优化
1
诗悦游戏基于DLF与EMR StarRocks降本38%
135
2
基于DLF构建实时数据湖
129
3
数仓-湖仓-湖流,人力家基于阿里云OpenLake架构演进与思考
147
4
淘宝闪购基于阿里云 EMR Serverless Spark&Paimon的湖仓实践:超大规模下的特征生产&多维分析双提效
237
5
有奖实践:EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能
461
6
大模型RAG实战:从零搭建专属知识库问答助手
682
7
大模型微调技术入门:从核心概念到实战落地全攻略
493
8
活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台
267
9
0 基础建站?PageAdmin CMS 10 分钟搞定,源码免费拿!
499
10
EMR AI助手开启公测:用AI重塑大数据运维,更简单、更智能
331
相关课程
更多
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第四阶段
大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第六阶段
大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段
大数据实时计算框架Spark快速入门
相关电子书
更多
Hybrid Cloud and Apache Spark
Scalable Deep Learning on Spark
Comparison of Spark SQL with Hive
推荐镜像
更多
apache
下一篇
云安全中心:病毒查杀