备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

2020-07-08 885

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： 为什么要优化spark时间窗口- 未加速前面临问题- 为什么要使用llvm加速而不是继续优化jvm codegen- 实现介绍-llvm 版本sql引擎设计- 如何与spark集成- benchmark数据 vs spark3.0

讲师：

王太泽
第四范式特征工程数据库负责人
曾在百度担任资深研发工程师
一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。

时间：

7月9日 19：00

观看直播方式：

扫描下方二维码入群，或届时进入直播间（回看链接）
https://developer.aliyun.com/live/43443

直播介绍

为什么要优化spark时间窗口
未加速前面临问题
为什么要使用llvm加速而不是继续优化jvm codegen
实现介绍-llvm 版本sql引擎设计
如何与spark集成
benchmark数据 vs spark3.0

7月9日.png

文章标签：

开源大数据平台 E-MapReduce

Java

C++

机器学习/深度学习

分布式计算

SQL

Spark

数据库

关键词：

apache spark计算

apache spark SparkSQL

apache spark窗口

apache spark时间

apache spark社区

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

阿里云E-MapReduce团队

目录

相关文章

Maynor

|

2月前

|

设计模式 SQL 分布式计算

Spark Day06：Spark Core之Spark 内核调度和SparkSQL快速入门

Spark Day06：Spark Core之Spark 内核调度和SparkSQL快速入门

Maynor

61 0 0

是Yu欸

|

8月前

|

SQL 机器学习/深度学习分布式计算

Spark5：SparkSQL

Spark5：SparkSQL

是Yu欸

89 0 0

孙玉洁-47170

|

2月前

|

SQL 分布式计算 API

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

孙玉洁-47170

102 2 2

编程达人

|

JavaScript CDN

js：spark-md5分片计算文件的md5值

js：spark-md5分片计算文件的md5值

编程达人

927 0 0

1279963611608989

|

10天前

|

分布式计算 Serverless 数据处理

Serverless Spark计算服务

Serverless Spark计算服务

1279963611608989

24 0 0

月亮给我抄代码

|

2月前

|

SQL 分布式计算关系型数据库

Spark 分析计算连续三周登录的用户数

本文介绍了如何使用窗口函数`range between`来查询`login_time`为2022-03-10的用户最近连续三周的登录数。首先在MySQL中创建`log_data`表并插入数据，接着定义需求为找出该日期前连续三周活跃的用户数。通过Spark SQL，分步骤实现：1)确定统计周期，2)筛选符合条件的数据，3)计算用户连续登录状态。在初始实现中出现错误，因未考虑日期在周中的位置，修正后正确计算出活跃用户数。

月亮给我抄代码

46 6 6

月亮给我抄代码

|

2月前

|

SQL 分布式计算 Spark

【指标计算】Spark 计算指定用户与其他用户购买的相同商品

该代码示例使用Spark SQL解决查找指定用户（user01）与其他用户共同购买商品的问题。首先，创建SparkSession和模拟购买数据，然后通过SQL查询获取user01购买的商品集合。接着，对比所有用户购买记录，筛选出购买过相同商品且非user01的用户。输出显示了这些匹配用户的商品ID。关键在于使用`array_contains`函数检查商品是否在指定用户的购买列表中。遇到类似需求时，可参考Spark SQL官方函数文档。欢迎讨论复杂指标计算问题。

月亮给我抄代码

38 4 4

FrancekChen

|

2月前

|

SQL 分布式计算 Hadoop

Spark分布式内存计算框架

Spark分布式内存计算框架

FrancekChen

68 0 0

孙玉洁-47170

|

2月前

|

SQL 分布式计算 Java

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

孙玉洁-47170

194 1 1

极客李华

|

2月前

|

分布式计算算法数据挖掘

Spark中的图计算库GraphX是什么？请解释其作用和常用操作。

Spark中的图计算库GraphX是什么？请解释其作用和常用操作。

极客李华

48 1 1

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

现代流式计算的基石：Google DataFlow

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS概述：云原生的大数据计算存储分离方案

【译】使用Spark SQL 运行大规模基因组工作流

钉钉群直播【Spark Relational Cache 原理和实践】

Flume NG 简介及配置实战

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

使用Hive进行OSS数据处理的一个最佳实践

通过 EMR Serverless Spark 提交 PySpark 流任务

【综合能源】含氢气氨气综合能源系统优化调度【免费】

深度分析：Apache Kafka及其在大数据处理中的应用

阿里云 EMR StarRocks VS 开源版本功能差异介绍

【评测有奖】参加 EMR Serverless Spark 产品评测，赢机械键盘、充电宝等礼品！

EMR Serverless Spark：结合实时计算 Flink 基于 Paimon 实现流批一体

客户案例 | 阿里云向量检索 Milvus 版在识货电商检索场景的应用与实践

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

阿里云 EMR Serverless Spark 版开启免费公测

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

使用Flink实时发现最热Github项目

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）