文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

2020-06-22 928

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题相对传统实现方式我们优势 SparkSQL实时上线demo

讲师：

王太泽
第四范式特征工程数据库负责人
曾在百度担任资深研发工程师
一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。

时间：

6月23日 19：00

观看直播方式：

扫描下方二维码入群，或届时进入直播间（回看链接）
https://developer.aliyun.com/live/43347?spm=a2c6h.12873587.0.0.127052c22xBiZl

直播介绍

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题

SparkSQL 转换成实时执行成本高
离线特征和在线特征保持一致困难
离线效果与在线效果差距大

我们是如何解决这些问题
相对传统实现方式我们优势
SparkSQL实时上线demo

6月23.png

文章标签：

客服工作台

开源大数据平台 E-MapReduce

机器学习/深度学习

分布式计算

SQL

Spark

数据库

关键词：

apache spark SQL

客服工作台模型

技术客服工作台

apache spark技术

SQL spark

阿里云E-MapReduce团队

目录

相关文章

Aron_NeAr

|

12月前

|

SQL JSON 分布式计算

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

Aron_NeAr

823 2 3

游客s67t3mdq4gcco

|

存储自然语言处理机器人

基于的Qwen模型的智能客服Discord机器人，使用🐫 CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent

基于Qwen模型的智能客服Discord机器人，使用CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent。构建了一个能够处理复杂问题并能进行快速响应的强大聊天机器人。该机器人可在Discord平台上运行，支持实时对话和语义搜索，提供准确、全面的回答。项目包含详细的安装步骤、代码示例及集成指南，适合开发者快速上手。

游客s67t3mdq4gcco

1223 36 39

瓴羊Dataphin

|

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

517 4 4

技术小达人

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

2245 0 0

东方睿赢

|

SQL 数据管理关系型数据库

SQL转换秘籍：Vanna+Qwen双剑合璧，轻松实现私有模型转换》——揭秘如何利用Vanna和Qwen这两款神级工具，让你的SQL数据管理和转换如虎添翼！

【9月更文挑战第1天】2

东方睿赢

1134 5 5

赵渝强老师

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

498 0 0

wljslmz

|

SQL 存储分布式计算

如何使用 Spark SQL 从 DataFrame 查询数据？

【8月更文挑战第13天】

wljslmz

925 4 4

武子康

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

689 0 0

武子康

|

SQL 分布式计算算法

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

武子康

340 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS解析 - 云上大数据高性能数据湖存储方案

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

HIVE MapJoin异常问题处理总结

漫谈分布式计算框架

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

5W1H(六何分析法)全景洞察大数据

玩转阿里云EMR三部曲-中级篇集成自有服务

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

诗悦游戏基于DLF与EMR StarRocks降本38%

基于DLF构建实时数据湖

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

相关课程

更多

SQL完全自学手册

SQL Server on Linux入门教程

SQL入门与实践

大数据实时计算框架Spark快速入门

数据库及SQL/MySQL基础

SQL进阶及查询

相关电子书

更多

SQL Server 2017

GeoMesa on Spark SQL

原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili

相关实验场景

更多

以客服场景意图分类为例写Prompt（提示词）

一小时快速掌握SQL语法

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！