备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

2019-05-21 1141

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

直播回看点我

本周我们邀请了圈内大神祝威廉给群内的同学做直播分享

祝威廉，资深数据架构，11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台，降低AI落地成本相关工作上。

本次分享中，分享者会阐述他心目中的数据中台的样子，并且介绍如何基于MLSQL完成数据中台的构建。
此外，分享者会也会介绍MLSQL是如何基于Spark来完成这些扩展的，重要的技术点有：

如何扩展Spark SQL使其成为一个数据专用的语言MLSQL.
如何实现对各种数据源譬如HDFS/ES/MySQL/MongoDB等细化到列的权限控制。
如何构建二层RPC通讯强化对Executor的控制，实现对机器学习更好的支持。
如何支持兼容多版本Spark
如何避免机器学习中预测阶段无法复用训练时的代码和数据

另外，我们也会简单探讨下Databricks公司新开元项目Delta对于数据和机器学习的意义。

本周四晚 7:30，千万千万别错过。转发海报给身边的朋友，让他们也一同加入Spark大家庭学习吧~
_Spark_MLSQL_

文章标签：

云原生数据仓库 AnalyticDB PostgreSQL版

大数据

机器学习/深度学习

分布式计算

Spark

关键词：

钉钉群apache spark

相关实践学习

使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL

在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。

AnalyticDB PostgreSQL 企业智能数据中台：一站式管理数据服务资产

企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景；ADB PG推出全新企业智能数据平台，用以帮助用户一站式的管理企业数据服务资产，包括创建，管理，探索，监控等；助力企业在现有平台之上快速构建起数据服务资产体系

开源大数据EMR

目录

相关文章

阿里云E-MapReduce团队

|

分布式计算大数据 Linux

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐，将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL)，很多大公司也正在实践。

阿里云E-MapReduce团队

1924 0 0

疯狂的猿

|

1月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

209 0 0

梦回故国楼台梦

|

1月前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

梦回故国楼台梦

426 1 2

程序猿～厾罗

|

1月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

119 0 0

郑小健

|

3天前

|

分布式计算大数据数据处理

Apache Spark在大数据处理中的应用

Apache Spark是大数据处理的热门工具，由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称，提供比Hadoop更快的处理速度，支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor，核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用，并讨论了其优势（高性能、易用性、通用性和集成性）和挑战。【6月更文挑战第11天】

郑小健

25 6 6

孜倦与shine

|

3天前

|

分布式计算数据可视化大数据

基于spark的医疗大数据可视化大屏项目

基于spark的医疗大数据可视化大屏项目

孜倦与shine

17 0 0

孜倦与shine

|

3天前

|

机器学习/深度学习数据采集分布式计算

基于spark的大数据分析预测地震受灾情况的系统设计

基于spark的大数据分析预测地震受灾情况的系统设计

孜倦与shine

24 1 1

孜倦与shine

|

3天前

|

分布式计算 Kubernetes Spark

大数据之spark on k8s

大数据之spark on k8s

孜倦与shine

20 2 2

1941623231718325

|

13天前

|

分布式计算 Spark 大数据

深入探究Apache Spark在大数据处理中的实践应用

【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架，以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件（包括Spark Core、SQL、Streaming和MLlib）及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用，可提升大数据处理效率，发挥其在各行业的潜力。

1941623231718325

62 3 3

1941623231718325

|

18天前

|

分布式计算 Hadoop 大数据

探索大数据技术：Hadoop与Spark的奥秘之旅

【5月更文挑战第28天】本文探讨了大数据技术中的Hadoop和Spark，Hadoop作为分布式系统基础架构，通过HDFS和MapReduce处理大规模数据，适用于搜索引擎等场景。Spark是快速数据处理引擎，采用内存计算和DAG模型，适用于实时推荐和机器学习。两者各有优势，未来将继续发展和完善，助力大数据时代的发展。

1941623231718325

61 3 3

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

现代流式计算的基石：Google DataFlow

Spark in action on Kubernetes - Playground搭建与架构浅析

使用Hive进行OSS数据处理的一个最佳实践

如何在E-MapReduce中玩转OSS

使用E-MapReduce服务将Kafka数据导入OSS

E-MapReduce结合DataV进行数据展现

E-MapReduce中Spark 2.x读写MaxCompute数据

HBase ThriftServer Kerberos认证

E-MapReduce集群搭建HAWQ实践

EMR Serverless Spark：结合实时计算 Flink 基于 Paimon 实现流批一体

客户案例 | 阿里云向量检索 Milvus 版在识货电商检索场景的应用与实践

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

阿里云 EMR Serverless Spark 版开启免费公测

文心大模型的智能体（Agent）平台

阿里巴巴的通义千问大模型

基于阿里云向量检索 Milvus 版和 LangChain 快速构建 LLM 问答系统

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

Apache Hadoop入门指南：搭建分布式大数据处理平台

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

基于DTS构建一站式实时数据服务

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

倚天大数据电商数据分析快速实践

阿里云IoT小程序应用开发和组件实践

数据上云实验：基于星轨工具的dataphin批量数据上云

【企业数据中台交付】数据回刷实验

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考