文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构】

2019-11-26 4591

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 传统Lambda架构组件多运维复杂，如何使用一套存储和一套计算来实现流批架构充分享受技术红利？以Delta Lake为代表的新型数据湖方案越来越流行，传统的Lambda架构如何向数据湖架构进行扩展？以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。

议题：

Tablestore结合Spark的云上流批一体大数据架构

直播间直达（回看）链接：

https://developer.aliyun.com/live/1716

简介：

传统Lambda架构组件多运维复杂，如何使用一套存储和一套计算来实现流批架构充分享受技术红利？以Delta Lake为代表的新型数据湖方案越来越流行，传统的Lambda架构如何向数据湖架构进行扩展？以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。

讲师：

王卓然花名琸然阿里云存储服务技术专家

时间：

2019年11月28日 19：00-20：00
请钉钉扫码至群内观看直播，与嘉宾互动有机会获得社区礼物一份。

文章标签：

开源大数据平台 E-MapReduce

云原生大数据计算服务 MaxCompute

表格存储

分布式计算

Spark

NoSQL

大数据

关键词：

apache spark架构

spark架构

云原生大数据计算服务 MaxCompute架构

apache spark大数据

spark云原生大数据计算服务 MaxCompute

开源大数据EMR

目录

相关文章

青云交（Java大数据AI云原生Python）

|

11月前

|

负载均衡算法关系型数据库

大数据大厂之MySQL数据库课程设计：揭秘MySQL集群架构负载均衡核心算法：从理论到Java代码实战，让你的数据库性能飙升！

本文聚焦 MySQL 集群架构中的负载均衡算法，阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法，分析各自优缺点及适用场景。并提供 Java 语言代码实现示例，助力直观理解。文章结构清晰，语言通俗易懂，对理解和应用负载均衡算法具有实用价值和参考价值。

青云交（Java大数据AI云原生Python）

572 14 15

大数据大厂之MySQL数据库课程设计：揭秘MySQL集群架构负载均衡核心算法：从理论到Java代码实战，让你的数据库性能飙升！

游客2cgvtedhdpwze

|

10月前

|

存储 SQL 分布式计算

19章构建企业级大数据平台：从架构设计到数据治理的完整链路

开源社区：贡献者路径：从提交Issue到成为Committer 会议演讲：通过DataWorks Summit提升影响力标准制定：白皮书撰写：通过DAMA数据治理框架认证专利布局：通过架构设计专利构建技术壁垒

游客2cgvtedhdpwze

494 0 0

大熊计算机

|

10月前

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

519 0 0

赵渝强老师

|

7月前

|

存储分布式计算资源调度

【赵渝强老师】阿里云大数据MaxCompute的体系架构

阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案，适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成，支持多种计算任务的统一调度与管理。

赵渝强老师

625 1 1

Echo_Wish

|

9月前

|

消息中间件分布式计算大数据

“一上来就搞大数据架构？等等，你真想清楚了吗？”

“一上来就搞大数据架构？等等，你真想清楚了吗？”

Echo_Wish

171 1 1

游客7wkr3y7oxyt7a

|

8月前

|

SQL 存储监控

流处理 or 批处理？大数据架构还需要流批一体吗?

简介：流处理与批处理曾是实时监控与深度分析的两大支柱，但二者在数据、代码与资源上的割裂，导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升，传统架构难以为继，流批一体应运而生。它旨在通过逻辑、存储与资源的统一，实现一套系统、一套代码同时支持实时与离线处理，提升效率与一致性，成为未来大数据架构的发展方向。

游客7wkr3y7oxyt7a

458 0 0

青云交（Java大数据AI云原生Python）

|

10月前

|

数据采集搜索推荐算法

Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用（274）

本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用，涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索，为教育数字化转型提供完整技术解决方案。

青云交（Java大数据AI云原生Python）

406 10 10

游客2cgvtedhdpwze

|

10月前

|

架构师 Oracle 大数据

从大数据时代变迁到数据架构师的精通之路

无论从事何种职业，自学能力都显得尤为重要。为了不断提升自己，我们可以尝试建立一套个性化的知识目录或索引，通过它来发现自身的不足，并有针对性地进行学习。对于数据架构师而言，他们需要掌握的知识领域广泛而深入，不仅包括硬件、网络、安全等基础技术，还要了解应用层面，并熟练掌握至少一门编程语言。同时，深入理解数据库技术、具备大数据实操经验以及精通数据仓库建模和ELT技术也是必不可少的。只有这样，数据架构师才能具备足够的深度和广度，应对复杂的业务和技术挑战。构建个人知识体系是数据架构师在学习和工作中的一项重要任务。通过系统化、不断深化的知识积累，数据架构师能够有效应对快速变化的商业环境和技术革新，进一

游客2cgvtedhdpwze

226 1 1

蒋星熠Jaxonic

|

6月前

|

Cloud Native Serverless API

微服务架构实战指南：从单体应用到云原生的蜕变之路

🌟蒋星熠Jaxonic，代码为舟的星际旅人。深耕微服务架构，擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验，探索技术演进的无限可能。

蒋星熠Jaxonic

624 4 5

微服务架构实战指南：从单体应用到云原生的蜕变之路

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS解析 - 云上大数据高性能数据湖存储方案

玩转阿里云EMR三部曲-中级篇集成自有服务

Apache Spark 3.0 将内置支持 GPU 调度

钉钉群直播【Spark Relational Cache 原理和实践】

HBase写性能优化

开源深度学习库BigDL在阿里云E-MapReduce上的实践

开源大数据周刊-第97期

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

诗悦游戏基于DLF与EMR StarRocks降本38%

基于DLF构建实时数据湖

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

淘宝闪购基于阿里云 EMR Serverless Spark&Paimon的湖仓实践：超大规模下的特征生产&多维分析双提效

有奖实践：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

大模型RAG实战：从零搭建专属知识库问答助手

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

阿里云表格存储使用教程

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

开通oss服务