Spark

首页 标签 Spark
# Spark #
关注
9134内容
Spark修炼之道(高级篇)——Spark源码阅读:第一节 Spark应用程序提交流程
作者:摇摆少年梦 微信号: zhouzhihubeyond spark-submit 脚本应用程序提交流程 在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下: root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# .
开源大数据技术专场(下午):Databricks、Intel、阿里、梨视频的技术实践
本论坛第一次聚集阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家,讲述Hadoop生态的过去现在未来及阿里在Hadoop大生态领域的实践与探索。
| |
来自: 云存储
日志服务(SLS)集成 Spark 流计算实战
日志服务集成 Spark 流式计算:使用Spark Streaming和Structured Streaming对采集到日志服务中的数据进行消费,计算并将结果写回到日志服务。
阿里云网络增强型云服务器计算型、通用型和内存型有什么区别?
阿里云网络增强型云服务器具有网络延迟低超强的网路收发包能力,网络增强型云服务器又分为计算型、通用型和内存型,那么三者有什么区别?新手站长网分享计算型、通用型和内存型网络增强云服务器的区别: 计算型、通用型和内存型之间的区别 计算型、通用型和内存型网络增强型云服务器的详细区别可以对比:ECS云服务器实例规格族官方详解 - 阿里云,官方有详细的对比说明: 相同之处CPU处理器:2.
趣头条基于 Flink 的实时平台建设实践
本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink 现状,Flink 应用以及未来计划四部分分享。
| |
来自: 数据库
深入理解 Apache Spark Delta Lake 的事务日志
深入理解 Apache Spark Delta Lake 的事务日志 事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。
开源深度学习库BigDL在阿里云E-MapReduce上的实践
近些年来机器学习中的子领域深度学习成为一个热门的话题。本文要介绍Intel开源的深度学习框架BigDL,它也是在Spark上的一个算法库,提供了全面的深度学习算法支持,包括数值计算(Tensor)和高阶神经网络等。
说说阿里增量计算框架Galaxy
增量计算模型 (一) 背景 Galaxy是阿里数据平台事业部,实时计算组自研的增量计算框架。今年双十一,阿里直播大屏就是Galaxy支持和保障的重要业务之一,相信大家可能看过双十一之后网上一些介绍性的文章了,比如 阿里研发实时计算平台 每秒运算量将超千万 ,不过这篇文章面向非技术人员,最后的比喻也是有点醉。还这篇比较新的  阿里巴巴实时数据公共层助力双11媒体直播 。
| |
来自: 数据库
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算
部分RDS和POLARDB For MySQL的用户曾遇到如下场景:当一张表的数据达到几千万时,你查询一次所花的时间会变多。 这时候采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。 本文将介绍如何把这些水平分表的表归档到X-Pack Spark数仓,做统一的大数据计算。
免费试用