Spark的搜索结果_热门_第5页-阿里云开发者社区

yq传送门

|

博文

今天的首篇文章，讲述了：今年的双11已经是阿里资深前端技术专家舒文来阿里的第11年，从应届生到双11前端PM，他一路升级打怪，实现了岗位上从P4到P9的晋升。这第11届双11顺利结束之际，他把在阿里这些年的成长经历做一个总结和分享，希望你能在他的故事中得到些许启发。

# 前端开发 # Cloud Native # 定位技术 # 双11 # 微服务 # 开发者 # 安全 # 分布式计算 # Spark # Hbase

寒沙牧

|

博文

|

来自：大数据与机器学习

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能，用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

# 开源大数据平台 E-MapReduce # SQL # 调度 # 分布式计算 # Spark

小猪佩佩

|

博文

常见的七种Hadoop和Spark项目案例

大数据中比较火爆的Hadoop、Spark和Storm，最常见的七种项目你们是否已经了解到位了呢，下面一起了解一下吧一、数据整合称之为“企业级数据中心”或“数据湖”，这个想法是你有不同的数据源，你想对它们进行数据分析。

# 存储 # 分布式计算 # 数据中心 # Spark # Hadoop # 流计算 # Hbase # 分布式数据库 # SQL # HIVE

云计算小粉

|

博文

在内存计算时代，看阿里如何用Spark来进行实践与探索

本文PPT来自阿里云技术专家曹龙（花名：封神）于10月16日在2016年杭州云栖大会上发表的《阿里巴巴Spark实践与探索——内存计算时代》。

# 分布式计算 # Spark # 机器学习/深度学习 # 流计算 # 弹性计算 # Hadoop # 存储 # 数据处理 # 资源调度 # 异构计算

身行

|

博文

专访阿里云高级技术专家吴威：Kafka、Spark和Flink类支持流式计算的软件会越来越流行

大数据领域一定会朝着更加实时、更加智能、数据更加多样化的方向前进。Kafka、Spark和Flink之类的支持流式计算的软件会越来越流行，同时各类机器学习平台和工具也会越来越成熟。

# 云消息队列 Kafka 版 # 实时计算 Flink版 # 云原生大数据计算服务 MaxCompute # 消息中间件 # 分布式计算 # 大数据 # Spark # 流计算 # Hadoop # 运维 # Kafka # 云栖大会 # 弹性计算

祝威廉

|

博文

CarbonData集群模式体验

官方提供了一个快速上手的 Quick-Start ，不过是采用spark-shell local模式的。我这里在实际集群环境做了下测试，并且记录了下过程，希望对大家有所帮助。

# 云数据库 RDS MySQL 版 # SQL # 分布式计算 # Java # HIVE # Spark # Hadoop # 存储 # 数据安全/隐私保护 # 5G # 开发工具

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功！ EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。本次分享，揭秘TPC-DS 榜单第一名背后的强大引擎，探索Pyboot如何打通大数据生态，一同学习业内最新的存储方案和机器学习平台。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 大数据 # Spark # Apache # Hadoop # 人工智能 # 存储 # 机器学习/深度学习 # SQL # 弹性计算

thinktothings

|

博文

Spark 2.4.0编程指南--Spark SQL UDF和UDAF

## 技能标签 - 了解UDF 用户定义函数（User-defined functions, UDFs） - 了解UDAF （user-defined aggregate function), 用户定义的聚合函数 - UDF示例(统计行数据字符长度) - UDF示例(统计行数据字符转大写) ...

# SQL # 缓存 # 分布式计算 # Apache # Spark # Java # Scala # Hadoop # HIVE

蓝天0802

|

博文

Spark性能优化

Spark的性能分析和调优很有意思，今天再写一篇。主要话题是shuffle，当然也牵涉一些其他代码上的小把戏。以前写过一篇文章，比较了几种不同场景的性能优化，包括portal的性能优化，web service的性能优化，还有Spark job的性能优化。Spark的性能优化有一些特殊的地方，比如

# 分布式计算 # 算法 # Spark # 关系型数据库 # Oracle # 数据处理 # SQL

sh_jepson

|

博文

记录CDH Spark2的spark2-submit的一个No such file or directory问题

运行: 在测试的CDH Spark2, 运行spark streaming，命令如下：点击(此处)折叠或打开 spark2-submit \ --class com.

# 分布式计算 # Java # Shell # Apache # Spark