Spark的搜索结果_热门_第3页-阿里云开发者社区

wqnmbdd

|

博文

增量计算模型 (一) 背景 Galaxy是阿里数据平台事业部，实时计算组自研的增量计算框架。今年双十一，阿里直播大屏就是Galaxy支持和保障的重要业务之一，相信大家可能看过双十一之后网上一些介绍性的文章了，比如阿里研发实时计算平台每秒运算量将超千万，不过这篇文章面向非技术人员，最后的比喻也是有点醉。还这篇比较新的阿里巴巴实时数据公共层助力双11媒体直播。

# SQL # 分布式计算 # 双11 # Spark # 流计算 # API # HIVE # 调度 # 存储 # 开发者

云学习小组

|

博文

专注年轻一代，基于E-MapReduce梨视频推荐系统

在2016杭州云栖大会的“开源大数据技术专场”上，梨视频大数据负责人杨智带来了《基于E-MapReduce梨视频推荐系统》的精彩分享。分享中，他重点介绍了梨视频中基于阿里云的数据处理系统和梨视频推荐系统，精彩不容错过。

# 日志服务 # 分布式计算 # 搜索推荐 # 对象存储 # 流计算 # Spark # 存储 # 大数据 # NoSQL # Redis # 数据处理

五维空间s

|

博文

Spark基本的RDD算子之groupBy，groupByKey，mapValues

1. groupby def groupBy[K: ClassTag](f: T => K): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, numPartitions: Int): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, p: Partitioner): RDD[(K, Iterable[T])] groupBy算子接收一个函数，这个函数返回的值作为key，然后通过这个key来对里面的元素进行分组。

# 分布式计算 # Spark

雨客

|

博文

Spark本地模式运行

# 日志服务 # 分布式计算 # Java # Spark # Python

寒沙牧

|

博文

|

来自：大数据与机器学习

E-MapReduce中Spark 2.x读写MaxCompute数据

最新的`aliyun-emapreduce-sdk`将`MaxCompute`数据以`DataSource`的方式接入Spark 2.x，用户可以使用类似Spark 2.x中读写`json/parquet/csv`的方式来访问MaxCompute.

# 云原生大数据计算服务 MaxCompute # 分布式计算 # MaxCompute # Spark # SQL # API

技术小能手

|

博文

大数据分析系统Hadoop的13个开源工具

# 云数据库HBase版 # 微服务引擎 # SQL # 分布式计算 # Hadoop # Apache # Spark

管理贝贝

|

博文

史上最全开源大数据工具汇总

史上最全的开源大数据工具，非常实用，请务必收藏!

# 云原生大数据计算服务 MaxCompute # 云消息队列 Kafka 版 # 日志服务 # 实时计算 Flink版 # 分布式计算 # NoSQL # Hadoop # Apache # Spark

祝威廉

|

博文

让CarbonData使用更简单

Apache CarbonData是一种新的高性能数据存储格式，针对当前大数据领域分析场景需求各异而导致的存储冗余问题，CarbonData提供了一种新的融合数据存储方案，以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景，并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能，实现百亿数据级秒级响应。

# 云数据库 RDS MySQL 版 # SQL # 分布式计算 # 关系型数据库 # HIVE # Spark

宜信技术学院

|

博文

数据中台的“自动化数据治理”时代已来

中台，我理解是能力的下沉，数据处理能力下沉为加工平台，数据处理结果下沉为数据资产。那么数据治理能否下沉？可以下沉出什么东西？

# 云原生数据仓库 AnalyticDB PostgreSQL版 # 云原生大数据计算服务 MaxCompute # 数据总线 DataHub # 分布式计算 # 中间件 # 大数据 # Spark # 流计算

博文视点

|

博文

强者联盟——Python语言结合Spark框架

Spark由AMPLab实验室开发，其本质是基于内存的快速迭代框架，“迭代”是机器学习最大的特点，因此非常适合做机器学习。得益于在数据科学中强大的表现，Python语言的粉丝遍布天下，如今又遇上强大的分布式内存计算框架Spark，两个领域的强者走到一起，自然能碰出更加强大的火花（Spark可以翻译为火花），因此本文主要讲述了PySpark。

# 分布式计算 # Hadoop # Spark # 流计算 # Python

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark