Spark的搜索结果_热门_第4页-阿里云开发者社区

百遇

|

博文

开源大数据技术专场（下午）:Databricks、Intel、阿里、梨视频的技术实践

本论坛第一次聚集阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家，讲述Hadoop生态的过去现在未来及阿里在Hadoop大生态领域的实践与探索。

# 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 分布式计算 # 大数据 # Spark # 流计算 # API # 对象存储 # Hadoop # SQL # 搜索推荐

新手站长网

|

博文

阿里云网络增强型云服务器计算型、通用型和内存型有什么区别？

阿里云网络增强型云服务器具有网络延迟低超强的网路收发包能力，网络增强型云服务器又分为计算型、通用型和内存型，那么三者有什么区别？新手站长网分享计算型、通用型和内存型网络增强云服务器的区别：计算型、通用型和内存型之间的区别计算型、通用型和内存型网络增强型云服务器的详细区别可以对比：ECS云服务器实例规格族官方详解 - 阿里云，官方有详细的对比说明：相同之处CPU处理器：2.

# 云服务器 ECS # 弹性计算 # 数据挖掘 # 数据库 # 前端开发 # 缓存 # 分布式计算 # Spark # 编解码 # Hadoop # 数据处理

云学习小组

|

博文

专访HDFS committer Intel 研发经理郑锴：EC之后，HDFS下一步新思考

在作为HDFS诞生以来的最大改进——支持了纠删码（erasure coding）之后，面对这个比较完善但并不十全十美的方案，面对Hadoop开源生态，HDFS的下一步将走向何处呢？

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # Hadoop # 大数据 # Apache # Spark # 开发者 # 机器学习/深度学习 # 固态存储 # Java

公众号胖滚猪学编程

|

博文

SparkML机器学习之特征工程（一）特征提取（TF-IDF、Word2Vec、CountVectorizer）

# 机器学习/深度学习 # 分布式计算 # Spark # 算法 # Java # 搜索推荐 # 数据挖掘 # 计算机视觉

明惠

|

博文

|

来自：数据库

深入理解 Apache Spark Delta Lake 的事务日志

深入理解 Apache Spark Delta Lake 的事务日志事务日志是理解 Delta Lake 的关键，因为它是贯穿许多最重要功能的通用模块，包括 ACID 事务、可扩展的元数据处理、时间旅行（time travel）等。

# 日志服务 # 分布式计算 # Spark # 数据格式 # JSON # Apache

技术小能手

|

博文

Kaggle大神带你上榜单Top2%：点击预测大赛纪实（上）

# 机器学习/深度学习 # 分布式计算 # 算法 # 测试技术 # Spark

wqnmbdd

|

博文

说说阿里增量计算框架Galaxy

增量计算模型 (一) 背景 Galaxy是阿里数据平台事业部，实时计算组自研的增量计算框架。今年双十一，阿里直播大屏就是Galaxy支持和保障的重要业务之一，相信大家可能看过双十一之后网上一些介绍性的文章了，比如阿里研发实时计算平台每秒运算量将超千万，不过这篇文章面向非技术人员，最后的比喻也是有点醉。还这篇比较新的阿里巴巴实时数据公共层助力双11媒体直播。

# SQL # 分布式计算 # 双11 # Spark # 流计算 # API # HIVE # 调度 # 存储 # 开发者

五维空间s

|

博文

Spark基本的RDD算子之groupBy，groupByKey，mapValues

1. groupby def groupBy[K: ClassTag](f: T => K): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, numPartitions: Int): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, p: Partitioner): RDD[(K, Iterable[T])] groupBy算子接收一个函数，这个函数返回的值作为key，然后通过这个key来对里面的元素进行分组。

# 分布式计算 # Spark

Roin123

|

博文

|

来自：数据库

最佳实践 | RDS & POLARDB归档到X-Pack Spark计算

部分RDS和POLARDB For MySQL的用户曾遇到如下场景：当一张表的数据达到几千万时，你查询一次所花的时间会变多。这时候采取水平分表的策略，水平拆分是将同一个表的数据进行分块保存到不同的数据库中，这些数据库中的表结构完全相同。本文将介绍如何把这些水平分表的表归档到X-Pack Spark数仓，做统一的大数据计算。

# 云数据库 RDS MySQL 版 # 云原生数据库 PolarDB # 关系型数据库 # 分布式数据库 # 分布式计算 # Spark # PolarDB

雨客

|

博文

Spark本地模式运行

# 日志服务 # 分布式计算 # Java # Spark # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark