Spark的搜索结果_热门_第8页-阿里云开发者社区

大数据资讯

|

博文

作为一个hadoop入门级的新手，你会觉得哪些地方很难呢？运行环境的搭建恐怕就已经足够让新手头疼。如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起，一次安装搞定所有，那对于新手来说将是件多么美妙的事情！

# 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # 大数据 # Hadoop # Spark # 流计算 # HIVE # 机器学习/深度学习 # Hbase # 分布式数据库

那年的坏人

|

博文

spark源码分析Master与Worker启动流程篇

spark 源码分析系列，spark版本1.5.2

# 分布式计算 # Shell # Spark # 内存技术 # 网络架构 # 调度 # 网络安全

hbase小能手

|

博文

|

来自：数据库

HBase实操 | 使用Spark通过BulkLoad快速导入数据到HBase

HBase社区直播本期分享专家：明惠(网名：过往记忆)-阿里云数据架构师视频地址： https://yq.aliyun.com/live/590?spm=a2c4e.11155435.0.0.460177969kCLxf PPT地址： https://yq.aliyun.com/download/3033 PS：欢迎关注HBase+Spark团队号 https://yq.aliyun.com/teams/382 博客，问答，直播，各类HBase资料，线下meetup都会发布到这里。

# 云数据库HBase版 # SQL # 分布式计算 # 分布式数据库 # Spark # Hbase

ganos

|

博文

重磅|阿里云HBase Ganos全新升级，推空间、时空、遥感一体化基础云服务

9.5日，阿里云数据库时空引擎HBase Ganos联合X-Pack Spark实现重磅升级，推出集空间、时空、遥感一体化V2.5新版本。

# 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 分布式计算 # 分布式数据库 # Spark # Hbase

小猫吃鱼569

|

博文

【Spark Summit East 2017】提升Python与Spark的性能和互操作性

本讲义出自Wes McKinney在Spark Summit East 2017上的演讲，对于使用Python编程以及并行化和扩大数据处理方面，Spark已成为一个受欢迎和成功的框架，但是在很多案例中，使用PySpark的任务处理要比使用Scala编写的效率差，而且在Python环境与Spark主机之间推拉数据也将增加开销，本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题。

# 分布式计算 # 大数据 # Spark # Python # MaxCompute # Scala # 数据处理

许鹏

|

博文

Apache Spark源码走读（六）Task运行期之函数调用关系分析 &存储子系统分析

本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回；以及对存储子系统进行分析。

# 存储 # 分布式计算 # Scala # Spark # 前端开发 # API # 网络架构 # 缓存 # 数据库管理 # 安全

cu.eric.lee

|

博文

|

来自：云原生

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

# 容器服务Kubernetes版 # 对象存储 # 分布式计算 # 大数据 # 对象存储 # Spark # 容器

wwwgood2012

|

博文

spark shuffle服务开启

# 分布式计算 # Spark # Hadoop # 资源调度

小金子

|

博文

使用Spark框架中文分词统计

技术 Spark+中文分词算法对爬取的网站文章的关键词进行统计，是进行主题分类，判断相似性的一个基础步骤。例如，一篇文章大量出现“风景”和“酒店”之类的词语，那么这篇文章归类为“旅游”类的概率就比较大。

# 自然语言处理 # 分布式计算 # 算法 # Spark # 索引

周志湖

|

博文

Machine Learning on Spark——第四节统计基础（二)

作者：周志湖微信号：zhouzhihubeyond 本节主要内容 Correlation 相关性分析分层采样（Stratified sampling）随机数据生成（Random data generation） 1. Correlation 相关性分析相关性分析用于研究两个随机变量之间的依赖关系，它是统计学当中的一种十分重要的方法，在Spark中只实现

# 分布式计算 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark