• 关于

    用 scala 写一个 wordcount ?

    的搜索结果
  • 看数据与机器学习交互接口发展

    本文章由阿里云社群直播视频整理和而来。讲师:祝威廉,资深数据架构,11年研发经验,同时维护和开发多个开源项目。 Stage1:分布式编程发展历程 1.MapReduce时代 大数据最开始的样子:MR(MR指:mapreduce,后文简称MR)在大数据领域的地位举足轻重,就不再赘述了。下面是一段使用...

    文章 琛琛轴子 2020-05-09 468浏览量

  • 浅谈 Spark 的多语言支持

    作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,先后专注在安全,存储和计算领域。之前在 Intel,目前转战阿里云上,致力于提供更好用更有弹性的 Hadoop/Spark 大数据平台。 Spark...

    文章 阿里云E-MapReduce团队 2019-04-23 4162浏览量

  • 浅谈 Spark 的多语言支持(修订版)

    作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,先后专注在安全,存储和计算领域。之前在 Intel,目前转战阿里云上,致力于提供更好用更有弹性的 Hadoop/Spark 大数据平台。 Spar...

    文章 开源大数据EMR 2019-04-23 1102浏览量

  • 万券齐发助力企业上云,爆款产品低至2.2折起!

    限量神券最高减1000,抢完即止!云服务器ECS新用户首购低至0.95折!

    广告

  • 如何在 Apache Flink 中使用 Python API?

    作者:孙金城(金竹)整理:韩非 本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家 孙金城 分享。重点为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的...

    文章 阿里云实时计算Flink 2019-09-09 3044浏览量

  • Apache Flink 零基础入门(七):Table API 编程

    作者:程鹤群(军长) 文章概述:本文主要包含三部分:第一部分,主要介绍什么是 Table API,从概念角度进行分析,让大家有一个感性的认识;第二部分,从代码的层面介绍怎么使用 Table API;第三部分,介绍 Table API 近期的动态。文章结构如下: 什么是 Table API F...

    文章 阿里云实时计算Flink 2019-09-02 1328浏览量

  • Apache Spark源码走读(六)Task运行期之函数调用关系分析 &存储子系统分析

    <一>Task运行期之函数调用关系分析 概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。 准备 spark已经安装完毕 spark运行在local mode或loc...

    文章 许鹏 2016-09-14 2305浏览量

  • 如何正确使用 Flink Connector?

    本文主要分享 Flink connector 相关内容,分为以下三个部分的内容:第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑,对社区反馈的问题进行答疑。 一.Flin...

    文章 阿里云实时计算Flink 2019-09-02 8669浏览量

  • Flink实战(三) - 编程范式及核心概念

    1 基本的 API 概念 Flink程序是实现分布式集合转换的常规程序(例如,过滤,映射,更新状态,加入,分组,定义窗口,聚合)。最初从源创建集合(例如,通过从文件,kafka主题或从本地的内存集合中读取)。结果通过接收器返回,接收器可以例如将数据写入(分布式)文件或标准输出(例如,命令行终端)。...

    文章 javaedge 2019-06-18 1205浏览量

  • Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行

    作者:沙晟阳 前言 本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。 课程内容包括: Flink 开发环境的部署和配置 运行 Flink 应用(包括:单机 Standalone 模式、多机 ...

    文章 阿里云实时计算Flink 2019-08-05 3605浏览量

  • Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行

    作者:沙晟阳 前言 本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。 课程内容包括: Flink 开发环境的部署和配置 运行 Flink 应用(包括:单机 Standalone 模式、多机 ...

    文章 Ververica 2019-07-12 1651浏览量

  • 从Storm和Spark 学习流式实时分布式计算的设计

    0. 背景 最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark...

    文章 anzhsoft 2014-08-02 2868浏览量

  • Apache Spark技术实战(一)Standalone部署模式下的临时文件清理&日志级别修改

    <一>Standalone部署模式下的临时文件清理 概要 在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件,这些临时目录和文件又是在什么时候被清理,本文将就这些问题做深入细致的解答。 从资源使用的方面来看,一个进程运行期间会利用到这四个方面的资源,分别是...

    文章 许鹏 2016-09-12 5799浏览量

  • Spark Core组件:RDD、DataFrame和DataSet

    1. 介绍 spark生态系统中,Spark Core,包括各种Spark的各种核心组件,它们能够对内存和硬盘进行操作,或者调用CPU进行计算。 spark core定义了RDD、DataFrame和DataSet spark最初只有RDD,DataFrame在Spar...

    文章 wsc449 2018-01-17 1147浏览量

  • Apache Flink 漫谈系列(13) - Table API 概述

    什么是Table API 在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示: Apache Flink 针对不同的用户场景提供了三层用户API,最下层Pr...

    文章 金竹 2019-01-08 3997浏览量

  • 《Hive编程指南》一1.2 Hadoop生态系统中的Hive

    本节书摘来异步社区《Hive编程指南》一书中的第1章,第1.2节,作者: 【美】Edward Capriolo , Dean Wampler , Jason Rutherglen 译者: 曹坤,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.2 Hadoop生态系统中的Hive Word...

    文章 异步社区 2017-05-02 1684浏览量

  • 高可用Hadoop平台-探索

    1.概述   接下来,我们对Hadoop做进一步的探索,一步一步的揭开Hadoop的神秘面纱。下面,我们开始赘述今天的探索之路。 2.探索   在探索之前,我们来看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到单台服务器无法进行存储,单台服务器无法在限定的时间内进行处理)的可靠...

    文章 smartloli 2016-04-19 1346浏览量

  • 高可用Hadoop平台-探索

    1.概述   上篇《高可用Hadoop平台-启航》博客已经让我们初步了解了Hadoop平台;接下来,我们对Hadoop做进一步的探索,一步一步的揭开Hadoop的神秘面纱。下面,我们开始赘述今天的探索之路。 2.探索   在探索之前,我们来看一下Hadoop解决了什么问题,Hadoop就是解决了大...

    文章 smartloli 2016-04-25 1572浏览量

  • 高可用Hadoop平台-探索

    1.概述   上篇《高可用Hadoop平台-启航》博客已经让我们初步了解了Hadoop平台;接下来,我们对Hadoop做进一步的探索,一步一步的揭开Hadoop的神秘面纱。下面,我们开始赘述今天的探索之路。 2.探索   在探索之前,我们来看一下Hadoop解决了什么问题,Hadoop就是解决了大...

    文章 技术mix呢 2017-11-22 958浏览量

  • MaxCompute Spark开发指南

    MaxCompute Spark开发指南  0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和...

    文章 曲宁(圣远) 2019-03-04 3217浏览量

  • Flink1.7.2 local WordCount源码分析

    Flink1.7.2 local WordCount源码分析 概述 Flink 环境 local,版本 Flink.1.7.2 用官网示例WordCount Scala程序分析源码 本文从source、operator、sink三个方面详细分析源码实现 时序图 https://github.c...

    文章 thinktothings 2019-02-28 1250浏览量

  • Apache Flink 漫谈系列(08) - SQL概览

    SQL简述 SQL是Structured Query Language的缩写,最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期从 Early History of SQL 中了解关系模型后在IBM开发的。该版本最初称为[SEQ...

    文章 金竹 2018-11-17 5606浏览量

  • spark源码分析之Executor启动与任务提交篇

    任务提交流程 概述 在阐明了Spark的Master的启动流程与Worker启动流程。接下继续执行的就是Worker上的Executor进程了,本文继续分析整个Executor的启动与任务提交流程 Spark-submit 提交一个任务到集群通过的是Spark-submit通过启动脚本的方式启动它...

    文章 那年的坏人 2017-04-30 2352浏览量

  • 《Hadoop与大数据挖掘》一导读

    前  言 为什么要写这本书最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”早在2012年,大数据(big data)一词已经被广泛提起,...

    文章 华章计算机 2017-06-26 3101浏览量

云产品推荐

阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板