• 关于

    hadoop2.7.3 api 文档

    的搜索结果
  • 用引导操作给E-MapReduce集群安装impala

    当前emr最新版本2.0.1没有impala组件,需要额外安装。本文介绍如何在emr 2.0.1版本上用E-MapReduce软件配置功能修改hdfs配置,引导操作安装impala 2.5.0 for cdf 5.7.1版本,shell作业来启动impala的完整过程。 软件配置 impala对h...

    文章 鸿初 2016-07-27 4572浏览量

  • 在Linux上编译Hadoop-2.4.0

    Linux上编译Hadoop-2.4.0.pdf 目录 目录 1 1. 前言 1 2. 安装依赖 1 2.1. 安装ProtocolBuffer 2 2.2. 安装CMake 2 2.3. 安装JDK 2 2...

    文章 一见蓝天 2014-04-21 732浏览量

  • hadoop 文件操作和代码运行测试

    1. 查看HDFS文件或目录 [xiaoyu@hadoop02 ~]$ cd hadoop-1.1.2 [xiaoyu@hadoop02 hadoop-1.1.2]$ ./bin/hadoop fs -ls [xiaoyu@hadoop02 hadoop-1.1.2]$ echo $? 0 [xi...

    文章 技术小胖子 2017-11-02 770浏览量

  • 万券齐发助力企业上云,爆款产品低至2.2折起!

    限量神券最高减1000,抢完即止!云服务器ECS新用户首购低至0.95折!

    广告

  • MapReduce编程(六) 从HDFS导入数据到Elasticsearch

    一、Elasticsearch for Hadoop安装 Elasticsearch for Hadoop并不像logstash、kibana一样是一个独立的软件,而是Hadoop和Elasticsearch交互所需要的jar包。所以,有直接下载和maven导入2种方式。安装之前确保JDK版本不...

    文章 姚攀 2017-04-01 966浏览量

  • [雪峰磁针石博客]大数据Hadoop工具python教程4-mrjob

    mrjob是由Yelp创建的Python MapReduce库,它封装了Hadoop流,允许MapReduce应用程序以更加Pythonic的方式编写。 mrjob用纯Python编写多步MapReduce作业。使用mrjob编写的MapReduce作业可以在本地测试,在Hadoop集群上运行,或...

    文章 python人工智能命理 2019-01-28 1461浏览量

  • 大数据从业者应该知道的开源工具(全)

    前言 想要成为大数据工程师这些开源工具你要有所了解 一、Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。 支持的操作系统:Windows、Linux和OS X。 相关...

    文章 风火数据 2018-05-13 889浏览量

  • Hadoop大数据平台实战(02):HBase vs. Hive vs. Impala 对比

    Hadoop大数据平台中非常重要的三个技术:HBase vs. Hive vs. Impala。他们之间的关系和区别。 Apache™Hadoop是目前最流行的开源大数据平台,核心组件使用Java语言开发。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大...

    文章 徐雷frank 2019-04-06 1472浏览量

  • Spark-1.3.1与Hive整合实现查询分析

    在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的...

    文章 shiyanjuncn 2016-04-13 2494浏览量

  • ES-hadoop写数据到阿里云Elasticsearch

    Elasticsearch是一个基于Lucene的分布式搜索引擎,具有分布式、全文检索、近实时搜索和分析、高可用、模式自由、RESTFul API等诸多优点,在实时搜索、日志处理(ELK)、大数据分析等领域有着广泛的应用。Hadoop是一个由Apache基金会所开发的分布式系统基础架构,核心组件有...

    文章 姚攀 2018-04-03 3224浏览量

  • Shark简介、部署及编译小结

    Shark简介 Shark即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,...

    文章 张包峰 2013-09-24 1287浏览量

  • 《深入理解Hadoop(原书第2版)》——3.4第一个Hadoop程序

    本节书摘来自华章计算机《深入理解Hadoop(原书第2版)》一书中的第3章,第3.4节,作者 [美]萨米尔·瓦德卡(Sameer Wadkar),马杜·西德林埃(Madhu Siddalingaiah),杰森·文纳(Jason Venner),译 于博,冯傲风,更多章节内容可以访问云栖社区“华章计...

    文章 华章计算机 2017-05-02 1041浏览量

  • Hive 终于等来了 Flink

    作者:Jason Apache Spark 什么时候开始支持集成 Hive 功能?笔者相信只要使用过 Spark 的读者,应该都会说这是很久以前的事情了。 那 Apache Flink 什么时候支持与 Hive 的集成呢?读者可能有些疑惑,还没有支持吧,没用过?或者说最近版本才支持,但是功能还比较...

    文章 阿里云实时计算Flink 2020-03-24 3964浏览量

  • Hadoop HDFS编程 API入门系列之路径过滤上传多个文件到HDFS(二)

                                          代码版本1 1 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs6; 2 3 import java.io.IOException; 4 import ja...

    文章 技术小哥哥 2017-11-14 1046浏览量

  • 来!PyFlink 作业的多种部署模式

    关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。这些都停留在开发阶段,一旦开发完成,我们就面临激动人心的...

    文章 阿里云实时计算Flink 2020-01-20 2389浏览量

  • 来!PyFlink 作业的多种部署模式

    关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。这些都停留在开发阶段,一旦开发完成,我们就面临激动人心的...

    文章 阿里云实时计算Flink 2020-01-20 968浏览量

  • Elasticsearch之批量操作bulk

    1、bulk相当于数据库里的bash操作。 2、引入批量操作bulk,提高工作效率,你想啊,一批一批添加与一条一条添加,谁快? 3、bulk API可以帮助我们同时执行多个请求 4、bulk的格式: action:index/create/update/delete metadata:_index...

    文章 技术小哥哥 2017-11-07 2387浏览量

  • HiveServer2中使用jdbc客户端用户运行mapreduce

    最近做了个web系统访问hive数据库,类似于官方自带的hwi、安居客的hwi改进版和大众点评的polestar(github地址)系统,但是和他们的实现不一样,查询Hive语句走的不是cli而是通过jdbc连接hive-server2。为了实现mapreduce任务中资源按用户调度,需要hive...

    文章 雨客 2016-04-08 5448浏览量

  • 大数据平台搭建神器,Ambari HDP集群搭建全攻略

    世界上最快的捷径,就是脚踏实地,本文已收录【架构技术专栏】关注这个喜欢分享的地方。 最近因为工作上需要重新用Ambari搭了一套Hadoop集群,就把搭建的过程记录了下来,也希望给有同样需求的小伙伴们一个参考, 作者:图头数据 Ambari Ubuntu14.04 最新版本 2.2.1 HDP...

    文章 架构技术专栏 2020-12-08 294浏览量

  • 《Spark大数据分析:核心概念、技术及实践》一导读

    前  言  Preface 本书是大数据和Spark方面的一本简明易懂的手册。它将助你学习如何用Spark来完成很多大数据分析任务。它覆盖了高效利用Spark所需要知道的一切内容。 购买本书的好处之一就是:帮你高效学习Spark,节省你大量时间。本书所覆盖的主题在互联网上都可以找到,网上有很多关于...

    文章 华章计算机 2017-05-02 1024浏览量

  • Apache Flink 零基础入门(四):客户端操作的 5 种模式

    作者:周凯波(宝牛) 1.环境说明 在前面几期的课程里面讲过了 Flink 开发环境的搭建和应用的部署以及运行,今天的课程主要是讲 Flink 的客户端操作。本次讲解以实际操作为主。这次课程是基于社区的 Flink 1.7.2 版本,操作系统是 Mac 系统,浏览器是 Google Chrome ...

    文章 阿里云实时计算Flink 2019-08-05 3443浏览量

  • Apache Flink 零基础入门(四):客户端操作的 5 种模式

    作者:周凯波 1.环境说明 在前面几期的课程里面讲过了 Flink 开发环境的搭建和应用的部署以及运行,今天的课程主要是讲 Flink 的客户端操作。本次讲解以实际操作为主。这次课程是基于社区的 Flink 1.7.2 版本,操作系统是 Mac 系统,浏览器是 Google Chrome 浏览器。...

    文章 Ververica 2019-07-17 1247浏览量

  • MaxCompute Spark开发指南

    MaxCompute Spark开发指南  0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和...

    文章 曲宁(圣远) 2019-03-04 3304浏览量

  • Hadoop2源码分析-序列化篇

    1.概述   上一篇我们了解了MapReduce的相关流程,包含MapReduce V2的重构思路,新的设计架构,与MapReduce V1的区别等内容,今天我们在来学习下在Hadoop V2中的序列化的相关内容,其目录如下所示: 序列化的由来 Hadoop序列化依赖图详解 Writable常用...

    文章 smartloli 2016-04-19 1313浏览量

  • Hadoop2源码分析-序列化篇

    1.概述   上一篇我们了解了MapReduce的相关流程,包含MapReduce V2的重构思路,新的设计架构,与MapReduce V1的区别等内容,今天我们在来学习下在Hadoop V2中的序列化的相关内容,其目录如下所示: 序列化的由来 Hadoop序列化依赖图详解 Writable常用...

    文章 smartloli 2016-04-25 1335浏览量

  • Hadoop2源码分析-序列化篇

    1.概述   上一篇我们了解了MapReduce的相关流程,包含MapReduce V2的重构思路,新的设计架构,与MapReduce V1的区别等内容,今天我们在来学习下在Hadoop V2中的序列化的相关内容,其目录如下所示: 序列化的由来 Hadoop序列化依赖图详解 Writable常用...

    文章 技术mix呢 2017-11-20 689浏览量

  • CDH 5.2.0 的改变

    最近 CDH 5.2.0 发布了,想看看其做了哪些改进、带来哪些不兼容以及是否有必要升级现有的 hadoop 集群。 1. CDH 5.2.0 新特性 1.1. Apache Avro Avro 版本使用1.7.6,重要的一些改变: AVRO-1398。增加同步间隔,从16k 调整到64k,该...

    文章 雨客 2016-04-08 4242浏览量

  • MaxCompute Spark 使用和常见问题

    一. MaxCompute Spark 介绍MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业,以满足...

    文章 亢海鹏 2021-01-07 1596浏览量

  • 用 Hadoop 进行分布式数据处理,从 入门、进阶到应用开发

    入门 简介: 本文是讨论 Hadoop 的系列中的第一篇。本文介绍 Hadoop 框架,包括 Hadoop 文件系统 (HDFS) 等基本元素和常用的节点类型。学习如何安装和配置单节点 Hadoop 集群,然后研究 MapReduce 应用程序。最后,学习使用核心 Web 界面监视和管理 Hado...

    文章 atlas2015 2013-09-27 2623浏览量

  • Hadoop 生态系统

    1.概述   最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列。涉及的内容有以下几点: 分布式文件系统 分布式编程模...

    文章 smartloli 2016-08-31 5053浏览量

  • Choosing Between ElasticSearch, MongoDB & Hadoop

    An interesting trend has been developing in the IT landscape over the past few years.  Many new technologies develop and immediately latch onto the “...

    文章 技术mix呢 2017-10-11 909浏览量

1 2 3 4 ... 8 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务