• 关于

    hive什么意思

    的搜索结果
  • Hive Tuning(一) 连接策略

    群里共享了一本hive调优的书记,名叫《Hive Tunning》,就忍不住开始看了,也顺便记录一下自己学到的东西,备忘! 首先,这是hive的数据摘要,别问我什么意思,我也没看懂。 好,我们正式开始,首先是连接的问题,我们都知道连接耗时长,但是连接无法避免,那hive又是怎么处理连接操作...

    文章 岑玉海 2016-09-08 1548浏览量

  • Hive连接产生笛卡尔集

    在使用hive过程中遇到这样的一个异常: FAILED: ParseException line 1:18 Failed to recognize predicate 'a'. Failed rule: 'kwInner' in join type specifier 执行的hql语句如下: [...

    文章 雨客 2016-04-08 8027浏览量

  • Flink x Zeppelin ,Hive Streaming 实战解析

    作者:狄杰@蘑菇街 Flink 1.11 正式发布已经三周了,其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久发布了,所以就写了一篇 Zeppelin 上的 Flink Hive Streaming 的实战解析。本文主要从以下几部分...

    文章 阿里云实时计算Flink 2020-08-13 684浏览量

  • 基于Hadoop数据仓库Hive1.2部署及使用

    接下来安装Hadoop数据仓库Hive,上节了解HBase简单使用,听起来HBase与Hive有些类似,概念也有点模糊,那我们先了解下他们之间有什么区别:   HBase是一种分布式、面向列的NoSQL数据库,基于HDFS存储,以表的形式存储数据,表由行和列组成,列划分到列族中。HBase不提供类...

    文章 李振良 2016-05-06 2157浏览量

  • Hive Tunning 补充 关于bucket

    在前面的几篇文章当中一直有一个概念bucketing不清楚到底是怎么回事。 网友南京-李先森给了他收集的一些资料,如下: Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。如将 user 列分散至 32 个 bucket,首先对...

    文章 岑玉海 2016-09-10 1565浏览量

  • Phoenix与Squirrel 是什么?

    前言    Phoenix是HBase的开源SQL引擎。    squirrel是windows上Phoneix可视化工具。          Phoenix的官网 http://phoenix.apache.org/                 Phoenix是什么?   Phoenix是...

    文章 技术小哥哥 2017-11-09 2176浏览量

  • Hive中分区表及陷阱

    Hive中分区表及陷阱 分区表 分区表实际就是对应hdfs文件系统上的的独立的文件夹,该文件是夹下是该分区所有数据文件。 分区可以理解为分类,通过分类把不同类型的数据放到不同的目录下。 分类的标准就是分区字段,可以一个,也可以多个。 分区表的意义在于优化查询。查询时尽量利用分区字段。如果不使用...

    文章 突突修 2018-03-06 3451浏览量

  • Hadoop-Drill深度剖析

    1.概述   在《Hadoop - 实时查询Drill》一文当中,笔者给大家介绍如何去处理实时查询这样的业务场景,也是简略的提了一下如何去实时查询HDFS,然起相关细节并未说明。今天给大家细说一下相关细节,其中包含:HDFS,Hive以及HBase等内容。 2.数据源和文件格式   在使用Dril...

    文章 smartloli 2016-04-25 1438浏览量

  • Hadoop-Drill深度剖析

    1.概述   在《Hadoop - 实时查询Drill》一文当中,笔者给大家介绍如何去处理实时查询这样的业务场景,也是简略的提了一下如何去实时查询HDFS,然起相关细节并未说明。今天给大家细说一下相关细节,其中包含:HDFS,Hive以及HBase等内容。 2.数据源和文件格式   在使用Dril...

    文章 smartloli 2016-04-25 2059浏览量

  • Hadoop-Drill深度剖析

    1.概述   在《Hadoop - 实时查询Drill》一文当中,笔者给大家介绍如何去处理实时查询这样的业务场景,也是简略的提了一下如何去实时查询HDFS,然起相关细节并未说明。今天给大家细说一下相关细节,其中包含:HDFS,Hive以及HBase等内容。 2.数据源和文件格式   在使用Dril...

    文章 技术mix呢 2017-11-16 1293浏览量

  • Flink 1.11 SQL 使用攻略

    作者 | 李劲松,Apache Flink Committer,阿里巴巴技术专家 7 月 6 日,Apache Flink 1.11 正式发布。从 3 月初进行功能规划到 7 月初正式发版,1.11 用将近 4 个月的时间重点优化了 Flink 的易用性问题,提升用户的生产使用体验。 SQL 作为...

    文章 阿里云实时计算Flink 2020-07-28 2636浏览量

  • Spark的RDD原理以及2.0特性的介绍(转)

    Spark 是什么  Spark 是 Apache 顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作。包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。全世界有许多公司和组织使用或给社区贡献代码,社区的活跃度见 www.github.com/apache/spark...

    文章 多云 2016-05-20 4757浏览量

  • HIVE TopN shuffle 原理

    HIVE TopN Shuffle TopN 问题是排序中的一个经典问题。对于一个长度为 m 的数组,取其最大的 n (n <= m) 条数据,可以不必对整个数组进行全排。一般的算法对 m 进行全排的复杂度大约为 mlog2(m)。假设我们只取其中最大的 n 条,那么可以把这个复杂度降低到 ...

    文章 xy_xin 2019-03-21 1167浏览量

  • 从数砖开源 Delta Lake 说起

    作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,先后专注在安全,存储和计算领域。之前在 Intel,目前转战阿里云上,致力于提供更好用更有弹性的 Hadoop/Spark 大数据平台。 Spar...

    文章 开源大数据EMR 2019-04-25 8848浏览量

  • 从数砖开源 Delta Lake 说起

    作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,先后专注在安全,存储和计算领域。之前在 Intel,目前转战阿里云上,致力于提供更好用更有弹性的 Hadoop/Spark 大数据平台。 Spark...

    文章 阿里云E-MapReduce团队 2019-04-25 5613浏览量

  • U-SQL 介绍 —— 大数据处理语言

    微软宣布了新的 Azure 数据湖(Azure Data Lake)服务,该服务被用于云分析,包括了一个超大规模信息库;一个在 YARN 上建立的新的的分析服务,该服务允许数据开发者和数据科学家分析全部的数据;还有 HDInsight,一个全面管理 Hadoop、Spark、Storm 和 HBa...

    文章 行者武松 2017-06-06 1338浏览量

  • Spark项目故障总结

    1.OOM问题,reduce端的缓冲大小,太大的话,吃撑了,一下过来很多数据,容易OOM,默认48,可以改小哦。spark.reducer.maxSizeInFlight,48---》24 2.JVM-GC导致的shuffle文件拉取失败,shuffle file not found spark...

    文章 技术小甜 2017-11-08 988浏览量

  • 大数据技术的4个E

    大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似4个V,我们把这些特性总结成4个E,用户在选择大数据技术解决方案时可作为参考。 1. Easy 大数据技术要足够简单易用 这个E很容易理解。 要进行大数据处理的场景...

    文章 润乾软件 2018-05-21 1120浏览量

  • MaxCompute理解数据、运算和用户的大脑:基于代价的优化器

    更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 摘要:回顾大数据技术领域大事件,最早可追溯到06...

    文章 场景研读 2017-03-13 6871浏览量

  • 2015 Bossie评选:最佳开源大数据工具

    Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark、Storm都名列榜单之上。 InfoWorld在分布式数据处理、流式数据分析、机器学...

    文章 小旋风柴进 2017-05-02 1626浏览量

  • 启动HDFS之后一直处于安全模式org.apache.hadoop.hdfs.server.namenode.SafeModeException: Log not rolled. Name node is in safe mode.

    一.现象 三台机器 crxy99,crxy98,crxy97(crxy99是NameNode+DataNode,crxy98和crxy97是DataNode) 按正常命令启动HDFS之后,HDFS一直处于安全模式(造成启动Hive的时候失败,不能向HDFS上写数据),正常情况下是在启动的前30秒处...

    文章 技术小哥哥 2017-11-13 1851浏览量

  • 小白学习如何打日志

    前言 只有光头才能变强。 文本已收录至我的GitHub仓库,欢迎Star:https://github.com/ZhongFuCheng3y/3y 记得之前写过一篇:《阿里巴巴 Java开发手册》读后感,之前自学时由于没怎么接触过打“日志”,所以《手册》中的“日志规约”我就先放一边去了。 而之...

    文章 java3y 2019-08-28 1219浏览量

  • OPPO数据中台之基石:基于Flink SQL构建实数据仓库

    作者 | 张俊 本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。本文主要内容如下: OPPO 实时数仓的演进思路; 基于 Flink SQL 的...

    文章 apache_flink 2019-05-14 17667浏览量

  • 我在Mesos上运行Docker容器的经验

    本文讲的是我在Mesos上运行Docker容器的经验,【编者的话】下面的这篇博客出自John Omernik之手,他是Big Data Analytics的Data Enthusiast和VP,还是Zions Bank的Fraud Center of Excellence的经理,Zions Ban...

    文章 轩墨 2017-09-18 1539浏览量

  • ZooKeeper分布式架构实战系列(01):ZooKeeper概念、功能、架构、与使用场景和面试题

    ZooKeeper是分布式协调服务,开源分布式架构领域不可或缺的技术组件,使用非常的广泛,我们在一些分布式架构的文章中经常看到。比如常见的Hadoop大数据架构,阿里巴巴的Dubbo分布式架构,Spring Cloud微服务架构等都有涉及。BAT名企面试中也是经常作为考点。重要性不言而喻,作为互联...

    文章 徐雷frank 2019-03-31 2024浏览量

  • Java 能用于机器学习和数据科学吗?

    云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 虽然 Python 和 R 已经成为构建机器学习和数据科学应用程序的首选,但许多组织正转向使用 Java 开发来满足他们的需求。请阅读本文,了解如何做到的,以及为什么要这样做。 近年来,机器学习、数...

    文章 云栖号资讯小哥 2020-04-29 701浏览量

  • HDFS的基础总结及架构演进

    前言 截取知识星球的分享出来,也是对之前的 HDFS 进行一个补充,顺带让大家复习一下 前面两篇 HDFS 在这里: 带你入坑大数据(一) --- HDFS基础概念篇 带你入坑大数据(二) --- HDFS的读写流程和一些重要策略 Coutent 分散存储,冗余存储 这两点我可以展开说明一下,首先...

    文章 说出你的愿望吧 2020-07-16 332浏览量

  • 金融科技数据湖构建和管理之道

    上海数禾信息科技有限公司大数据负责人 万鹏 上海数禾信息科技有限公司是一家拥有小贷牌照和融资担保牌照的金融科技公司(下称“数禾科技”),公司的核心产品是“还呗”。本文要分享的主题是数禾科技如何在云上构建和管理数据湖。 以下是云栖大会数据湖分会场主题演讲的正文: 大家好,我是上海数禾信息科技有限公司...

    文章 DataWorks团队 2020-12-07 374浏览量

  • 专治数仓疑难杂症!美团点评 Flink 实时数仓应用经验分享

    整理 | 青渊(Flink 社区志愿者)校对 | 青雉(Flink 社区志愿者)作者 | 黄伟伦@美团点评 摘要:本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享。主要内容如下: 实时数仓建设目的 如何建立实时数仓 仓库质量保证 Tips:点击...

    文章 阿里云实时计算Flink 2020-07-04 808浏览量

  • 日志和实时流计算处理

    到目前为止,我还仅仅只是描述了一些把数据从一个地方拷贝到其他地方的多种的方法。然而,在存储系统间挪动字节并不是故事的结尾。实际上我们发现,“日志”是“流”的另外一种说法,而日志(的处理)是流计算处理的核心。 但是先等一下,到底什么是流计算处理? 如果你是上世纪九十年代末和二十一世纪初的数据库或者数...

    文章 小旋风柴进 2017-05-26 1367浏览量

1 2 3 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT