• 《MapReduce设计模式》一1.5 Pig和Hive

    不理解MapReduce原理,只知道如何使用Pig和Hive,在某些情况下可能会导致危险情况的发生。尽管你得益于高层次的接口,但这并不意味着你可以忽视底层的细节。大规模的MapReduce集群就像重型机械一样,需要得到足够的...
    文章 2017-05-02 1242浏览量
  • Hive简介、什么Hive、为什么使用HiveHive的特点、...

    Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。Ø 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。Ø 容错 良好的容错性,节点出现问题SQL仍可完成执行。1.2 Hive架构 1.2....
    文章 2017-06-10 6105浏览量
  • 有Mysql数据库的情况下为什么要用Hive

    Hive什么鬼?一脸懵逼状。(请原谅一个刚开始实习的Java实习生见识短浅)然后发现了hive的一些问题。下面简单介绍一下Hive。网上对于hive与mysql的区别的文章也不是很多。so只能问问公司大牛们,看看他们是怎样...
    文章 2018-09-25 4814浏览量
  • Hive partition prune的一个Bug

    因为隐式转换而无法使用索引的情况在RDBMS比较常见,但是这个如果是隐式转换也说不通,因为只是多扫描了一个分区而不是全部分区,带着这样的疑问看源码:得到的结论就是Hive的分区键列和值都必须是String类型,如果...
    文章 2017-11-14 768浏览量
  • Flink 1.11 与 Hive 批流一体数仓实践

    这也是用户在使用 Hive connector 时暴露最多的问题之一。所以我们希望能简化依赖管理,给用户提供更好的体验。具体的做法是,在 Flink 1.11 版本中开始,会提供一些预先打好的 Hive 依赖包: 用户可以根据自己的 ...
    文章 2020-11-05 13152浏览量
  • 基于 Flink+Hive 构建流批一体准实时数仓

    不止是 HiveSQL,Hive 只是静态的批计算,而业务每天都要报表,这意味着每天都要进行计算,这种情况下会依赖于调度工具和血缘管理: 调度工具:按照某个策略把批计算调度起来。血缘管理:一个任务是由许多个作业...
    文章 2020-09-29 12697浏览量
  • Hadoop实战-part5

    FIFO 调度器Fair调度器:公平调度器Capacity 调度器:容量调度器算法原理待扩展在这里插入图片描述Fair和Capacity 什么情况下优先级低的先执行?只要不争抢资源的情况下。电商里面,查询时模糊查询,为什么速度回...
    文章 2021-09-11 18浏览量
  • Hive的内置服务和hiveserver/hiveserver2的比较

    我们可以看到上边输出项Server List,里边显示出Hive支持的服务列表,beeline cli help hiveserver2 hiveserver hwi jar lineage metastore metatool orcfiledump rcfilecat,下面介绍最有用的一些服务 1、cli:是...
    文章 2016-08-01 1578浏览量
  • Hive连接产生笛卡尔集

    从异常信息中很难看出出错原因,hive.log中也没有打印详细的异常对战信息。改用jdbc连接hive-server2,可以看到hive-server2中提示如下异常信息: 13/10/17 09:57:48 ERROR ql.Driver:FAILED:ParseException line ...
    文章 2016-04-08 8158浏览量
  • Hadoop,开发者纠结的十件事

    通常情况下,这样的做法并无问题,但是有时候,当一个项目需要维护大量共享库的时候,这就变得非常复杂。而且,大部分时间JAR包通常都在安装客户端的时候一并安装过,Hadoop这种存储方式使得JAR包多次存储。据悉,...
    文章 2016-05-05 1455浏览量
  • 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具...

    什么Hive Hive是一款经典的hadoop技术栈的数仓软件,可以让用户采用SQL来完成大数据量的计算分析。如果你对Hive还不熟悉,请移步Apache Hive官网获取进一步了解。MaxCompute在很多功能上与Hive相近,所以大部分...
    文章 2016-10-04 8455浏览量
  • CDP中的Hive3系列之保护Hive3

    默认情况下可以使用预加载的 Hive 策略。这些策略涵盖的用户可以执行 Hive 操作。所有用户都需要使用默认数据库&xff0c;执行列数据库名称、查询信息模式等基本操作。为了提供此访问权限&xff0c;为组 public&xff08;...
    文章 2021-08-11 27浏览量
  • 什么如此难用?Hadoop 的 12 个技术痛点

    还有,当 Hive 特别是与 RDBMS 一起应用时,为什么不能有 Update 和 Delete 功能?Namenode 失败 Oozie、Knox 和 Hadoop 的其它部分都不遵循新的 Namenode HA 资料。你可以在 Hadoop 中启用HA,只要你不使用与之相关...
    文章 2017-06-02 1382浏览量
  • HIVE的安装配置、mysql的安装、hive创建表、创建分区...

    6.如果hadoop使用的是2.6.4版本的,会存在Jline包版本不一致的问题,需要拷贝hive的lib目录中jline.2.12.jar的jar包替换掉hadoop中的/home/hadoop/app/hadoop-2.6.4/share/hadoop/yarn/lib/jline-0.9.94.jar ...
    文章 2017-06-10 8852浏览量
  • 数仓如何选择计算引擎?

    04 Spark的应用Hive在刚开始使用过程中很好用,对大数据量的处理确实比以前传统数据库要好,但是随着业务的增长,公司越来越多的数据工程师反馈查询慢,同时业务侧也纷纷提出,我们的数据能不能早点,不要老是等到...
    文章 2021-09-10 22浏览量
  • Hive 终于等来了 Flink

    Apache Spark 什么时候开始支持集成 Hive 功能?笔者相信只要使用过 Spark 的读者,应该都会说这是很久以前的事情了。那 Apache Flink 什么时候支持与 Hive 的集成呢?读者可能有些疑惑,还没有支持吧,没用过?或者...
    文章 2020-03-24 5005浏览量
  • Hive性能优化

    继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此...
    文章 2016-04-19 3149浏览量
  • Hive性能优化

    继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此...
    文章 2016-04-25 3230浏览量
  • Hive性能优化(全面)

    问题:日志中常会出现信息丢失,比如每日约为 20 亿的全网日志,其中的 user_id 为主 键,在日志收集过程中会丢失,出现主键为 null 的情况,如果取其中的 user_id 和 bmw_users 关联,就会碰到数据倾斜的问题。...
    文章 2018-02-05 1901浏览量
  • Hive性能优化(全面)

    问题:日志中常会出现信息丢失,比如每日约为 20 亿的全网日志,其中的 user_id 为主 键,在日志收集过程中会丢失,出现主键为 null 的情况,如果取其中的 user_id 和 bmw_users 关联,就会碰到数据倾斜的问题。...
    文章 2019-12-30 1472浏览量
  • Apache Flink®生态所面临的机遇与挑战

    Flink致力于作为一个批流统一的大数据计算平台,还有很多潜力没有发挥出来,要完全发挥它的潜力,就需要一个强大的生态系统。总的来说我们可以从2个维度来看这个生态系统: 横向维度。横向维度的生态主要是为构建...
    文章 2019-05-05 2216浏览量
  • 开源大数据周刊-第20期

    Hive性能优化本篇博客讲述了作者在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题 国内大数据相关会议 会议|地点|时间|费用|-|-|-|-|[2016杭州云栖大会]|杭州|2016年10月|收费+免费| 版权声明 信息都是...
    文章 2016-08-30 2388浏览量
  • Flink 1.11 SQL 使用攻略

    对比来说,Hive 数仓的好处在于它可以进行 Ad-hoc 分析,想要什么结果,就可以随时得到什么结果。能否结合离线数仓和实时数仓两者的优势,然后构建一个 Lambda 的架构?核心问题在于成本过高。无论是维护成本、计算...
    文章 2020-07-28 3498浏览量
  • 趣头条基于 Flink+ClickHouse 构建实时数据分析平台

    带来的问题是 HBase,Kudu 中存在数据,Hive 又保存了一份数据,多一份或多份数据。如果有流批一体的存储支持上述场景,当 Flink 任务过来,可以与离线数据进行实时交互,包括实时查询 Hive 数据等,可以实时判断...
    文章 2020-04-02 3307浏览量
  • CDP中的Hive3系列之Hive3使用指南

    您可以使用SHOW TRANSACTIONS命令列未完成和中止的事务。Hive 3中的事务表与非ACID表相当。Hive 3事务表中不需要分桶或排序。分桶不会影响性能。这些表与原生的云存储兼容。Hive支持每个事务一个语句&xff0c;该语句...
    文章 2021-08-10 42浏览量
  • CDP中Apache Hive3使用指南

    您可以使用SHOW TRANSACTIONS命令列未完成和中止的事务。Hive 3中的事务表与非ACID表相当。Hive 3事务表中不需要分桶或排序。分桶不会影响性能。这些表与原生的云存储兼容。Hive支持每个事务一个语句&xff0c;该语句...
    文章 2021-08-10 13浏览量
  • 大数据采集和抽取怎么做?这篇文章终于说明白了!

    日志也是重要数据来源,因为日志记录了程序各种执行情况,其中也包括用户的业务处理轨迹,根据日志我们可以分析程序的异常情况,也可以统计关键业务指标比如PV,UV。前端埋点同样是非常重要的来源,用户很多前端...
    文章 2020-05-21 1642浏览量
  • Hadoop-Drill深度剖析

    1.概述 在《Hadoop-实时查询Drill》一文当中,笔者给大家介绍如何去处理...这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!
    文章 2016-04-25 1480浏览量
  • Hadoop-Drill深度剖析

    1.概述 在《Hadoop-实时查询Drill》一文当中,笔者给大家介绍如何去处理...这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!
    文章 2016-04-25 2123浏览量
  • 大数据与机器学习:实践方法与行业案例.1.2数据平台

    建立在HDFS之上的Hive数据仓库也是针对大数据量的数据分析工具的,在数据量未达到一定规模时,Hive并不能体现效率优势(在小数据量时,Hive的效率远低于传统关系型数据库的)。这里有一个经验值,当一个表中的数据...
    文章 2017-05-02 2163浏览量
1 2 3 4 ... 13 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化