• 关于

    hive选择数据库失败

    的搜索结果
  • Hive 工作原理详解

    什么是Hive?        Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL ...

    文章 吴梦涵 1970-01-01 1975浏览量

  • Hive 工作原理详解

    什么是Hive?        Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL ...

    文章 李世龙ing 1970-01-01 924浏览量

  • Impala和Hive的关系(详解)

    Impala和Hive的关系    Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。  ...

    文章 技术小哥哥 2017-11-13 1482浏览量

  • Quick BI 数据可视化分析平台

    2020年入选全球Gartner ABI魔力象限,为中国首个且唯一入选BI产品

    广告

  • 《Hadoop实战第2版》——1.6节Hadoop数据管理

    1.6 Hadoop数据管理前面重点介绍了Hadoop及其体系结构与计算模型MapReduce,现在开始介绍Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive。 1.6.1 HDFS的数据管理HDFS是分布式计算的存储基石,Hadoo...

    文章 华章计算机 2017-08-01 1234浏览量

  • MaxCompute 搬站的原理、实践以及常见问题

    MaxCompute 是阿里巴巴自研的旗舰大数据仓库服务,与开源 Hadoop 搭建的数仓相比,一个很大的不同点是 MaxCompute 并不直接开放类似 HDFS 这样的分布式文件系统的接口,数据进出 MaxCompute 都要经由结构化数据通道 Tunnel。因此已经使用 Hadoop 建仓的...

    文章 MaxCompute铭宥 2020-02-14 329浏览量

  • 大数据开发之路:hive篇,你看了吗?

    引语 大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象”,也就是我们的大数据领域的数据仓库工具hive。 这只小象给我们提供了方便类SQL查询语言HQL来操纵数据,使得我们一开始不用编写复杂的代码,就可以轻松的探索数据。Hive对于熟悉...

    文章 金灿灿数据工程师 2019-05-13 1084浏览量

  • Sqoop(3)

    处理导入的数据 一旦数据导入到了HDFS中,现在就应该由自定义的Mapreduce处理这些数据了。文本格式导入的数据,可以很容易的和Hadoop流,被脚本语言运行,或者,和默认的TextInputFormat运行(翻译不恰当这里,原文Text-based imports can be easil...

    文章 skyme 2016-05-05 2380浏览量

  • 大数据与机器学习:实践方法与行业案例.1.2数据平台

    1.2数据平台 数据平台是存放分析数据的平台,也是支持大多数数据分析和数据挖掘应用的底层平台,它使用了统一的数据清洗与处理规则,因而可以保证从基础平台上输出的数据内容是一致的。 传统的数据平台基本等同于大家熟悉的“数据仓库”,但互联网浪潮让人们对数据采集、存储和应用提出了越来越高的要求,传统数据...

    文章 华章计算机 2017-05-02 2009浏览量

  • Shark简介、部署及编译小结

    Shark简介 Shark即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,...

    文章 张包峰 2013-09-24 1280浏览量

  • SparkSQL在有赞的实践

    前言 有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验...

    文章 邹有福 2019-01-10 6980浏览量

  • MaxCompute SQL与Hive对比分析及使用注意事项

    摘要:一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,实现从Hive秒速迁移到MaxCompu...

    文章 刘-建伟 2020-02-25 482浏览量

  • 袋鼠云研发手记 | 数栈DTinsight:详解FlinkX中的断点续传和实时采集

    袋鼠云云原生一站式数据中台PaaS——数栈,覆盖了建设数据中心过程中所需要的各种工具(包括数据开发平台、数据资产平台、数据科学平台、数据服务引擎等),完整覆盖离线计算、实时计算应用,帮助企业极大地缩短数据价值的萃取过程,提高提炼数据价值的能力。 数栈架构图 目前,数栈-离线开发平台(Batch...

    文章 袋鼠云 2019-10-12 1483浏览量

  • CDH 5 Beta 2 的新变化

    本文是同事对CDH 5.0.0 Beta 2的翻译,仅供大家参考。 这是 CDH 5.0.0 Beta 2的初稿。鉴于 CDH 5 目前的发布版本是测试版,它不应用于生产环境中;它只是用来评估、测试的。对于生产环境,请使用 CDH 4,最近的文档在 CDH Documentation Apache...

    文章 雨客 2016-04-08 2088浏览量

  • Spark-1.3.1与Hive整合实现查询分析

    在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的...

    文章 shiyanjuncn 2016-04-13 2468浏览量

  • FlinkX—批流统一的高效数据同步插件

    什么是FlinkX? FlinkX是一款基于Flink的分布式离线/实时数据同步插件,可实现多种异构数据源高效的数据同步,其由袋鼠云于2016年初步研发完成,目前有稳定的研发团队持续维护,已在Github上开源(开源地址详见文章末尾)。并于今年6年份,完成批流统一,离线计算与流计算的数据同步任务都...

    文章 袋鼠云 2019-11-13 2327浏览量

  • Phoenix在2345的实践

    本文介绍Phoenix在2345公司的实践,主要是实时查询平台的背景、难点、Phoenix解决的问题、Phoenix-Sql的优化以及Phoenix与实时数仓的融合思路。具体内容如下:实时数据查询时客服系统中一个很重要的模块,提供全公司所有主要产品的数据的查询功能,由于各产品的数据库、数据表错综复...

    文章 gabrywu 2019-06-03 1758浏览量

  • 一共81个,开源大数据处理工具汇总(上)

    本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。 查询引擎 一、Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。...

    文章 孤剑 2015-10-13 2015浏览量

  • 开源大数据周刊-第14期

    阿里云E-Mapreduce动态 E-Mapreduce团队 1.4版本(正在发布): 作业运行失败报警 作业并行提交 添加sqoop、shell类型的作业 1.4.1版本 集群整体运行情况的仪表盘 集群状态监控报警 资讯 创业公司如何构建数据指标体系?对于庞大的创业群体和数据运营新手来...

    文章 开源大数据EMR 2016-07-18 2949浏览量

  • Spark SQL玩起来

    标签(空格分隔): Spark [toc] 前言 Spark SQL的介绍只包含官方文档的Getting Started、DataSource、Performance Tuning和Distributed SQL Engine部分。不含其他的迁移和PySpark等部分。 Spark SQL介绍 ...

    文章 尊渊 2019-03-26 8613浏览量

  • 一步即可!阿里云数据湖分析服务构建MySQL低成本分析方案

    作者:沈洪/左上作为最为流行的开源数据库,MYSQL正成为越来越多企业的选择。MySQL数据库大量应用在各种业务系统,除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。但受限于MySQL架构等问题,在面对数据分析场景时,其往往力不从心。针对这种情况,业内有...

    文章 skin778 2020-05-13 635浏览量

  • Hive之 Hql语法解析

    Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需 要的...

    文章 技术小美 2017-11-12 1420浏览量

  • 泰为基于EMR的考量与实践

    关于作者:武基鹏,主要从事大数据平台产品的技术工作;负责设计、构建和优化基于HDFS/HBase的存储平台架构;负责整体提升Hadoop/Hbase等集群的高可用性、高性能、高扩展特性;负责对公司的Apache Hadoop1.2、CDH4及CDH5集群的部署、监控、调优和运维;此外,还精通Jav...

    文章 百遇 2016-11-07 8987浏览量

  • Hadoop数据迁到MaxCompute

    通过最佳实践帮助您实现上述案例效果 Step1:数据准备 接下来,我们需要准备好一张表及数据集; Hive表名:hive_dplus_good_sale; 是否分区表:分区表,分区名为pt; hdfs文件数据列分隔符:英文逗号; 表数据量:100条。 源hive表建表语句 CREATE TAB...

    文章 隐林 2017-02-08 3695浏览量

  • Hadoop - 任务调度系统比较

    1.概述   在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任 务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂。那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三 方...

    文章 smartloli 2016-04-25 2506浏览量

  • Hadoop - 任务调度系统比较

    1.概述   在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任 务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂。那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三 方...

    文章 smartloli 2016-04-25 3051浏览量

  • E-MapReduce助力建设企业级数据仓库

    概述 对于大部分的企业,数据一般存在两个地方,一个是业务数据库,一个是日志。一般来讲,数据库数据容量有限,对于历史标记删除的记录一般会做定时清理,但是这些数据往往还是很有价值的。数据库计算能力也有限,如果要做一些数据分析,则会浪费宝贵的计算资源。 一些数据分析会横跨不能的部门,不同的业务线,往往需...

    文章 hbase小能手 2018-11-05 766浏览量

  • Sqoop(1)

    Hadoop平台的一个强大的地方是它处理不同格式数据的能力。HDFS能够稳定的存储日志和 其它很多种来源的数据,并且Mapreduce程序可以处理各种各样的数据格式,然后抽取相关的数据并且组合各种各样的数据成为一个有用的结果。 但是,和HDFS之外的存储仓库交互数据的时候,Mapreduce程序需...

    文章 skyme 2016-05-05 2856浏览量

  • 饿了么大数据计算引擎实践与应用

    饿了么BDI-大数据平台研发团队目前共有20人左右,主要负责离线&实时Infra和平台工具开发。其中6人的离线团队需要维护大数据集群规模如下: Hadoop集群规模1300+ HDFS存量数据40+PB,Read 3.5 PB+/天,Write 500TB+/天 14W MR Job/天,...

    文章 技术小能手 2018-05-29 8699浏览量

  • 大数据与机器学习:实践方法与行业案例.2.2 数据缓冲区

    2.2 数据缓冲区 数据缓冲区是处于生产环境和分析环境之间的中间区域,它是数据闭环中各个系统间的数据中转站,从各个系统接收原始数据,并将其暂存在对应的目录中。其他系统可以从数据缓冲区中获取需要的数据文件。 为了便于管理和迁移数据,我们规定存入数据缓冲区中的数据使用文本文件的格式,这样一来,数据缓冲...

    文章 华章计算机 2017-05-02 2577浏览量

  • Hadoop - 任务调度系统比较

    1.概述   在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂。那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三方开源...

    文章 技术mix呢 2017-11-16 968浏览量

1 2 3 4 5 >

云产品推荐

阿里云企业服务平台 陈四清的老板信息查询 上海奇点人才服务相关的云产品 爱迪商标注册信息 安徽华轩堂药业的公司信息查询 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 天籁阁商标注册信息 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 北京芙蓉天下的公司信息查询