• 关于

    hive建表数据如何存储过程

    的搜索结果
  • 那些年使用Hive踩过的坑

    1.概述   这个标题也是用血的教训换来的,希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助。打算分以下几个部分去描述: Hive的结构 Hive的基本操作 Hive Select Hive Join Hive UDF Hive的M/R 使用Hive注意点 优化及优化详情 优化总结...

    文章 潇湘隐者 2016-04-25 3327浏览量

  • 那些年使用Hive踩过的坑

    1.概述   这个标题也是用血的教训换来的,希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助。打算分以下几个部分去描述: Hive的结构 Hive的基本操作 Hive Select Hive Join Hive UDF Hive的M/R 使用Hive注意点 优化及优化详情 优化总结...

    文章 smartloli 2016-04-19 5808浏览量

  • Hadoop学习路径

    一、平台基础 1.1、大数据 了解什么是大数据,大数据入门,以及大数据介绍。 以及大数据中存在的问题,包括存储,计算的问题,有哪些解决策略。 1.2、Hadoop平台生态圈 熟悉了解开源Hadoop平台生态圈,以及第三方大数据平台,查找一些Hadoop入门介绍博客或者官网,了解...

    文章 wsc449 2018-05-04 1411浏览量

  • 万券齐发助力企业上云,爆款产品低至2.2折起!

    限量神券最高减1000,抢完即止!云服务器ECS新用户首购低至0.95折!

    广告

  • Hive数据如何同步到MaxCompute之实践讲解

    摘要:本次分享主要介绍 Hive数据如何迁移到MaxCompute。MMA(MaxCompute Migration Assist)是一款MaxCompute数据迁移工具,本文将为大家介绍MMA工具的功能、技术架构和实现原理,再通过实际操作MMA,演示将Hive数据迁移到MaxCompute。 演...

    文章 亢海鹏 2019-11-18 1943浏览量

  • 知识分享:详解Hadoop核心架构

    通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive...

    文章 知与谁同 2017-08-01 1311浏览量

  • 教程:如何在Data Lake Analytics中使用临时表

    前言 Data Lake Analytics (后文简称DLA)是阿里云重磅推出的一款用于大数据分析的产品,可以对存储在OSS,OTS上的数据进行查询分析。相较于传统的数据分析产品,用户无需将数据重新加载至DLA,只需在DLA中创建一张与数据源关联的表,不仅简化了分析过程,还节约了存储成本,是做大...

    文章 金络 2018-09-21 1758浏览量

  • 使用EMR Spark Relational Cache跨集群同步数据

    Relational Cache相关文章链接: 使用Relational Cache加速EMR Spark数据分析 背景Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速...

    文章 阿里云E-MapReduce团队 2019-06-05 1480浏览量

  • 使用EMR Spark Relational Cache跨集群同步数据

    Relational Cache相关文章链接: 使用Relational Cache加速EMR Spark数据分析 背景 Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理...

    文章 开源大数据EMR 2019-06-05 1340浏览量

  • 趣头条基于 Flink+ClickHouse 构建实时数据分析平台

    作者:王金海@趣头条 摘要:本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景,内容分为以下四部分: 一、业务场景与现状分析 二、Flink-to-Hive 小时级场景 三、Flink-to-Click...

    文章 阿里云实时计算Flink 2020-04-02 2682浏览量

  • 当前数据仓库建设过程

    一个典型的企业数据仓库通常包含数据采集、数据加工和存储、数据展现等几个过程,本篇文章将按照这个顺序记录部门当前建设数据仓库的过程。 1. 数据采集和存储 采集数据之前,先要定义数据如何存放在 hadoop 以及一些相关约束。约束如下: 所有的日志数据都存放在 hdfs 上的 /logroot 路...

    文章 雨客 2016-04-08 2637浏览量

  • Hive中如何确定map数

    Hive 是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sq l语句转换为 MapReduce 任务进行运行。当运行一个 hql 语句的时候,map 数是如何计算出来的呢?有哪些方法可以调整 map 数呢? 本文测试集群版...

    文章 雨客 2016-04-11 5049浏览量

  • MaxCompute SQL 现状与展望

    票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部高级专家振禹为大家带来题为“MaxCompute SQL 现状与展望”的演讲。本文重点解析了MaxCompute SQL 现状,详细介绍了各种功能,其中包括编译器用户友好功能、复杂类型、CTE、参数化视图和SEMI JION等,接着说明了MaxC...

    文章 云栖小秘书 2017-03-14 4819浏览量

  • Quick BI 支持多种数据源进行多维分析

    Quick BI 支持多种数据源进行多维分析 一、摘要 随着互联网的高速发展,数据量爆发式增长的同时,数据的存储形式也开始呈现出多样性,有结构化存储,如 Mysql, Oracle, SQLServer 等,半结构化甚至非结构化存储,如HBase,OSS 等。那么从事数据分析的人员就面临着从多种...

    文章 涂涂的画笔 2018-12-25 1735浏览量

  • 深度 | 面向云原生数据湖的元数据管理技术解析

    背景数据湖当前在国内外是比较热的方案,MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金。一些企业已经构建了自己的云原生数据湖方案,有效解决了业务痛点;还有很多企业在构建或者计划构建自己...

    文章 stromal 2021-03-30 1548浏览量

  • 滴滴基于 Flink 的实时数仓建设实践

    随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台侧和业务侧各个不同方面,来阐述滴滴所做的工作,分享在建设过程中的经验。 1.实时数仓建设目的 随着互联网的发展进入下半场,...

    文章 阿里云实时计算Flink 2020-09-02 3006浏览量

  • 18个PPT,29个提问解答,都在这儿啦!

    4月25-26日,全球首个 Apache 顶级项目在线盛会 Flink Forward 中文精华版重磅开播,聚焦 Alibaba、 Google、AWS、Uber、Netflix、DellEMC、微博、滴滴等各大互联网公司实时计算的经典场景和业务故事,由 Flink 核心贡献者们对 19 个优质 ...

    文章 阿里云实时计算Flink 2020-04-28 828浏览量

  • Spark入门介绍

    前言 Spark自从2014年1.2版本发布以来,已成为大数据计算的通用组件。网上介绍Spark的资源也非常多,但是不利于用户快速入门,所以本文主要通从用户的角度来介绍Spark,让用户能快速的认识Spark,知道Spark是什么、能做什么、怎么去做。具体的概念可以参考spark社区的相关文章 S...

    文章 云hbase+spark 2019-06-22 2138浏览量

  • 开放下载!18个PPT,29个提问解答,都在这儿啦!

    点击免费下载18个PPT资料包>>> 4月25-26日,全球首个 Apache 顶级项目在线盛会 Flink Forward 中文精华版重磅开播,聚焦 Alibaba、 Google、AWS、Uber、Netflix、DellEMC、微博、滴滴等各大互联网公司实时计算的经典场景和...

    文章 阿里云实时计算Flink 2020-04-28 16601浏览量

  • 《企业迁云实战》——3.4 应用改造实践

    3.4 应用改造实践 在完成阿里云上应用系统架构设计后,开始进入实施阶段,对应用系统进行架构和代码级的编码改造实施工作。3.4.1 应用架构改造在应用架构改造中,主要涉及负载均衡改造、Web和应用层改造、服务化改造几方面问题。1 . 负载均衡改造原有系统Web、应用服务器采用硬件负载均衡设备F5或...

    文章 华章计算机 2017-09-04 2831浏览量

  • 开发效率提升15倍!批流融合实时平台在好未来的应用实践

    摘要:本文由好未来资深数据平台工程师毛祥溢分享,主要介绍批流融合在教育行业的实践。内容包括两部分,第一部分是好未来在做实时平台中的几点思考,第二部分主要分享教育行业中特有数据分析场景。大纲如下: 背景介绍 好未来 T-Streaming 实时平台 K12 教育典型分析场景 展望与规划 1...

    文章 阿里云实时计算Flink 2021-01-07 2489浏览量

  • 58快狗打车基于Hologres的实时离线统一数据服务

    作者简介:陶王飞,58快狗打车资深大数据开发工程师,长期专注于实时计算和数据应用。 前言 数据的实时化是最近几年数据行业很重要的趋势,我们在去年底也建立起新一代的实时数仓,但是在数据应用上一直没有取得很大的突破,我们希望实时数仓不仅仅是支撑大屏、核心实时报表、个别实时应用等简单的场景,希望更大的发...

    文章 May-Hologres 2020-11-06 2657浏览量

  • 海量、低成本历史日志分析实践

    背景信息 日志作为一种特殊的数据,对处理历史数据、诊断问题以及了解系统活动等有着非常重要的作用。对数据分析人员、开发人员或者运维人员而言,日志都是其工作过程中必不可缺的数据来源。 通常情况下,为节约成本,我们会将日志设定一定的保存时间,只分析该时间段内的日志,此类日志称之为“热”日志。这种做法,...

    文章 东西南左上 2019-02-25 4902浏览量

  • Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

    DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到MaxCompute、RDS等,不需要用户提前安装和部署DataX...

    文章 隐林 2018-09-11 8455浏览量

  • 高可用Hadoop平台-实战

    1.概述   今天继续《高可用的Hadoop平台》系列,今天开始进行小规模的实战下,前面的准备工作完成后,基本用于统计数据的平台都拥有了,关于导出统计结果的文章留到后面赘述。今天要和大家分享的案例是一个基于电商网站的用户行为分析,这里分析的指标包含以下指标: 统计每日PV 每日注册用户 每日IP...

    文章 smartloli 2016-04-19 1319浏览量

  • 高可用Hadoop平台-实战

    1.概述   今天继续《高可用的Hadoop平台》系列,今天开始进行小规模的实战下,前面的准备工作完成后,基本用于统计数据的平台都拥有了,关于导出统计结果的文章留到后面赘述。今天要和大家分享的案例是一个基于电商网站的用户行为分析,这里分析的指标包含以下指标: 统计每日PV 每日注册用户 每日IP...

    文章 smartloli 2016-04-25 1729浏览量

  • 阿里云云原生数据湖分析DLA重磅发布-数据湖管理,助力企业一站式管理OSS数据湖存储数据

    一、什么是数据湖方案 数据湖当前在国内外是比较热的方案,MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金。一些企业已经构建了自己的云原生数据湖方案,有效解决了业务痛点;还有很多企业在构建或者计划构建自己的数据湖,Gartner...

    文章 云原生数据湖分析DLA 2020-08-20 1996浏览量

  • MaxCompute技术人背后的故事:从ApacheORC到AliORC

    2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术专家吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。此...

    文章 KB小秘书 2019-07-24 1661浏览量

  • MongoDB、Hbase、Redis等NoSQL优劣势、应用场景

    NoSQL的四大种类 NoSQL数据库在整个数据库领域的江湖地位已经不言而喻。在大数据时代,虽然RDBMS很优秀,但是面对快速增长的数据规模和日渐复杂的数据模型,RDBMS渐渐力不从心,无法应对很多数据库处理任务,这时NoSQL凭借易扩展、大数据量和高性能以及灵活的数据模型成功的在数据库领域站稳了...

    文章 程序员小鱼 2018-10-11 3087浏览量

  • 数据仓库架构的变迁

    数据仓库架构的变迁 作者 digoal 日期 2016-11-10 标签 Greenplum , HAWQ , PostgreSQL , MPP , OLAP , HDFS , Hadoop 背景 本文是HashData发表的关于Greenplum, HAWQ的文章,内容很丰富,向作者致...

    文章 德哥 2016-11-24 3550浏览量

  • 高可用Hadoop平台-实战

    1.概述   今天继续《高可用的Hadoop平台》系列,今天开始进行小规模的实战下,前面的准备工作完成后,基本用于统计数据的平台都拥有了,关于导出统计结果的文章留到后面赘述。今天要和大家分享的案例是一个基于电商网站的用户行为分析,这里分析的指标包含以下指标: 统计每日PV 每日注册用户 每日IP...

    文章 技术mix呢 2017-11-21 1364浏览量

1 2 3 4 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT