• 关于

    hive 数据库 选取

    的搜索结果
  • Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)

    作者:李劲松(之信) 如今的大数据批计算,随着 Hive 数仓的成熟,普遍的模式是 Hive metastore + 计算引擎。常见的计算引擎有 Hive on MapReduce、Hive on Tez、Hive on Spark、Spark integrate Hive、Presto inte...

    文章 阿里云实时计算Flink 2020-02-20 501浏览量

  • Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)

    作者:李劲松(之信) 如今的大数据批计算,随着 Hive 数仓的成熟,普遍的模式是 Hive metastore + 计算引擎。常见的计算引擎有 Hive on MapReduce、Hive on Tez、Hive on Spark、Spark integrate Hive、Presto inte...

    文章 阿里云实时计算Flink 2020-02-20 1405浏览量

  • 大数据与机器学习:实践方法与行业案例.1.2数据平台

    1.2数据平台 数据平台是存放分析数据的平台,也是支持大多数数据分析和数据挖掘应用的底层平台,它使用了统一的数据清洗与处理规则,因而可以保证从基础平台上输出的数据内容是一致的。 传统的数据平台基本等同于大家熟悉的“数据仓库”,但互联网浪潮让人们对数据采集、存储和应用提出了越来越高的要求,传统数据...

    文章 华章计算机 2017-05-02 2043浏览量

  • Quick BI 数据可视化分析平台

    2020年入选全球Gartner ABI魔力象限,为中国首个且唯一入选BI产品

    广告

  • Hadoop数据传输工具sqoop

    概述 sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。sqoop架构: sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-red...

    文章 skyme 2016-05-05 2825浏览量

  • MaxCompute SQL与Hive对比分析及使用注意事项

    摘要:一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,实现从Hive秒速迁移到MaxCompu...

    文章 刘-建伟 2020-02-25 583浏览量

  • DataSimba系列之计算引擎篇

    随着移动互联网、云计算、物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代。数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产。如何处理大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息技术发展道路上关注的重点。 传统的数据处...

    文章 startdtsms 2019-06-05 1239浏览量

  • Hive中如何确定map数

    Hive 是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sq l语句转换为 MapReduce 任务进行运行。当运行一个 hql 语句的时候,map 数是如何计算出来的呢?有哪些方法可以调整 map 数呢? 本文测试集群版...

    文章 雨客 2016-04-11 5049浏览量

  • MaxCompute SQL 现状与展望

    票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部高级专家振禹为大家带来题为“MaxCompute SQL 现状与展望”的演讲。本文重点解析了MaxCompute SQL 现状,详细介绍了各种功能,其中包括编译器用户友好功能、复杂类型、CTE、参数化视图和SEMI JION等,接着说明了MaxC...

    文章 云栖小秘书 2017-03-14 4819浏览量

  • Hadoop Hive概念学习系列之hive里的视图(十二)

    可以先,从MySQL里的视图概念理解入手         视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口,与基本表不同,它是一个虚表。在数据库中,存放的只是视图的定义,而不存放视图包含的数据项,这些项目仍然存放在原来的基本表结构中。         视图可以被定义为多个表的连接,也可以被定...

    文章 技术小哥哥 2017-11-13 509浏览量

  • Spark SQL玩起来

    标签(空格分隔): Spark [toc] 前言 Spark SQL的介绍只包含官方文档的Getting Started、DataSource、Performance Tuning和Distributed SQL Engine部分。不含其他的迁移和PySpark等部分。 Spark SQL介绍 ...

    文章 尊渊 2019-03-26 8636浏览量

  • 单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

    背景介绍 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 1、详单采用Parquet格式存储,数据表使用时间+MSISDN号码做分区,使用Impala查询,利用不上分区的查询场景,则查询性能比较差...

    文章 调皮仔3683 2018-11-29 3314浏览量

  • 跟我一起数据挖掘(4)——数据挖掘涉及的技术

    数据挖掘需要掌握的内容包括:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。 下图比较清楚的画出了学习数据挖掘需要掌握的知识内容: 1、统计学 统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的...

    文章 skyme 2016-05-05 1441浏览量

  • Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

    作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。 共同点 定性上讲...

    文章 开源大数据EMR 2020-02-14 2417浏览量

  • Apache Eagle:分布式实时 Hadoop 数据安全方案

    日 前,eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案 - Apache Eagle (http://goeagle.io ),该项目已正式加入Apache 称为孵化器项目。Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时、可伸缩、易扩展、交互友好等特点,同时集...

    文章 行者武松 2017-06-05 1481浏览量

  • 收藏!一张图帮你快速建立大数据知识体系

    前言 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”数据,让一切有迹可循,让一切有源可溯。我们每天都在产生数据,创造大数据和使用大数据...

    文章 茶什i 2020-06-11 9451浏览量

  • MaxCompute理解数据、运算和用户的大脑:基于代价的优化器

    更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 摘要:回顾大数据技术领域大事件,最早可追溯到06...

    文章 场景研读 2017-03-13 6871浏览量

  • 数据科学工具包(万余字介绍几百种工具,经典收藏版!)

    本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址。为数据科学教育和知识分享,提高数据科学人员素质。 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率...

    文章 小旋风柴进 2017-05-02 2459浏览量

  • Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

    共同点 定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。与数据库不同的是,这些 meta 文件是与数据文件一起存放在存储引擎中...

    文章 xy_xin 2020-02-03 2880浏览量

  • 阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

    11月16日,阿里云大数据+AI技术沙龙,首战上海站取得圆满成功。我们邀请到阿里巴巴计算平台事业部 技术专家辛庸,辰山,抚月,诚历;高级技术专家铁杰,以及Intel软件工程师喻杉和大家进行分享交流。 以下是各议题相关资料沉淀。 议题一:基于 Spark 打造高效云原生数据分析引擎 视频观看链接:...

    文章 开源大数据EMR 2019-11-26 4427浏览量

  • 阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

    11月16日,阿里云大数据+AI技术沙龙,首战上海站取得圆满成功。我们邀请到阿里巴巴计算平台事业部 技术专家辛庸,辰山,抚月,诚历;高级技术专家铁杰,以及Intel软件工程师喻杉和大家进行分享交流。 以下是各议题相关资料沉淀。 议题一:基于 Spark 打造高效云原生数据分析引擎 视频观看链接:...

    文章 阿里云E-MapReduce团队 2019-11-27 4929浏览量

  • MaxCompute技术人背后的故事:从ApacheORC到AliORC

    2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术专家吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。此...

    文章 KB小秘书 2019-07-24 1661浏览量

  • 从 Neo4j 导入 Nebula Graph 实践见 SPark 数据导入原理

    本文主要讲述如何使用数据导入工具 Nebula Graph Exchange 将数据从 Neo4j 导入到 Nebula Graph Database。在讲述如何实操数据导入之前,我们先来了解下 Nebula Graph 内部是如何实现这个导入功能的。 Nebula Graph Exchange ...

    文章 NebulaGraph 2020-09-16 129浏览量

  • 吴刚专访--大数据和 MaxCompute 技术和故事

    【摘要】2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术专家吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的...

    文章 晋恒 2019-07-25 18024浏览量

  • 10年老兵带你看尽MaxCompute大数据运算挑战与实践

    本文根据阿里云大数据计算平台资深架构师林伟在大流量高并发互联网应用实践在线峰会上题为《MaxCompute大数据运算挑战与实践》的分享整理而成。分享中,他主要介绍了在大数据、大流量、高并发情况下MaxCompute所面临的挑战,以及应对这些挑战的实践经验。 直播视频:点击此处观看 幻灯片地址:点击...

    文章 云栖小秘书 2016-09-22 14773浏览量

  • 曾文旌的私房菜:开源数据库Greenplum Database的实现解析

    Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能力,特别是面向大数据方面的分析能力,支持大数据的超高性能分析查询。在本次分享中,曾文旌从GPDB架...

    文章 场景研读 2016-09-22 7605浏览量

  • 如何实现Spark on Kubernetes?

    云原生背景介绍与思考 “数据湖”正在被越来越多人提起,尽管定义并不统一,但企业已纷纷投入实践,无论是在云上自建还是使用云产品。 阿里云大数据团队认为:数据湖是大数据和AI时代融合存储和计算的全新体系。为什么这么说?在数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,因...

    文章 茶什i 2020-09-28 3018浏览量

  • 阿里云大数据+AI技术沙龙上海站

    时间:2019年11月16日(周六)下午地点:上海市徐汇区裕德路126号(氪空间徐家汇社区) 报名链接: https://www.slidestalk.com/m/61 活动日程13:00 - 13:30 活动签到13:30 - 13:40 开场13:40 - 14:20 基于Spark打造高效云...

    文章 开源大数据EMR 2019-11-05 874浏览量

  • 阿里云大数据+AI技术沙龙上海站

    时间:2019年11月16日(周六)下午地点:上海市徐汇区裕德路126号(氪空间徐家汇社区) 报名链接: https://www.slidestalk.com/m/61 活动日程13:00 - 13:30 活动签到13:30 - 13:40 开场13:40 - 14:20 基于Spark打造高效云...

    文章 阿里云E-MapReduce团队 2019-11-05 1084浏览量

  • 那些年,阿里巴巴技术男神们写的书!

    书籍名称:《离线和实时大数据开发实战》 内容提要:阿里巴巴大数据开发专家撰写,源于十余年工作实践,只讲实用有效的“招式”。庖丁解牛式式讲解离线和实时开发平台架构、原理、开发示例,涵盖查询与优化、建模、数仓开发、流计算开发等核心技术。本书包含三篇,共计12章内容。第一篇——数据大图和数据平台大图(...

    文章 山哥在这里 2018-03-08 7219浏览量

  • 新美大实战经验:大数据在O2O精准化营销中的应用

    本次的分享Topic是:精准营销中的数据应用。 内容概要 O2O的营销业务和系统演变; 数据系统和服务在营销系统中的应用; 数据挖掘和用户画像的建设。 O2O的营销业务和系统演变 在介绍技术框架前,为了方便大家理解,先简单阐述一下O2O营销的基本组成:O2O营销是由营销发生的渠道(站内,...

    文章 jurassic_1 2016-06-23 5287浏览量

1 2 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT