在Hive中使用Avro

简介:

作者:过往记忆 | 新浪微博:左手牵右手TEL | 
可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
博客地址:
文章标题:
本文链接:
Hadoop、Hive、Hbase、Flume等QQ交流群:138615359(已满),请加入新群:149892483

本博客的微信公共帐号为:iteblog_hadoop,欢迎大家关注。
如果你觉得本文对你有帮助,不妨分享一次,你的每次支持,都是对我最大的鼓励

如果本文的内容对您的学习和工作有所帮助,不妨支付宝赞助(wyphao.2007@163.com)一下


Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting牵头开发。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。
Hive中,我们可以将数据使用Avro格式存储,本文以avro-1.7.1.jar为例,进行说明。

  如果需要在 Hive中使用Avro,需要在$HIVE_HOME/lib目录下放入以下四个工具包:avro-1.7.1.jar、avro-tools-1.7.4.jar、 jackson-core-asl-1.8.8.jar、jackson-mapper-asl-1.8.8.jar。当然,你也可以把这几个包存在别的路径下面,但是你需要把这四个包放在CLASSPATH中。

  为了解析Avro格式的数据,我们可以在Hive建表的时候用下面语句:

01 hive> CREATE EXTERNAL TABLE tweets
02     > COMMENT "A table backed by Avro data with the
03     >        Avro schema embedded in the CREATE TABLE statement"
04     > ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
05     > STORED AS
06     > INPUTFORMAT  'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
07     > OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
08     > LOCATION '/user/wyp/examples/input/'
09     > TBLPROPERTIES (
10     >    'avro.schema.literal'='{




本文转自茄子_2008博客园博客,原文链接:http://www.cnblogs.com/xd502djj/p/4089644.html ,如需转载请自行联系原作者。

目录
相关文章
|
算法 数据处理 计算机视觉
【MATLAB 】 MODWT 信号分解+希尔伯特黄变换+边际谱算法
【MATLAB 】 MODWT 信号分解+希尔伯特黄变换+边际谱算法
470 0
|
Kubernetes Linux Docker
Docker容器生产实践1——永远设置容器内存限制
背景 在默认情况下,docker容器并不会对容器内部进程使用的内存大小进行任何限制。对于PaaS系统而言,或者对于直接使用docker的用户而言,这非常危险。
3598 0
|
移动开发 JSON 分布式计算
【最佳实践】实时计算Flink在游戏行业的实时数仓建设实践
随着互联网和移动互联网的相互促进与融合,以及PC终端和各类移动终端在智能化和便携性上的趋同,游戏产品跨平台运行于各类终端的需求逐步显现。
|
9月前
|
存储 安全 Java
什么?CPU消耗要压降80% ——《事件序列化CPU开销压降》揭榜
本文为《事件CPU开销压降》揭榜报告,旨在解决风控系统间信息传递时事件体持续膨胀导致的序列化/反序列化CPU消耗过高的问题。
207 12
|
监控 Linux Python
百度搜索:蓝易云【Linux系统安装HomeAssistant教程。】
请注意,以上步骤提供了基本的Home Assistant安装指南。具体的安装过程可能因您使用的Linux发行版和软件源而有所不同。如果您遇到任何问题,请参考相应的文档,或寻求相关的支持和指导。
388 0
|
XML 前端开发 JavaScript
【Web 前端】href和src的区别?
【4月更文挑战第22天】【Web 前端】href和src的区别?
|
机器学习/深度学习 算法 vr&ar
南大最新综述论文:基于模型的强化学习
南大最新综述论文:基于模型的强化学习
516 0
|
存储 SQL 分布式计算
数据仓库的Hive的数据类型的基本数据类型的整型
在数据仓库领域,Hive是一个常用的工具。它是一个基于MapReduce的开源数据仓库,可以处理大规模的数据集。Hive中的数据类型是一个重要的话题,因为它们决定了数据如何被存储和处理。在本文中,我们将探讨Hive中的整型数据类型。
264 0
|
资源调度 分布式计算 Hadoop
Hadoop Yarn 核心调优参数
这是一个关于测试集群环境的配置说明,包括3台服务器(master, slave1, slave2)运行CentOS 7.5,每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3,JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置,以及容器的内存和CPU限制。配置完成后,需要重启Hadoop并检查yarn配置。
331 4
|
分布式计算 并行计算 Java
【分布式计算框架】 MapReduce编程初级实践
【分布式计算框架】 MapReduce编程初级实践
496 2