[Hadoop大数据]——Hive初识-阿里云开发者社区

[Hadoop大数据]——Hive初识

2017-12-05 1431

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Hive出现的背景

Hadoop提供了大数据的通用解决方案，比如存储提供了Hdfs，计算提供了MapReduce思想。但是想要写出MapReduce算法还是比较繁琐的，对于开发者来说，需要了解底层的hadoop api。如果不是开发者想要使用mapreduce就会很困难....

另一方面，大部分的开发者都有使用SQL的经验。SQL成为开发者必备的技能...

那么可以不可以使用SQL来完成MapReduce的过程呢？—— 答案就是，Hive

Hive能够解决的问题

Hive可以帮助开发者从现有的数据基础架构转移到Hadoop上，而这个基础架构是基于传统关系型数据库和SQL的。Hive提供了Hive查询语言，即HQL，它可以使用SQL方言查询存储在hadoop中的数据。

执行原理

Hive本身不会生成java的mapreduce程序，而是通过XML文件驱动执行内置的、原生的Mapper和Reducer。

Hive的缺点

1 不支持记录级别的更新、插入或者删除
2 查询延迟比较严重
3 不支持事务

如果想要基于SQL还想具有上面的特性，可以直接使用hadoop提供的nosql数据库——HBase

适合的场景

Hive适合做数据仓库应用程序，可以维护海量数据，对数据进行挖掘，形成意见和报表。

其他

同类型的工具就是Pig

暂时的疑问！！

1 HQL是如何变成MapReduce算法的？

2 平时HQL都是怎么使用的？——最佳实践

Hive中的数据类型与文件格式

本文转自博客园xingoo的博客，原文链接：[Hadoop大数据]——Hive初识，如需转载请自行联系原博主。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

[Hadoop大数据]——Hive初识

Hive出现的背景

Hive能够解决的问题

执行原理

Hive的缺点

适合的场景

其他

暂时的疑问！！

1 HQL是如何变成MapReduce算法的？

2 平时HQL都是怎么使用的？——最佳实践

Hive中的数据类型与文件格式

热门文章

最新文章

相关课程

相关电子书

相关实验场景