Hive初认识(2)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS MySQL,高可用系列 2核4GB
简介:

配置hive首先需要安装在hadoop主节点的linux上
需要注意的需要同时安装MYSQL
对于hive安装呢 唯一要注意的就是配置site.xml文件
配置参数 通用的首先就是


javax.jdo.option.ConnectionURL

<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://127.0.0.1:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>

java.jdo.option.ConnectionDriverName

<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>

java.jdo.ConnectionUserName

<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>Username to use against metastore database</description>

java.jdo.ConnectionPassword

<name>javax.jdo.option.ConnectionPassword</name>
<value>sa</value>
<description>password to use against metastore database</description>

hive.exec.local.scratchdir

<name>hive.exec.local.scratchdir</name>
<value>/usr/tools/apache-hive-2.0.0-bin/tmp</value>
<description>Local scratch space for Hive jobs</description>

hive.downloaded.resources.dir

<name>hive.downloaded.resources.dir</name>
<value>/usr/tools/apache-hive-2.0.0-bin/tmp/resources</value>
<description>Temporary local directory for added resources in the remote file system.</description>

hive.querylog.location

<name>hive.querylog.location</name>
<value>/usr/tools/apache-hive-2.0.0-bin/tmp</value>
<description>Location of Hive run time structured log file</description>

hive.server2.logging.operation.log.location

<name>hive.server2.logging.operation.log.location</name>
<value>/usr/tools/apache-hive-2.0.0-bin/tmp/operation_logs</value>
<description>Top level directory where operation logs are stored if logging functionality is enabled</description>

配置完后,使用
schematool -initSchema -daType mysql

最后运行即可
如果报错 可能星有两个hive的site.xml信息配置出错
不然就是mysql有问题

关于hive的使用
确保集群开启
运行 hiveserver2
重新打开一个命令窗口
运行beeline
当出现
beeline>则表示运行成功
然后输入!connect jdbc:hive2://localhost:10000
会出现让你输入user和password 当输入完成后 则
会变成
0 : jdbc:hive://localhost:10000>

官网文档为
image
当然你也可以指定链接参数在命令行它的意思就是可以找到你在unix shell命令的历史记录的字符串(所以第一次登录个估计不行吧)
image

登录进入后
可以执行一些读写操作

比如讲hdfs上的文档写入到数据库中
创建数据库
create database test;
使用 数据库
use test;
创建table
create table docs(line string);
讲HDFS系统上的README.txt 文件写入到docs 表中 以字符串的形式
load data inpath '/reversetext/README.txt' overwrite into table docs;

接下来做一个简单的单词计数
操作为
select explode (split(line,'\s')) from docs;
意思为讲字符串参数 line 用空格分割开来
展示效果为 所有单个单词
接下来聚合单词 讲上条sql作为子令
select word,count(*) from (select explode(split(line,'\s'))as word from docs)a group by word;

这样的展示并未输出写入到hive数据库中或者hdfs中
我们可以通过 下面这条指令 将结果写到table表格中
create table wc_result as select word,count(*) as wccount from (select explode (split(line,'\s'))as word from docs)a group by word;

这条语句中 我们是通过创建table表名为wc_result 将上面的聚合结果当做输入写入到wc_result中 你可以发现 在这个创建的table中没有指定字段.
所以说 hive中是可以不用指定字段,但是问题在于table如何创建的.

运用hive必须会数据语言
DDL 数据定义语言 创建删除表数据库 更改表结构
DML 数据操作语言 对表的增删改查
DQL 数据查询语言 Select ..
DCL 数据库控制语言 grant priliages on , create user..

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
相关文章
|
SQL 存储 分布式计算
【Hive】(二十三)简单几招教你如何解决 Hive 中小文件过多的问题
【Hive】(二十三)简单几招教你如何解决 Hive 中小文件过多的问题
1921 0
|
SQL JSON 数据格式
SQL老司机,在SQL中计算 array & map & json数据
场景 通常,我们处理数据,一列数据类型要么是字符串,要么是数字,这些都是primitive类型的数据。在某些比较复杂的业务场景下,我们会在一列中使用复杂的格式,例如数组array, 对象(map),json等格式来表示复杂的数据,例如: __source__: 11.
10342 0
|
11月前
|
数据可视化 数据处理 Python
如何使用Python实现一个基于均线的交易策略
【10月更文挑战第9天】本文介绍了如何使用Python实现一个基于均线的交易策略。主要步骤包括导入所需库(如`pandas`、`numpy`和`matplotlib`),加载股票或期货的历史数据,计算均线和其他指标,实现交易策略逻辑,以及可视化交易结果。示例代码展示了如何根据均线交叉点进行开仓、止损和止盈操作,并提供了注意事项,如数据来源、交易成本和风险管理。
476 7
|
9月前
|
供应链 监控 API
1688.item_search_shop API:开启电商数据新纪元
1688.item_search_shop API是阿里巴巴1688平台提供的核心接口之一,支持根据关键词搜索指定店铺的商品,并获取商品详情、图片、价格等信息。该API允许设定搜索结果排序方式,如按销量或价格排序,满足不同需求。开发者可将其集成到电商应用中,提升用户体验;市场分析人员可利用其进行趋势和竞争对手分析;供应链管理人员则能监控库存,优化策略。示例代码展示了如何使用Python调用该API,帮助开发者快速上手。这一API的推出标志着B2B电商领域商品搜索技术的重要进步,推动行业向更高效、智能的方向发展。
|
11月前
|
数据采集 搜索推荐 算法
蚂蚁seo的蜘蛛池原理与如何使用?
《揭秘蜘蛛池:原理与使用方法全解析》深入介绍了蜘蛛池的概念、工作原理及使用技巧。蜘蛛池通过吸引搜索引擎蜘蛛频繁访问特定网页,提高网页收录速度和概率。文章详细解析了蜘蛛池的链接储备、吸引策略、爬行路径引导等核心机制,并提供了选择服务、提交链接、监测效果等实用指南,强调合法合规使用的重要性。
424 4
|
11月前
|
自然语言处理 应用服务中间件 程序员
Nginx UI:全新的 Nginx 在线管理平台
Nginx UI:全新的 Nginx 在线管理平台
346 1
|
运维 Android开发
使用logcat让Android应用支持查看实时日志并输出至界面显示功能
使用logcat让Android应用支持查看实时日志并输出至界面显示功能
|
Python
python安装pywin32clipboard的方法
python安装pywin32clipboard的方法
606 0
|
分布式计算 资源调度 调度
Spark计算过程分析
### 基本概念 ---------- Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。 MapReduce是Hadoop和Spark的计算模型,其特点
6823 0
|
开发者
Magisk模块:Shamiko模块 V0.5.0 更新:更好的隐藏 Zygisk
Magisk模块:Shamiko模块 V0.5.0 更新:更好的隐藏 Zygisk
5449 0