大数据基础-配置Hive Java环境

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 配置Hive Java环境

配置hive环境变量

vi /etc/profile

exportHIVE_HOME=/data/soft/apache-hive-3.1.2-bin

source /etc/profile

JDBC方式

这里我们创建一个maven项目

com.bigdata.hive

添加Hive开发依赖

hive JDBC驱动如下

<dependency>

<groupId>org.apache.hive</groupId>

<artifactId>hive-jdbc</artifactId>

<version>3.1.2</version>

</dependency>

核心代码:

先启动hiveserver2服务

/**

* JDBC代码操作 Hive

*/

publicclassHiveJdbcDemo {

publicstaticvoidmain(String[] args) throwsException{

//指定hiveserver2的连接

StringjdbcUrl="jdbc:hive2://192.168.197.104:10000";

//获取jdbc连接,这里的user使用root,就是linux中的用户名,password随便指定即

Connectionconn=DriverManager.getConnection(jdbcUrl, "root", "any")

//获取Statement

Statementstmt=conn.createStatement();

//指定查询的sql

Stringsql="select * from t1";

//执行sql

ResultSetres=stmt.executeQuery(sql);

//循环读取结果

while (res.next()){

System.out.println(res.getInt("id")+"\t"+res.getString("name"));

}

}

}

网络异常,图片无法展示
|

这里处理下log4j的信息

排除hive自带的log4j

   <dependency>

     <groupId>org.apache.hive</groupId>

     <artifactId>hive-jdbc</artifactId>

     <version>3.1.2</version>

     <exclusions>

       <exclusion>

         <groupId>org.slf4j</groupId>

         <artifactId>slf4j-log4j12</artifactId>

       </exclusion>

     </exclusions>

   </dependency>

网络异常,图片无法展示
|

资源目录下新增log4j.xml

重新打印,即可解决log4j报错信息问题

使用临时参数

在hive命令行中可以使用set命令临时设置一些参数的值

其实就是临时修改hive-site.xml中参数的值

通过set命令设置的参数只在当前会话有效,退出重新打开就无效了

在hive-site.xml中有一个参数是 hive.cli.print.current.db ,这个参数可以显示当前所在的数据库名 称,默认值为 false 。 在这里我们设置为true。

set hive.cli.print.current.db = true;

还有一个参数 hive.cli.print.header 可以控制获取结果的时候显示字段名称,这样看起来会比较清晰

set hive.cli.print.header = true;

修改 ~/.hiverc,保留配置仅对当前用户生效

vi ~/.hiverc

set hive.cli.print.current.db = true;

set hive.cli.print.header = true;

重新进入看下效果

网络异常,图片无法展示
|

配置Hive日志

删除重复的日志信息

hive中的一个日志依赖包和hadoop中的日志依赖包冲突

我们移除hive的日志依赖包

mv log4j-slf4j-impl-2.10.0.jar log4j-slf4j-impl-2.10.0.jar.bak

配置Hive日志信息目录

mv hive-log4j2.properties.template hive-log4j2.properties

vi hive-log4j2.properties

配置信息如下

property.hive.log.level = WARN

property.hive.root.logger = DRFA

property.hive.log.dir = /data/hive_repo/log

property.hive.log.file = hive.log

property.hive.perflogger.log.level = INFO

这样后期分析日志就可以到 /data/hive_repo/log 目录下去查看了。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
16天前
|
分布式计算 Java MaxCompute
ODPS MR节点跑graph连通分量计算代码报错java heap space如何解决
任务启动命令:jar -resources odps-graph-connect-family-2.0-SNAPSHOT.jar -classpath ./odps-graph-connect-family-2.0-SNAPSHOT.jar ConnectFamily 若是设置参数该如何设置
|
17天前
|
Java 数据库连接 数据库
如何构建高效稳定的Java数据库连接池,涵盖连接池配置、并发控制和异常处理等方面
本文介绍了如何构建高效稳定的Java数据库连接池,涵盖连接池配置、并发控制和异常处理等方面。通过合理配置初始连接数、最大连接数和空闲连接超时时间,确保系统性能和稳定性。文章还探讨了同步阻塞、异步回调和信号量等并发控制策略,并提供了异常处理的最佳实践。最后,给出了一个简单的连接池示例代码,并推荐使用成熟的连接池框架(如HikariCP、C3P0)以简化开发。
38 2
|
1月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
24 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
28天前
|
安全 Java 数据安全/隐私保护
如何配置 Java 安全管理器来避免访问控制异常
配置Java安全管理器以防止访问控制异常,需在启动JVM时通过 `-Djava.security.manager` 参数启用,并设置安全策略文件,定义权限规则,限制代码执行操作,确保应用安全。
|
30天前
|
Java BI 调度
Java Spring的定时任务的配置和使用
遵循上述步骤,你就可以在Spring应用中轻松地配置和使用定时任务,满足各种定时处理需求。
123 1
|
1月前
|
消息中间件 分布式计算 Java
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
31 2
|
1月前
|
分布式计算 Java 大数据
大数据-147 Apache Kudu 常用 Java API 增删改查
大数据-147 Apache Kudu 常用 Java API 增删改查
28 1
|
1月前
|
负载均衡 算法 Java
java中nginx负载均衡配置
java中nginx负载均衡配置
38 0
|
1月前
|
分布式计算 Java 大数据
大数据-122 - Flink Time Watermark Java代码测试实现Tumbling Window
大数据-122 - Flink Time Watermark Java代码测试实现Tumbling Window
32 0
|
1月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
34 0

热门文章

最新文章