大数据组件-Hive部署基于MySQL作为元数据存储

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: 大数据组件-Hive部署基于MySQL作为元数据存储

在这里插入图片描述

👨🏻‍🎓博主介绍:大家好,我是芝士味的椒盐,一名在校大学生,热爱分享知识,很高兴在这里认识大家🌟
🌈擅长领域:Java、大数据、运维、电子
🙏🏻如果本文章各位小伙伴们有帮助的话,🍭关注+👍🏻点赞+🗣评论+📦收藏,相应的有空了我也会回访,互助!!!
🤝另本人水平有限,旨在创作简单易懂的文章,在文章描述时如有错,恳请各位大佬指正,在此感谢!!!

@[TOC]

MySQL安装

  • 准备如下安装包

    1. MySQL-client-5.6.24-1.el6.x86_64.rpm
    2. mysql-connector-java-5.1.27.tar.gz
    3. MySQL-server-5.6.24-1.el6.x86_64.rpm

操作步骤:

  1. 使用rpm指令查询是否安装有mariadbpostfix,有就卸载

    rpm -qa |grep mariadb
    rpm -qa |grep postfix
    #卸载发现的,否则mysql将安装不上
    sudo rpm -e --nodeps mariadb-libs-5.5.64-1.el7.x86_64
  2. 安装MySQL-server-5.6.24-1.el6.x86_64.rpm

    rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm
    rpm -ivh MySQL-client-5.6.24-1.el6.x86_64.rpm
  3. 启动mysql服务

    seriver mysql start
  4. /root/.mysql_secret 中查看随机密码,并记录随机密码

    sudo cat /root/.mysql_secret
  5. 登录mysql

    mysql -uroot -p[随机密码]
  6. 设置新的密码以及远程登录,并且刷新

    mysql>set password=password('root');
    #配置任何主机可以远程登录
    mysql>use mysql
    mysql>update user set host='%' where user='root;
    #刷新sql配置
    mysql>flush privileges;

安装Hive配置元数据到MySQL

  1. mysql-connector-java-5.1.27.tar.gz 进行解压

    tar -zxvf mysql-connector-java-5.1.27.tar.gz
  2. 将解压出来中的mysql-connector-java-5.1.27-bin.jar复制到/usr/local/src/hive/lib下

    cp mysql-connector-java-5.1.27-bin.jar /usr/local/src/hive/lib/
  3. 配置Metastore到MySQL

    1. 在/hive/conf下创建一个hive-site.xml

      touch hive-site.xml
    2. 并配置hive-site.xml中的参数

      image.png

      • 若启动hive异常需要重新启动机器
    3. 多窗口启动hive测试

      1. 先启动mysql,并查看有几个数据库

        ------mysql -uroot -proot
        mysql>show databases;
      2. 再次打开多个窗口,分别启动hive

        hive
      3. 启动hive之后,返回mysql窗口查看数据库数量,会显示增加了metastore数据库

HiveJDBC访问

  1. 因为hadoop不允许直接用户操纵hadoo层,会有一个伪装机制,而是使用将控制权交由超级代理,需要在hadoop的core-site.xml中配置

    image.png

  2. 先开启 Metastore,再开启hiveserver2

    nohup hive --service metastore  >>  log.out 2>&1 &
    
    nohup hive --service hiveserver2  >> log.out 2>&1 &
  3. 连接hiveserver2

    beeline> !connect jdbc:hive2://本机的hive的ip或域名:10000(回车)
    Connecting to jdbc:hive2://本机的hive的ip或域名:10000
    Enter username for jdbc:hive2://本机的hive的ip或域名:10000: hadoop(回车)
    Enter password for jdbc:hive2://本机的hive的ip或域名:10000: (直接回车)
    Connected to: Apache Hive (version 1.2.1)
    Driver: Hive JDBC (version 1.2.1)
    Transaction isolation: TRANSACTION_REPEATABLE_READ
    0: jdbc:hive2://本机的hive的ip或域名:10000> show databases;
    +----------------+--+
    | database_name  |
    +----------------+--+
    | default        |
    | hive_db2       |
    +----------------+--+
相关文章
|
2月前
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
58 0
|
2月前
|
消息中间件 关系型数据库 MySQL
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
186 0
|
1月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
164 3
【赵渝强老师】基于大数据组件的平台架构
|
1月前
|
存储 算法 固态存储
大数据分区优化存储成本
大数据分区优化存储成本
31 4
|
1月前
|
存储 NoSQL 大数据
大数据 数据存储优化
【10月更文挑战第25天】
80 2
|
2月前
|
存储 NoSQL 大数据
大数据中数据存储 (Data Storage)
【10月更文挑战第17天】
137 2
|
2月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
41 9
|
1月前
|
SQL 分布式计算 大数据
【赵渝强老师】大数据生态圈中的组件
本文介绍了大数据体系架构中的主要组件,包括Hadoop、Spark和Flink生态圈中的数据存储、计算和分析组件。数据存储组件包括HDFS、HBase、Hive和Kafka;计算组件包括MapReduce、Spark Core、Flink DataSet、Spark Streaming和Flink DataStream;分析组件包括Hive、Spark SQL和Flink SQL。文中还提供了相关组件的详细介绍和视频讲解。
|
2月前
|
存储 关系型数据库 MySQL
PACS系统 中 dicom 文件在mysql 8.0 数据库中的 存储和读取(pydicom 库使用)
PACS系统 中 dicom 文件在mysql 8.0 数据库中的 存储和读取(pydicom 库使用)
43 2
|
2月前
|
SQL 分布式计算 大数据
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
64 2

推荐镜像

更多
下一篇
DataWorks