搭建大数据运行环境之二(4)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 搭建大数据运行环境之二(4)

Hive启动


  • 配置Mysql用于存储hive元数据


cd /usr/local/hive/conf
vi hive-site.xml



image.png


  • 初次启动Hive元数据初始化


在hadoop1上初始化元数据


cd /usr/local/hadoop/sbin
schematool -initSchema -dbType mysql


若报错 Duplicate key name 'PCS_STATS_IDX'


说明已经有hive数据库了 删除即可


若报错javax.net.ssl.SSLException: closing inbound before receiving peer's close_notify


如上面截图
添加 &useSSL=false



image.png


  • 简单的使用下hive


cd /usr/local/hive/bin
./hive


# 创建表事例
CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;
CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
# 统计后将结果数据加入另一个表
INSERT INTO TABLE 
test_out(name,count,time) 
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);
INSERT OVERWRITE 
TABLE test_out
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);


image.png


后面会介绍 Mysql和Hive之间如何导入导出


启动Hbase


cd /usr/local/hbase/bin
start-hbase.sh


Sqoop启动


  • 测试sqoop功能


cd /usr/local/sqoop/bin
sqoop \
list-databases \
--connect jdbc:mysql://192.168.84.128:3306/?useSSL=false \
--username root \
--password 123456



image.png


Kafka启动


cd /usr/local/kafka/bin
kafka-server-start.sh -daemon ${KAFKA_HOME}/config/server.properties


测试


  • 创建主题


kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test


  • 分区查看


kafka-topics.sh --zookeeper localhost:2181 --describe  --topic test


  • 分区扩容


kafka-topics.sh --zookeeper localhost:2181 -alter --partitions 3 --topic test


启动Spark


在hadoop1(192.168.84.128)上启动


cd /usr/local/spark/bin
${SPARK_HOME}/sbin/start-all.sh


启动Kylin


在hadoop1启动mr-jobhistory


cd /usr/local/kylin/bin
mr-jobhistory-daemon.sh start historyserver


在hadoop1上启动


kylin.sh start



image.png


http://192.168.84.128:7070/kylin
初始用户名和密码为ADMIN/KYLIN


最后附上一副大数据架构图


image.png


后记


上面的内容咱们介绍了大数据的每一个组件的启动过程
下篇文章咱们介绍下Mysql和Hive之间同步数据的两种方式
和将整个流程串联起来看看数据是如何流转的


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 Hadoop Java
Hadoop学习指南:探索大数据时代的重要组成——运行环境搭建
Hadoop学习指南:探索大数据时代的重要组成——运行环境搭建
123 0
|
分布式计算 资源调度 Hadoop
大数据Hadoop运行环境搭建
大数据Hadoop运行环境搭建
267 0
|
存储 大数据 关系型数据库
搭建大数据运行环境之二(3)
搭建大数据运行环境之二(3)
114 0
搭建大数据运行环境之二(3)
|
分布式计算 大数据 Hadoop
搭建大数据运行环境之二(2)
搭建大数据运行环境之二(2)
162 0
搭建大数据运行环境之二(2)
|
分布式计算 大数据 Hadoop
搭建大数据运行环境之二(1)
搭建大数据运行环境之二(1)
187 0
搭建大数据运行环境之二(1)
|
分布式计算 大数据 Hadoop
搭建大数据运行环境之一
搭建大数据运行环境之一
166 0
搭建大数据运行环境之一
|
分布式计算 资源调度 安全
大数据之Hadoop3.x 运行环境搭建(手把手搭建集群)
安装模板虚拟机,IP 地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘 50G
1611 0
大数据之Hadoop3.x 运行环境搭建(手把手搭建集群)
|
分布式计算 大数据 数据处理
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
502 7
|
2月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
65 2