搭建大数据运行环境之二(4)

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 搭建大数据运行环境之二(4)

Hive启动


  • 配置Mysql用于存储hive元数据


cd /usr/local/hive/conf
vi hive-site.xml



image.png


  • 初次启动Hive元数据初始化


在hadoop1上初始化元数据


cd /usr/local/hadoop/sbin
schematool -initSchema -dbType mysql


若报错 Duplicate key name 'PCS_STATS_IDX'


说明已经有hive数据库了 删除即可


若报错javax.net.ssl.SSLException: closing inbound before receiving peer's close_notify


如上面截图
添加 &useSSL=false



image.png


  • 简单的使用下hive


cd /usr/local/hive/bin
./hive


# 创建表事例
CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;
CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
# 统计后将结果数据加入另一个表
INSERT INTO TABLE 
test_out(name,count,time) 
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);
INSERT OVERWRITE 
TABLE test_out
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);


image.png


后面会介绍 Mysql和Hive之间如何导入导出


启动Hbase


cd /usr/local/hbase/bin
start-hbase.sh


Sqoop启动


  • 测试sqoop功能


cd /usr/local/sqoop/bin
sqoop \
list-databases \
--connect jdbc:mysql://192.168.84.128:3306/?useSSL=false \
--username root \
--password 123456



image.png


Kafka启动


cd /usr/local/kafka/bin
kafka-server-start.sh -daemon ${KAFKA_HOME}/config/server.properties


测试


  • 创建主题


kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test


  • 分区查看


kafka-topics.sh --zookeeper localhost:2181 --describe  --topic test


  • 分区扩容


kafka-topics.sh --zookeeper localhost:2181 -alter --partitions 3 --topic test


启动Spark


在hadoop1(192.168.84.128)上启动


cd /usr/local/spark/bin
${SPARK_HOME}/sbin/start-all.sh


启动Kylin


在hadoop1启动mr-jobhistory


cd /usr/local/kylin/bin
mr-jobhistory-daemon.sh start historyserver


在hadoop1上启动


kylin.sh start



image.png


http://192.168.84.128:7070/kylin
初始用户名和密码为ADMIN/KYLIN


最后附上一副大数据架构图


image.png


后记


上面的内容咱们介绍了大数据的每一个组件的启动过程
下篇文章咱们介绍下Mysql和Hive之间同步数据的两种方式
和将整个流程串联起来看看数据是如何流转的


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 大数据 关系型数据库
搭建大数据运行环境之二(3)
搭建大数据运行环境之二(3)
搭建大数据运行环境之二(3)
|
分布式计算 大数据 Hadoop
搭建大数据运行环境之二(2)
搭建大数据运行环境之二(2)
130 0
搭建大数据运行环境之二(2)
|
分布式计算 大数据 Hadoop
搭建大数据运行环境之二(1)
搭建大数据运行环境之二(1)
152 0
搭建大数据运行环境之二(1)
|
分布式计算 大数据 Hadoop
搭建大数据运行环境之一
搭建大数据运行环境之一
138 0
搭建大数据运行环境之一
|
分布式计算 大数据 数据处理
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0

热门文章

最新文章