Hive启动
- 配置Mysql用于存储hive元数据
cd /usr/local/hive/conf vi hive-site.xml
- 初次启动Hive元数据初始化
在hadoop1上初始化元数据
cd /usr/local/hadoop/sbin schematool -initSchema -dbType mysql
若报错 Duplicate key name 'PCS_STATS_IDX'
说明已经有hive数据库了 删除即可
若报错javax.net.ssl.SSLException: closing inbound before receiving peer's close_notify
如上面截图 添加 &useSSL=false
- 简单的使用下hive
cd /usr/local/hive/bin ./hive
# 创建表事例 CREATE TABLE IF NOT EXISTS test ( id int ,uid int ,title string ,name string ,status int ,time timestamp) COMMENT '简介' ROW FORMAT DELIMITED FIELDS TERMINATED BY "\001" LINES TERMINATED BY "\n" STORED AS TEXTFILE; CREATE TABLE IF NOT EXISTS test_out ( name string , count int ,time date) COMMENT '简介' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n' STORED AS TEXTFILE; # 统计后将结果数据加入另一个表 INSERT INTO TABLE test_out(name,count,time) SELECT name,count(1),to_date(time) FROM test GROUP BY name,to_date(time); INSERT OVERWRITE TABLE test_out SELECT name,count(1),to_date(time) FROM test GROUP BY name,to_date(time);
后面会介绍 Mysql和Hive之间如何导入导出
启动Hbase
cd /usr/local/hbase/bin start-hbase.sh
Sqoop启动
- 测试sqoop功能
cd /usr/local/sqoop/bin sqoop \ list-databases \ --connect jdbc:mysql://192.168.84.128:3306/?useSSL=false \ --username root \ --password 123456
Kafka启动
cd /usr/local/kafka/bin kafka-server-start.sh -daemon ${KAFKA_HOME}/config/server.properties
测试
- 创建主题
kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
- 分区查看
kafka-topics.sh --zookeeper localhost:2181 --describe --topic test
- 分区扩容
kafka-topics.sh --zookeeper localhost:2181 -alter --partitions 3 --topic test
启动Spark
在hadoop1(192.168.84.128)上启动
cd /usr/local/spark/bin ${SPARK_HOME}/sbin/start-all.sh
启动Kylin
在hadoop1启动mr-jobhistory
cd /usr/local/kylin/bin mr-jobhistory-daemon.sh start historyserver
在hadoop1上启动
kylin.sh start
http://192.168.84.128:7070/kylin 初始用户名和密码为ADMIN/KYLIN
最后附上一副大数据架构图
后记
上面的内容咱们介绍了大数据的每一个组件的启动过程 下篇文章咱们介绍下Mysql和Hive之间同步数据的两种方式 和将整个流程串联起来看看数据是如何流转的