初探IBM大数据处理平台BigInsights(1)

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,182元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
简介:

  之前的文章《IBM BigInsights -- 基于 Hadoop 的数据分析平台》介绍了IBM大数据分析平台BigInsights,在Hadoop的基础上IBM增加了额外的模块提供更广泛的数据分析。对于想了解下BigInsight是个什么东西?能做什么的同学,IBM也提供了BigInsights的虚拟机版本。对于那些想大概了解Hadoop,但又不想手动去搭建Hadoop平台的同学来说,BigInsight虚拟机也是个不错的选择。

  首先到IBM官网下载 https://www-01.ibm.com/marketing/iwm/iwm/web/reg/download.do?source=swg-beta-iibob&S_PKG=dl&lang=en_US&cp=UTF-8&dlmethod=http, 下载“iibi3002_QuickStart_Single_VMware.7z”,用VMware Workstation打开,开机后如下界面,可以看到是基于SUSE的。

clip_image002

第一次启动时会做文件系统检查

clip_image002[4]

选择语言

clip_image002[6]

同意License

clip_image002[8]

输入用户名密码,默认的用户名密码及端口号如下

clip_image001

之后会看到如下界面

image

双击桌面的Start Biginsights,启动BigInsight服务,或者使用脚本启动

biadmin@bivm:~> /opt/ibm/biginsights/bin/start-all.sh             
[INFO] DeployCmdline - [ IBM InfoSphere BigInsights Quickstart Edition ]            
[INFO] Progress - Start hdm            
[INFO] @bivm.ibm.com - hdm started, pid 4363            
[INFO] Progress - 8%            
[INFO] Progress - Start zookeeper            
[INFO] HdmUtil - Install configuration has changed in the system, reloading...            
[INFO] @bivm.ibm.com - zookeeper started, pid 4618            
[INFO] Deployer - zookeeper service started            
[INFO] Progress - 17%            
[INFO] Progress - Start hadoop            
[INFO] @bivm.ibm.com - namenode started, pid 4829            
[INFO] @bivm.ibm.com - secondarynamenode started, pid 5363            
[INFO] @bivm.ibm.com - datanode started, pid 5713            
[INFO] Progress - 19%            
[INFO] Deployer - Waiting for Namenode to exit safe mode...            
[INFO] Deployer - Waiting another 5 seconds for namenode to exit safemode.  Check the namenode log for details.            
[INFO] Deployer - HDFS cluster started successfully            
[INFO] Progress - 20%            
[INFO] Progress - 21%            
[INFO] @bivm.ibm.com - jobtracker started, pid 6468            
[INFO] @bivm.ibm.com - tasktracker started, pid 6888            
[INFO] Progress - 25%            
[INFO] Deployer - MapReduce cluster started successfully            
[INFO] Progress - Start catalog            
[INFO] DB2Operator - Starting DB2 Instance db2inst1 on node bivm.ibm.com. Database to be activated BIDB            
[INFO] DB2Operator - DB2 node bivm.ibm.com is started with process ID 7672            
[INFO] DB2Operator - Database BIDB has been activated            
[INFO] Progress - 33%            
[INFO] Progress - Start hbase            
[INFO] Deployer - check zookeeper services, make sure zookeeper service is started before start hbase service            
[INFO] @bivm.ibm.com - hbase-master(active) started            
[INFO] @bivm.ibm.com - hbase-regionserver started            
[INFO] Deployer - hbase service started            
[INFO] Progress - 42%            
[INFO] Progress - Start hive            
[INFO] DB2Operator - Starting DB2 Instance db2inst1 on node bivm.ibm.com. Database to be activated BIDB            
[INFO] DB2Operator - DB2 Instance db2inst1 is already running on node bivm.ibm.com with process ID 7672            
[INFO] DB2Operator - Database BIDB has already been activated            
[INFO] @bivm.ibm.com - hive-web-interface started, pid 10001            
[INFO] @bivm.ibm.com - hive-server2 started, pid 10587            
[INFO] Progress - 49%            
[INFO] Progress - 50%            
[INFO] Progress - Start bigsql            
[INFO] Deployer - Starting Big SQL Scheduler     : OK            
Starting Big SQL               : OK            
Starting Big SQL v1            : OK (pid 17836)

[INFO] @bivm.ibm.com - scheduler started           
[INFO] @bivm.ibm.com - bigsql-server started            
[INFO] @bivm.ibm.com - bigsql-server-v1 started, pid 17836            
[INFO] Deployer - FMP pids file written            
[INFO] Progress - 58%            
[INFO] Progress - Start oozie            
[INFO] Deployer - Run oozie command as:oozie            
[INFO] @bivm.ibm.com - oozie started, pid 19082            
[INFO] Progress - 67%            
[INFO] Progress - Start console            
[INFO] Deployer - starting pigserver, logging to /var/ibm/biginsights/sheets/logs/bigsheets-console-pigserver.out            
[INFO] Deployer - Server waslp-server is not running.            
[INFO] Deployer - Starting server waslp-server.            
[INFO] Deployer - Server waslp-server started with process ID 19488.            
[INFO] Deployer - BigInsights Management Console started, pid 19488            
[INFO] Progress - 75%            
[INFO] Progress - Start httpfs            
[INFO] @bivm.ibm.com - httpfs-server started, pid 19975            
[INFO] Deployer - httpfs service started            
[INFO] Progress - 83%            
[INFO] Progress - Start monitoring            
[INFO] Deployer - Start monitoring...            
[INFO] Deployer - Starting monitoring agent on bivm.ibm.com as user monitoring            
[INFO] @bivm.ibm.com - monitoring started, pid 21613            
[INFO] Deployer - monitoring service started            
[INFO] Progress - 92%            
[INFO] Progress - Start alert            
[INFO] Deployer - start alert management service...            
[INFO] Deployer - Server waslp-server is not running.            
[INFO] Deployer - Starting server waslp-server.            
[INFO] Deployer - Server waslp-server start failed. Check server logs for details.            
[INFO] Progress - 100%            
[INFO] DeployManager - Start; SUCCEEDED components: [hdm, zookeeper, hadoop, catalog, hbase, hive, bigsql, oozie, console, httpfs, monitoring, alert]; Consumes : 2148290ms

大概10分钟后启动完毕,然后可以使用命令行查看BigInsight各项服务的状态

biadmin@bivm:~> /opt/ibm/biginsights/bin/status.sh

另外,桌面上还有BigInsight Shell,

clip_image002[12]

比如双击桌面的HBase Shell,就可以直接进入shell

Image

用浏览器打开BigInsight Web界面,http://192.168.133.135:8080/

image

分布式文件系统HDFS的web界面

image

接下来的文章我们会通过几个实验来了解BigInsight具体是怎么工作的。

 

BigInsight Knowledge Center 更多内容请参考: 

http://www-01.ibm.com/support/knowledgecenter/SSPT3X_3.0.0/com.ibm.swg.im.infosphere.biginsights.product.doc/doc/using.html%23task_edc_xhj_3n?lang=zh





本文转自 taojin1240 51CTO博客,原文链接:http://blog.51cto.com/taotao1240/1734755,如需转载请自行联系原作者
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
136 0
|
2月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
70 1
|
7月前
|
存储 SQL 大数据
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
|
7月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
601 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
6月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
356 2
|
7月前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
128 0
|
7月前
|
SQL 人工智能 分布式计算
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
|
9月前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
10月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
843 3
【赵渝强老师】基于大数据组件的平台架构
|
11月前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
434 1

热门文章

最新文章