1 产品简介
H3C 大数据平台(Data Engine)采用开源社区 Apache Hadoop2.0 和 MPP 分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C 大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI 系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。
2 产品架构
华三大数据平台Data Engine的架构如下图所示:
图1 Data Engine产品架构图
- H3C 大数据平台包含 4 个部分:
-
第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管理、服务管理、监控告警和安全管理等。
第二部分是数据 ETL,即获取、转换、加载,包括:关系数据库连接 Sqoop、日志采集 Flume、ETL 工具 Kettle。
第三部分是数据计算。MPP 采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop 存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。
第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL 和 API,为应用层提供服务和中间件调用。
3 产品管理
华三大数据平台Data Engine提供了web端的管理界面,集群部署完毕后访问https://ip:8443即可访问管理平台。截图如下所示:
图2 Data Engine管理平台
- 从Data Engine管理平台页面中左侧列表可以看出,平台提供各种服务,包括系统服务,数据存储,数据计算,数据服务,数据管理,MPP,以及其他服务。
-
其中系统服务中包括:Metrics,Kafka,Oozie,Slider,YARN,ZooKeeper,HUE。
数据存储包括:HDFS,HBase,PostgreSQL,Redis。
数据计算包括:MapReduce2,Spark,Storm,Tez。
数据服务包括:ElasticSearch,HAWQ,PXF,Hive,Mahout,Pig,Solr,HBase Indexer,Drill。
数据管理包括:Flume,Kettle,Sqoop。
MPP包括:MPP。
其他服务包括:Zeppelin。