阿里云上基于SAP HANA One的数据仓库、BI系统搭建

简介: BI系统经典架构,由数据源层、数据仓库层、数据展现层构成,数据源层提供基础数据,数据仓库层存放各种聚合数据,数据展现层按业务场景展示数据。此处的数据仓库层,采用数据分层的设计理念,相对来说实时计算复杂度要求不高的数据放到开源数据库中(如MySQL),实时计算复杂度要求高的数据放到高性能数据库中(如SAP HANA One)   BI系统经典架构 BI系统经典架构由数据源层、数据仓库层、数据展现层构成数据源层提供基础数据数据仓库层存放各种聚合数据数据展现层按业务场景展示数据。

规划

6c63352b754e6d86882972a5493f1a5eb09130a6 

BI系统经典架构)

BI系统经典架构,由数据源层、数据仓库层、数据展现层构成,数据源层提供基础数据,数据仓库层存放各种聚合数据,数据展现层按业务场景展示数据。此处的数据仓库层,采用数据分层的设计理念,相对来说实时计算复杂度要求不高的数据放到开源数据库中(如MySQL),实时计算复杂度要求高的数据放到高性能数据库中(如SAP HANA One)。

注:数据仓库层采用数据分层,主要是基于成本考虑。阿里云上的SAP HANA One 64G版,软件每月要4000多大洋,再加上ECS费用,每月就8000多啦。且HANA One64G容量,远远不够。

实现

2.1 数据源

数据分析基础数据来源,系统支持多种数据来源,包括外部数据文件(如ExcelTXTXML等),常用数据库(如OracleMySQLSQL ServerDB2等),其它JDBCODBCJNDI数据源,也支持把Hadoop HDFS中的文件作为数据源,甚至一些常用软件系统(如SAP ERPSASSalesforce)直接作为数据源。

2.2 ETL

采用开源软件Kettle作为ETL工具,从数据源抽取原始数据,做数据转换后导入数据模型。数据抽取周期,根据实际需求从几分钟到月不等。实际应用中,最短数据抽取周期我们曾经到30秒,但这种情况对数据源性能压力较大。幸好HANASDI,通过SDI建虚拟表,直接访问数据源

2.3 数据建模

直接用HANA计算视图建模,建模基础数据来自HANA One、开源聚合数据层(如MySQL)、甚至直接是业务数据表(业务数据表做读写分离,从只读表中取数)。为实现这种跨系统、跨数据库建模,采用了HANA的虚拟表功能(借助SDISDI真是个好东西)。

2.4 数据展现

数据展现平台,主要是PC端的浏览器和移动端的微信Excel方式,对云端应用来说,性能不理想PC端数据展现基于SAPUI5做专门开发:常规拖拽方式的OLAP灵活分析;保存灵活分析格式,形成固定格式的格式化主题分析;串联多个格式化主题分析,做一定扩展形成管理驾驶舱。

2.5 数据挖掘

采用经典的机器学习算法(如:DBSCANK-MeansC4.5决策树、逻辑回归、随机森林、朴素贝叶斯等),对数据进行挖掘分析。可应用的实际业务场景,包括地理位置分析、文本分析、相关性分析等。对需进行训练的监督学习,可根据实际训练需求,定制数据训练平台。

3 成果

3.1 产品示例

  • 地图应用

 86485d44aa01aaff83da5a8abb7aaf63e7037de6

  • OLAP灵活分析

 2402b771dedffe8a386b530cc267903a0c6c1828

  • 文本分析

 f6e0a22dcf07949c7cd34931092380b0676153b8

  •  格式化分析与驾驶舱


ff66096b93154c37bd5d07038566069350e93e81

 

目录
相关文章
|
2月前
|
中间件
什么是 SAP CRM 系统里的 Initial Download
什么是 SAP CRM 系统里的 Initial Download
24 0
|
5天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
16天前
|
存储 人工智能 自然语言处理
基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统
阿里云向量检索 Milvus 版现已无缝集成于阿里云 PAI 平台,一站式赋能用户构建高性能的检索增强生成(RAG)系统。您可以利用 Milvus 作为向量数据的实时存储与检索核心,高效结合 PAI 和 LangChain 技术栈,实现从理论到实践的快速转化,搭建起功能强大的 RAG 解决方案。
基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统
|
26天前
|
Java BI API
SAP Cloud for Customer 里如何通过 ABSL 二次开发方式消费 SAP S/4HANA 系统的 API
SAP Cloud for Customer 里如何通过 ABSL 二次开发方式消费 SAP S/4HANA 系统的 API
18 0
|
1月前
|
数据库
如何查询 SAP ABAP 系统里消耗存储空间排名前几位的数据库表试读版
如何查询 SAP ABAP 系统里消耗存储空间排名前几位的数据库表试读版
10 0
如何查询 SAP ABAP 系统里消耗存储空间排名前几位的数据库表试读版
|
2月前
|
存储 人工智能 自然语言处理
“智能+”时代,深维智信如何借助阿里云打造AI内容生成系统
随着数字经济的发展,线上数字化远程销售模式越来越成为一种主流,销售流程也演变为线上视频会议、线下拜访等多种方式的结合。根据Gartner报告,到2025 年60%的B2B 销售组织将从基于经验和直觉的销售转变为数据驱动的销售,将销售流程、销售数据、销售分析合并形成一致的运营实践。
414 0
“智能+”时代,深维智信如何借助阿里云打造AI内容生成系统
|
2月前
|
消息中间件 编解码 运维
阿里云 Serverless 异步任务处理系统在数据分析领域的应用
本文主要介绍异步任务处理系统中的数据分析,函数计算异步任务最佳实践-Kafka ETL,函数计算异步任务最佳实践-音视频处理等。
175327 348
|
2月前
|
自然语言处理 算法 关系型数据库
阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
|
3月前
|
弹性计算 安全 Linux
阿里云ECS Linux系统漏洞修复详细教程
阿里云ECS Linux系统漏洞修复详细教程