大数据和传统BI

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

对于传统企业内部,更多的应该是使用了大数据技术的传统BI平台,或者是融合了传统BI+大数据的混合平台,而不能单纯说是大数据平台。在谈大数据平台的时候,一味去否定传统BI是不合适的。

在没有和互联网打通的传统企业内部,更多接触的仍然是结构化数据,优先要解决的是围绕企业核心价值链的数据建模和企业战略,各业务域KPI体系的建立,决策支持和分析这些内容。在整个数据建模和分析过程中,还要考虑去解决数据不一致性,重复等问题,建立数据管控和治理体系。36大数据(http://www.36dsj.com/)

传统BI平台在发展过程中会遇到问题和瓶颈,使用传统的技术架构无法解决,需要我们在传统BI技术架构的构建中引入大数据相关技术和工具,从这意义上更多应该叫使用了大数据技术的传统BI平台。36大数据(http://www.36dsj.com/)

使用了大数据技术的传统BI平台

在数据存储和查询效率层面,传统BI遇到瓶颈,可以看到在大量的上千万即上亿数据量的结构化数据表中,要进行查询统计分析输出KPI指标性能下降非常明显。为了解决查询效率问题,有两个思路,一个是引入了MPP数据库来解决,一个则是引入Hadoop平台进行存储,虽然是结构化数据但是仍然引入Hadoop平台,重点是解决分布式存储和查询性能问题。36大数据(http://www.36dsj.com/)

其次,虽然传统企业以结构化数据为主,但是仍然出现对大数据量的非结构化数据的采集和处理,这个时候我们可能引入了Hadoop平台,将数据采集,清理存储后最终还是再导入我们的结构化数据仓库。可以看到在这个过程中大数据技术解决了对非结构化数据的处理和整合问题。36大数据(http://www.36dsj.com/)

融合传统BI能力的大数据平台

对于原来没有规划建设BI系统的企业,在构建BI系统的时候更多考虑的就是直接构建大数据平台同时完全融合传统BI应该具备的能力。即既保留了传统BI,又实现了远期对大数据平台和应用的扩展能力。

数据采集层-》数据存储层-》数据处理层-》数据整合层-》数据分析层-》数据展现层

数据采集:大数据在传统ETL基础上增加了对HDFS,非结构化数据,流数据,互联网数据的支持能力

数据存储:增加了HDFS,HBASE等数据存储方式

数据处理:传统BI在ETL过程中可以完成清洗,大数据平台是存采集不处理,处理用单独定制脚本。

数据整合:整合了结构化+非结构化数据,提供统一数据开放接口

数据分析:HIVE+Impala+Spark,大批量和即席交互查询能力并存

数据展现:传统的BI报表功能仍然适用,也可以引入大数据可视化技术

可以看到要融合传统BI能力,则数据整合层需要能够整合结构化数据和非结构化数据,同时提供统一的大数据开放能力服务接口。尽量让前端报表通过大数据服务接口获取数据以隔离底层大数据平台的数据源。即数据展现层和数据整合层通过服务层进行解耦和隔离。

如果企业已有传统BI平台,那么底层的BI平台可以共存,即可以将底层BI平台的ODS库或EDW数据导入到大数据平台进行存储和整合。大数据平台存储一定是混合存储模式,即有些通过Hadoop平台处理后的中间结果数据我们仍然导入到结构化数据库进行存储,遵从传统BI数据建模技术构建星型模型,方便后续对数据进行维度分析和上钻下钻。对于self service BI,我们仍然开放Hadoop平台原始数据接口能力。

一开始就构建大数据目标平台

如果企业在构建平台的时候,一开始目标就很明确是大数据类分析和应用,如采集海量的互联网数据进行某行业的客户行为分析,用户画像,同时结合企业内部经营数据进行针对性营销的辅助决策。那么一开始构建就会以Hadoop平台为主,同时兼容能够采集企业已有的结构化数据。

这类平台在构建过程中可以看到不会是传统BI数据建模和分析那套方法,而更多是新的大数据分析和挖掘技术,则完全可能是以Impala+Hive+Hdfs为主线,以Tableau,Qlic View为前段展现,通过R语言或KNIME进行数据挖掘和分析等。即脱离传统BI,大数据整套框架仍然是完整的。但是弱化了传统BI中的数据建模,数据质量管理,数据治理等方面的能力。


本文作者:人月神话

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
20天前
|
分布式计算 大数据 BI
ClickHouse与大数据生态整合:从ETL到BI报表
【10月更文挑战第27天】在这个数据驱动的时代,企业越来越依赖于数据来做出关键决策。而高效的数据处理和分析能力则是支撑这一需求的基础。作为一位数据工程师,我有幸参与到一个项目中,该项目旨在利用ClickHouse与Hadoop、Spark、Flink等大数据处理框架的整合,构建一个从数据提取(Extract)、转换(Transform)、加载(Load)到最终生成商业智能(BI)报表的全流程解决方案。以下是我在这个项目中的经验和思考。
34 1
|
22天前
|
人工智能 供应链 搜索推荐
大数据分析:解锁商业智能的秘密武器
【10月更文挑战第31天】在信息爆炸时代,大数据分析成为企业解锁商业智能的关键工具。本文探讨了大数据分析在客户洞察、风险管理、供应链优化、产品开发和决策支持等方面的应用,强调了明确分析目标、选择合适工具、培养专业人才和持续优化的重要性,并展望了未来的发展趋势。
|
6月前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
数据可视化 Linux Apache
CentOS部署Apache Superset大数据可视化BI分析工具并实现无公网IP远程访问
CentOS部署Apache Superset大数据可视化BI分析工具并实现无公网IP远程访问
|
6月前
|
SQL 数据可视化 数据建模
大数据分析利器之Power BI,你是否已经掌握?
大数据分析利器之Power BI,你是否已经掌握?
119 0
|
6月前
|
数据可视化 BI Apache
大数据可视化BI分析工具Apache Superset实现公网远程访问
大数据可视化BI分析工具Apache Superset实现公网远程访问
|
移动开发 运维 监控
低代码开发云平台源码,支持多种企业应用场景,快速构建CRM、ERP、OA、BI、IoT、大数据应用程序
基于 moleculer 微服务架构开发,提供微服务的应用开发、配置管理、服务注册与发现、服务认证与授权、服务网关、服务监控、统一日志分析等,提供微服务应用的开发、部署、监控、运维等应用生命周期管理。
154 0
低代码开发云平台源码,支持多种企业应用场景,快速构建CRM、ERP、OA、BI、IoT、大数据应用程序
|
数据可视化 Cloud Native 大数据
带你读《企业级云原生白皮书项目实战》——5.4.1 背景
带你读《企业级云原生白皮书项目实战》——5.4.1 背景
166 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
8天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
67 7
下一篇
无影云桌面