新型数据准备工具来袭 你还在使用传统数据仓库架构吗?

简介:

越来越多的业务分析师正在提升自身编写临时查询和分析算法的能力。这些临时查询和分析算法用来寻找企业数据存储中的有用信息,为企业做业务决策时提供更多数据。随着企业员工越来越精通于使用分析工具,他们当中越来越多的人发现,传统的数据仓库架构阻碍了他们分析某些重要数据的能力。

新兴的自助型数据准备工具可以帮助业务分析师、数据科学家和其他最终用户绕过数据仓库,完成数据集成和制备过程的关键部分。而我们说数据仓库对此造成了阻碍的主要原因有以下三点。

首先,传统的数据仓库通常是一个存储库,其数据来自内部事务处理,或者用于生成业务性能报告的运营系统。这限制了在数据上所进行分析的范围和类型。

其次,传统的数据仓库用于提取的数据集合是高度集成和标准化的,它使用了一整套的业务规则,结合了一个预定义的易于维度分割的数据模型。这样做可能会过滤掉与特定分析应用程序相关的某些信息。

第三,IT团队通常负责开发规则和流程,以确保数据以正确的方式存储到数据仓库中,这种方法同样可能无法满足分析人士的最终分析需求。

显然,传统的数据仓库的规范流程在过去很适合于企业,但数据的应用场景正在迅速改变。企业越来越需要将他们的交易数据与来自各种其他信息来源的数据混合,这些数据源包括网站点击,活动日志,生产设备的传感器和其他设备,客户电子邮件、社交网络和客户流媒体数据、数据聚合器和第三方信息服务提供商等。

新的数据类型需要新的数据平台

利用这些外部数据源可以帮助提高商业洞察力,配以业务流程的变化,将使得企业真正转变为数据驱动型。但在许多情况下,比起数据仓库,这些新增的数据更适合在一个大型的数据平台上被存储和处理——Hadoop集群,NoSQL数据库,或Spark系统,或者从外部门户网站获取这些数据。

此外,业务分析师以及数据科学家经常对可用数据进行不同形式的访问,甚至包括数据的原始状态。

例如,消费产品制造商的营销团队可能需要分析客户的档案记录,新闻源和社交媒体数据,以找出一种模式,帮助策划一个在线营销活动。同时,客户体验团队可能需要监控社交媒体,获取各种网站上的产品评论,识别潜在的问题,以便采取相应的行动来安抚顾客的不满情绪。其他团队也可以有自己的用处。因为每个人都有不同的需求和目标,数据仓库几乎不可能让所有的分析目标都得到满足。

让分析师处理那些最能满足他们独特需要的数据,可以让分析工作更加更富有成效。这对数据集成的各个方面都有影响,包括数据发现,数据摄取、分析、验证和质量保证等。各大供应商所提供的新型自助型数据准备工具是个不错的选择。

数据准备阶段的逻辑分离

此技术对分析用户、IT和数据管理团队进行了明确合理的分工。业务分析师和数据科学家可以使用数据准备工具来找到不同系统中的相关数据,将这些数据放在一起,进行配置和清洗以保持数据的一致性,定义业务规则管理对数据的使用。在数据准备软件的帮助下,他们能得到相关数据的更全面的定制化视图,这通常比他们从数据仓库获取到的东西要强得多。

理想情况下,分析师对数据的使用更加充分。这意味着他们应该保证自身理解高层数据使用策略,并贯彻实施。他们还需要与其他人合作以确保数据被合理的解释,并保证企业内部数据的一致性。

因为数据集被捕获后,保持着原来的格式,IT部门不需要负责实现被分析数据的集成和转换规则。相反,他们的责任转换为管理整个基础架构,以支持数据发现、整合和分析过程,并提供控制机制来监控数据定义的不一致现象以及使用业务数据时不遵守治理规则的行为。

大多数企业可能并不会抛弃数据仓库。自助型数据准备软件是一种相对较新的不断成熟的技术,主要由一些新兴供应商提供。但这些数据准备工具的蓬勃发展,为那些寻求获取更多数据的企业指明了方向,那就是要增加分析的灵活性和有效性。


本文作者:David Loshin

来源:51CTO

相关文章
|
8月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
778 2
|
7月前
|
数据采集 缓存 前端开发
如何开发门店业绩上报管理系统中的商品数据板块?(附架构图+流程图+代码参考)
本文深入讲解门店业绩上报系统中商品数据板块的设计与实现,涵盖商品类别、信息、档案等内容,详细阐述技术架构、业务流程、数据库设计及开发技巧,并提供完整代码示例,助力企业构建稳定、可扩展的商品数据系统。
|
6月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
261 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
6月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
7月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
6月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
7月前
|
数据采集 监控 数据可视化
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
本案例讲述了在豆瓣电影数据采集过程中,面对数据量激增和限制机制带来的挑战,如何通过引入爬虫代理、分布式架构与异步IO等技术手段,实现采集系统的优化与扩展,最终支撑起百万级请求的稳定抓取。
390 0
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
|
7月前
|
SQL 数据采集 数据处理
终于有人把数据架构讲清楚了!
本文深入浅出地解析了数据架构的核心逻辑,涵盖其定义、作用、设计方法及常见误区,助力读者构建贴合业务的数据架构。
|
8月前
|
存储 BI API
一文读懂数据中台和数据仓库的区别
本文深入解析了“数据中台”与“数据仓库”的区别,从定义、功能、架构设计、数据处理、应用场景等多个维度进行对比,帮助企业更清晰地理解二者的核心差异与适用场景。数据仓库重在存储与分析历史数据,服务于高层决策;数据中台则强调数据的实时处理与服务化输出,直接赋能一线业务。文章还结合企业规模、业务需求与技术能力,给出了选型建议,助力企业在数字化转型中做出更科学的选择。
1420 11
|
7月前
|
缓存 前端开发 BI
如何开发门店业绩上报管理系统中的门店数据板块?(附架构图+流程图+代码参考)
门店业绩上报管理是将门店营业、动销、人效等数据按标准化流程上报至企业中台或BI系统,用于考核、分析和决策。其核心在于构建“数据底座”,涵盖门店信息管理、数据采集、校验、汇总与对接。实现时需解决数据脏、上报慢、分析无据等问题。本文详解了实现路径,包括系统架构、数据模型、业务流程、开发要点、三大代码块(数据库、后端、前端)及FAQ,助你构建高效门店数据管理体系。

热门文章

最新文章