如果大数据是原油,那么数据虚拟化就是炼油厂

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

大数据就像是一个从现代数据景观中涌现出来的丰富的自然资源。物联网(传感器),移动设备,社交网络,点击流,网络和开放数据是人们今天目睹的数据激增的重要因素。根据调研机构IDC和硬盘厂商Seagate公司最近合作进行的一项研究显示,到2025年,全球数据预计将增长十倍,将达到163 ZB。

数据丰富,但不一定有用,因为其是以原始,没有提炼的形式存在。与任何自然资源一样,“粗”数据必须先进行细化,才能用于生产目的,如设备维护,产品创新,竞争情报,市场营销,数据货币化,以及积极的医疗保健。其细化过程可以纳入数据探索,准备,关联和背景化,标注和注释,统一和整合,以及安全和治理政策的应用。元数据也是一个重要的组成部分,因为它在整体数据细化过程的输入和输出阶段起着重要的作用。

数据分析有助于得出无偏见的结论、准确的预测和有见地的决策,这取决于数据的准确性。如果尚未提供分析资料,数据可能会受到碎片,标签和信息丢失的困扰。这些特征在电子健康记录(EHR)中是显而易见的,它们说明了数据精华的挑战。收集和分析EHR数据的障碍是缺乏适当标签和一致语义。

电子健康记录(EHR)主要旨在满足患者护理,行政和财务需求。目前尚未考虑数据分析的EHRs的多用途目标可能会造成数据碎片化,需要在将数据提供给临床研究之前进行分析。

从共享患者健康记录中构建数据集的另一个挑战是,如何在保健机构之间甚至在同一个保健系统内部共享电子病历。例如,同一所医院的不同部门(例如放射科,整形外科医师和内科医生)可以使用不同的EHR来满足其独特的数据输入要求,文档和订购需求,以及偏好,从而创建数据孤岛。

数据安全和隐私也可能是分析监管数据的障碍,例如电子健康记录(EHR)中的数据。克服这一障碍的最佳方法是在精炼过程中应用适当的安全和治理措施。谷歌等公司正在尝试联合学习,努力提高分析能力,同时确保人们的隐私安全。

数据细化对于从数据分析中获得可靠的结果是至关重要的,包括有意义的结论,准确的预测和明智的决策。在理想情况下,精炼原始数据以产生完整和有意义的信息的过程如下:

•建立相关语义

•处理数据异常

•建立完整,全面的数据视角

•丰富下游流程的元数据

•处理数据保护,隐私和合规要求

数据虚拟化作为数据精炼厂有以下三大优势:

(1)炼油厂规模

现代分析依赖于无数分散的数据源的数据。经验告诉人们,当数据分布在多个系统时,大数据源并不总是能够复制和重新定位。数据虚拟化提供了大规模的数据源,通过提供替代范例:将数据处理移至数据。换句话说,处理其驻留的数据,并最大限度地减少网络流量。

数据虚拟化带来数据精化所需的速度和规模,无需复制或重新配置数据源。它使用逻辑数据架构,使所有底层数据源显示为单个系统。它提供多种优化策略(例如,特定于平台的优化和下推处理),智能选择一个特定的优化,以及诸如MPP内存中处理的预构建优化库。

(2)负责任的数据共享

①数据隐私设计

由于文化和法律障碍,往往阻碍数据共享,而数据共享已成为大数据分析的主要组成部分。数据隐私法规是令人信服的组织在新项目的每个设计和实施阶段,都要纳入或以其他方式充分考虑数据隐私的。数据虚拟化采用一种中心的方式,降低了遵从日益增多的主动数据隐私规则的成本,并允许通过设计包含数据隐私。

数据虚拟化的核心功能是使分布式数据保持在源头,同时通过单一逻辑层将其暴露给消费者。这种方法不需要持续的数据复制。更少的复制就可以减少组织对个人和敏感数据的拷贝,减少数据安全和治理的问题。

数据虚拟化还使组织能够轻松创建来自整个组织的数据(例如风险数据)的聚合一致的视图。如图1所示,这些视图可以有选择地共享,同时完全遵守组织的数据访问和隐私策略。


image
图1坚持数据访问和隐私政策

②克服信息共享的挑战

数据虚拟化克服了以下主要的信息共享挑战:

•不同的数据源。使用数据虚拟化,数据可以快速轻松地集成到无数的内部和外部系统中。

•不同的数据格式。数据虚拟化可以使用不同的技术和协议连接到不同格式的数据。这些复杂性被用户和应用程序所隐藏。

•不同的数据标准。使用查找表或内存映射,数据虚拟化可以集成数据,即使它来自不同的标准。

•不完整的数据。数据虚拟化允许将数据汇集在一起,以实现整体的视图。

•未处理的数据。对聚合数据执行的数据计算(与局部孤立的数据相反)可以提供整个组织的风险的完整视图。

•敏感数据。数据虚拟化提供安全和隐私功能,以便用户只看到允许查看的数据。

(3)通用语义模型

业务用户的规模各不相同。了解他们是谁(例如数据分析师,电力用户,管理人员或机器)及其所需的数据(例如,预先聚合,预先计算,特定粒度,角色特定或域特定)是必须的。对于特定的机器,正确标记的数据集对于有效的机器学习是至关重要的。在为分析提供数据时,使用业务用户理解的语言也是很重要的。例如账户对于财务中的用户是合适的,而客户则是客户关心的用户的首选项。它支持多个语义,避免强迫用户改变术语本质。


image
图2支持不同的信息粒度

由数据虚拟化提供的通用语义模型为整个组织提供了一个通用一致的数据视图。由于不嵌入单个业务智能(BI)工具,语义模型对多个BI工具是通用的,几乎可以访问任何数据源。

数据虚拟化在实现自助服务分析方面实现了以下目标:

•可以快速轻松地构建灵活的语义模型

•提供带有护栏的自助服务平台

•支持“数据牛仔”(限制)和常规业务用户

•加快自我服务举措(消除分析孤岛),同时保持控制和治理

提供完备的、可信的、高质量的信息对于决策以及预测性和规定性分析是至关重要的。数据虚拟化是一种理想的技术,可以满足那些努力使用数据作为战略资产的组织的需要。

本文转自d1net(转载)

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
76 4
|
2月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
166 3
|
2月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
2月前
|
SQL 人工智能 分布式计算
在数据浪潮中前行:我与ODPS的实践、思考与展望
在数据驱动决策的时代,企业如何高效处理海量数据成为数字化转型关键。本文结合作者实践,深入解析阿里云自研大数据平台 ODPS 的技术优势与应用场景,涵盖 MaxCompute、DataWorks、Hologres 等核心产品,分享从数据治理到实时分析的落地经验,并展望其在 AI 与向量数据时代的发展前景。
|
20天前
|
机器学习/深度学习 传感器 大数据
大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”
大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”
64 4
|
2月前
|
存储 分布式计算 DataWorks
从数据小白到分析能手:我在 ODPS 的成长之旅
从初出茅庐到独当一面,ODPS 陪我走过了一段特别难忘的旅程。它不仅让我在技术上突飞猛进,还让我对自己更有信心。未来,我肯定还会继续用 ODPS,去挖掘数据里更多的宝藏,创造更多价值。
63 2
|
2月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
|
存储 机器学习/深度学习 人工智能
阿里云ODPS:在AI浪潮之巅,铸就下一代智能数据根基
在智能爆炸时代,ODPS正从传统数据平台进化为“AI操作系统”。面对千亿参数模型与实时决策挑战,ODPS通过流批一体架构、多模态处理、智能资源调度等技术创新,大幅提升效率与智能化水平。从自动驾驶到医疗联合建模,从数字孪生到低代码AI开发,ODPS正重塑企业数据生产力,助力全球客户在算力洪流中抢占先机。
106 0
|
2月前
|
数据采集 人工智能 安全
“数据会治病?”——大数据+电子健康记录,到底图啥?
“数据会治病?”——大数据+电子健康记录,到底图啥?
63 0