OushuDB 小课堂丨零拷贝集成:小数据实践将如何取代大数据

简介: OushuDB 小课堂丨零拷贝集成:小数据实践将如何取代大数据

数据的未来很小。

随着组织努力应对不断增加的数据量,大数据运动的局限性变得越来越明显。在过去的二十年里, 大数据 以尖端软件的形式提供了好处,使数据的生成、收集和合并对组织广泛可用。这些积极影响既广泛又明显,从航空的最佳路线规划到金融部门的欺诈检测和风险管理,甚至在联邦层面追踪传染病。

但今天, 数据存储、清洁和准备以及结构化已经开始超出我们从所有这些信息中收集我们想要的东西的能力。大数据有时可能太大,以至于我们无法按照实时业务的步伐进行实际分析和利用。


将大数据转化为小数据


也许解决这个问题的方法是小数据。小数据是对用户更友好、更易于访问并提供可衡量收益的信息。小数据的目标是在正确的时间为分析师提供他们需要的数据,以便他们做出最明智和最及时的决策。

在寻求将大数据转换为小数据时,公司可以采取几种不同的途径。最直接的方法是创立一家以数据为中心的理念的公司,建立在数据与公司任何其他资产同等重要的基本理解之上。

这实际上意味着为所需的每个类别创建一组数据,并制定政策强制员工从数据中提取他们需要的内容,并将可操作的准确信息返回给各自的部门。

这可能需要组织小组重新组织他们从中央“黄金记录”数据中获取的数据。但是,只有少数负责维护数据集完整性的专家有权更改组织的主要数据集。

与此同时,世界其他地方通过复制数据集、更改这些数据集而不维护“黄金记录”数据集的完整性,无意中使他们的情况复杂化。

尽管复制和更改所有这些数据集最初可以帮助组织在短期内实现摆在他们面前的任何目标,但今天的后果包括孤立的数据集,使机器无法与这些数据库进行通信并从中提取相关信息。

以数据为中心的架构是围绕有目的地围绕数据的操作构建的。这也意味着安全和治理协议可以插入数据本身,因此它能够保护自己。

然而,当今私营和公共部门的不幸事实是,绝大多数公司和组织无法突然转变为以数据为中心。那些确实转向这一战略的公司受益于从头开始发展和扩大规模的能力。


零拷贝集成解决方案


理想情况下,由重复数据集引起的问题将通过零拷贝集成解决——无需复制或以其他方式物理移动数据的按需集成数据。

此过程将数据拉到一起,而不是将其粘贴到数据存储单元(如池、湖和仓库)中。这允许跨多个数据集进行联合查询,分析师可以在其中利用黄金记录(事实来源),而不必将它们复制到另一个数据孤岛中。

零拷贝集成还允许“数据洁净室”,可以在不泄露实际数据的情况下比较和分析来自不同来源的敏感数据。这可以使用不共享数据但仍然能够分析数据并识别相关位以进行多方计算的密码学来完成。

例如,行业监管者可能想要了解许多公司有多少共同客户。客户拥有数据并能够遵守隐私和合规惯例。但是使用密码技术,普通人可以在不共享信息的情况下得到答案。

近年来,各行各业的公司花费了数千万美元和人力小时试图以更高效、更不易出错并提供真实见解的方式重新定位其数据管理系统。但这个过程不可避免地缓慢且昂贵。

零拷贝集成功能很快将成为公司用来扩大规模和保持竞争力的主要燃料类型之一。那些采用这种方法的人突然吹嘘自己的市场差异化优势。那些忽视这个问题的人将被抛在后面,很可能会停止运作。

但买进必须发生在执行团队层面。首席信息官了解零拷贝集成是未来。但他们需要他们的最高管理层同事分享这一愿景。

如果组织的最高领导者没有认识到这种转变的必要性并提供资源来实现变革,那么就不可能顺利过渡到新的和改进的系统。


将未来带入现在


转换为零拷贝集成数据管理系统的财务成本可能仍会阻止许多公司迈出这一步。组织意识到零拷贝集成提供的竞争优势,但如果成本超出预算,变革的步伐就会缓慢。

类似于互联网早期采用者的创新者将成为使零拷贝集成成为现实的推动者。这些人具有极强的动机来共享数据和协作以实现巨大的创新飞跃。

同样,学术研究人员——包括那些从事癌症数据和其他改变生活项目的研究人员——将与大数据运动的领导者一起属于这一群体。

但与最初对互联网的犹豫不决随后得到更广泛的接受类似,时间将证明零拷贝集成和以数据为中心的架构将如何成为公司计划的关键部分,因为它们希望保持竞争优势。

金融科技公司已经在使用语义图技术来实施零拷贝集成,国际供应链公司已经认识到通过以数据为中心来优化运营的动机。

一旦这种策略的早期采用者获得的好处变得明显,零拷贝集成将改变业务的开展方式——就像短短几年前的大数据一样。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
JavaScript
vue element plus Checkbox 多选框
vue element plus Checkbox 多选框
913 0
|
存储 SQL 关系型数据库
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
ClickHouse的核心架构包括执行过程和数据存储两部分。执行过程涉及Parser与Interpreter解析SQL,通过Column、DataType、Block、Functions和Storage模块处理数据。Column是内存中列的表示,Field处理单个值,DataType负责序列化和反序列化,Block是内存中表的子集,Block Streams处理数据流。Storage代表表,使用不同的引擎如StorageMergeTree。数据存储基于分片和副本,1个分片由多个副本组成,每个节点只能拥有1个分片。
1226 0
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
|
7月前
|
机器学习/深度学习 编解码 并行计算
【改进引导滤波器】各向异性引导滤波器,利用加权平均来实现最大扩散,同时保持图像中的强边缘,实现强各向异性滤波,同时保持原始引导滤波器的低低计算成本(Matlab代码实现)
【改进引导滤波器】各向异性引导滤波器,利用加权平均来实现最大扩散,同时保持图像中的强边缘,实现强各向异性滤波,同时保持原始引导滤波器的低低计算成本(Matlab代码实现)
375 8
|
安全 Java 数据安全/隐私保护
SpringSecurity6从入门到实战之引言和基本概念
《SpringSecurity6从入门到实战》介绍了Spring Security这一强大的Java安全框架,主要用于保护Spring应用程序的安全。它提供认证和授权功能,支持多种认证方式,并具备高度可定制性。文章阐述了权限管理的重要性,包括用户认证(验证用户身份)和用户授权(控制用户访问权限)。相较于其他如Shiro和Sa-Token的安全框架,Spring Security因与Spring生态的深度整合及对OAuth2的支持,常成为微服务项目的选择。
|
监控 Java 应用服务中间件
微服务——SpringBoot使用归纳——为什么学习Spring Boot
本文主要探讨为什么学习Spring Boot。从Spring官方定位来看,Spring Boot旨在快速启动和运行项目,简化配置与编码。其优点包括:1) 良好的基因,继承了Spring框架的优点;2) 简化编码,通过starter依赖减少手动配置;3) 简化配置,采用Java Config方式替代繁琐的XML配置;4) 简化部署,内嵌Tomcat支持一键式启动;5) 简化监控,提供运行期性能参数获取功能。此外,从未来发展趋势看,微服务架构逐渐成为主流,而Spring Boot作为官方推荐技术,与Spring Cloud配合使用,将成为未来发展的重要方向。
511 0
微服务——SpringBoot使用归纳——为什么学习Spring Boot
|
机器学习/深度学习 人工智能 算法
《C++与 SIMD 指令集:人工智能算法优化新动力》
在AI快速发展的今天,C++结合SIMD指令集成为优化算法性能的关键。SIMD通过并行处理多个数据,显著提升向量和矩阵运算速度,尤其在深度学习中表现突出。优化数据布局与算法设计,不仅提高计算效率,还降低能耗,但需注意代码的可读性和跨平台兼容性。随着技术进步,SIMD在C++中的应用将更加广泛,助力AI技术的发展。
404 12
|
9月前
|
JSON API 数据库
产品详情查询API接口
产品详情查询API是现代电商与软件开发中的关键工具,基于RESTful架构,通过HTTP协议获取产品信息如名称、价格、库存等。本文详解其概念、原理、实现方法与应用示例,助力开发者快速掌握。
344 0
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶汽车中的应用####
【10月更文挑战第21天】 本文探讨了深度学习中的卷积神经网络(CNN)如何革新自动驾驶车辆的视觉感知能力,特别是在复杂多变的道路环境中实现高效准确的物体检测与分类。通过分析CNN架构设计、数据增强策略及实时处理优化等关键技术点,揭示了该技术在提升自动驾驶系统环境理解能力方面的潜力与挑战。 ####
570 0
|
机器学习/深度学习 数据可视化 算法框架/工具
使用Python实现深度学习模型:智能家庭安防系统
使用Python实现深度学习模型:智能家庭安防系统
431 1
|
10月前
HarmonyOS Next开发教程:详解贝塞尔曲线
在鸿蒙开发中,提供了两种绘制贝塞尔曲线的方式,一种是二次贝塞尔曲线