OushuDB 小课堂丨零拷贝集成：小数据实践将如何取代大数据-阿里云开发者社区

OushuDB 小课堂丨零拷贝集成：小数据实践将如何取代大数据

2023-04-21 82

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： OushuDB 小课堂丨零拷贝集成：小数据实践将如何取代大数据

数据的未来很小。

随着组织努力应对不断增加的数据量，大数据运动的局限性变得越来越明显。在过去的二十年里，大数据以尖端软件的形式提供了好处，使数据的生成、收集和合并对组织广泛可用。这些积极影响既广泛又明显，从航空的最佳路线规划到金融部门的欺诈检测和风险管理，甚至在联邦层面追踪传染病。

但今天，数据存储、清洁和准备以及结构化已经开始超出我们从所有这些信息中收集我们想要的东西的能力。大数据有时可能太大，以至于我们无法按照实时业务的步伐进行实际分析和利用。

将大数据转化为小数据

也许解决这个问题的方法是小数据。小数据是对用户更友好、更易于访问并提供可衡量收益的信息。小数据的目标是在正确的时间为分析师提供他们需要的数据，以便他们做出最明智和最及时的决策。

在寻求将大数据转换为小数据时，公司可以采取几种不同的途径。最直接的方法是创立一家以数据为中心的理念的公司，建立在数据与公司任何其他资产同等重要的基本理解之上。

这实际上意味着为所需的每个类别创建一组数据，并制定政策强制员工从数据中提取他们需要的内容，并将可操作的准确信息返回给各自的部门。

这可能需要组织小组重新组织他们从中央“黄金记录”数据中获取的数据。但是，只有少数负责维护数据集完整性的专家有权更改组织的主要数据集。

与此同时，世界其他地方通过复制数据集、更改这些数据集而不维护“黄金记录”数据集的完整性，无意中使他们的情况复杂化。

尽管复制和更改所有这些数据集最初可以帮助组织在短期内实现摆在他们面前的任何目标，但今天的后果包括孤立的数据集，使机器无法与这些数据库进行通信并从中提取相关信息。

以数据为中心的架构是围绕有目的地围绕数据的操作构建的。这也意味着安全和治理协议可以插入数据本身，因此它能够保护自己。

然而，当今私营和公共部门的不幸事实是，绝大多数公司和组织无法突然转变为以数据为中心。那些确实转向这一战略的公司受益于从头开始发展和扩大规模的能力。

零拷贝集成解决方案

理想情况下，由重复数据集引起的问题将通过零拷贝集成解决——无需复制或以其他方式物理移动数据的按需集成数据。

此过程将数据拉到一起，而不是将其粘贴到数据存储单元（如池、湖和仓库）中。这允许跨多个数据集进行联合查询，分析师可以在其中利用黄金记录（事实来源），而不必将它们复制到另一个数据孤岛中。

零拷贝集成还允许“数据洁净室”，可以在不泄露实际数据的情况下比较和分析来自不同来源的敏感数据。这可以使用不共享数据但仍然能够分析数据并识别相关位以进行多方计算的密码学来完成。

例如，行业监管者可能想要了解许多公司有多少共同客户。客户拥有数据并能够遵守隐私和合规惯例。但是使用密码技术，普通人可以在不共享信息的情况下得到答案。

近年来，各行各业的公司花费了数千万美元和人力小时试图以更高效、更不易出错并提供真正洞察力的方式重新定位他们的数据管理系统。但这个过程不可避免地缓慢且昂贵。

零拷贝集成功能很快将成为公司用来扩大规模和保持竞争力的主要燃料类型之一。那些采用这种方法的人突然吹嘘自己的市场差异化优势。那些忽视这个问题的人将被抛在后面，很可能会停止运作。

但买进必须发生在执行团队层面。首席信息官了解零拷贝集成是未来。但他们需要他们的最高管理层同事分享这一愿景。

如果组织的最高领导者没有认识到这种转变的必要性并提供资源来实现变革，那么就不可能顺利过渡到新的和改进的系统。

将未来带入现在

转换为零拷贝集成数据管理系统的财务成本可能仍会阻止许多公司迈出这一步。组织意识到零拷贝集成提供的竞争优势，但如果成本超出预算，变革的步伐就会缓慢。

类似于互联网早期采用者的创新者将成为使零拷贝集成成为现实的推动者。这些人具有极强的动机来共享数据和协作以实现巨大的创新飞跃。

同样，学术研究人员——包括那些从事癌症数据和其他改变生活项目的研究人员——将与大数据运动的领导者一起属于这一群体。

但与最初对互联网的犹豫不决随后得到更广泛的接受类似，时间将证明零拷贝集成和以数据为中心的架构将如何成为公司计划的关键部分，因为它们希望保持竞争优势。

金融科技公司已经在使用语义图技术来实施零拷贝集成，国际供应链公司已经认识到通过以数据为中心来优化运营的动机。

一旦这种策略的早期采用者获得的好处变得明显，零拷贝集成将改变业务的开展方式——就像短短几年前的大数据一样。

更多信息请关注 OushuDB 小课堂

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

OushuDB 小课堂丨零拷贝集成：小数据实践将如何取代大数据

将大数据转化为小数据

零拷贝集成解决方案

将未来带入现在

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

OushuDB 小课堂丨零拷贝集成：小数据实践将如何取代大数据

将大数据转化为小数据

零拷贝集成解决方案

将未来带入现在

热门文章

最新文章

相关课程

相关电子书

相关实验场景