改良海量数据存储的若干的手段-转变数据垃圾为黄金

简介: 改良海量数据存储的若干的手段-转变数据垃圾为黄金

教材篇

直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”

大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~

直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”

大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~在这里插入图片描述

单向数据湖问题

一开始数据湖信息在设计时并没有考虑未来的访问和分析,机构会发现这样的数据湖仅仅是数据量大而已,大部分数据并不能真正支持他们的业务,企业花费大量成本却没有带来任何收益

数据湖的改良目标

改造数据沼泽从单向流动为成良性流动,迭代数据资产从青铜变成黄金未目标。比较喜欢沿用Delta Lake官网的图

数据湖改良篇

改良一:基础属性的丰富,让数据湖具备洞察能力

为了方式数据无序倾倒进数据湖,第一步其实对数据进行基础成分的扩充。

1、元数据(metadata)

数据湖是可以容纳结构/半结构/非结构信息的,所以元数据可以是不同形式。典型的我们对元数据表现形式包含记录、属性、键值、索引等,但是如果其他类型结构,我们则需要描述他内容信息,这点非常关键。

表结构元数据 记录、属性、键值、索引

文档型的 作者、字数、标题、章节等

图片、视频等 作者、标题、时长、内容描述

2、整合图谱(integration mapping)

不同应用程序,通常有不同的语言编写、因为在线系统相对隔离,数据比较独立的放到数据湖中来,形成一个个瓦罐,这个时候为了让数据湖中的数据合理,就需要有一份“整合图谱”

3、语境(context)

语境表达的其实是需要描述清楚数据所处的上下文环境约束,数据内容脱离了上下文的意义不明确的数据,在很多情况下,不约束语境其实会造成错误。比如用户的身份信息,可以有多个都会产生:

4、元过程

数据被如何处理,数据何时产生、数据谁产生的、数据规模多大、日增多大、是账务及还是交易及、有无精准日切

数据如何被入湖的、是否有进一步的加工转换。

值得强调的是数据应当一开始入湖的时候就有这些信息、否则如果中途补上的话会丢失历史信息,数据缺少历史的连续性,很影响使用者判断

改良二:对数据进行划分、关注数据生产特征,进行不同语义处理

数据的产生特性其实代表对数据生命周期管理可以不一样的,比如我们的流量日志型数据和业务交易类型可能就不一样,,虽然数据的产生方式多种多样,但是按照生产规律来说还是可以划分的,因为数据具有如通用的特征,所以对数据的加工方式也可以抽象。

常规的划分

模拟信号数据 (analog data)

日志型、监控型、诊断数据等都属于这一类,大体上这类数据是巨大且反复的,这一类数据除了数据内容本身

应用程序数据 (application data)

应用类型的数据主要是数据库的数据,比较有规律的schema

文本数据 (textture data)

这类包含大部分半结构、非结构化的数据,文本、音频、视频等,这类特征是不会按照特定的格式存储、需要进一步使用

另一个视角划分

按照重复性和非重复进行划分

改良三:根据不同数据生产类型,定义数据池生命周期

改良四:良好的数据传承,更高级别定义数据流动以及更加详细定义池文档

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能
阿里轨迹可控版Sora,告别抽卡,让视频生成更符合物理规律
【8月更文挑战第26天】阿里团队新推出的Tora视频生成模型是对先前Sora模型的重要升级。Tora通过引入轨迹控制机制,极大提升了视频中物体运动的真实性和准确性。其核心技术包括轨迹提取器、运动指导融合器及空间时间扩散变换器,共同确保视频既高质量又流畅。实验表明,Tora在清晰度、细节表现力及运动轨迹控制上均有显著进步。尽管如此,模型训练复杂度和轨迹理解能力仍有待优化。[论文](https://arxiv.org/pdf/2407.21705)
51 2
|
7月前
|
存储 机器学习/深度学习 数据采集
解析大规模数据处理:数据洪流中的智慧抉择
在信息爆炸的时代,大规模数据处理成为了科技领域的核心挑战之一。本文将深入探讨大规模数据处理的定义、挑战和应用,并强调数据洪流中智慧抉择的重要性,为读者带来新的思考。
83 1
|
人工智能 文字识别 NoSQL
风控系统就该这么设计,万能通用,稳的一批!(建议收藏)
风控系统就该这么设计,万能通用,稳的一批!(建议收藏)
196 0
风控系统就该这么设计,万能通用,稳的一批!(建议收藏)
|
消息中间件 人工智能 JavaScript
风控系统就该这么设计(万能通用),稳的一批!
风控系统就该这么设计(万能通用),稳的一批!
|
存储 监控 计算机视觉
谈谈企业数据价值计量的一个可行方法【航空公司案例】
当有人指出“数据是宝贵的企业资产”时,通常每个人都会点头表示赞同。但没有多少人有实际方法来证明和展示数据的实际价值。
谈谈企业数据价值计量的一个可行方法【航空公司案例】
|
数据采集 供应链 数据管理
统一数据的认识三观 发挥数据的核心价值
数据治理是长期、复杂的工程,绝非一个部门的事情,更应该从董、监、高治理层建立组织、赋予职责。
统一数据的认识三观 发挥数据的核心价值
|
存储 网络协议 安全