【话题】数字资产管理流程

简介: 关注公众号“达摩院首座”,了解开发者最真实生活

上期我们数据资产管理的定义和分类,小编最近又看了些国外的网站,发现在国外DAM更多被称作数字资产管理(Digital Data Management),两者没有明显的差别,只是后者通常更多涉及一些多媒体数据比如图片、语音、视频等等。

所谓数字资产管理是从内容生成到其进入持久化存储这一阶段的流程管理,至于之后从数据脱库到进入归档是针对各系统对数据时效性的要求是数据服务管理的范畴。前一个流程大致有以下11个阶段,这也是我们今天要讲的主要内容。

1.jpg

首先,企业内的每一个员工都是内容创建者,甚至可能时刻都在创造着这个世界上独一无二的内容。所以面对每个公司独一无二的数据资产,一般IT会采用两级备份的方式。在线备份,或者叫在线存储可能更贴切一点,即通过网盘形式要求用户只能将数据存放在带冗余带防灾的存储系统上(例如带UPS的磁盘阵列),然后进一步通过定期的任务将特别重要的某些文件夹通过镜像或批量方式转存到异地的磁带库里,完成容灾存储。

2.jpg

下一步是对数据的编辑与处理,先说编辑,需要对进入DAM的数据做前期筛选,包括创建者的筛选,编辑人员的筛选以及最终用户的筛选(这也被成为康奈尔三层选择模型),以照片为例,由于DAM容量的关系,如果需要纳管全量数据可能有点困难,因此对源数据量需要进行编辑,也是满足目标系统的质量要求,例如一个面向公安系统的对外DAM页面关联内部喜用卡账户系统,对于所有用户照片就会有更高的质量要求。

再说处理,这是进入DAM的准备阶段,包括对文件重命名,例如命名为身份证号.jpg;图像裁剪,将照片裁剪成32mm*26mm的标准大小;批量压缩以满足格式要求;图像处理以满足亮度、对比度以保证图像的辨识度。

3.jpg

下面一个步序是元数据应用,这里有两类应用方式,一是嵌入式元数据应用,即将元数据随着主数据一并传输,有点类似于数据仓库的Schema on Write,即在应用接入DAM之前就定义好元数据,目标系统只能对这些原始字段中做报表统计;另一种方式是系统元数据应用,即根据目标系统量身打造元数据列表,类似于数据湖的Schema on Read,仅在需要的时候定义业务词汇表与数据字典。两种方式相比,前者为保证元数据的可靠性,需将其绑定在原始数据上,因此在传输到DAM再到业务系统都是无损无压缩的状态,这样的数据量对带宽可能是一个挑战,甚至需要引入一些第三方工具,例如优化图片传输的Adobe Bridge工具,当然对于技术人员也提出了更高的要求,包括创建Bridge模板,映射字段,标准化字库等等;而后者不涉及第三方工具,元数据可在线应用,但是也是由于这种自由度,业务系统在访问时需要消耗DAM相当的计算处理时间。

4.jpg

接下来就是数据入DAM,相信在多数情况下,企业总是希望数据一旦生成就能快速进入资产系统,终端用户可以几乎实时地获取想要的数据。但这几乎是不可能的,因为这些数据没有任何命名规则且没有做任何元数据的关联,这就跟这些数据还散落在各个用户的PC机上一样。

推荐的数据导入有两种方式,一种是大规模的批量,即先将目标数据统一集中在一个临时的组织级目录下,完成数据的标记和分类,然后移出到DAM并删除之前的临时目录;另一种方式是集成导入,即填充式元数据的方式,在最终系统对所需元数据定义清晰的时候再按照目标系统要求进行资产的重命名与元数据关联,当然由于前期没有任何准备,这种数据提取方式会非常耗时,好处就是DAM中的数据一定是准备就绪的数据,不会有空元数据域的情况,也不会有数据类别混乱的情况。

随着云技术的普及,企业越来越多地选择在DAM系统中集成一些云存储系统,例如Box,DropBox或Google Drive等等,以便快速引入存储在云端的数据,这样可以雇佣一些兼职人员或买一些第三方公司的数据,以扩充自身DAM。这些数据同样需要应用元数据。记住没有元数据的数字资产只是在占用企业存储空间!
10.png

接下去我们需要鉴别元数据的有效性,这一步中我们需要检查上载的数据都映射到了对应的客户系统,任何错误或空值需要人为或通过系统规则进行校正,尤其是当源系统或目标系统进行了变更或升级之后。只有完成了这一步,我们才能将数据传输到客户那边。

到了目标系统,资产可能会被重新定义并反复使用,这时我们需要在每次重用时对现有资产打上版本标签。这里不同的DAM产品会有不同的版本定义方式,大部分会将现有的系统元数据应用到新版本,但不会提供端到端的新视图,如果需要一个全新的版本视图,则需要添加一个新的数据资产并重新命名,但新的资产可能不会复制已有的元数据。

对于任何资产,我们都需要保证其时效性进行管理,毕竟过时的数据没有市场价值,包括冗余内容以及未被终端系统调用的数据的时效策略。另外过多的数字资产也会影响用户搜索的效率,因为我们需要更多的时间去打标签和搜索标签,因此对数字资产的范围需要精简明确的定义。最后对于一些使用云存储作为DAM载体的企业,存储的成本也是需要考虑的。

举个例子来说,百度文库的时效策略是这样的,任何上载的数字资产会在DAM系统中保留五年;超过五年后,一些从来没有被访问过的数据将被移出系统,当然百度会保存离线副本作为归档,被访问过的数据会继续保存五年,任何超过10年或更久的数字资产将每年被下线并批量归档到离线副本中。

5.jpg
最后就来介绍下持久化存储,按照存储级别可分为在线深度存储(例如Amazon Glacier),离线持久化存储(例如磁盘阵列)以及离线归档(例如百度文库),需要注意的是,即便数据离线了、被归档了,元数据依然需要关联到这些历史数据上。

6.png
数字资产管理系统作为企业数据的中央系统,需要妥善的管理和运营,企业不妨设置专职的DAM管理人员或部门,在充分理解业务需求的情况下,迅速地建立数据模型和制定元数据列表,快速搭建起匹配的数据服务。

相关文章
|
移动开发 Python
Bartlett 球 形检验
Bartlett 球 形检验
4273 4
|
Java Spring 容器
[JavaWeb]——过滤器filter与拦截器Interceptor的使用、执行过程、区别
[JavaWeb]——过滤器filter与拦截器Interceptor的使用、执行过程、区别
477 0
|
Web App开发 Ubuntu 安全
【已解决】ubuntu 16.04安装最新版本google chrome出错, 旧版本chrome浏览器安装流程
【已解决】ubuntu 16.04安装最新版本google chrome出错, 旧版本chrome浏览器安装流程
2766 2
|
10月前
|
监控 供应链 搜索推荐
实时同步淘宝订单数据接口,实现订单状态实时监控与管理
本项目旨在为中小微及大型电商企业提供高效、稳定的淘宝订单数据接口解决方案。针对不同行业需求,提供实时订单监控、库存同步、物流追踪等功能,助力企业提升运营效率,优化供应链管理。通过线上线下多渠道推广与精准营销策略,实现产品快速落地与品牌影响力提升。
|
网络协议 安全
DHCP服务器配置
DHCP(动态主机配置协议)是一种用于自动分配IP地址及相关网络参数的协议,旨在简化网络管理、减少手动配置的工作量并避免IP地址冲突。其工作过程包括发现、提供、请求和确认四个阶段,确保设备快速安全接入网络。关键概念包括IP地址池、租约、作用域和静态分配等。DHCP通过自动化、动态性和冲突避免等功能,支持网络设备高效接入与管理。
647 21
|
自然语言处理 IDE 测试技术
通义灵码测评
个人测评
74533 2
|
数据处理
R语言数据合并:掌握`merge`与`dplyr`中`join`的巧妙技巧
【8月更文挑战第29天】如果你已经在使用`dplyr`进行数据处理,那么推荐使用`dplyr::join`进行数据合并,因为它与`dplyr`的其他函数(如`filter()`、`select()`、`mutate()`等)无缝集成,能够提供更加流畅和一致的数据处理体验。如果你的代码中尚未使用`dplyr`,但想要尝试,那么`dplyr::join`将是一个很好的起点。
|
负载均衡 C++ 微服务
微服务-熔断机制
由于微服务间通过RPC来进行数据交换,所以我们可以做一个假设:在IO型服务中,假设服务A依赖服务B和服务C,而B服务和C服务有可能继续依赖其他的服务,继续下去会使得调用链路过长,技术上称1->N扇出
1274 123
微服务-熔断机制
|
存储 算法 C语言
数据结构学习记录——图-最短路径问题(无权图单源最短路径算法、有权图单源最短路径算法、多源最短路径算法、Dijkstra(迪杰斯特拉)算法、Floyd算法)
数据结构学习记录——图-最短路径问题(无权图单源最短路径算法、有权图单源最短路径算法、多源最短路径算法、Dijkstra(迪杰斯特拉)算法、Floyd算法)
1426 1
|
人工智能 自然语言处理 NoSQL
Transformers 4.37 中文文档(四十九)(1)
Transformers 4.37 中文文档(四十九)
393 2