上期我们数据资产管理的定义和分类,小编最近又看了些国外的网站,发现在国外DAM更多被称作数字资产管理(Digital Data Management),两者没有明显的差别,只是后者通常更多涉及一些多媒体数据比如图片、语音、视频等等。
所谓数字资产管理是从内容生成到其进入持久化存储这一阶段的流程管理,至于之后从数据脱库到进入归档是针对各系统对数据时效性的要求是数据服务管理的范畴。前一个流程大致有以下11个阶段,这也是我们今天要讲的主要内容。
首先,企业内的每一个员工都是内容创建者,甚至可能时刻都在创造着这个世界上独一无二的内容。所以面对每个公司独一无二的数据资产,一般IT会采用两级备份的方式。在线备份,或者叫在线存储可能更贴切一点,即通过网盘形式要求用户只能将数据存放在带冗余带防灾的存储系统上(例如带UPS的磁盘阵列),然后进一步通过定期的任务将特别重要的某些文件夹通过镜像或批量方式转存到异地的磁带库里,完成容灾存储。
下一步是对数据的编辑与处理,先说编辑,需要对进入DAM的数据做前期筛选,包括创建者的筛选,编辑人员的筛选以及最终用户的筛选(这也被成为康奈尔三层选择模型),以照片为例,由于DAM容量的关系,如果需要纳管全量数据可能有点困难,因此对源数据量需要进行编辑,也是满足目标系统的质量要求,例如一个面向公安系统的对外DAM页面关联内部喜用卡账户系统,对于所有用户照片就会有更高的质量要求。
再说处理,这是进入DAM的准备阶段,包括对文件重命名,例如命名为身份证号.jpg;图像裁剪,将照片裁剪成32mm*26mm的标准大小;批量压缩以满足格式要求;图像处理以满足亮度、对比度以保证图像的辨识度。
下面一个步序是元数据应用,这里有两类应用方式,一是嵌入式元数据应用,即将元数据随着主数据一并传输,有点类似于数据仓库的Schema on Write,即在应用接入DAM之前就定义好元数据,目标系统只能对这些原始字段中做报表统计;另一种方式是系统元数据应用,即根据目标系统量身打造元数据列表,类似于数据湖的Schema on Read,仅在需要的时候定义业务词汇表与数据字典。两种方式相比,前者为保证元数据的可靠性,需将其绑定在原始数据上,因此在传输到DAM再到业务系统都是无损无压缩的状态,这样的数据量对带宽可能是一个挑战,甚至需要引入一些第三方工具,例如优化图片传输的Adobe Bridge工具,当然对于技术人员也提出了更高的要求,包括创建Bridge模板,映射字段,标准化字库等等;而后者不涉及第三方工具,元数据可在线应用,但是也是由于这种自由度,业务系统在访问时需要消耗DAM相当的计算处理时间。
接下来就是数据入DAM,相信在多数情况下,企业总是希望数据一旦生成就能快速进入资产系统,终端用户可以几乎实时地获取想要的数据。但这几乎是不可能的,因为这些数据没有任何命名规则且没有做任何元数据的关联,这就跟这些数据还散落在各个用户的PC机上一样。
推荐的数据导入有两种方式,一种是大规模的批量,即先将目标数据统一集中在一个临时的组织级目录下,完成数据的标记和分类,然后移出到DAM并删除之前的临时目录;另一种方式是集成导入,即填充式元数据的方式,在最终系统对所需元数据定义清晰的时候再按照目标系统要求进行资产的重命名与元数据关联,当然由于前期没有任何准备,这种数据提取方式会非常耗时,好处就是DAM中的数据一定是准备就绪的数据,不会有空元数据域的情况,也不会有数据类别混乱的情况。
随着云技术的普及,企业越来越多地选择在DAM系统中集成一些云存储系统,例如Box,DropBox或Google Drive等等,以便快速引入存储在云端的数据,这样可以雇佣一些兼职人员或买一些第三方公司的数据,以扩充自身DAM。这些数据同样需要应用元数据。记住**没有元数据的数字资产只是在占用企业存储空间**!
接下去我们需要鉴别元数据的有效性,这一步中我们需要检查上载的数据都映射到了对应的客户系统,任何错误或空值需要人为或通过系统规则进行校正,尤其是当源系统或目标系统进行了变更或升级之后。只有完成了这一步,我们才能将数据传输到客户那边。
到了目标系统,资产可能会被重新定义并反复使用,这时我们需要在每次重用时对现有资产打上版本标签。这里不同的DAM产品会有不同的版本定义方式,大部分会将现有的系统元数据应用到新版本,但不会提供端到端的新视图,如果需要一个全新的版本视图,则需要添加一个新的数据资产并重新命名,但新的资产可能不会复制已有的元数据。
对于任何资产,我们都需要保证其时效性进行管理,毕竟过时的数据没有市场价值,包括冗余内容以及未被终端系统调用的数据的时效策略。另外过多的数字资产也会影响用户搜索的效率,因为我们需要更多的时间去打标签和搜索标签,因此对数字资产的范围需要精简明确的定义。最后对于一些使用云存储作为DAM载体的企业,存储的成本也是需要考虑的。
举个例子来说,百度文库的时效策略是这样的,任何上载的数字资产会在DAM系统中保留五年;超过五年后,一些从来没有被访问过的数据将被移出系统,当然百度会保存离线副本作为归档,被访问过的数据会继续保存五年,任何超过10年或更久的数字资产将每年被下线并批量归档到离线副本中。
最后就来介绍下持久化存储,按照存储级别可分为在线深度存储(例如Amazon Glacier),离线持久化存储(例如磁盘阵列)以及离线归档(例如百度文库),需要注意的是,即便数据离线了、被归档了,元数据依然需要关联到这些历史数据上。
数字资产管理系统作为企业数据的中央系统,需要妥善的管理和运营,企业不妨设置专职的DAM管理人员或部门,在充分理解业务需求的情况下,迅速地建立数据模型和制定元数据列表,快速搭建起匹配的数据服务。