非结构化数据怎么治理?

简介: 非结构化数据怎么治理?

非结构化数据

这里说的非结构化数据特指:

1、公文、研究报告等各种文档

2、监控视频等各种音视频

3、设计图等各种特殊文件

这些东西想想就很费劲。与数据库里的结构化数据不一样,这些数据的问题更严重。我们随便想想都能罗列几个出来:

1、没有统一存储(各种附件,各种微信传输)

2、没有统一标准(都是各自写的文件)

3、数据种类特别多(除了结构化的,都是非结构化、半结构化的)

4、法外之地,治理盲区(第一次知道处理非结构化数据的方法是TF/IDF词频统计,第一次知道非结构化应用是词云)

5、没人管,不知道怎么管(有档案管理室、档案管理员的企业非常非常少)如果你原意,自己都还能再列个十条八条的。总之,这就是个巨坑!


非结构化数据治理

其实按我说,绝大多数企业的非结构化数据还远远没有具备“治理”的前期条件。因为他们连数据都还没准备好,全都散落在各个地方,你就说怎么治?对于结构化数据,我们知道要盘点,要做标准,要弄主数据,要梳理指标,要做质量控制。因为我们知道数据就在那几个库里。不管数据库有多少个,表有多少张,我们知道,数据就在那里。但是非结构化数据不一样啊!鬼知道在哪里!有档案管理室、知识中心的公司,还算好的,不管全不全,总归有个集中的地方。但是更多的,都是各自存储:OA、邮箱、云盘、个人存储,到处都是!没法弄!所以,想要做非结构化数据治理,第一步是什么?数据盘点吗?数据汇聚吗?NONONONONO!首先要做的,是对企业的非结构化数据的分布进行梳理,知道哪些是我们治理的重心才行!

你就说,这么多各种非结构化数据,哪些多,哪些少?哪些重要,哪些次要?哪些先治理?哪些后治理?哪些对业务影响大?哪些对业务影响小?哪些价值大?哪些价值小?这些问题都不搞清楚,就闷头干活,谁知道你干了半天是不是有效的?你可能会问了,那搞清楚了这些,是不是就该汇聚数据了?NONONONONO!还是不行。还是那句话,你得有一个牵引才行。一般来说,最好是应用牵引比较好。跟数仓建设逻辑一样,自下而上建设见效快。第一个项目,必须速胜!给所有人信心才行。否则遥遥无期,谁都受不了。所以第二步应该是根据业务,拟定一个合适的应用,然后再快速收集部分数据,用NLP等技术将非结构化数据结构化,然后再利用数据库、大数据、图计算等技术处理数据,做出一两个能看到效果的应用。比如这个:

在报销场景中,用OCR识别,用RPA进行发票验真、数据校对,实现快速报销、记账。这样就能帮助哥们解放报销的时间了:


小结

非结构化数据管理很难,非常难,不管是技术还是管理,都比结构化数据难上N个量级。工作的方式方法也完全不一样,需要慎重!一定要慎重啊!!!

相关文章
|
存储 资源调度 安全
供应商的落地案例和信创
供应商的落地案例和信创
542 0
|
存储 移动开发 算法
语音识别(ASR)--语音转文字
音识别(Automatic Speech Recognition) 是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
3359 0
|
存储 安全 信息无障碍
可信计算平台与安全芯片扫盲文
可信计算平台与安全芯片扫盲文
572 0
|
6月前
|
算法 数据中心 云计算
Xilinx IP 10Gigabit Ethernet Subsystem IP接口的详细说明
总的来说,Xilinx的10Gigabit Ethernet Subsystem IP是一个强大的,灵活的和高效的解决方案,它使得设计者能够快速、准确、高效地实现10Gbps的以太网连接。
472 25
|
8月前
|
安全 算法 小程序
【03】微信支付商户申请下户到配置完整流程-微信开放平台创建APP应用-填写上传基础资料-生成安卓证书-获取Apk签名-申请+配置完整流程-优雅草卓伊凡
【03】微信支付商户申请下户到配置完整流程-微信开放平台创建APP应用-填写上传基础资料-生成安卓证书-获取Apk签名-申请+配置完整流程-优雅草卓伊凡
541 28
【03】微信支付商户申请下户到配置完整流程-微信开放平台创建APP应用-填写上传基础资料-生成安卓证书-获取Apk签名-申请+配置完整流程-优雅草卓伊凡
|
存储 传感器 人工智能
2024年非结构化数据管理将以四种方式发生变化
2024年非结构化数据管理将以四种方式发生变化
|
关系型数据库 OLAP 分布式数据库
揭秘Polardb与OceanBase:从OLTP到OLAP,你的业务选对数据库了吗?热点技术对比,激发你的选择好奇心!
【8月更文挑战第22天】在数据库领域,阿里巴巴的Polardb与OceanBase各具特色。Polardb采用共享存储架构,分离计算与存储,适配高并发OLTP场景,如电商交易;OceanBase利用灵活的分布式架构,优化数据分布与处理,擅长OLAP分析及大规模数据管理。选择时需考量业务特性——Polardb适合事务密集型应用,而OceanBase则为数据分析提供强大支持。
4285 2
|
SQL 数据库
SQL:如何使用窗口函数实现高效分页查询??
SQL:如何使用窗口函数实现高效分页查询??
195 0
|
SQL 人工智能 自然语言处理
DataWorks Copilot:大模型时代数据开发的新范式
阿里云DataWorks是一站式数据开发治理平台,支持多种大数据引擎,助力企业构建数据仓库、湖仓一体架构。DataWorks现推出Copilot,致力于打造智能SQL助手和AI Agent,通过生成SQL、优化SQL、提供查询帮助、注释生成、错误修正等功能,帮助数据开发工程师和数据分析师提升SQL 开发和分析的效率和体验。目前,DataWorks Copilot正开放邀测,欢迎大家体验。
21268 7
|
存储 数据管理 数据库
非结构化数据怎么盘点?
非结构化数据怎么盘点?