揭秘隐藏在非结构化数据背后的真相

简介:
本文讲的是 揭秘隐藏在非结构化数据背后的真相, 随着互联网技术的发展,大量非结构化数据逐渐走入人们的视野,数据科学家也开始将研究重点转移至非结构化数据。据Gartner预计,全球信息量每年的最低增长率为59%,其中有15%是结构化数据,其余的85%则由各种非结构化数据组成。在IDC的一项调查报告中也指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

  非结构化数据是指那些不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。当这些非结构化数据不断增加的同时,也给数据库厂商、系统架构师、数据库管理员及其他开发人员带来了前所未有的挑战。本文出自Ram Subramanyam Gopalan的博客,他是Informatica公司的一位高级产品经理,文中介绍了那些隐藏在非结构化数据背后的真相。

  如果能够将非结构化数据库像洋葱一样层层剥落,你将会了解到没有任何工具能够发现或分析出非结构化数据的结构,这就是非结构化数据谓之“非结构”的原因。

  想要深入研究非结构化数据,就要先看看下面这张图片:

揭秘隐藏在非结构化数据背后的真相

  这些所谓的非结构化数据正在飞速增长,对企业的作用也越来越重要,能够对这些数据进行收集、整理和分析等自动化管理的企业才能从根本上获得竞争优势。每个数据元都具有特定的含义,尽管这一含义通常情况下可能与企业无关。下面我将对这些“非结构化”的公用数据集一一进行介绍:

  1.文本

  ·一旦获得了元数据的结构或模板,由某些设备(如传感器等)产生的数据就可以进行破解。当然,这些数据流中的某些字段需要更强的分析或发现能力才能进行自动分析。

  ·交互数据:这是人们对他人或事物表达其观点的长期公开的文本字段,是拥有大量商业价值的社会化媒体数据。如果需要对这些数据进行自动分析,有了强大的实体识别和语义分析功能就能够更好的理解这些数据。换句话说,如果能够将文本数据转换成实体集合,即他们之间的关系以及关系属性,这样数据分析就能够比想象中的更容易。

  2.图像

  图像识别算法几乎已经成为主流(但是除了谷歌和Facebook进行规模性配置以外,图像识别算法还不是特别受到其他企业的欢迎。),这些技术会产生实体,但是这些实体源于关系和观点,所以更具有挑战性。

  3.音频

  大量研究产生的最新技术能够分析音频数据流的内容,甚至能够为说话者情绪性的内容做注释。这些技术使分析音频数据等可分析数据的过程更接近于文本。

  4.视频

  毫无疑问,视频是最具挑战性的数据类型,因为它需要处理庞大的数据量。图像识别技术可以应用于一帧或者多帧并从中提取出实体。当然,未来会更深层的分析视频内容。音频识别也可以应用于理解部分“行为”内容。


作者:王玉圆

来源: IT168

原文标题:揭秘隐藏在非结构化数据背后的真相

相关文章
|
架构师 测试技术 C语言
软件测试的优势和劣势
我们需要对软件测试有清晰的认识。那么作为软件测试,和软件开发相比,又有哪些优势呢?
647 0
|
7月前
|
人工智能 IDE Devops
通义灵码编程智能体,上线!
近期,Qwen3正式发布并开源8款“混合推理模型”,参数量235B,激活仅需22B,性能超越多个国际顶尖模型。通义灵码全面支持Qwen3,上线编程智能体,具备工程级变更、自动感知、工具使用和终端命令执行四大能力。插件集成魔搭MCP广场2400+服务,大幅提升开发效率。目前,通义灵码插件下载超1500万,生成代码超30亿行,服务上万家企业。
|
消息中间件 缓存 Serverless
在进行实时数据处理时,FaaS 如何保证数据的一致性和处理的实时性?
在进行实时数据处理时,FaaS 如何保证数据的一致性和处理的实时性?
|
数据中心 开发者 Docker
理解并实践Docker容器化技术
理解并实践Docker容器化技术
|
存储 关系型数据库 MySQL
MySQL 字段类型探究:深入理解 Varchar(50) 与 Varchar(500)
在MySQL数据库中,`VARCHAR`类型是一种常用的字符串存储类型,它允许定义一个可变长度的字符串。然而,`VARCHAR(50)`和`VARCHAR(500)`之间的差异不仅仅是长度的不同,它们在存储和性能方面也有显著的区别。本文将深入探讨这两种字段类型的区别,以及它们在实际应用中的选择。
492 3
|
JavaScript Java
《进阶篇第9章》学习vuex知识点后练习:把求和案例改成vuex模块化编码
《进阶篇第9章》学习vuex知识点后练习:把求和案例改成vuex模块化编码
141 5
|
Linux
68Linux - 解决CentOS启动卡住了,提示starting auditd: [failed]
68Linux - 解决CentOS启动卡住了,提示starting auditd: [failed]
400 0
|
存储 运维 NoSQL
轻松上手:逐步搭建你的高可用MongoDB集群(分片)
【8月更文挑战第13天】在数据激增的背景下,传统单机数据库难以胜任。MongoDB作为流行NoSQL数据库,采用分片技术实现水平扩展,有效处理海量数据。分片将数据分散存储,提高并发处理能力和容错性,是高可用架构基石。构建MongoDB集群需理解shard、config server和router三组件协同工作原理。通过具体实例演示集群搭建流程,包括各组件的启动及配置,确保数据高可用性和系统稳定性。合理规划与实践可构建高效稳定的MongoDB集群,满足业务需求并支持未来扩展。
757 0
|
前端开发
uniapp 实现退出登录 清除Token
uniapp 实现退出登录 清除Token
437 0
PokéLLMon 源码解析(一)(2)
PokéLLMon 源码解析(一)(2)
153 0