润乾蒋步星 | 非结构化数据分析技术是忽悠

简介:


大数据概念兴起的同时也带热了非结构化数据分析。传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大。

有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了。

那为什么说非结构化数据分析技术是忽悠呢?


不存在通用的非结构化数据计算技术


非结构化数据五花八门,有声音图像、文本网页、办公文档、设备日志、….;每类数据的都有各自的计算处理手段,比如语音识别、图像比对、文本搜索、图结构计算等等,但是并不存在一种适用于所有非结构化数据的通用计算技术。

语音识别的方法不能用于图像比对、文本搜索和图结构计算也扯不上关系。

一个厂商如果擅长某种技术,那一定会直接宣称自己专业于该领域,而不会泛泛地说自己精于非结构化数据分析。

比如人脸识别做得非常精准、或是文本敏感词挖掘的专业公司,显然这样更容易定位用户和应用场景。

如果一家公司只说自己擅长非结构化数据分析而不指明具体的领域,那就不知道到底能做些什么了。


面向非结构化数据的通用技术只是存储


虽然许多专业技术领域都可以归类为对非结构化数据的处理,但总体应用范围并不广泛,大多数用户还用不上这些专门技术,而只是需要把这些数据存储下来。

非结构化数据没有通用的分析计算技术,但存储和相应的管理(增删检索等)是可以通用化的。

非结构化数据占据的空间较大,经常需要不同于结构化数据的特殊存储手段。

不过,如果不是数据量特别大,或者有高并发的检索需求,大多数的网络文件系统(如HDFS)已经能够胜任存储和访问需求。

厂家如果只喊能做非结构化数据的存储和基本管理,那会显得没什么技术含量。所以这些厂商会不遗余力地往分析上靠,但没有实质东西。

而能提供大容量高性能的访问的专业存储厂商却只会喊存储,而不会刻意提及分析。


通用分析技术在于相伴产生的结构化数据


采集非结构化数据的同时,常常会伴随着采集许多相关的结构化数据,比如音视频的制作人、制作时间、所属类别、时长、…;有些非结构化数据经过处理后也会转变成结构化数据,比如网页日志中拆解出访问人IP、访问时刻、关键搜索词等。

所谓的非结构化数据分析,经常实际上是针对这些伴生而出的结构化数据,这个领域有不少较为成熟的通用计算技术(比如关系代数和关系数据库)。

但现在只喊结构化数据显得不够时髦,为了吸引用户,就要把本质上的结构化数据分析说成是非结构化数据分析了。

作为需求方的用户,这时候需要清楚地知道到底要对这些数据做什么处理。如果只是简单存储,那上个HDFS这类开源网络文件系统就够了;

如果有高性能访问需求,那要找专业的存储厂商;如果其实要分析的是伴生出来的结构化数据,那就是已经熟悉的数据库类业务了;

如果真有特定的处理需求,那也是找专门领域的厂商和技术。总之,不要泛泛地只说需要非结构化数据分析。



来源:中生代技术

原文链接

相关文章
|
11月前
|
数据挖掘 计算机视觉 Python
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
91 1
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
|
2月前
|
机器学习/深度学习 搜索推荐 算法
技术感悟之数据分析的演变与未来
本文探讨了数据分析技术的发展历程,从简单的数据收集到复杂的机器学习算法,揭示了技术进步对商业决策、科学研究和社会发展的深远影响。同时,文章也展望了数据分析在未来可能的发展方向和挑战。
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
构建高效数据分析系统的关键技术
【10月更文挑战第5天】构建高效数据分析系统的关键技术
39 0
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
Python中的数据分析与可视化技术探索
数据分析与可视化在当今信息化时代扮演着愈发重要的角色。Python作为一种强大的编程语言,提供了丰富的库和工具,使得数据分析与可视化变得更加高效和灵活。本文将探讨Python中常用的数据分析与可视化技术,包括数据准备、数据分析和可视化展示等方面,并结合实例演示其应用,帮助读者更好地理解和运用这些技术。
|
2月前
|
机器学习/深度学习 传感器 人工智能
AI与未来医疗:重塑健康管理新格局随着人工智能(AI)技术的飞速发展,医疗行业正迎来一场前所未有的变革。AI不仅在数据分析、诊断支持方面展现出巨大潜力,还在个性化治疗、远程医疗等多个领域实现了突破性进展。本文将探讨AI技术在医疗领域的具体应用及其对未来健康管理的影响。
人工智能(AI)正在彻底改变医疗行业的面貌。通过深度学习算法和大数据分析,AI能够迅速分析海量的医疗数据,提供精准的诊断和治疗建议。此外,AI在远程医疗、药物研发以及患者管理等方面也展现出了巨大的潜力。本文将详细探讨这些技术的应用实例,并展望其对健康管理的深远影响。
|
4月前
|
数据采集 机器学习/深度学习 SQL
如何构建高效的数据分析流程:从技术视角出发
【7月更文挑战第22天】构建高效的数据分析流程是一个持续迭代的过程,需要技术团队与业务团队的紧密合作。通过不断优化流程,企业可以更加高效地利用数据资源,为业务决策提供有力支持。
|
1月前
|
SQL 数据采集 数据可视化
深入 Python 数据分析:高级技术与实战应用
本文系统地介绍了Python在高级数据分析中的应用,涵盖数据读取、预处理、探索及可视化等关键环节,并详细展示了聚类分析、PCA、时间序列分析等高级技术。通过实际案例,帮助读者掌握解决复杂问题的方法,提升数据分析技能。使用pandas、matplotlib、seaborn及sklearn等库,提供了丰富的代码示例,便于实践操作。
159 64
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python技术应用:数据分析与可视化的利器
【2月更文挑战第7天】在当今信息爆炸的时代,数据分析和可视化已经成为各行业的核心竞争力。Python作为一种简洁、高效的编程语言,为数据分析带来了全新的可能性。本文将介绍Python在数据分析和可视化领域的应用,探讨其在实际工作中的重要性和价值。
67 2
|
11月前
|
机器学习/深度学习 自然语言处理 数据挖掘
Python数据分析中文本分析的重要技术点,包括文本预处理、特征提取、情感分析
Python数据分析中文本分析的重要技术点,包括文本预处理、特征提取、情感分析
162 1
Python数据分析中文本分析的重要技术点,包括文本预处理、特征提取、情感分析
|
17天前
|
机器学习/深度学习 人工智能 算法
高效精准的数据分析技术
在当今社会,安防问题日益受到人们的关注。声纹识别技术作为安防领域的一项重要应用,正逐渐走进人们的日常生活。AnalyticDB向量检索与AI实战的结合,为声纹识别技术的发展提供了强大的支持。
22 0