正文
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”。业界通常用 “4V” 来概括大数据的特征。
- 大量化(Volume)指数据体量巨大。随着 IT 技术的迅猛发展,数据量级已从 TB 发展至 PB 乃至 ZB,可称海量、巨量乃至超量。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级。
- 多样化(Variety)指数据类型繁多。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型对数据处理能力提出了更高的要求。
- 价值密度低(Value)指大量的不相关信息导致价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。因此如何通过强大的机器算法更迅速地完成数据的价值“提纯”,如何对未来确实与模式的可预测分析、深度复杂分析(机器学习、人工智能 VS 传统商务智能咨询、报告等),称为目前大数据背景下亟待解决的问题。
- 快速化(Velocity)指处理速度快。大数据时代对时效性要求很高,这是大数据区分于传统数据挖掘的最显著特征。因为,在大数据环境下数据流通常为高速实时数据流,而且需要快速持续的实时处理;处理工具也在快速演进,软件工程及人工智能等均可能介入。
大数据日益重要,不被利用就是成本。大数据作为一种数据资产当仁不让地称为现代商业社会的核心竞争力,不被利用就是企业的成本。因为,数据资产可以帮助和指导企业对整个业务流程进行有效的运营和优化,帮助企业做出最明确的决策。