大数据热中的冷思考

简介:

时下,大数据热持续升温,大数据一词已成为各种公开场合中最为炙手可热的关键词。大数据热已成为一股汹涌澎湃的潮流,于是乎,各种大数据概念满天飞,人人都在谈论大数据,仿佛你的发言中没有提到大数据,你的成果中没有应用到大数据,那你就彻底OUT了。

历史反复告诉我们:当一件事情持续过热,承受了名过其实的追捧,就必然会产生泡沫。是泡沫就会有破裂的一天,事实必然会随着泡沫的破裂而恢复到本来面目。总的来说,近年来涌现的一些新的大数据技术的确促进了数据处理能力的大幅提高,但也应该注意的是,伴生着大数据的发展也产生了一些不良现象,比如:炒作概念,无中生有;似懂非懂,滥用数据;盲目跟风,浪费资源等。这些不良现象应引起我们足够的重视。

现象本质大数据概念的提出是在2008年,数据科学家维克托·迈尔-舍恩伯格及肯尼斯·库克耶在《大数据时代》一书中提出:大数据不用随机分析法(抽样调查)这样的捷径,而使用所有数据进行分析处理。2012年,IBM商业价值研究院与牛津著名的赛德商学院联合发布了一份题为《分析:大数据在现实世界中的应用》的报告,报告中用四个V来确定大数据,即:数量(volume)、多样性(variety)、速度(velocity)和精确性(veracity)。

从专业的角度看,大数据这个概念是一个很不科学严谨的概念,具有很大的模糊性,但正因如此,给外界留下了很大的想象空间。随着互联网技术的高速发展,数据的形态越来越复杂,对数据的使用要求更是五花八门。在不同的场景下,大数据这个词汇似乎成了一个筐,什么都可以往里装。这一概念不但看起来“高大上”,而且科技感十足,想象空间足够大,因此备受推崇。政府部门出于拉动GDP等因素考虑,觉得大的项目往往更容易得到重视和青睐,因此力推大数据。与此同时,一些商业组织出于商业利益考虑,也乐于炒作大数据概念。比如在资本市场上,有哪只股票要是成为大数据概念股,市值很容易就会大幅提升;哪家创业公司如果跟大数据贴上边,就会受到风投公司的追捧。而上下游产业的IT公司更是乐见大数据热现象持续蔓延,因为大数据往往意味着大投资、大生意、大客户,相关软件和硬件的销量自然急剧增加,毫不费力赚得盆满钵满。于是,一场以大数据为名的运动在全社会轰轰烈烈地开展起来。

对企业的危害大数据是一柄双刃剑,用得好会给企业创造价值,用不好不但会成为企业的负担,反而还可能会成为误导。具体说来,滥用大数据的危害性有以下几点。

1、导致错误的评价有这样一个笑话,某大学年度调查统计显示,本校计算机系的女同学中,50%都嫁给了该校的男性老师。该消息一经公布,立即引起校内外的巨大反响,人们对师生恋、校园恋议论纷纷,很多人说是某校的炒作。经几次调查核实,该消息确实是真实有效的。原来该大学计算机系只有两名女生,其中一名女生和计算机系老师相恋结婚,由此得来的50%是真实数据。

这个笑话不但反映了使用片面的数据造成的危害,而且揭露出一部分人过于迷信数据的心理。数据虽然是客观和科学的,但怎么使用和看待数据却是人的问题。如果有些别有用心的人利用大众对于大数据盲目迷信的心理来误导大家,那么这种披着权威外衣的欺骗甚至要比不用大数据更能导致严重后果。

2、导致错误的决策数据的最大商业价值在于预测,现在的企业越来越倾向于使用大数据得出的结论作为未来的决策依据。尽管如此,仍有不少数据分析专家认为,当企业开始搞大数据的时候,他们就走上了一条不归路,数据越大,其中枝节越多,错误也就越多。数据科学家Vincent Granville在《大数据的诅咒》里写道:“这并不难解释。例如即使数据集之中只包括1000个因子,那这些因子之间的相关关系数量就高达百万级别。这也就意味着一些因子之间的关系可能完全是随机的,以此来建预测模型,你会输得很惨。”

3、投资与收益严重倒挂大数据既然“大”字当头,自然投资成本不会小。在硬件层面上,要投入比以往系统多得多的主机、存储、网络设备以及相关配件,由于设备数量的增加还会造成大量的用电负荷以及占用大量机房场地空间,对布线、空调等相关配套的需求也急剧增加;在软件层面上,虽然操作系统和数据库等底层可以找到越来越多的开源软件可替代,但那些针对数据挖掘和数据分析以及分布式存储的软件是永远也不可能免费的,而且普遍价格高昂;在维护成本方面,由于大量使用开源软件,大数据所带来的大集群以及低稳定性需要付出更多的人力成本。

可见,大数据必然是大手笔的投入,然而这种大投入能不能带来大产出就是另一回事了。对于分析系统而言,其分析的结果能否抵得上投资收益是一件不太确定的事,并且有效数据的产生可能需要一个长期的过程。对大数据的挖掘有点像在一座据说藏有黄金的矿山中挖掘,但要挖多深、挖多久才能有结果,其实并不确定。

4、加重核心系统的负担最重要和最有价值的数据必然是从核心系统产生出来的,大数据分析的过程就是一个先大量占有、再慢慢分析的过程,在这个过程中,必然不能缺少核心数据的参与。这意味着核心系统需要开放更多的接口,牺牲一定的性能来配合分析。不仅如此,在争抢系统资源方面,大数据系统当然比资源池内的其他系统更有“威力”。即使是主机环境互相隔离开,但只要是在一个机房内,存储、网络带宽、机架空间、用电负荷等资源也会被迅速增长的大数据系统抢得一干二净。长此以往,核心系统的业务资源必然紧张,系统运行风险也随之上升。

建言献策大数据是信息化系统发展到一定阶段以后的必然产物,更大更全面的数据处理能力必将成为企业未来重要的生产力来源。然而,对于大数据,我们不能只抱着一片痴心,还要像认识硬币的正反两面一样,对大数据的负面问题有所防范。

首先,不迷信不盲从大数据。大数据不是万能的,更不是完美的,数据仅仅是一种参考资料,如何看待和使用数据还要靠人。因此要用审慎的心态看待数据,避免因使用片面的数据而产生决策偏差,甚至是步入陷阱。如果我们不能合理使用大数据,那么大数据就真的成了“大忽悠”。

其次,要根据企业实际选择合适的大数据方案。在大数据系统立项和建设之初,就要充分考虑投入和产出的比率,对于产出价值不大的系统应采取审慎的态度建设,并且严格控制规模,避免“大而全”的建设思路。只有在建设前期就严格把关,才能防止大数据成为“大负担”。

最后,做好数据信息安全防范。在使用大数据的同时,也一定要做好数据信息可能泄露的安全防范。数据如果沉淀下去一直不用当然不会创造价值,但如果不注意数据信息的安全防范就可能造成信息泄露、篡改、盗用、删除等严重后果。极端情况下,甚至会给企业造成致命的打击。因此一定要限定数据使用的范围、流程,避免大数据演变成为“大灾难”。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 算法 Java
数论中的十个基本概念
数论中的十个基本概念
|
8月前
|
关系型数据库 MySQL 数据安全/隐私保护
MySQL下载与安装
本文介绍了MySQL的下载与安装流程(2025.4.29,作者:blue)。主要内容包括:1) 从官方地址下载MySQL;2) 解压文件并配置环境变量;3) 注册MySQL服务并通过命令行验证;4) 启动和停止MySQL服务;5) 修改默认账户密码;6) 登录MySQL。通过详细步骤和截图,帮助用户顺利完成安装与初始配置。
1505 13
|
安全 Java 数据安全/隐私保护
密钥在手,安全无忧:探索Spring Boot中SecretKeySpec与Cipher的神秘力量
【8月更文挑战第29天】在现代软件开发中,数据安全至关重要。本文作为教程,介绍如何在Spring Boot应用中利用`SecretKeySpec`和`Cipher`实现基本的加密和解密功能。首先,需添加相关依赖,然后创建工具类封装加密与解密方法。通过示例演示了如何生成密钥、加密及解密数据。正确实现加密能有效保护敏感信息,增强应用安全性。开发者应根据需求选择合适算法和密钥长度,确保数据安全。
668 0
|
10月前
|
人工智能 小程序 API
销售易NeoCRM与纷享销客:功能、体验与价格全解析
销售易NeoCRM和纷享销客是国内知名的CRM解决方案,各有特色。销售易功能全面,涵盖销售、客户、营销管理及AI赋能,适合中大型企业;纷享销客则以强大的连接能力和业务协同见长,用户体验佳,性价比高,更适合中小企业。两者在价格、用户体验和适用场景上有所差异,企业应根据自身需求选择合适的CRM系统。
|
11月前
|
存储 供应链 安全
区块链技术在选举中的应用:透明与安全的新时代
区块链技术在选举中的应用:透明与安全的新时代
422 16
|
机器学习/深度学习 存储 人工智能
2024 年 AI 辅助研发趋势
这篇文章讨论了2024年AI辅助研发的趋势,包括技术进展、行业应用案例、面临的挑战与机遇、未来趋势预测、与法规的影响以及人才培养与教育。文章强调了AI在医药、汽车和电子等行业的应用,并指出了AI辅助研发面临的技术挑战、伦理问题和数据安全问题,同时也提出了技术创新、伦理规范和数据安全技术等方面的机遇。文章还预测了AI与研发流程的深度融合、智能研发平台的崛起和AI驱动的创新模式等未来发展方向,并讨论了政府政策和法规对AI辅助研发的影响,以及教育体系如何适应这一变革,培养具备AI技能的研发人才。
624 1
|
消息中间件 Unix
操作系统的心脏:深入理解进程间通信(IPC)
在现代计算中,操作系统扮演着至关重要的角色,它不仅管理着硬件资源,还负责协调和优化应用程序之间的交互。本文将深入探讨操作系统中的一个核心概念——进程间通信(IPC),揭示其背后的机制以及在实际应用中的重要性。通过通俗易懂的语言和条理清晰的解释,本文旨在为读者提供一个关于IPC的全面了解,从基本定义到高级应用,带领大家走进操作系统的神秘世界。
|
域名解析 弹性计算 负载均衡
通过联合部署DDoS高防和WAF提升网站防护能力
通过联合部署DDoS高防和WAF提升网站防护能力
|
机器学习/深度学习 存储 分布式计算
解释 Spark 在 Databricks 中的使用方式
【8月更文挑战第12天】
652 1
|
机器学习/深度学习 JSON JavaScript
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
472 0