郭全中:对大数据的认识该正本清源

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

近几年,大数据已广泛应用到互联网舆情、互联网营销、内容分发、互联网金融、人工智能、智慧城市建设等领域。然而,在大数据高速发展的同时,也出现鱼龙混杂、忽悠盛行的不良现象:有些机构和企业根本没有大数据能力、但也为赶时髦而自我标榜为大数据公司;有人神话大数据,认为其无所不能;有人认为大数据只研究相关关系而不研究因果关系;还有人认为只要有数据,就万事大吉。下面就让我们来逐个讨论,反驳上述的片面认识。

真正的大数据公司并不多。纵观世界大数据发展实践,目前的大数据公司主要分为两类:一类是自身就拥有大数据的公司,如阿里巴巴、京东、腾讯、今日头条、新浪微博、北京一卡通公司等,其中绝大多数为互联网公司;另一类则是为大数据挖掘和分析提供工具和能力的公司,如拓尔思、百分点等等。事实上,在业界的实践中,不少公司既没有数据,也没有数据解决能力,仅仅是为了更好的估值和自身的品牌塑造,纷纷给自身披上大数据的外衣,给行业和用户造成混乱和困惑,这从根本上不利于大数据产业和大数据公司的健康发展。

大数据仍处于初级阶段。虽然大数据必将成为整个社会的底层架构和标配,社会和经济的方方面面必将被大数据所重构,且大数据在各行各业的应用正得到深化,但上述活动仍处于进行时或将来时,并非既成事实。在这一爬坡过坎的阶段,尤其需要大数据从业人员求真务实、脚踏实地地推进大数据产业的发展,不能拔苗助长、饮鸩止渴,否则只能给大数据产业的短期发展注入太多泡沫。一旦泡沫破裂,必将会给大数据产业带来很大的破坏作用。

大数据既研究相关关系,也研究因果关系。在大数据领域流行的说法是“大数据只研究相关关系而不研究因果关系”,无疑这是很大的认识误区。从本质上讲,大数据从全新的哲学视角给我们提供了更多认识世界的方法,使我们从之前只能研究因果关系而不能研究相关关系,扩大到既能研究因果关系也能研究相关关系。

不过,如果单纯从相关关系出发,就可能导致谬误百出。例如,一些研究人员希望通过分析北京市中小学生的交通数据与其所在学校的相关性,计算学生家庭住址与学校距离的合理区间。如果仅研究因果关系,就会得出“北京市的学校布局很合理而不需要优化调整”的结论,这无疑与北京市优质教育资源分布不均衡的现状相悖。为什么会出现这样的悖论呢?原因在于,北京市很多家长为让孩子接受更好的教育,纷纷选择在教学质量好的学校周边买小户型房屋或租房居住,而正是这种教育资源的不均衡导致“天价学区房”的频频出现。

大数据尚需要算法和专家观点的支撑。很多人认为,只要有数据就可以解决一切问题,其实如果仅有数据而没有好的算法和专家观点,数据只能成为无用的废料。

在大数据的运用过程中,海量的数据是基础和前提,但算法、模型以及专家观点一样都不能少。否则,即便输入同样的数据,出来的也会是大相径庭的观点。例如,虽然很多“楼市专家”都占有大致相同的数据库,但对房地产市场走势的判断却大为不同。如果一味听信某些“平民经济学家”的理论,很多人可能正在四处漂泊,租房居住。反之,若能预见房价上涨的趋势,您不仅可解决居住问题,还有机会实现财务自由。

总之,大数据的威力将远超我们的想象,但是也需要给它一段时间来完善,更需要警惕一些似是而非的错误观点!



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8月前
|
传感器 大数据 定位技术
大数据介绍
大数据介绍
67 1
|
传感器 人工智能 大数据
大数据
第二节 大数据 1.大数据的概念 麦肯锡公司对大数据的定义: 大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。 维基百科对大数据的定义: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间限制的数据集。这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。 2.大数据的特点 大数据具有5V特点(IBM提出),即: Volume(规模大)、Variety (种类多) 、Velocity (处理速度快)、Value (价值密度低)、Veracity (真实性) 2.大数据的特点 规模大: 数据规模大是大数据的基本属性。
|
存储 数据采集 消息中间件
漫谈对大数据的思考(上)
“大数据”已跃升为我们行业中最受炒作的术语之一,但炒作不应使人们忽视这样一个事实,即这是数据在世界上的作用真正重要的转变。
漫谈对大数据的思考(上)
|
新零售 存储 Java
关于大数据最常见的10个问题,必看!
1、云计算与大数据是什么关系?   云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
1263 0
|
人工智能 大数据 物联网
想学大数据,从哪里开始比较好
本人目前从事网站运营方面的工作,懂一丢丢html代码,英语水平为0, 英语目前正在学,兼职学了半年多了,明年准备辞职出来全职学,应该明年在用大半年时间能搞定。英语学好后准备进入大数据行业。 不知道从哪里开始,希望得到一些路线指导。
2043 0
|
机器学习/深度学习 存储 人工智能