郭全中:对大数据的认识该正本清源

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

近几年,大数据已广泛应用到互联网舆情、互联网营销、内容分发、互联网金融、人工智能、智慧城市建设等领域。然而,在大数据高速发展的同时,也出现鱼龙混杂、忽悠盛行的不良现象:有些机构和企业根本没有大数据能力、但也为赶时髦而自我标榜为大数据公司;有人神话大数据,认为其无所不能;有人认为大数据只研究相关关系而不研究因果关系;还有人认为只要有数据,就万事大吉。下面就让我们来逐个讨论,反驳上述的片面认识。

真正的大数据公司并不多。纵观世界大数据发展实践,目前的大数据公司主要分为两类:一类是自身就拥有大数据的公司,如阿里巴巴、京东、腾讯、今日头条、新浪微博、北京一卡通公司等,其中绝大多数为互联网公司;另一类则是为大数据挖掘和分析提供工具和能力的公司,如拓尔思、百分点等等。事实上,在业界的实践中,不少公司既没有数据,也没有数据解决能力,仅仅是为了更好的估值和自身的品牌塑造,纷纷给自身披上大数据的外衣,给行业和用户造成混乱和困惑,这从根本上不利于大数据产业和大数据公司的健康发展。

大数据仍处于初级阶段。虽然大数据必将成为整个社会的底层架构和标配,社会和经济的方方面面必将被大数据所重构,且大数据在各行各业的应用正得到深化,但上述活动仍处于进行时或将来时,并非既成事实。在这一爬坡过坎的阶段,尤其需要大数据从业人员求真务实、脚踏实地地推进大数据产业的发展,不能拔苗助长、饮鸩止渴,否则只能给大数据产业的短期发展注入太多泡沫。一旦泡沫破裂,必将会给大数据产业带来很大的破坏作用。

大数据既研究相关关系,也研究因果关系。在大数据领域流行的说法是“大数据只研究相关关系而不研究因果关系”,无疑这是很大的认识误区。从本质上讲,大数据从全新的哲学视角给我们提供了更多认识世界的方法,使我们从之前只能研究因果关系而不能研究相关关系,扩大到既能研究因果关系也能研究相关关系。

不过,如果单纯从相关关系出发,就可能导致谬误百出。例如,一些研究人员希望通过分析北京市中小学生的交通数据与其所在学校的相关性,计算学生家庭住址与学校距离的合理区间。如果仅研究因果关系,就会得出“北京市的学校布局很合理而不需要优化调整”的结论,这无疑与北京市优质教育资源分布不均衡的现状相悖。为什么会出现这样的悖论呢?原因在于,北京市很多家长为让孩子接受更好的教育,纷纷选择在教学质量好的学校周边买小户型房屋或租房居住,而正是这种教育资源的不均衡导致“天价学区房”的频频出现。

大数据尚需要算法和专家观点的支撑。很多人认为,只要有数据就可以解决一切问题,其实如果仅有数据而没有好的算法和专家观点,数据只能成为无用的废料。

在大数据的运用过程中,海量的数据是基础和前提,但算法、模型以及专家观点一样都不能少。否则,即便输入同样的数据,出来的也会是大相径庭的观点。例如,虽然很多“楼市专家”都占有大致相同的数据库,但对房地产市场走势的判断却大为不同。如果一味听信某些“平民经济学家”的理论,很多人可能正在四处漂泊,租房居住。反之,若能预见房价上涨的趋势,您不仅可解决居住问题,还有机会实现财务自由。

总之,大数据的威力将远超我们的想象,但是也需要给它一段时间来完善,更需要警惕一些似是而非的错误观点!



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
7月前
|
机器学习/深度学习 存储 分布式计算
大数据介绍
大数据介绍
83 2
|
存储 机器学习/深度学习 SQL
什么是大数据?
什么是大数据?
304 0
什么是大数据?
|
大数据 数据库
大数据使“定制”新的经济指标成为可能
大数据使“定制”新的经济指标成为可能
138 0
大数据使“定制”新的经济指标成为可能
|
人工智能 分布式计算 Oracle
大数据浅谈1
小弟不才,针对于大数据入门的一些小总结,希望能共同成长进步,大咖请绕路!!!
194 0
下一篇
DataWorks