大数据是啥,可以吃的吗?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据并不一定要数据达到了多少体量才能算是大数据,但是如果数据简单量少到只需要用xlsx、SPSS等传统数据处理就能解决,就不需要再用大数据技术,有点杀鸡用牛刀的感觉。但大数据应用一定并不仅仅指分析,跳出传统数据分析的范畴,大数据应用领域可以指导使用在我们所有的生活工作业务、场景领域,例如个性化推荐、精准营销、风险监控等。

作者|影姿

关于大数据是什么,从一开始仅仅只想做数据,到开始意识到自己做的是对整个集团有核心意义的数据产品,再到走到外面,把数据能力对外输出,所有过程中,不断的有客户问到这个问题,有懵懂的、有善意的、也有挑衅的、不屑的。就像大数据本身一样,混乱又带有迷幻色彩。

现在对大数据的理解有两种极端:站在大数据的风口,很多人觉得大数据是未来,可以解决所有问题,包括人工智能;我自己不用想,大数据已经替我想好决定好一切了;还有一种,是大数据的概念炒了好几年,冷饭都抄成锅巴了,但是尝试过人的只收集齐了几万点伤害,觉得大数据不过如此

大数据并不一定要数据达到了多少体量才能算是大数据,但是如果数据简单量少到只需要用xlsx、SPSS等传统数据处理就能解决,就不需要再用大数据技术,有点杀鸡用牛刀的感觉。但大数据应用一定并不仅仅指分析,跳出传统数据分析的范畴,大数据应用领域可以指导使用在我们所有的生活工作业务、场景领域,例如个性化推荐、精准营销、风险监控等。

这几年多多少少沉淀下来的经验,和老板时谦虚时叫板时被骂总结到的体会,加上偶尔抽筋想增加修养磕磕绊绊看的书,有几点关于大数据的基本特征可以和大家探讨:

一、非竞争性

现在很多企业,对数据的保护是非常严格的,大家都觉得自己的数据很有价值,不能随便给别人使用。曾经有一度,我在做数据联盟的时候(这个可以以后另开一篇文章讲),每次和客户聊,都想传达一个概念,数据如果是一种资源,那也是可以被众多消耗方同时使用和反复使用的资源,个体的使用不会妨碍他人的使用。数据只有越被使用才能积累数据的应用价值(当然裸数据直接售卖的方式不在我所讨论的大数据应用范畴)。

二、价值无定值

延续上面说的,裸数据直接售卖,在我们积累了大量的数据应用实践经验之后再回过头来看,是觉得非常可笑的,所有想对某个数据字段定价,然后公开买卖的,都是短时和自绝的行为(个人观点,不要动砖头)。数据就像是无形资产一样,市场估值取决于买者对该项数据的需要程度,合适的数据服务应用于某个客户产品,产生的作用千差万别,硬要给某个数据定一个价,只能让数据贬值或让高买者对大数据产生不信任。但是并不是说数据是无价的,数据一定要有一个价值,然后让它流动应用起来,不断调整迭代到合适的附加值,聪明的数据应用者会最大程度利用具有真正附加值的应用模式创造财富。

三、会问问题

没有能够自动从大数据中获取经济价值的方式,没有捷径和想当然,我反对所有说只要有大数据就什么也不需要干了的说法。企业单纯的存储数据没有什么用处,而存储什么,清除什么,业内可以选择的高端技术都已经准备好静待选择。现在对于一家企业来说:前瞻性的深入理解哪些数据值得首先存储和处理,是第一要务。

大数据只提供答案,但它对该问的问题保持缄默,这些问题来自负责人的智慧,提出怎样的问题视关键!就像柏拉图说的那样:最终获胜的将是那些“知道如何提出问题的人”,只有那些知道怎么样提出问题的人才知道,哪些数据可能会回答问题,如何用这些数据回答问题。

大数据行业里最缺乏或者将来身价最高的人,就是既理解业务,又了解数据,知道怎么提出业务的问题,也知道怎么用大数据解答问题的大数据专家(打个广告:欢迎来数澜应聘产品经理提升身价)

大数据技术提供了高端快速的尖端技术,使得大数据处理技术能够日行千里。但是如果不选择正确有效的方向,反而累加为错误支付的成本。在大数据时代,一个正确的方向,正确的提问,正确的思路,比高精尖的科学技术、海量实时的模型算法更重要。

四、数据要有活性

长话短说,数据有保质期,需要不断更新,没有任何数据是一尘不变的,数据如果不更新,就像死水一样,所以如果有数据,就要赶紧用起来,存着又不知道该怎么用,存久了价值就指数下降了。

五、不直接售卖

也许大家觉得直接售卖现在也形成产业链了,看起来也是一种新模式了,我只想说说直接售卖的弊端:
(1)数据本身没有确切的定价,过早定价会降低溢价空间;
(2)售卖的方式无法形成技术壁垒(今天讨论的是大数据商业应用领域,科学研究是另一个话题),购买的数据可以再次低价售卖,形成恶性循环做低数据价值;
(3)数据安全问题,个体数据无法通过直接售卖的方式进行应用,但个体数据是非常值得研究和应用的数据内容,需要寻找一种安全脱敏合法的方式,将大数据反哺便利用户日常生活。

六、相关性而非因果性

中国人传统的理念讲因果,因此“大数据在乎相关性而非因果性”这个观念从国外传来时还是很颠覆的,不过大数据因为其强大的“广泛数据都可计算”特性,使得不需要再探究因果,根据现有充足海量的数据就可以做出分析或预测。但是关于这个特征是不是还要再颠覆一次,搞清楚因果,我还在实践中,也欢迎有体会的朋友们抛砖。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
供应链 数据可视化 前端开发
你刚吃的兰州牛肉面,背后就藏着大数据
兰州拉面都拥抱大数据了,此刻我只想问,黄焖鸡、麻辣烫和沙县小吃,你们还在等什么?
43172 0
|
机器学习/深度学习 存储 数据可视化
零基础大数据该学什么?
一、如何区分三个大数据热门职业——数据科学家、数据工程师、数据分析师 随着大数据的愈演愈热,相关大数据的职业也成为热门,给人才发展带来带来了很多机会。数据科学家、数据工程师、数据分析师已经成为大数据行业最热门的职位。
1416 0
|
Web App开发 存储 分布式计算
大数据计算之天龙八部
MaxCompute不断去开拓,去挑战。以少年心,成英雄梦,算别人不能算之规模,唯愿天下没有难算的数据。
2134 0
|
大数据 搜索推荐 云计算
大数据可破"猪周期"难题?“二师兄”还能这么养!
“价高伤民,价贱伤农”, “猪周期”这一怪象已成农企发展的一大难题。在2015年的两会上,全国人大代表、新希望集团董事长刘永好就曾提出要依靠大数据研究、分析生猪生产与市场需求之间的关系破解"猪周期"难题,未来农业现代化一定是互联网技术和大数据相结合。
1464 0