大数据的傲慢

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2018年,苹果8发布,这时,手机已经不叫手机,而叫个人信息终端,人们可以在这上面完成一切;2025年,打车软件的大数据系统已经不需要个人发出打车需求,你出门的时候,就已经有车停在门口,并且知道你要去哪里;2032年,一个无远弗届的信息收集机制被建立起来,同年,国家统计局改名为国家信息中心,一切已经不需要统计,一切发生的时候就已经被统计;2050年,市场取消,在大数据与智能制造的配合下,一切个性化的需求都可以被满足;2084年,时间回到100年前。

2018年,苹果8发布,这时,手机已经不叫手机,而叫个人信息终端,人们可以在这上面完成一切;2025年,打车软件的大数据系统已经不需要个人发出打车需求,你出门的时候,就已经有车停在门口,并且知道你要去哪里;2032年,一个无远弗届的信息收集机制被建立起来,同年,国家统计局改名为国家信息中心,一切已经不需要统计,一切发生的时候就已经被统计;2050年,市场取消,在大数据与智能制造的配合下,一切个性化的需求都可以被满足;2084年,时间回到100年前。

这一切可能发生吗?应该不会,但是,不可否认的是,数据收集已经深入人们的生活,特别是当下的大数据热潮。

对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。更简单的定义是,在新的技术条件下,大数据,意味着可以抛弃人类之前限于成本的的抽样分析方法,而是存储一切,分析一切。

随着摩尔定律不断的延展,人们具有了越来越强的运算能力,移动互联网的出现,使得收集信息的机制贴身而行,加上云概念的,更进一步把运算能力连接起来。在这个热潮中,人们似乎开始相信,只要足够好的技术,足够多的数据,计算机能够比人更了解他们的自己。

一个非常经典的例子。一位男性顾客到全美第二大零售商塔吉特店中投诉,声称商店竟然给他还在读书的女儿寄婴儿用品的优惠券。经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?每位顾客初次到塔吉特刷卡消费时,都会获得一组顾客识别编号。日后凡是顾客在塔吉特消费,计算机系统就会自动记录消费内容、时间等信息。再加上从其他管道取得的统计资料,塔吉特便能形成一个庞大数据库,运用于分析顾客喜好与需求。

塔吉特的统计师们通过对孕妇的消费习惯进行一次次的测试和数据分析,得出了一些非常有用的结论:孕妇在怀孕头三个月过后会购买大量无味的润肤露;有时在头20周,孕妇会补充如钙、镁、锌等营养素;许多顾客都会购买肥皂和棉球,但当有女性除了购买洗手液和毛巾以外,还突然开始大量采购无味肥皂和特大包装的棉球时,说明她们的预产期要来了。

在塔吉特的数据库资料里,统计师们根据顾客内在需求数据,精准地选出其中的25种商品,对这 25种商品进行同步分析,基本上可以判断出哪些顾客是孕妇,甚至还可以进一步估算出她们的预产期,在最恰当的时候给她们寄去最符合她们需要的优惠券,满足她们最实际的需求。依靠分析消费者数据,塔吉特的年营收从2002年的440亿美元扩大到2010年的670亿美元。这家成立于1961年的零售商能有今天的成功,数据分析功不可没。

实际上这个例子并不是大数据的例子,甚至不需要太强的计算能力,一台电脑就能分析,不过由于其戏剧性,往往被用来作为“数据比人更了解人”的证明,并在当下,被用来论证大数据。在有的媒体上,这个例子的标题就是《大数据冲击大卖场比父亲更了解女儿》,大数据的傲慢跃然纸上,至上而下的俯视着芸芸众生。

但是,我认为,这并不是数据比人更了解人的例子,恰好相反,这证明了计算机、大数据,并不了解人。还在读书的女儿,显然并不想父亲知道,但“愚蠢的计算机”却自作主张,把婴儿的优惠用品寄给了女儿,还寄到了她家里。

当然,可以说这是由于数据的收集还不完全,如果多加两个变量,一个年龄,一个职业,做一个简单的逻辑判断,计算机也不难发现这是一个敏感顾客。但是,计算机并不能自己判断,而程序员、产品经理,能加入一切要素进行判断吗?显然不可能,因为,每一次判断,都是有成本的。

相对而言,单纯的生产过程(不包括市场活动)是一个理性的、目标单一的过程,只需要更高效率,更低成本的生产出既定的产品。所以,在这个过程中,计算机的规划能高效的发挥作用。但相对生产过程,人们的市场活动更加复杂,有很多非理性因素,也是多目标约束的,

在这个过程中,程序员与产品经理们不可能预先预估一切,这就意味着计算机替代不了人,最终人自己做出的决定才是最适合的决定。这就使得,花费很大成本收集的数据,经过挖掘得到的结果,不如直接弹出一个对话框,或者用人工智能温柔的女声问:你想买吗?

可以预见的是,随着技术更深入的渗透到人们的生活中,必然之中的偶然事件,必然会引起人们的警觉与反感,更严厉的隐私与个人数据收集管制必然出现。

更深层次的看,随着技术的进一步发展,大数据的傲慢,可能不会仅仅只违背女儿的意愿把婴儿用品优惠券寄到家里。

亚当斯密认为:每一个追求自身利益的人“被抑制看不见的手所指引,达到一个并非其意图的一部分的目标。允许竞争自由发展是国家的工作。社会的目标是扩大生产,及最好的分配资本、劳动力和其他资源。其理论是,市场如果不收垄断的阻碍或者法律与习俗的限制的阻碍,就能够最好的按照需要分配资源。

一直以来,许多社会主义者认为,市场体系的主要不足之处在于缺乏计划,对经济活动未能进行有目的的协调。在过去,由于计划经济实验在全球的彻底失败,这种观念已经没有市场。但是,随着大数据的出现,过去的失败很可能被归咎于技术的失败:数据的不完全、模型变量少、要素之间逻辑关系少、计算能力不足。在今天,技术发展滋生的大数据之傲慢,很可能会成为理性的傲慢的又一次机会。

应该承认的是,信息革命为集中控制创造了新的可能性,今天,我们已经看到了这个可能性。计算机、互联网、移动互联网技术的出现,使一个集权的官僚机构能够记录下关于个人的大量事实。除了那些人们意识到的隐私信息,比如对话、文字、图片,还包括一般人认为相当不敏感的信息,比如银行账号、购买的商品,即便只是对后者的分析,也可以得到个人动向与活动的信息。

不过,技术是市场的一部分,一个要素,自然非常重要,但是,不能简单的说技术发展等同于市场发展。市场与社会的根本决定因素以及发展,是生产、交换过程中人们的自由意志。

而且,不管什么信息系统,都是由人建造,有人操作,而这些人也生活于这个信息系统之中,打个比方,一个硬盘可以储存反映自身,精确到原子与夸克级的一切信息吗?显然不可能。因为这是一个自我调用的递归过程,而不断的自我调用,会吞噬掉一切计算能力。而信息系统的规划与预计,正是这样的一个自我调用系统。

当然,虽然今天的互联网产品是由程序员与产品经理主导,他们虽然崇拜技术,但是,投资人却要讲究成本,所以,在演示中、在针对投资人的PTT中,虽然充满了大数据的傲慢,但这种傲慢之下,实际上熙熙攘攘皆为利的市场小心思。真正值得警惕的,是这种傲慢被不计收益的动机所利用,最后,反过来吞噬市场。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 传感器 数据采集
大数据
大数据是指数据量庞大(Volume)、增长迅速(Velocity)、类型多样(Variety)、价值密度低(Value)但潜力巨大的数据集。其来源包括互联网、物联网及企业内部数据。处理技术涵盖采集、预处理、存储、分析与可视化。应用领域涉及商业智能、金融、医疗、交通及公共服务等,助力决策优化与创新。
38 8
|
6月前
|
机器学习/深度学习 存储 分布式计算
大数据介绍
大数据介绍
80 2
|
SQL 数据采集 算法
大数据到底应该如何学?
大数据到底应该如何学?
109 0
|
新零售 存储 Java
关于大数据最常见的10个问题,必看!
1、云计算与大数据是什么关系?   云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
1305 0
|
SQL 存储 分布式计算
|
安全 大数据
|
分布式计算 数据可视化 大数据
|
新零售 存储 数据挖掘