“厚数据”,大数据的下一站

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

作者:王圣捷(PL Data公司创始人,她是名全球科技人类学家,也曾是 IDEO 上海的一名驻地专家)

当前,全世界各种规模的公司都在被告知需要大数据 —— 大数据是驱动下一轮创新的源动力。风投公司专门确立针对大数据的投资组合,初创公司对外宣称自己是 “大数据” 公司,成熟的巨头企业会成立专门做大数据项目的数字创新团队。面对先进的计算数据收集和分析能力,许多初创公司和大型企业不惜以牺牲人的洞察为代价,过度地专注于收集定量数据。这种把定量数字凌驾于定性洞察之上的做法着实令人担忧。我就曾亲眼见证了一家公司为此遭受到的重大影响,没有任何一家公司会希望遵循这种做法。

大数据

2009年的时候,我在诺基亚做调研工作。诺基亚是当时新兴市场最大的手机公司。我在研究中发现,这家公司在整体商业模式上正面临挑战。经过多年在中国的人类学研究工作,不论是与外来打工者一起生活,体验街头小贩的辛酸苦辣,还是沉浸在网吧世界,这些都让我看到了大量的市场信号,我有理由相信,低收入消费者已经准备好为更昂贵的智能手机买单。

大数据离不开 “厚数据”

当时我的结论是,诺基亚必须转变他们当前的产品开发策略,从制造价格昂贵、面向精英用户的智能手机,转而开发价格适中、面向低收入用户的智能手机。我把我的研究报告和相关建议汇报给了诺基亚总部。但诺基亚在看过我的研究发现后却不知道该怎么做。他们说,我的样本量只有 100 个,和他们成百上千万的样本量相比,简直就是微不足道。另外他们还说,根据他们现有的数据资料,我的洞察发现根本就没有任何根据可言。

当然现在,我们所有人都知道诺基亚后来发生了什么。微软在 2013年 收购了诺基亚手机业务,目前它的全球智能手机市场份额仅占 3%。诺基亚的衰落是由很多原因导致的,但其中最严重的原因之一,也是我亲历的一个原因就是:

诺基亚过度依赖数字。他们过于注重定量数据,以至于在面对难以衡量或现有报告里没有的数据时,就变得不知所措。

原本可以成为诺基亚的竞争筹码,最后却帮了一个倒忙,导致它走向衰亡。

自从诺基亚的那次工作经历以来,企业组织这种过度重视定量数据而忽略定性数据的做法就一直让我感到非常不解。随着大数据时代的崛起,我发现这种情况开始愈演愈烈,一些公司不惜扣减花在以人为本调研上的预算,而宁愿花重金投资在大数据技术上。人类学定性研究工作在大数据时代下的生存现状让我深感忧心。

在当前这个以数据为驱动的世界,人类学研究工作(经常以市场调研、设计调研和定性调研的形式在行业里出现)正面临一个非常严重的认识误区。经常会听到人们谈论说,人类学研究的数据样本量太小,人类学研究数据是 “小数据”,就像当时诺基亚高层说的一样。

由于缺少概念性文字来快速界定人类学研究在大数据时代的价值,自去年开始我一直在用 “厚数据”(在此向 Clifford Geertz 致意!)这个词来表示我对综合性研究法的提倡和支持。厚数据是指利用人类学定性研究法来阐释的数据,旨在揭示情感、故事和意义。厚数据难以量化,但能从少量样本中就解读出深刻的意义和故事。厚数据与大数据截然不同,定量数据需要依赖大量的样本,同时借助新技术来捕捉、存储和分析数据。要让大数据变得可分析,它就必须经过一个正常化、标准化的定义和归类过程,这个过程会在无形之中剔除数据中所包含的背景、意义和故事。而厚数据恰恰能防止大数据在被解读的过程中丢失这些背景元素。

“厚数据是指利用人类学定性研究法来阐释的数据,旨在揭示情感、故事和意义。”

整合大数据和厚数据能让企业站在全局的高度,更全面、更彻底地把握任何情形。企业要纵观全局,就必须同时运用大数据和厚数据,从中获得不同类型的洞察,获得丰富的广度和深度。

大数据需要借助大量样本来揭示特定模式,而厚数据只要借助少量样本就能从深层次解读出各种以人为本的模式。

厚数据依赖人的学习活动,而大数据依赖机器的学习活动。

厚数据体现着各种数据关系背后的社会背景,而大数据体现的是从一系列特定定量数据中提炼出的洞察。厚数据技术能包容不可化约的复杂性,大数据技术则是通过分离变量来明确模式。厚数据缺少广度,大数据缺少深度。

运用大数据存在风险

企业组织在运用大数据时,如果没有一套整合框架或权衡尺度,那么大数据就会变成一个危险因子。Steven Maxwell 指出:

人们过度沉迷于数据信息的量,却忽略了 ‘质’ 的部分,也就是分析法所能揭示的商业洞察。量越大并不意味着生成的洞察就一定越多。

另一个问题是,大数据往往过于注重定量结果,而贬低了定性结果的重要性。这就会导向一种比较危险的看法,即认为经统计分析得出的标准化数据要比定性数据更有用、更客观,从而进一步肯定了定性数据就是小数据这一观点。

以上两个问题导致企业组织几十年来仅仅凭借定量数据来做管理决策。一直以来,企业管理咨询顾问都是利用定量数据来让提升企业的运作效率和赢利。

利用大数据的风险在于,企业和个人会开始依赖运算法则,把它作为衡量标准来做决策和优化表现。

如果没有一种平衡力量,大数据很可能会导致企业和个人总是依据从运算法则得来的标准来做决策和优化。在这个优化过程中,包括人、故事、真实的体验在内的一切都会被忽视。正如 Clive Thompson 写道的:

把人的决策因素从这个等式中抹去,就意味着我们会与深思熟虑的做法渐行渐远,而这些深思熟虑的时刻恰恰是我们从道德层面反思自己行为的机会。

释放大数据与厚数据的整合效应

大数据产生的信息量实在太过庞大,以至于不得不借助其他方式才能填补和 / 或揭示知识缺口。而这恰恰是人类学研究工作在大数据时代的价值所在。下面,我会分享一些有关企业如何整合使用厚数据的方式。

厚数据是勾勒未知世界的最佳方式。当企业组织想了解他们并不了解的领域时,就需要厚数据的帮助,因为它能带来大数据所没有的东西——灵感。收集和分析故事有助于生成洞察。

当企业组织想要了解并不熟悉的领域时,就需要 “厚数据” 的帮助,因为它能带来大数据所无法带来的东西——灵感。收集和分析故事有助于生成洞察。

故事能激发企业组织探索通往目的地的不同途径,这个最终目的地就是洞察。打个比方,假设你在开车,厚数据能让你瞬间移动到想去的地方。厚数据常常会带来一些意料之外的发现,既让人困惑又让人惊喜。但不论怎样,它都能带来灵感启发。只有在富于想象力的企业,创新才能赖以生存。

当企业想要与利益相关方建立更稳健的关系时,他们就会需要用到 “故事”。

“故事” 包含着情感,而这是经分析过滤的标准化数据所不能提供的。

数字无法折射出日常生活中的各种情感:信任、脆弱、害怕、贪婪、欲望、安全、爱和亲密。很难用算术法则来表示一个人对服务 / 产品的好感程度,以及这种好感会随着时间变化而发生怎样的转变。相对地,“厚数据” 分析法能深入人们的内心。毕竟,利益相关方与企业 / 品牌的关系是感性的,而不是理性的。

厚数据和大数据的未来整合机会点

大数据概念的提出者 Roger Magoulas 强调了故事的必要性:

故事能很快传播开来,把数据分析法的经验教训扩散到企业组织的各个角落。

仅仅使用大数据会带来问题,关键是要懂得如何同时利用起大数据和厚数据,让两者相辅相成。对于定性研究者来说,这是他们在以定量结果为主导的大数据时代定位自己工作性质的绝佳机会。像 Claro Partners 这样一些公司甚至已经开始重新界定我们如何问有关大数据的问题。在他们的个人数据经济(Personal Data Economy)研究中,他们并没有问大数据对人类行为的启示这类问题,而是反过来问了人类行为对大数据在日常生活中的作用的启示。他们还为客户开发了一套工具,帮助他们转变思维视角,“从以数据为核心转变为以人为核心。”

有关大数据和厚数据如何在企业组织中发挥协同效应,我梳理了以下机会点(当然并不仅限于这些):

健康医疗

随着个人能越来越方便地追踪自己的健康状态,自我量化值正在成为一种主流。医疗服务提供者会有越来越多的机会收集到各种匿名数据。像 Asthma Files 这列项目可以让你迅速展望厚数据和大数据将如何共同解决全球健康问题。

重新定位来自移动运营商的匿名数据

全球各地的移动公司已经开始重新包装和出售他们的顾客数据。市场营销者不是唯一的买家。城市规划者正在用 Air Sage 的蜂窝式网络数据来了解当地的交通状况。为了保护用户隐私,这些数据会采取匿名或抹去个人通信记录。当然,没有了关键的个人详情,数据也就丢失了关键的背景信息。在这种情况下,若没有厚数据,企业就很难破译这些因个人信息被抹去而丢失的个人情况和社会背景,也就无法真正解读数据。

社交网络分析

社交媒体能产生大量数据,这些数据能让社交网络分析法变得更为丰富。目前,包括 Hilary Mason、Gilad Lotan、Duncan Watts 和 Ethan Zuckerman (以及他在 MIT Media Lab 的实验室) 在内的研究科学家都在研究信息在社交网络上的传播方式,以及同时会产生哪些问题,而这些问题只能借助 “厚数据” 才能回答。现在越来越多的公司把社交媒体作为衡量尺度,对此企业必须谨慎对待,不要误认为仅仅透过数据就能看到 “影响因素”。媒体对 Cesar Hildalgo 工作的误读就是大数据网络分析结果被曲解的一个实例,意指维基百科可以成为文化代理。(点击此处查看 Heather Ford 对此做出的纠正。)

品牌战略和生成洞察

一直以来,企业都习惯于依赖市场分析来制定企业战略和生成洞察。如今,企业正在转向用一种更为以人为本的方式,也就是立足于 “厚数据”。《快公司》杂志(Fast Company)在最近一期 Jcrew 的报道中明确指出,在以大数据为驱动的管理咨询法宣告失败后,带领品牌走出困境的恰恰是那些真正懂得消费者想要什么的员工。其中,一位叫 Jenna Lyons 的员工有机会与消费者一起反复尝试、修改和实时测试产品。她的这套方法在消费者中引起了反响,最终成功地把 Jcrew 转变为一个让人顶礼膜拜的品牌,营收翻了三番。

产品 / 服务设计

单单借助运算法则并不能解决问题,但仍然有很多公司依赖运算法来指导产品和服务开发。施乐公司(Xerox)就是利用大数据来为政府解决问题,但它同时还借助了人类学研究法作为数据分析法的补充。施乐帕罗奥多研究中心(Xerox PARC)的人类学家 Ellen Issacs 在提及厚数据对设计工作的重要性时这样说道:“即使你对某项技术有着清晰的概念,你仍然需要把它设计出来,确保这套概念符合人们对自己行为活动的看法……你必须看他们怎么做。”

落实企业组织战略

厚数据可以作为大数据的补充,与大数据相辅相成,以减少经过规划的企业转变所造成的颠覆性影响。定量数据可能会显示必须做出某种转变,但企业组织内部的颠覆代价是巨大的。重新布局企业组织架构图,重新撰写职位描述,转换工作职能,重新设定成功标准——所有这些颠覆式转变都要付出昂贵代价,而这一后果可能并不会体现在大数据计划中。企业需要厚数据专家与业务领导一起协作,共同了解转变会带来的影响和发生背景,从文化的角度决定哪些转变是可行的,以及如何设计整个流程。Grant McCracken 把厚数据专家叫做首席文化官(Chief Cultural Officer),他们就好比是 “企业的眼睛和耳朵,会敏锐地嗅出即将发生的转变,即使这些潜在转变只是发出非常微弱的信号。” 首席文化官就是厚数据专家,负责收集、讲述和传播故事,保持企业组织的灵气和灵活性。大数据概念的提出者 Roger Magoulas 强调了故事的必要性:“故事很快就能传播开来,把分析总结带来的习得散播到整个企业组织。”

综合运用同理心和数据资源进行创新

除了所有这些有待挖掘的机会点,还有一点很重要的就是,大数据仍有很大的改进空间。高德纳咨询公司(Gartner)的研究显示,在投资大数据能力的公司当中,只有 8%的公司在利用大数据做一些具有深远意义的事情。其余公司仅仅只是用大数据来拉动渐进式增长。这意味着很多公司虽然都在谈论和投资大数据,但他们并没有真正利用起大数据来推动真正的变革。

我认为,企业和机构要想充分发挥大数据的潜力,就必须结合运用厚数据,这也是为什么我们现在比以往任何时候更需要从事以人为灵感来源的研究工作者,不论是人类学家、市场调研者、设计调研者、设计师、产品经理、纪录片导演、制片人、作家还是社交媒体经理,因为这类研究工作者是始终带着同理心在收集和分析数据。最有创新力的公司往往就是那些懂得如何综合运用大数据与同理心的公司。

这也是为什么阿里巴巴、百度和腾讯这些公司得以如此成功的原因之一,他们总能闪电般地迅速掌握实际用户所处的情境,以此来驱动他们的技术革新。未来,中国的创新将同时有赖于情境和数据。


本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
360 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
53 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
90 1
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
56 3
|
1月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
70 4
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
59 3
|
1月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
71 2
|
1月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
117 2