大数据时代的小数据

简介: 现在好像人人都爱说“大数据”,就像平时我去开会,不是用大数据分析这个,就是用大数据建构那个。可是我最近看《美国计算机学会通讯》(CACM)上面提到了几次小数据,我觉得大家也有必要了解一下这个有趣的概念。

0.jpg

现在好像人人都爱说“大数据”,就像平时我去开会,不是用大数据分析这个,就是用大数据建构那个。可是我最近看《美国计算机学会通讯》(CACM)上面提到了几次小数据,我觉得大家也有必要了解一下这个有趣的概念。

什么是小数据?小数据就是个体化的数据,是我们每个个体的数字化信息。比如我天天都喝一两酒,突然有天喝完酒了胃疼,我就想了,这天和之前有何不同?原来,这天喝的酒是个新牌子,可能就是喝了这个新牌子的酒让我胃疼。这就是我生活中的“小数据”,它不比大数据那样浩瀚繁杂,却对我自己至关重要。

第一个意识到“小数据”重要性的是美国康奈尔大学教授德波哈尔·艾斯汀。艾斯汀的父亲去年去世了,而早在父亲去世之前几个月,这位计算机科学教授就注意到老人在数字社会脉动中的些许不同—他不再发送电子邮件,不去超级市场买菜,到附近散步的距离也越来越短。

然而,这种逐渐衰弱的状态,真到医院去检查心电图,却不一定能看出来。到急诊室检查的时候,不管是测脉搏还是查病历,这个90岁的老人都没有表现出特别明显的异常。可事实上,追踪他每时每刻的个体化数据,他的生活其实已经明显与之前不同。这种日常小数据带来的生命讯息的警示和洞察,启发了这位计算机科学教授—小数据可以看作是一种新的医学证据,它是“your row of their data”(他们数据中属于你的那行数据)。

人们爱说,大数据将改变当代医学,譬如基因组学、蛋白质组学、代谢组学等等,不过由个人数字跟踪驱动的小数据,也将有可能会对个人医疗带来变革,特别是当可穿戴设备更成熟后,移动技术将可以连续、安全、私人地收集并分析你的数据,这可能包括你的工作、购物、睡觉、吃饭、锻炼和通讯,这些数字追踪将得到一幅只属于你的健康自画像。

拥有了这幅专属于自己的数字自画像,有什么好处呢?假设你是一名患者,这样精确个体化的小数据也许可以帮助你回答:我每次服药应该用怎样的剂量?当然了,药物说明书上会有一个用药指导,但那个数值是基于大量病人海量数据统计分析得来的,但它适不适合此时此刻的你呢?于是,你就需要了解关于你自己的“小数据”。对于慢性病、抑郁症、记忆力衰退和克罗恩病,很需要日常活动变化的数据。大数据一般是从一个大N的种群里面取得的,而小数据n=me。我们需要数据解放,把移动和网络服务的数据解放到你我自己。

这样一来,小数据也许可以为我们提供更多研究的可能性:能不能通过分析年老父母的集成数据,进而获得他们的健康信息?能不能通过这些集成数据,比较不同的医学治疗方案?譬如数据跟踪能说明你散步可以走多远,你多早离开家,那就可以表明关节炎药物治疗效果如何。

更令人期待的是,小数据或许还将成为人类攻克癌症的一个好帮手。现在许多人认识到需要用患者的数据进行个性化的癌症治疗。我们要特征化所有患者。肿瘤细胞的DNA引起不同的癌症病人非常不同的变化。譬如,大致相同的基因变异或删除只占患者的10%。即使是同一个肿瘤,其细胞的变异也不同。基因之间的相互作用可能引起二次变异,对患者的治疗影响很大。所以,对许多患者用同一个治疗方法是不可能成功的。个性化或者说层次式的药物治疗是要按照特定患者的条件开出药方—不是“对症下药”,而是“对人下药”。这些个性化的治疗都需要记录和分析个人行为随时间变化的规律,这就是小数据。

当然,这并不是说大数据就不重要。在医学上发现治疗的一般规律需要大数据。欧美各国都在计划编制患者信息的数据库,不但为了癌症治疗,也为开发新的治疗方法。集成大量在线数据库可以推动个性化用药,减轻他们的痛苦。从大数据得到规律,用小数据去匹配个人。

大数据流行,大家就“言必称大数据”,可这并不是做学问的态度,不要碰到大量的数据,就给它戴上一顶帽子“大数据”。就像20年前,系统工程也很时髦。哪怕是做报告谈到一个比较大的工程,都说那是系统工程。可系统工程又怎么样呢?“那是很难的”,就没有下文了。我们应该敞开思想,研究实际问题,切忌空谈。

闵应骅;中国科学院计算技术研究所研究员、美国电子电气工程师协会会士(IEEE Life Fellow)


原文发布时间为:2014-04-16


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
15天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
15天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
15天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
25 0
|
14天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 1
|
14天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 1
|
14天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
15天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在DataWorks中,MaxCompute创建外部表,MaxCompute和DataWorks的数据一直保持一致如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
20 0
DataWorks产品使用合集之在DataWorks中,MaxCompute创建外部表,MaxCompute和DataWorks的数据一直保持一致如何解决
|
15天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在DataWorks中,从Elasticsearch同步数据到ODPS时同步_id字段的如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
25 0
|
15天前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之dataworks 同步es数据到maxcompute 遇到报错:获取表列信息失败如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
23 0

热门文章

最新文章