将大数据变成可管理的数据

简介:

大数据是无所不在的,因为它可以提供有价值的洞察力,如果没有它是不可用的。然而,分析大数据集可能会产生问题。首先,大数据是大规模的,有时太大,不能通过常用的分析工具有效地处理。日前,美国麻省理工学院计算机科学与人工智能实验室和以色列海法大学的研究人员已经开发了一个解决方案,将大数据变成可管理的数据。

通常使用诸如低秩近似,奇异值分解,主成分分析和非负矩阵分解的数据分析工具来减少数据集中的变量的数量。不幸的是,在大量大数据集上使用这些工具通常太费时,不实用。

解决这个问题的典型解决方案包括为大数据集找到一个核心集。核心集是大数据的一个子集,用于保留大数据最重要的数学关系。数据分析工具可以更有效地与coreet工作,因为它更小。

如果要进行两个或多个数据分析,则进行查找可能是一个问题,因为从大数据中提取核心集,每个分析工具都有自己唯一的方法。在分析中比较结果,将涉及比较来自不理想的不同核心的结果。研究团队通过开发一种用于提取可由大量常用数据分析工具使用的核心集的通用方法来解决这个问题。

假设工作人员想要识别在一个巨大的文本数据库(如维基百科)中最常出现的主题。低秩近似是一种将完成这项工作的算法,但维基百科数据库非常大,因此,采用低秩近似将花费太长的时间来完成任务。

维基百科数据库有多大?想象一下,在维基百科中每一篇文章都有一行的矩阵或表格,以及在维基百科中出现的每个单词的列。该矩阵将有140万篇的文章和440万列的单词。这是一个约6.2万亿个单元格的表格,平均分配到地球上每个人,每人约为821个单元格。这的确是一个大数据。

研究人员的解决方案使用高级类型的几何知识来将这个巨大的数据集缩减为更易于管理的核心集。想象一下,通过一个二维的具有长和宽的矩形就很容易处理。现在添加第三个维度,深度。也很容易想象这是一个盒子,现在添加第四个维度,时间。我们称之为时空,但它不是那么容易想象。现在添加两个或三个更多的维度,并想象它的外观。

人们无法想象这些多维空间看起来像什么,但是可以采用几何知识描述。为了缩小维基百科矩阵,研究人员使用了一个叫做超循环的多维圆,它有440万个维度,可以表达维基百科中出现的每个单词一个。维基百科中的140万篇文章中的每一篇都表示为这个超循环上的唯一点。

研究人员如何将超循环收缩成更易于管理的东西?维基百科中的440万列单词的每一个都由一个变量表示,维基百科中的每篇文章都由这些440万个变量的唯一的一组值表示。研究者的超循环技术涉及一次获取一篇文章,并找到其440万个变量的一小部分的平均值,例如50个变量。最好保留变量之间的数学关系的平均值可以通过计算表示50个变量或单词的这个小得多的50维超循环的中心来找到。然后将平均值作为coreet中的一个数据点输入。而对每篇文章中的剩余变量(单词)和140万篇文章中的每一篇重复这个过程。

使用此方法将大数据维基百科矩阵缩减为核心集需要大量的单独计算,但每个计算都可以非常快速地执行,因为它只涉及50个变量。其结果是一个核心集,它保留了大数据中存在的重要的数学关系,并且足够小,可以被各种数据分析技术有效地使用。

超循环技术的真正核心在于这种品种。该技术创建了一个核心集,可以被许多数据分析工具使用,这些工具通常应用于计算机视觉,自然语言处理,神经科学,天气预报,推荐系统等。甚至人们可能认为超循环,都是他们所有规则的一环。

原文发布时间为:2016年12月20日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
3月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
4月前
|
存储 SQL 大数据
dataCompare大数据对比之异源数据对比
dataCompare大数据对比之异源数据对比
110 0
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
SQL 分布式计算 MaxCompute
maxcompute之配置报错如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
35 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
11天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
14 3

热门文章

最新文章