将大数据变成可管理的数据

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据是无所不在的,因为它可以提供有价值的洞察力,如果没有它是不可用的。然而,分析大数据集可能会产生问题。首先,大数据是大规模的,有时太大,不能通过常用的分析工具有效地处理。日前,美国麻省理工学院计算机科学与人工智能实验室和以色列海法大学的研究人员已经开发了一个解决方案,将大数据变成可管理的数据。

通常使用诸如低秩近似,奇异值分解,主成分分析和非负矩阵分解的数据分析工具来减少数据集中的变量的数量。不幸的是,在大量大数据集上使用这些工具通常太费时,不实用。

解决这个问题的典型解决方案包括为大数据集找到一个核心集。核心集是大数据的一个子集,用于保留大数据最重要的数学关系。数据分析工具可以更有效地与coreet工作,因为它更小。

如果要进行两个或多个数据分析,则进行查找可能是一个问题,因为从大数据中提取核心集,每个分析工具都有自己唯一的方法。在分析中比较结果,将涉及比较来自不理想的不同核心的结果。研究团队通过开发一种用于提取可由大量常用数据分析工具使用的核心集的通用方法来解决这个问题。

假设工作人员想要识别在一个巨大的文本数据库(如维基百科)中最常出现的主题。低秩近似是一种将完成这项工作的算法,但维基百科数据库非常大,因此,采用低秩近似将花费太长的时间来完成任务。

维基百科数据库有多大?想象一下,在维基百科中每一篇文章都有一行的矩阵或表格,以及在维基百科中出现的每个单词的列。该矩阵将有140万篇的文章和440万列的单词。这是一个约6.2万亿个单元格的表格,平均分配到地球上每个人,每人约为821个单元格。这的确是一个大数据。

研究人员的解决方案使用高级类型的几何知识来将这个巨大的数据集缩减为更易于管理的核心集。想象一下,通过一个二维的具有长和宽的矩形就很容易处理。现在添加第三个维度,深度。也很容易想象这是一个盒子,现在添加第四个维度,时间。我们称之为时空,但它不是那么容易想象。现在添加两个或三个更多的维度,并想象它的外观。

人们无法想象这些多维空间看起来像什么,但是可以采用几何知识描述。为了缩小维基百科矩阵,研究人员使用了一个叫做超循环的多维圆,它有440万个维度,可以表达维基百科中出现的每个单词一个。维基百科中的140万篇文章中的每一篇都表示为这个超循环上的唯一点。

研究人员如何将超循环收缩成更易于管理的东西?维基百科中的440万列单词的每一个都由一个变量表示,维基百科中的每篇文章都由这些440万个变量的唯一的一组值表示。研究者的超循环技术涉及一次获取一篇文章,并找到其440万个变量的一小部分的平均值,例如50个变量。最好保留变量之间的数学关系的平均值可以通过计算表示50个变量或单词的这个小得多的50维超循环的中心来找到。然后将平均值作为coreet中的一个数据点输入。而对每篇文章中的剩余变量(单词)和140万篇文章中的每一篇重复这个过程。

使用此方法将大数据维基百科矩阵缩减为核心集需要大量的单独计算,但每个计算都可以非常快速地执行,因为它只涉及50个变量。其结果是一个核心集,它保留了大数据中存在的重要的数学关系,并且足够小,可以被各种数据分析技术有效地使用。

超循环技术的真正核心在于这种品种。该技术创建了一个核心集,可以被许多数据分析工具使用,这些工具通常应用于计算机视觉,自然语言处理,神经科学,天气预报,推荐系统等。甚至人们可能认为超循环,都是他们所有规则的一环。

原文发布时间为:2016年12月20日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因
|
18天前
|
数据采集 自然语言处理 大数据
​「Python大数据」词频数据渲染词云图导出HTML
使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。
38 1
​「Python大数据」词频数据渲染词云图导出HTML
|
1天前
|
存储 分布式计算 监控
日志数据投递到MaxCompute最佳实践
日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。
45 2
|
8天前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之数据删除之后,是否支持回滚
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之同样的表和数据,在PolarDB执行LEFT JOIN查询可以得到结果,但在MaxCompute中却返回为空,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
9天前
|
分布式计算 DataWorks API
DataWorks产品使用合集之使用REST API Reader往ODPS写数据时,如何获取入库时间
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
8天前
|
JSON 分布式计算 大数据
MaxCompute产品使用合集之使用数据服务功能,但发现ODPS数据源不支持,该如何解决
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之整库离线同步至MC的配置中,是否可以清除原表所有分区数据的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之如何将数据映射成Holo表的语句
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。