MIT做了一个全自动的大数据分析系统-阿里云开发者社区

开发者社区> 知与谁同> 正文

MIT做了一个全自动的大数据分析系统

简介:
+关注继续查看

大数据

信息爆炸引爆了大数据时代的到来,前一两年大数据到达了炒作的高峰,而马云则称今后 30年 属于数据技术(DT)。但是最近一段时间大数据似乎没有那么大的动静了,这固然有技术炒作周期曲线的规律作用,也跟大数据遭遇到的一些瓶颈有关。

这个最大的瓶颈之一便是人。隐藏在大数据里面的模式挖掘很长程度上需要依靠人的建模和直觉,但是数据科学家的数量却跟不上大数据的规模发展。不过 MIT 正在为打破这个瓶颈而努力,其研发的一款名为 Data Science Machine(数据科学机器)的软件实现了无人参与下的大数据分析,经过对比发现,其表现已经与数据分析师不分高下。

Data Science Machine 由 MIT CSAIL 的 Max Kanter 和他的指导老师 Kalyan Veeramachaneni 等人设计。其关键突破是它不仅会寻找模式,还会自己设计特征集。学机器学习的人都知道特征工程的重要性。特征工程是指利用数据的领域知识来创建特征以便让机器学习算法可以工作的过程,这个过程往往需要人的直觉。而 Data Science Machine 却利用了关系数据库的不同表间的结构化关系作为线索来进行特征构造,从中生成一批候选的特征集,然后再通过分析值的相关性来缩小特征集的范围,从而免去了人的参与。然后,Data Science Machine 还会把这个特征集运用到样本数据上,再用不同的方式重新组合特征来优化预测的准确率。

为了测试这套系统的第一款原型,研究人员让它参与了三项数据科学方面的竞赛,竞赛的目标是在不常见的数据集中寻找出预测性的模式。三场竞赛供有 906 支队伍参加,Data Science Machine 的成绩比其中的 615 支队伍都要高。

在准确率方面,Data Science Machine 在其中两场竞赛的准确率分别达到了 94%和 96%。另外一场的准确率略低,为 87%。但是效率方面却是人类不能比的,因为 Data Science Machine 得出结果用时在 2-12 小时之间,而人类团队的预测性算法往往要折腾数月的时间。

目前 Data Science Machine 已能对哪些学生有可能退出 MIT 的在线课程做出分析,它选出的两个特征分析学生开始写作业时间的早晚,以及在网上学习课程的时间长短。尽管这种能力看起来还不够强大,但是这只是开始,一旦机器具备真正的自我学习能力,在计算能力指数增长的作用下,其进化速度将是我们难以想象的。


本文作者:佚名

来源:51CTO

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
2017大数据标准化论坛发布了第一批大数据系统测试结果,阿里云数加获得了大数据系统测试证书。
2017年3月18日, 2017大数据标准化论坛在北京成功召开。本次论坛由工业和信息化部信息化和软件服务业司和国家标准化管理委员会工业标准二部指导,中国电子技术标准化研究院和全国信标委大数据标准工作组共同主办。
2795 0
启明PDM招聘系统分析员
启明PDM招聘系统分析员 职位描述/要求: 岗位要求:见www.qm.cn(诚聘英才)报名时间:2010年4月26日前报名方式:网上报名,报名时登录www.qm.cn (诚聘英才,报名表格下载并发至duanjh_qm@faw.com.cn)填写《求职申请表》,我们将根据您的简历情况作初步筛选,并电话通知面试时间及相关事宜。
661 0
Python WMI获取Windows系统信息 监控系统
1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 #http://www.cnblogs.com/liu-ke/ 4 import wmi 5 import os 6 import sys 7 import...
1042 0
《面向对象分析与设计》一3.7 例题
本节书摘来自华章出版社《面向对象分析与设计》一书中的第3章,第3.7节,作者 麻志毅,更多章节内容可以访问云栖社区“华章计算机”公众号查看
1749 0
MIT科技评论:阿里是大数据Game Changer
文章围绕阿里巴巴人工智能和云计算进行了大篇幅报道
886 0
一直播、小咖秀大数据自动化运维实践
在高速成长发展型企业,我们需要大数据做得更多的不是平台,不是让平台做得多么好,让各个部门使用,而是让平台提升用户增长、扩大营收,有些处于高速发展期和成长期的公司可能跟我们面临同样的问题,大家可以共同探讨。
3131 0
+关注
10077
文章
2994
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载