学术明星Michael Jordan解读:思维层与数据科学革命的关系-阿里云开发者社区

开发者社区> 青衫无名> 正文

学术明星Michael Jordan解读:思维层与数据科学革命的关系

简介:
+关注继续查看

联合编译:Blake、高斐

编者注:Michael I. Jordan教授是加州大学伯克利分校(University of California, Berkeley)电子工程系、计算机科学系以及统计系的杰出教授。他在亚利桑那州立大学(Arizona State University)获得了数学硕士学位,并且在1985年从加利福尼亚大学圣地亚哥分校(University of California, San Diego)获得了认知科学博士学位。自1988年到1998年,Michael I. Jordan在麻省理工学院(MIT)任教授,他的研究方向包括了计算学、统计学、认知及生物科学,最近几年集中在贝叶斯非参数分析、概率图模型,谱方法、分布式计算系统中内核机及其应用问题、自然语言处理、信号处理和统计遗传学等问题上(几乎涵盖了大部分机器学习中的内容)。

学术明星Michael Jordan解读:思维层与数据科学革命的关系

Michael I. Jordan教授是美国科学院院士(National Academyof Sciences)、美国工程院(National Academy of Engineering)院士和美国艺术和科学学院(American Academy of Arts and Sciences)院士。他被数理统计研究所任命为Neyman Lecturer 和Medallion Lecturer。在2016年,他获得了IJCAI卓越研究奖。之前的2015年,他获得了David E. Rumelhart奖;在2009年,他获得了ACM/AAAI的Allen Newell奖。同时,他是AAAI、ACM、ASA、CSS、IEEE、IMS、ISBA和SIAM的成员。

曾在Michael I. Jordan教授学习过的不少学生已有不少成长为领域中的大牛,包括深度学习中的大神、蒙特利尔大学教授Yoshua Bengio,现任百度美国研究员首席科学家、斯坦福大学教授Andrew Ng(吴恩达),还有学界大牛斯坦福大学教授Percy Liang等人。本文是Michael I. Jordan教授在UC Berkeley有关计算思维推理思维还有数据科学的演讲内容整理。

学术明星Michael Jordan解读:思维层与数据科学革命的关系

学术明星Michael Jordan解读:思维层与数据科学革命的关系

论计算思维、推理思维和“数据科学”

Michael I Jordan

加州大学伯克利分校(University of California, Berkeley)

学术明星Michael Jordan解读:思维层与数据科学革命的关系

举例:一份工作描述(大约在2016年)

如果你是一名来自伯克利的毕业生,当你毕业之后去硅谷可能会遇到的需求。

  • 老板:“我需要一个大数据系统,使用个性化的服务来替换原来的经典服务。”

  • “这个系统对于任何一个人来说都要良好运行,我可以接受一点点错误但是不能有那些会让我们尴尬的愚蠢错误。”

Michael I Jordan:这意味着要将你的错误率降到特别低的程度,如果正确率有99%,那另外1%的用户遇到那些错误也是相当庞大的一个数字。

  • “它应该和原来的经典服务运行的一样快。”

Michael I Jordan:不能比原来的服务慢,而且还要在适当的预算中。

  • “当我们收集到更多的数据时它只能变快,特别是不能变慢。”

Michael I Jordan:当数据量增加时,错误率也会相应的增大,不一定数据越多速度会越快。

  • “在这个方面会有很多人关注严隐私层面的问题,这些人里面包含很多不同的客户。”

学术明星Michael Jordan解读:思维层与数据科学革命的关系

观念上的挑战

  • 数据科学十分要求计算思维推理思维的完全融合(推理思维出现才300年左右,已经开始拥抱各种思想,可以互相融合)

  • 计算思维意味着什么

抽象、模块化、可扩展性、鲁棒性等

  • 推理思维意味着什么

在数据背后考虑真实世界的现象问题

考虑到产生数据的采样模式

开发程序将从数据“向后”反推到底层现象

学术明星Michael Jordan解读:思维层与数据科学革命的关系

这些挑战令人畏惧

  • 计算科学与统计中的核心理论是分别发展的,存在一个油与水的问题(互不相容的因素) 

  • 核心统计理论中没有运行时间和其它计算资源的位置

  • 核心计算理论中没有统计风险的位置

学术明星Michael Jordan解读:思维层与数据科学革命的关系

警告:前方需要大量数学知识

学术明星Michael Jordan解读:思维层与数据科学革命的关系

第一部分——推理与隐私

学术明星Michael Jordan解读:思维层与数据科学革命的关系

隐私和数据分析

  • 人们一般不愿意他们的个人数据在不受控制的情形下被使用,同时会担心他们的隐私将会损失多少。

  • “隐私损失”能够进行量化

  • 我们想要将隐私损失与我们能从“数据分析”中所得的价值进行交易

  • 问题就变成了将这些价值进行量化并将其与隐私损失并列在一起

学术明星Michael Jordan解读:思维层与数据科学革命的关系

隐私

疑问——数据库——私人数据库

计算思维,但不是推理思维(举例:数据给出的是人们的年纪、身高、体重以及血压,是否应该他们药物治疗,他们还能活多久?)

学术明星Michael Jordan解读:思维层与数据科学革命的关系

推理思维

将两者融合起来

隐私碰上推理问题

学术明星Michael Jordan解读:思维层与数据科学革命的关系

私人数据分析极大极小论

  • 让n来表示数据点的量,d来表示参数空间的维度,a表示不同的隐私参数

  • 原理:如果我们将n替换成有效地样本大小,隐私意识极大极小风险与经典的极大极小风险相同

学术明星Michael Jordan解读:思维层与数据科学革命的关系

简介:隐私均值估计

  • 举例:患者上医院的估计原因

  • 药物滥用入院治疗的患者

  • 对引发患病率不同的物质预估

学术明星Michael Jordan解读:思维层与数据科学革命的关系

简介:均值估计

学术明星Michael Jordan解读:思维层与数据科学革命的关系

优化机制?

  • 非隐私观察:人们有时不想分享一些隐私数据,对此,我们应当通过什么办法进行隐私数据分析?

  • 观点1:增加重尾噪音,以独立噪音(例如,拉普拉斯机制)为例,通过这种途径,便能够获得一手数据

学术明星Michael Jordan解读:思维层与数据科学革命的关系

优化机制

  • 从集合{0,1}中统一提取随机向量v

学术明星Michael Jordan解读:思维层与数据科学革命的关系

  • 统一从集合{0,1}中提取v

  • 当概率为  时,其中α为微分隐私参数,选择接近X的v和1-v

  • 否则,选择远离X的v和1-v

学术明星Michael Jordan解读:思维层与数据科学革命的关系

实证证据

额外数据为绿色曲线,对应对数刻度的蓝色曲线反映了该优化机制。绿色曲线和蓝色曲线的走势显示出额外数据与优化数据之间明显的差异。

估计由于不同原因进出急诊室的比例

数据源:滥用药物预警网络

学术明星Michael Jordan解读:思维层与数据科学革命的关系

第二部分:推理与压缩

学术明星Michael Jordan解读:思维层与数据科学革命的关系

沟通约束

  • 大数据现象使分布式存储数据具有必要性(因而,Michael在数据分析系统中对数据添加一定的限制,即压缩(compression))。

  • 独立数据收集(例如,医院)

  • 隐私

设置:每一个m智能体的样本数量为n

信息传输到融合中心

问题:沟通与统计效用之间的权衡?

学术明星Michael Jordan解读:思维层与数据科学革命的关系

何为大数据现象?

  • 验证模式的科学(例如,粒子物理学)

推理问题:存在大量干扰性变量

  • 解释模式的科学(例如,天文学,基因组学)

推理问题:存在大量的假说

  • 衡量人类活动,尤其是在线活动,将产生大型数据集,这些数据集可用于个性化或用于开拓市场

推理问题:许多不为人知的取样框架(具有多样性),复合式损失函数

  •  存在计算方面的问题

最为显著的是,计算方面的问题与推理方面的问题相互影响。

学术明星Michael Jordan解读:思维层与数据科学革命的关系

极大极小沟通理论(Duchi, Jordan, Wainwright & Zhang, 2015)

  • 将be 限制在B比特范围内

  • B约束范围内沟通的最大最小风险如上图所示。


学术明星Michael Jordan解读:思维层与数据科学革命的关系

简介:均值估计

  • 在正态局部集θ中计算平均估计值

  • 原理:当每一个智能体的样本数量为n时,最大最小率如上图所示。

学术明星Michael Jordan解读:思维层与数据科学革命的关系

 原理:当每一个智能体的样本数量为n时,B约束范围内沟通的最大最小率如上图所示。

学术明星Michael Jordan解读:思维层与数据科学革命的关系

讨论

  • 在处理数据科学问题中出现了许多概念数学上的挑战

  • 面临这些挑战要求在“计算思维”和“推理思维”中建立良好的联系

在计算和推理领域的基础层面建立联系

相关阅读

深度学习鼻祖Geoffrey Hinton帮你入门带你飞

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉

深度学习元老Yann Lecun详解卷积神经网络

秒懂!何凯明的深度残差网络PPT是这样的|ICML2016 tutorial

PS : 本文由雷锋网(公众号:雷锋网)独家编译,未经许可拒绝转载!

via Michael I. Jordan


本文作者:李尊


本文转自雷锋网禁止二次转载,原文链接

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Android 多个APK共享数据(Shared User ID)
Android给每个APK进程分配一个单独的用户空间,其manifest中的userid就是对应一个Linux 用户 (Android 系统是基于Linux)的. 所以不同APK(用户)间互相访问数据默认是禁止的.
642 0
Jquery利用ajax调用asp.net webservice的各种数据类型(总结篇)
转自:http://www.cnblogs.com/aierong/archive/2012/10/13/jqueryDataSetDataTablewebServicejsonajaxxml.html
645 0
数据结构(四):平衡二叉树(AVL树)
通过之前对二叉搜索树介绍可知,将集合构造为二叉搜索树结构,该结构下对树中节点的查询、删除和插入三种操作,时间复杂度均为 ~。影响时间复杂度的因素即为二叉树的高,为了尽量避免树中每层上只有一个节点的情况,这里引入平衡二叉树。
854 0
瞬间读懂什么是互联网思维、大数据、O2O、众筹、红海
 1.什么叫大数据? 某必胜客店的电话铃响了,客服人员拿起电话。 客服:必胜客。您好,请问有什么需要我为您服务? 顾客:你好,我想要一份…… 客服:先生,烦请先把您的会员卡号告诉我。
635 0
数据智能,触手可及!袋鼠云数栈推出 数据科学平台 DTinsight.Science
一句话了解DTinsight.Science DTinsight.Science是「可视化建模与交互式代码编写于一体的机器学习作业探索平台」,实现数据接入、可视化实验建模、Notebook编程、模型训练、模型部署、任务运维等开发场景,帮助企业构建算法服务能力,提供高效、安全、稳定的算法运行环境。
2428 0
+关注
3598
文章
840
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载