大咖 | 从Ian Goodfellow到Yann LeCun,对话Quora AI大佬TOP 10-阿里云开发者社区

开发者社区> 大数据文摘> 正文
登录阅读全文

大咖 | 从Ian Goodfellow到Yann LeCun,对话Quora AI大佬TOP 10

简介:


与AI大咖对话,是不是听起来就很激动呢?

在人工智能、数据科学领域,学术与行业的发展瞬息万变,成果频出,通过二手资料了解这一领域似乎已远远不够。如果有机会,当然还是要紧跟大咖们的步伐呀~

那么,人工智能、数据科学领域的大咖到底在哪里?文摘菌悄悄告诉你,他们可都在国外知名问答论坛Quora上等着你呢!从GAN之父Ian Goodfellow,到CNN之父Yann LeCun,你都能在Quora上找到他们的身影。

今天,文摘菌就将为你盘点Quora上人工智能、数据科学领域的10位大咖,并为每位大咖精选了一篇他们参与的问答,一起来追寻大咖的脚步吧!

Roman Trusov

档案:战斗民族的独立数据科学家
Quora主页:https://www.quora.com/profile/Roman-Trusov
受欢迎指数:1.5/5
活跃指数:4/5
专业指数:2/5
从基础开始学习机器学习真的有必要吗?既然那么多算法、工具都是黑箱,我们何不只学如何用library?
来来来,我给你讲个故事吧。

【第一天】
经理:今天要交给你一个重任——开发一个实时监测路上行人的系统!

程序猿:没问题的!肯定有个R包可以做这个任务,不行的话也会有一个“Scikit-自动驾驶”库。我保证下周之前做完给你!

【几小时的百度后】
程序员:看起来好像没有直接能用的包。难不倒我,我可以用一个“Scikit-视觉魔法”库,在Kaggle上下载一个csv后缀的数据集,最后从Kaggle的指导课程里面学一些标准化的方法,完工!完美!

【第二天】
程序员:额,好像没有可以用的数据集,也没有立马能用的库...哎,好吧好吧。让我用用看Keras吧,再看看Github上有没有类似的项目。

无功而返,还在StackOverflow上被别人diss了几下。

【自己捣腾一番】
程序员:好嘞,我现在已经跑了一轮自己的数据了,但这个模型出的结果奇奇怪怪的,而且这个现象不在使用指南里... 我是不是需要深入了解一下Keras?

【查了几个Quora问题】
经理:咱系统整得咋样了?

程序员:(惊醒)报告老板,马上搞定,让我再修复几个小bug~

【内心一阵慌乱】
程序员:这个模型怎么中看不中用啊。看来我要用TensorFlow来搭一个我自己的模型了!

【复制、粘贴了几轮教学代码】
经理:不是说今天就能完工的吗?

程序员:碰到了几个小问题,我得确保万无一失嘛。

【内心又是一阵慌乱】
程序员:这个库自带的损失函数(loss function)简直一塌糊涂!我要自己来定义一个损失函数,然后加上一点正则化处理(regularization)。事情咋这么多...

【学了一门机器学习课程】
程序员:接受域好像有点太窄了啊... 要是我学过深度学习就好了...

程序员:BN算法(batch normalization)好牛逼啊!为啥我之前在scikit-learn的入门指导里没看到这东西?!

【读了一本Ian Goodfellow的书】
程序员:妈呀,我真是犯了一堆错误。不过呢,这就是学习的乐趣啊~

程序员:太好了,现在程序可以跑了,模拟结果看起来也很棒哦!

部署工程师:哇!耶?!你这个系统需要24G的内存,而且1秒只能处理2帧。完全没法在汽车上用啊。

程序员:MMP!要是我知道我设计的网络的运算复杂度就好了。话说啊,那个FP16是咋回事呀?

【一天后】
经理:我们经费用完了。我准备去吃土了,一起吗?

Abhishek Patnia

档案:亚马逊数据科学家
Quora主页:https://www.quora.com/profile/Abhishek-Patnia
受欢迎指数:1/5
活跃指数:4/5
专业指数:2/5
未来5年里最热门的深度学习问题是什么?
现在,深度学习在监督学习和强化学习中进展快速。包括了像计算机视觉,机器翻译,AlphaGo,和自动驾驶等。

然而,这只是智能这块蛋糕很小的一部分。我想接下来几年,我们会看到很多在无监督学习方面的工作,构建能够理解环境细节并进行推理的系统。所以,无监督学习会非常热门并是深度学习接下去首要解决的问题。

Alexey Kurakin

档案:谷歌大脑研究员
Quora主页:https://www.quora.com/profile/Alexey-Kurakin-1
受欢迎指数:3星(2.8k)
活跃指数:2星(总回答10,最近3个月10)
专业指数:3.5星
今年人工智能是否被吹嘘得太过了?
是也不是,取决于你谈论哪个领域。

如果你说的是学术研究领域,答案是否定的。过去的几年中,AI科研社区有很多伟大的突破。

另一方面,如果你在讨论商业投机,那么回答是肯定的。热过头了。太多风投公司和大公司的副总将资金注入贴上人工智能标签的技术项目上。这和之前电子,互联网泡沫没有任何区别。在你的代码里有if-then-elseif判断语句并不会把它变成人工智能。

我和大公司里知晓技术的副总级任务聊过,他们在听了Yann Lecun的演讲之后认定监督学习问题已经完全被解决了。那么,如果监督学习被解决了,然后我们又有成吨的钱,我们就可以花钱获得大量有标记的数据,然后解决任何问题,是吗?不是的!当Yann LeCun说一个问题被解决了,他是站在了一个研究者的角度。如果你在马路上的物体识别准确率只有80%,很显然你并没有解决自动驾驶的问题!

总而言之,如果你不知道怎么从一个技术里赚钱,但你一直有听到这个技术,那么你很可能在一个技术泡沫之中!

Yann LeCun

档案:“深度学习三巨头”之一,纽约大学教授,Facebook AI研究中心主任
Quora主页:https://www.quora.com/profile/Yann-LeCun
受欢迎指数:2/5
活跃指数:1/5
专业指数:5/5
当机器人有物理上的损坏时,强化学习如何能被用于机器人学?
你需要使用“基于模型的强化学习”,这能够让系统对机器人一系列动作可能产生的结果进行模拟。

在这里,我们主要的问题是如何训练一个准确地模拟真实世界。
我们称训练这些模型为无监督预测学习。这也是阻碍人工智能进步之所在。

Håkon Hapnes Strand

档案:挪威数据科学家,象棋运动员
Quora主页:https://www.quora.com/profile/Håkon-Hapnes-Strand
受欢迎指数:2/5
活跃指数:5/5
专业指数:2.5/5
对于数据分析和机器学习,哪些Python的技能最重要?
按重要性从高到低排序:
充分了解Python内置的数据类型:尤其是列表、元组、字典、集合;
掌握Numpy库里的N维向量用法;
掌握pandas库里的数据帧(dataframes);
能够对Numpy的多维数列进行逐项向量或矩阵运算;
知道你需要使用Anaconda发布和conda包管理器(说实话这也不算一个技能,你知道了就很简单);
熟悉scikit-learn库;
能够写高效的表操作而不是传统的for循环;
能够写简洁明了的函数(对任何开发者都一样),最好是纯粹的函数,不要改变对象;
知道如何辨别一段python脚本的优劣,怎么优化瓶颈。

大多数这些点和性能关系密切。传统的软件开发者似乎认为,性能在多数已经不再重要了。但是,在机器学习中,性能依然重要!你可是要将你的算法在大数据集里跑成千上万次循环的!

Ben Hamner

档案:Kaggle联合创始人、CTO
Quora主页:https://www.quora.com/profile/Ben-Hamner
受欢迎指数:3/5
活跃指数:2/5
专业指数:3/5
如果我没有硕士学位,我可能找到一个机器学习的工作吗?
当然了!我就是:)

我相信公司门真正在乎的是你之前的工作档案。

如果你自觉,可以独立学习,我鼓励你花时间在真实的问题上,写代码,构建高质量的档案,和领域里的专业认识会面(网上或者当面),而不是花钱和时间在一个硕士学位上。

许多城市政府公布了他们的数据。在这之上构建有趣的分析和有用的应用会是一个学习,构建你的档案,改变你的城市,在当地机器学习社区展露头角的方式!这只是个例子,我鼓励你追寻任何能激起你的兴趣鼓励你的案例。

顺便一提,还是有许多公司更关注学校和学位。对于这些公司,你可能需要找到一些正确的敲门砖(如果你在你的人际网络找不到可替代的路子)。这些公司都对学历有着不同的标准——你很难说一个硕士/博士学位能不能够让你达到标准。我希望这种情况在未来会有所改变。

Xavier Amatriain

档案:医疗领域AI应用达人
Quora主页:https://www.quora.com/profile/Xavier-Amatriain
受欢迎指数:3/5
活跃指数:3/5
专业指数:3/5
机器学习发展的趋势是什么(除了深度学习)?
深度学习已经是一个很广的分类了,甚至包含了一些本身而言不“深”的方法。例如,对抗式方法即便在深度学习领域已经很流行,却不一定和深度学习有直接联系。当然,我会试着通过参考近来的会议,比如今年的ICML(International Conference on Machine Learning)来回答这个问题 ,然后指出那些热门的,不一定和深度学习相关的研究领域。
强化学习
赌博机问题(这类方法可以被当作一类强化学习)
张量的方法
嵌入的方法
贝叶斯优化(贝叶斯优化和赌博机问题以及高斯过程都有联系)
自机器学习(正如贝叶斯优化,可以用于参数优化)
矩阵补全
因果推断
新的梯度优化方法和其他优化技术

我还是要强调一下,这些方法或多或少和深度学习有联系(比如,贝叶斯优化可以用来优化深度神经网络的参数)。然而它们也都是可以用于其他地方的独立模块。

William Chen

档案:Quora数据科学家
Quora主页:https://www.quora.com/profile/William-Chen-6
受欢迎指数:5星(56.5k)
活跃指数:3星(总回答976,最近3个月2)
专业指数:3星
如果我想学数据科学,我应该看哪些统计类的书籍?
有很多很棒的统计学书籍,但是如果你在找那些对数据科学而言很棒的统计书,我推荐那些也介绍了一些编程的书。这里有两本免费的也很棒的书:
《Think Stats》, 作者 Allen Downey (http://greenteapress.com/thinkstats2/thinkstats2.pdf)。
这本书带你从最基本的统计学开始学习,包括假设检验,以及相应的python代码。
《An Introduction to Statistical Learning 》(http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf)。
这本书带你学习统计学习里不同的模型,包括回归,分类等。以及基于R语言的应用。《Think Stats》是一本很棒的基础书籍,《Introducion to Statistical Learning》则是很好的介绍统计模型机器学习的书。如果你对相同作者更多的书感兴趣, Allen Downey还写了《Think Bayes》,你也可以看看《Elements of Statistical Learning》

Yoshua Bengio

档案:“深度学习三巨头”之一,蒙特利尔大学计算机学院教授
Quora主页:https://www.quora.com/profile/Yoshua-Bengio
受欢迎指数:3/5
活跃指数:3/5
专业指数:5/5
生成式对抗性网络(Generative Adversarial Networks,GAN)相比变分自编码网络(Variational Autoencoders,VAE)有什么优缺点?
VAE的优点:有清晰公认的方法来评价模型的质量(对数似然函数,由重要性采样或者似然度函数下界获得)。现在除了可视化数据,现在我们依然没有办法来比较两个GAN或者比较一个GAN和其他生成式模型

VAE的缺点:由于注入的噪声以及非完美重建,用标准的解码器(因子化输出分布),生成的样本比GAN生成的模糊得多。

GAN通常比VAE更难训练,更不用说还没有一个明确的目标函数,但是它们会产出更棒的图片。

Ian Goodfellow

档案:GAN之父,谷歌大脑研究员
Quora主页:https://www.quora.com/profile/Ian-Goodfellow
受欢迎指数:2/5
活跃指数:4/5
专业指数:4.5/5
对抗性机器学习中有哪些令人激动的新领域?
如何对抗干扰样本是非常热门的话题。如果你想在这方面做一些工作,去看看这个在Kaggle上的竞赛吧:NIPS 2017: Targeted Adversarial Attack(https://www.kaggle.com/c/nips-2017-targeted-adversarial-attack/rules

Aleksander Madry等发现了在干扰样本下有着随机初始点迭代对抗式训练方法,在MNIST和CIFAR数据集下都有很不错的表现。

一个很流行的学习是如何使干扰样本在不同的模型中更易于转换(https://arxiv.org/pdf/1611.02770.pdf),以及如何用他们愚弄一个现实世界里的模型(https://arxiv.org/abs/1607.02533),从一个相机不同距离和角度来看一个干扰样本(https://blog.openai.com/robust-adversarial-inputs/)。

许多人对如何在文本中使用GAN很感兴趣。速记式加密(steganography)里的对抗性方法也引起了一些关注,半监督学习里的对抗式方法(https://arxiv.org/abs/1605.07725)。

原文发布时间为:2017-09-06
编译:张礼俊 钱天培
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据文摘
使用钉钉扫一扫加入圈子
+ 订阅

官方博客
官网链接