这个时候,玄酱是不是应该说点什么...
这个工作尝试重现这个论文的结果 A Neural Conversational Model (aka the Google chatbot). 它使用了循环神经网络(seq2seq 模型)来进行句子预测。它是用 python 和 TensorFlow 开发。
可以看到,Harmonica 得到的结果比别的算法(Random Search, Hyperband, Spearmint)都好很多,而总的时间却用得很少。其中,Harmonica 跑 10 天(我们用了 10 台机器并行,因此实际只花了 1 天)就能够得到和博士生们极为接近的结果。
既然已经身在工业届,那么我就谈谈工业界未来几年需要什么样的机器学习人才。不谈学术界主要还是因为大部分人最终不会从事研究,而会奋斗在应用领域。相较而言,工业界对人才的需求更加保守,这和学术界不同。这受限于很多客观因素,如硬件运算能力、数据安全、算法稳定性、人力成本开支等。
假如我们要优化一个函数 为什么说随机最速下降法 (SGD) 是一个很好的方法? ,即找到它的最小值,常用的方法叫做 Gradient Descent (GD),也就是最速下降法。说起来很简单, 就是每次沿着当前位置的导数方向走一小步,走啊走啊就能够走到一个好地方了。
过早地执着于fpga的技术细节(用hdl还是hls,用啥芯片,用啥接口)容易只见树木不见森林。现在software define network/flash/xxx,已然大势所趋。之前开组会时跟同志们聊过,算法是纲,纲举目张;软件是妈,软件是爹,软件比基金委都亲。
今天来介绍一个小项目:在TensorFlow中生成分形图案。分形本身只是一个数学概念,与机器学习并无太大关系,但是通过分形的生成,我们可以了解怎么在TensorFlow中进行数学计算,以及如何进行基本的流程控制,是学习TensorFlow的一个非常好的练手项目。
作为谷歌AlphaGo背后的强大推动力,于2015年底开源的TensorFlow一经推出便受到极大关注。目前在所有机器学习框架中,如果它宣称使用普及率第二,没人敢说自己是第一。
艾伦人工智能研究院(AI2)开源AllenNLP,它是一个基于PyTorch的NLP研究库,利用深度学习来进行自然语言理解,通过处理低层次的细节、提供高质量的参考实现,能轻松快速地帮助研究员构建新的语言理解模型。
用于在TensorFlow中构建并行强化学习算法的高效基础架构范例TensorFlow Agents日前开源,这个项目是由谷歌的两位研究员James Davidson、Vincent Vanhoucke,以及Danijar Hafner共同研发的。
相信很多来到这里的人和我第一次到这里一样,都是想找一种比较好的目标跟踪算法,或者想对目标跟踪这个领域有比较深入的了解,虽然这个问题是经典目标跟踪算法,但事实上
根据自己工作中失败的教训,整理了一份神经网络出错原因清单,一共 11 条。量子位搬运过来,各位被神经网络虐待的时候,可以按图索骥。
我们在2015年开源TensorFlow时就包括TensorBoard了,它是一套用于检查和理解TensorFlow模型和进程的可视化工具。Tensorboard包含一小套预决定的通用可视化工具,几乎适用于所有深度学习应用,例如观察损失随时间的变化,探索高维空间集群。
近日,kdnuggets做了一个关于数据科学、机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论——Python已经打败R语言,成为分析、数据科学和机器学习平台中使用频率最高的语言。
对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作?
这一年有60个精挑细选的序列,62个tracker,最大看点是深度学习开始进击tracking,MDNet直接拿下当年的冠军,而结合深度特征的相关滤波方法DeepSRDCF是第二名
对于我在梅蒂斯的最后一个项目,我希望能包含过去三个月里所学到的东西,而预测波特兰房价这个题目正符合我的要求,因为我能够将网络爬取技术、文本自然语言处理,图像上的深度学习模型以及梯度增强技术进行整合来实现这个项目。
人类对于自动化和智能化的追求一直推动着技术的进步,而机器学习这类型的技术对各个领域都起到了巨大的作用。随着时间的推移,我们将看到机器学习无处不在,从移动个人助理到电子商务网站的推荐系统。即使作为一个外行,你也不能忽视机器学习对你生活的影响。
tensorflow/core/kernels/http://training_ops.cc中的ApplyXXXOp(ApplyGradientDescentOp,ApplyAdagradOp,ApplyMomentumOp等),将本地的梯度更新修改为 发送 如何实现Tensorflow多机并行线性...
今年5月,Facebook AI研究院(FAIR)发表了他们的研究成果fairseq,在fairseq中,他们使用了一种新型的卷积神经网络来做语言翻译,比循环神经网络的速度快了9倍,而且准确性也是现有模型中最高的。
评论里面有问起当输入或者输出非常复杂的情况会怎么样,情况是这样的,随着线稿和风格图变得复杂,成功上色的概率会逐渐降低,如果线稿或者风格图片复杂到人眼都看不清那里是脸哪里是手
我觉得 Depthwise +Pointwise 卷积是提供一种把 feature map 的空间信息(height&width)和通道信息(channel)拆分分别处理的方法,而 group 卷积只是单纯的通道分组处理,降低复杂度。
通过1*1的窗口在特征图上滑过,生成了num_anchors数量的channel,每个channel包含特征图(w*h)个sigmoid激活值,表明该anchor是否可用,与我们刚刚计算的y_rpn_cls对应。同样的方法,得到x_regr与刚刚计算的y_rpn_regr对应。
“神经网络之父”Geoffrey Hinton回忆自己萌发对人工智能兴趣的时候,提到在高中时代,一个同学跟他讲解大脑加工信息的“全息图”特点:切掉任意一块脑袋后一段时间内,失去的心理机能会慢慢恢复,故而可以推测大脑对于刺激的加工并不存在特定于某一功能的脑区。
变化学习率通过在训练过程中递减学习率,使得模型能够更好的收敛,增加模型的拟合能力。加深网络层数和残差网络技术通过加深模型层数和解决梯度衰减问题,增加模型的拟合能力。这些改进方法的一步步堆叠,一步步递进,使得网络的拟合能力和泛化能力越来越强,最终获得更高的分类准确率。
教机器人与外部世界交互和执行复杂的任务一直是一个未解决的难题,但相信随着深度学习和AI的突破,这个问题最终必将得到解决。在机器人学习执行具体任务的过程中
既然学术是自由的,我们就打开大门,欢迎大家都进来坐坐。如果他 / 她不喜欢,欢迎到隔壁串门。但我们不要给自己家门垒了高高的台阶,说闲人勿进。久而久之,难免门可罗雀。
很难相信神经系统能够自动形成与正向传播对应的反向传播结构(这需要精准地求导数,对矩阵转置,利用链式法则,并且解剖学上从来也没有发现这样的系统存在的证据)。
机器学习中有一类非常有效的方法叫做降维(dimensionality reduction),用简单的话来说就是,把原来很高维度的数据(比如数据有 1000 多列)用很少的一些代表性维度来表示(比如 1000 多维用 100 维来表示)而不丢失关键的数据信息。
如果能二秒内在脑袋里解出下面的问题,本文便结束了。 已知:神经网络反向传播的数学原理,其中神经网络反向传播的数学原理。
这可是python啊……上itchat,弄个微信号加自己为好友(或者自己发自己),训练进展跟着一路发消息给自己就好了,做了可视化的话顺便把图也一并发过来。
本文适用于被stacking折磨的死去活来的新手,在网上为数不多的stacking内容里,我已经假设你早已经看过了上述所提到的那几篇有用的文章了。但是,看完之后内心还是卧槽的。我希望下面的内容能成为,你在学习stacking的曲折道路上的一个小火把,给你提供一些微弱的光亮。
暑假和小伙伴们约好一起读Pattern Recognition and Machine Learning(模式识别与机器学习,下简称PRML)。初步打算每周读一章,大家轮流主讲。开了专栏以后一直没写过东西,第一部分内容就准备贡献给PRML了。
本文接模式识别与机器学习第一讲(上)。关键词:随机变量、条件概率、边际概率、sum rule、product rule、贝叶斯公式、先验概率、后验概率、独立、概率质量函数、概率密度函数、累计分布函数、多元分布、换元、期望、条件期望、方差、协方差。
关于深度学习的框架之争一直都没停止过,每隔一阵大家就要进行一次框架大讨论:
在聚类分析的时候确定最佳聚类数目是一个很重要的问题,比如kmeans函数就要你提供聚类数目这个参数,总不能两眼一抹黑乱填一个吧。之前也被这个问题困扰过,看了很多博客,大多泛泛带过。今天把看到的这么多方法进行汇总以及代码实现并尽量弄清每个方法的原理。
咱们不提 CES 2017 上激动人心的自动驾驶产品(估计七八年之后你的驾驶证就可以扔掉了),也不细讲《最强大脑》节目里人类精英在图像识别环节被碾压(这曾经是人类可以嘲笑人工智能的典型领域),就说说围棋界的海啸吧。
不知道你有没有这样的感受,在刚刚入门机器学习的时候,我们一般都是从MNIST、CIFAR-10这一类知名公开数据集开始快速上手,复现别人的结果,但总觉得过于简单,给人的感觉太不真实。
他提到,在Facebook,ONNX是他们的人工智能团队中有关深度学习方法的重要组成部分,他们一直致力于推动人工智能的前沿发展,开发出更好的学习算法。一旦发现新的突破
yTorch是TensorFlow之外一个非常好的选择,虽然 PyTorch仍在测试阶段,我希望在可用性、文件和性能方面它能有更多的改变和进步。PyTorch非常Python化,用起来很容易。
NCCL在不同的深度学习框架(CNTK/Tensorflow/Torch/Theano/Caffe)中,由于不同的模型大小,计算的batch size大小,会有不同的表现。比如上图中CNTK中Resnet50能达到32卡线性加速比
近日,Kaggle Blog上刊登了对「Planet: Understanding the Amazon from Space」比赛冠军的专访,在访问中,我们了解到了冠军选手bestfitting的一些基础信息,他在比赛中所用的一些技术细节,以及给大家的建议。
强化学习(Reinforcement Learning,RL)由于其前卫的学习方式,本不如监督学习那么方便被全自动化地实现,并且在很多现实应用中学习周期太长,一直没有成为万众瞩目的焦点,直到围棋狗的出现,才吸引了众多人的眼球。
值得感慨的一方面是今天技术的发展非常快,故步自封自然是万万万万不可取,深知还有很多理论尚且不懂还要继续深读paper;另一方面,理解理论原理和做好项目间实际非常有巨大的gap,特别是身处工业界的同仁们,学术圈值得钻但要把握分寸,如果仅仅追逐技术深度,不免容易陷入空中阁楼。
在深度学习进行分布式训练时,常常采用同步数据并行的方式,也就是采用大的batch size进行训练,但large batch一般较于小的baseline的batch size性能更差,请问如何理解调试learning rate能使large batch达到small batch同样的收敛精度和速度?
作者们在测试中发现,组合训练对AI训练非常重要。他们的做法是,在训练AI模型的时候,先让内置AI玩一定的时间,然后交给要训练的AI接着玩。这就降低了游戏初始时的难度,而且给游戏带来了更多的变化,避免掉进局部最小值里。
众所周知,一个人在约会平台上发布的照片通常经过精挑细选,往往会化妆打扮以及对照片进行 PS。这些照片和一个人真实的生活状态应该是有区别的。因而,若把该算法应用于普通生活照片,其准确性极有可能会大幅降低。
欧洲科学院近日公布2017年院士增选结果,南京大学计算机系周志华教授当选欧洲科学院外籍院士。
上述图表只汇报了小部分结果,更多结果详见我们论文。从上述结果中,我们发现,基于 Directly Estimator 在所有 setting 下都失败了,这是因为该方法忽略了数据中存在的 confounding bias;基于 propensity score 的方法
二十国集团(G20)智慧创新论坛暨2017全球创新者大会(下称创新者大会)在深圳市洲际酒店召开。该大会是2016年杭州二十国集团工商峰会(B20峰会)提出的“G20智慧(SMART)创新倡议”的后续活动
UCLA电气工程与生物工程学院校长兼加州纳米系统研究所副所长Aydogan Ozcan称:“让更多人掌握这种具备实验室质量的空气检测设备,可以收集和分析来自更多地点的高质量数据,这样会有助于帮助政府制定更好的政策和法规来改善空气质量。“