开发者社区> apachecn_飞龙> 正文

fast.ai 深度学习笔记:第一部分第五课

简介: 原文:Deep Learning 2: Part 1 Lesson 5 作者:Hiromi Suenaga 课程论坛 一,引言 没有足够的关于结构化深度学习的出版物,但它肯定出现在行业中: 结构化深度学习,作者:Kerem Turgutlu @datascience.
+关注继续查看

原文:Deep Learning 2: Part 1 Lesson 5

作者:Hiromi Suenaga

一,引言

没有足够的关于结构化深度学习的出版物,但它肯定出现在行业中:

结构化深度学习,作者:Kerem Turgutlu @datascience.com

你可以使用此工具从 Google 下载图片并解决自己的问题:

小型图像数据集的乐趣(第2部分),作者:Nikhil B @datascience.com

如何训练神经网络的介绍(一篇伟大的技术写作):

我们如何“训练”神经网络?,由 Vitaly Bushaev @datascience.com

学生们在 Kaggle 幼苗分类比赛中与 Jeremy 竞争。

II. 协同过滤 - 使用 MovieLens 数据集

讨论的笔记本可以在这里找到(lesson5-movielens.ipynb)。

我们来看看数据。 我们将使用userId (类别), movieId (类别)和rating(因变量)进行建模。

ratings = pd.read_csv(path+'ratings.csv')
ratings.head() 

image.png

为 Excel 创建子集

我们创建了最受欢迎的电影和大多数电影狂热粉的交叉表,我们将其复制到 Excel 中进行可视化。

g=ratings.groupby('userId')['rating'].count()  
topUsers=g.sort_values(ascending=False)[:15] 

g=ratings.groupby('movieId')['rating'].count()  
topMovies=g.sort_values(ascending=False)[:15] 

top_r = ratings.join(topUsers, rsuffix='_r', how='inner', on='userId')
top_r = top_r.join(topMovies, rsuffix='_r', how='inner', on='movieId') 

pd.crosstab(top_r.userId, top_r.movieId, top_r.rating, aggfunc=np.sum) 

image.png

是包含上述信息的 excel 文件。 首先,我们将使用矩阵分解而不构建神经网络。

image.png

  • 蓝色单元格 - 实际评级
  • 紫色单元格 - 我们的预测
  • 红色单元格 - 我们的损失函数即均方根误差(RMSE)
  • 绿色单元格 - 电影嵌入(随机初始化)
  • 橙色单元格 - 用户嵌入(随机初始化)

每个预测是电影嵌入向量和用户嵌入向量的点积。 在线性代数术语中,它等于矩阵乘积,因为一个是行,一个是列。 如果没有实际评级,我们将预测设置为零(将其视为测试数据 - 而不是训练数据)。

image.png

然后我们使用梯度下降来减少损失。 Microsoft Excel 在加载项中有一个“求解器”,可以通过更改所选单元格来最小化变量(GRG Nonlinear是你要使用的方法)。

这可称为“浅学习”(与深度学习相反),因为没有非线性层或第二线性层。 那么我们直觉上做了什么呢? 每部电影的五个数字称为“嵌入”(潜在因式) - 第一个数字可能代表科幻和幻想的程度,第二个数字可能是电影使用了多少特效,第三个可能是对话驱动的程度。与之类似,每个用户还有 5 个数字,例如,表示用户喜欢幻想,特效和对话驱动的电影的程度。 我们的预测是这些向量的叉乘。 由于我们没有每个用户的每个电影评论,因此我们试图找出哪些电影与这部电影相似,以及其他用户评价其他电影,如何与这个用户评价这个电影类似(因此称为“协同”)。

我们如何处理新用户或新电影 - 我们是否需要重新训练模型? 我们现在没有时间来讨论这个问题,但基本上你需要有一个新的用户模型或最初会使用的新电影模型,随着时间的推移你需要重新训练模型。

阅读更多

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
fast.ai 深度学习笔记:第一部分第四课
原文:Deep Learning 2: Part 1 Lesson 4 作者:Hiromi Suenaga 课程论坛 学生的文章: 改善学习率的方式 循环学习率技术 探索带有重启动的随机梯度下降(SGDR) 使用差异学习率的迁移学习 让计算机看得比人类更好 Dropout [04:59] learn = ConvLearner.pretrained(arch, data, ps=0.5, precompute=True) precompute=True :预计算来自最后一个卷积层的激活。
1446 0
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
184 0
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
73 0
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句
67 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
850 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
94 0
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
129 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
178 0
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
74 0
+关注
apachecn_飞龙
Github:@wizardforcel 简书:@ApacheCN_飞龙 微博:@龙雀 CSDN:@wizardforcel ApacheCN 官网:apachecn.org 机器学习交流群:629470233
文章
问答
文章排行榜
最热
最新
相关电子书
更多
视觉AI能力的开放现状及ModelScope实战
立即下载
通用多模态AI构建
立即下载
阿里云AI产品必知必会系列电子书
立即下载