什么是视频向量化?本文带你了解基于DeepWalk的视频推荐

简介: 本文简要讲述了视频向量化,对DeepWalk的算法进行简单的解释。

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud




作者介绍:Kamil Sindi、Nir Yungster,数据科学家

695e0d9d82dde2eab2ce5afc67089f7cb0049c37

Linkedin:https://www.linkedin.com/in/kamilsindi/zh-cn

fc3754d0f31e932909cbd9a3ea9796512ff6bb46

Linkedin:https://www.linkedin.com/in/nir-yungster-b5367b37/zh-cn


JW Player为视频发布商提供的核心服务之一是可提供更高参与度,观看时间和观看者保留率的重要推荐 对于使用此服务的数千个发布商,这直接转化为增加的广告费用,因此是我们的数据科学团队的算法改进的主要焦点。

由于我们没有收到观众的明确反馈关于他们是否喜欢一段内容或他们喜欢的程度,因此我们的工作依赖于构建隐式信号,并使用它们将用户和媒体相互关联。 通常,我们通过媒体被共同观看(即由同一观看者观看)推断媒体之间的关联。合理的下一步是使用关联规则挖掘(Association Rule Mining)这样的信号转化为“喜欢X也喜欢Y”的人的推荐,或者使用一种协同过滤方法与潜在的代表观众和视频生成个性化推荐

我们可以将参数超出查看行为的参数无缝集成到我们的推荐引擎(如视频和用户元数据)中,并且它提供了一个灵活的平台,可以适应我们服务的广泛发布商。 另外,这种移位还给予我们克服许多推荐算法的缺点的机会:即在近似实时地以在线方式更新表示的同时学习内容之间的非对称关联(例如在情景视频的情况下)的缺点。

为此,由Bryan Perozzi等人开发的称为DeepWalk的算法通过学习图中的节点的向量表示来实现上述目标。 在我们的例子中的节点是单独的视频,们之间通过共边看频率和近因加权。然而,没有限制要求图形是对称的,事实上,我们通过使边缘定向来保持共同观察行为的连续性 换句话说,如果观看者观看媒体A,接着观看媒体B,则我们将从节点A向节点B添加定向权重,而不是相反。

DeepWalk通过以预定数量的步骤从每个节点随机游走来学习这些表。它巧妙地将每次运行作为一个可以送入一个单词表示算法“句子”,如由Mikolov等人开发Word2Vec。

DeepWalk作者有一个很好的Python实现,但不幸的是,它有点过时(2014年),不容易使用在线学习。为了帮助大家,我们开发了一个基于Cython的DeepWalk实现,具有以下功能:

•关联图表示为存储器效率的稀疏矩阵。 使用稀疏矩阵具有两个优点:.我们可以基于时间衰减不断地更新权重。.我们可以使用存储器视图在Cython中进行随机游走,比在Python中的数量级更快。

•该模型可以在线训练,很大程度上得益于GENSIM近期发布的允许在线学习Word2vec。

我们在GitHub上以jwalk开源实现。随着复制deepwalk这个最初的目标,我们最终希望添加其他超级参数来控制如何实现运行Ad2a Grover等人的Node2Vec类似的方式


数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

以上为译文

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Vectorizing Videos: Leveraging DeepWalk for Video Recommendations》,作者:Kamil Sindi & Nir Yungster,译者:tiamo_zn

文章为简译,更为详细的内容,请查看原文


相关文章
|
存储 弹性计算 NoSQL
libcuckoo论文概述
本文简要阐述libcuckoo项目的两篇论文基础。如有错漏之处,欢迎指出一起讨论交流。 ## 论文1 《MemC3: Compact and Concurrent MemCache with Dumber Caching and Smarter Hashing》 这篇论文主要讲了在多线程模式下如何提升cuckoo hash table的吞吐。 ### 问题 传统hash表在并发效率上并不
1691 0
libcuckoo论文概述
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Mamba 作者谈 LLM 未来架构
Mamba 作者谈 LLM 未来架构
36 0
|
7月前
|
数据可视化 PyTorch 算法框架/工具
量化自定义PyTorch模型入门教程
在以前Pytorch只有一种量化的方法,叫做“eager mode qunatization”,在量化我们自定定义模型时经常会产生奇怪的错误,并且很难解决。但是最近,PyTorch发布了一种称为“fx-graph-mode-qunatization”的方方法。在本文中我们将研究这个fx-graph-mode-qunatization”看看它能不能让我们的量化操作更容易,更稳定。
135 0
如何高效编码? 记住我们是“作者”
Javadoc中的@author告诉我们,我们是作者。
|
数据采集 PyTorch 数据处理
【菜菜的CV进阶之路-Pytorch基础-数据处理】自定义数据集加载及预处理
【菜菜的CV进阶之路-Pytorch基础-数据处理】自定义数据集加载及预处理
163 0
|
机器学习/深度学习 人工智能 计算机视觉
知识蒸馏的简要概述
知识蒸馏是一种在繁琐的模型中提炼知识并将其压缩为单个模型的方法,以便可以将其部署到实际应用中。AI的教父Geoffrey Hinton和他在Google的两个同事Oriol Vinyals和Jeff Dean于2015年引入了知识蒸馏。
知识蒸馏的简要概述
|
数据可视化 大数据 开发者
R语言中值得学习的7个可视化,附代码段&案例数据集
随着数据量的不断增加,不使用可视化来描述事例是不可能的。 数据可视化是一种将数字转化为有用知识的艺术。
12428 0
|
API Android开发
【FluidSynth】FluidSynth 简介 ( 相关资源链接 | 简介 | 特征 )
【FluidSynth】FluidSynth 简介 ( 相关资源链接 | 简介 | 特征 )
188 0
|
机器学习/深度学习 数据挖掘 计算机视觉
6 种激活函数核心知识点,请务必掌握!
6 种激活函数核心知识点,请务必掌握!
172 0
6 种激活函数核心知识点,请务必掌握!
|
机器学习/深度学习 算法 Python
ML之LiR:机器学习经典算法之线性回归算法LiR的简介、使用方法、经典案例之详细攻略
ML之LiR:机器学习经典算法之线性回归算法LiR的简介、使用方法、经典案例之详细攻略

相关课程

更多