什么是视频向量化?本文带你了解基于DeepWalk的视频推荐

简介: 本文简要讲述了视频向量化,对DeepWalk的算法进行简单的解释。

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud




作者介绍:Kamil Sindi、Nir Yungster,数据科学家

695e0d9d82dde2eab2ce5afc67089f7cb0049c37

Linkedin:https://www.linkedin.com/in/kamilsindi/zh-cn

fc3754d0f31e932909cbd9a3ea9796512ff6bb46

Linkedin:https://www.linkedin.com/in/nir-yungster-b5367b37/zh-cn


JW Player为视频发布商提供的核心服务之一是可提供更高参与度,观看时间和观看者保留率的重要推荐 对于使用此服务的数千个发布商,这直接转化为增加的广告费用,因此是我们的数据科学团队的算法改进的主要焦点。

由于我们没有收到观众的明确反馈关于他们是否喜欢一段内容或他们喜欢的程度,因此我们的工作依赖于构建隐式信号,并使用它们将用户和媒体相互关联。 通常,我们通过媒体被共同观看(即由同一观看者观看)推断媒体之间的关联。合理的下一步是使用关联规则挖掘(Association Rule Mining)这样的信号转化为“喜欢X也喜欢Y”的人的推荐,或者使用一种协同过滤方法与潜在的代表观众和视频生成个性化推荐

我们可以将参数超出查看行为的参数无缝集成到我们的推荐引擎(如视频和用户元数据)中,并且它提供了一个灵活的平台,可以适应我们服务的广泛发布商。 另外,这种移位还给予我们克服许多推荐算法的缺点的机会:即在近似实时地以在线方式更新表示的同时学习内容之间的非对称关联(例如在情景视频的情况下)的缺点。

为此,由Bryan Perozzi等人开发的称为DeepWalk的算法通过学习图中的节点的向量表示来实现上述目标。 在我们的例子中的节点是单独的视频,们之间通过共边看频率和近因加权。然而,没有限制要求图形是对称的,事实上,我们通过使边缘定向来保持共同观察行为的连续性 换句话说,如果观看者观看媒体A,接着观看媒体B,则我们将从节点A向节点B添加定向权重,而不是相反。

DeepWalk通过以预定数量的步骤从每个节点随机游走来学习这些表。它巧妙地将每次运行作为一个可以送入一个单词表示算法“句子”,如由Mikolov等人开发Word2Vec。

DeepWalk作者有一个很好的Python实现,但不幸的是,它有点过时(2014年),不容易使用在线学习。为了帮助大家,我们开发了一个基于Cython的DeepWalk实现,具有以下功能:

•关联图表示为存储器效率的稀疏矩阵。 使用稀疏矩阵具有两个优点:.我们可以基于时间衰减不断地更新权重。.我们可以使用存储器视图在Cython中进行随机游走,比在Python中的数量级更快。

•该模型可以在线训练,很大程度上得益于GENSIM近期发布的允许在线学习Word2vec。

我们在GitHub上以jwalk开源实现。随着复制deepwalk这个最初的目标,我们最终希望添加其他超级参数来控制如何实现运行Ad2a Grover等人的Node2Vec类似的方式


数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

以上为译文

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Vectorizing Videos: Leveraging DeepWalk for Video Recommendations》,作者:Kamil Sindi & Nir Yungster,译者:tiamo_zn

文章为简译,更为详细的内容,请查看原文


相关文章
|
Linux C语言
Linux 零拷贝sendfile函数
sendfile函数允许在两个文件描述符之间直接传输数据,而无需将数据从内核空间复制到用户空间再发送。它在 Linux 系统上首次出现于 2.2 内核版本。效率很高,这被称为零拷贝。out_fd是输出文件描述符,通常是网络套接字描述符。in_fd是输入文件描述符,通常是打开的文件或套接字。offset是一个指向 off_t 类型的指针,用于指定从输入文件的哪个位置开始传输数据。如果为NULL,则从当前文件偏移量开始传输。count是要传输的字节数。
361 0
|
9月前
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
361 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
|
10月前
|
人工智能 自然语言处理 监控
video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述
video-analyzer 是一款开源视频分析工具,结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,能够提取视频关键帧、转录音频并生成详细描述,支持本地运行和多种应用场景
1744 6
video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述
|
缓存 Linux 开发工具
CentOS 7- 配置阿里镜像源
阿里镜像官方地址http://mirrors.aliyun.com/ 1、点击官方提供的相应系统的帮助 :2、查看不同版本的系统操作: 下载源1、安装wget yum install -y wget2、下载CentOS 7的repo文件wget -O /etc/yum.
255600 0
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
上百万智能体在OASIS模拟平台上玩推特,AI玩社交媒体和真人有多像?
OASIS是一个模拟平台,利用大型语言模型(LLM)驱动的智能体模拟社交媒体上的行为,研究复杂社会系统现象。它模仿推特和Reddit等平台,支持动态环境、多样行动和推荐系统。通过模拟上百万个智能体,OASIS帮助研究人员大规模分析信息传播和社会互动,但仍面临规模、行为多样性及伦理隐私挑战。论文:https://arxiv.org/abs/2411.11581
287 6
|
人工智能 开发框架 数据可视化
【AI大模型应用开发】【RAG评估】0. 综述:一文了解RAG评估方法、工具与指标
【AI大模型应用开发】【RAG评估】0. 综述:一文了解RAG评估方法、工具与指标
1551 0
|
8月前
|
数据采集 存储 Java
Java爬虫获取微店店铺所有商品API接口设计与实现
本文介绍如何使用Java设计并实现一个爬虫程序,以获取微店店铺的所有商品信息。通过HttpClient发送HTTP请求,Jsoup解析HTML页面,提取商品名称、价格、图片链接等数据,并将其存储到本地文件或数据库中。文中详细描述了爬虫的设计思路、代码实现及注意事项,包括反爬虫机制、数据合法性和性能优化。此方法可帮助商家了解竞争对手,为消费者提供更全面的商品比较。
|
人工智能 自然语言处理 API
阿里云百炼上线FLUX文生图模型中文优化版,可免费调用!
阿里云百炼上线FLUX文生图模型中文优化版,可免费调用!
1433 6
|
存储 人工智能 运维
裸金属服务器详解:定义、核心特点与应用
裸金属服务器,又称单租户环境物理服务器,是指由一个或多个独立的服务器组成,提供专属的物理计算资源。它是服务器领域的一个创新产物,结合了虚拟机的弹性和物理机的性能优势,成为云端的一个专用物理服务器。裸金属服务器在硬件层面直接提供计算资源,不经过虚拟化层,从而避免了虚拟化带来的性能损耗,为用户提供了极致的计算性能和资源独占性。
|
Shell 网络安全 Python
SSL 证书过期巡检脚本 (Python 版)
SSL 证书过期巡检脚本 (Python 版)