中国人工智能学会通讯——基于视频的行为识别技术 1.4 早期行为识别方法

简介:

1.4 早期行为识别方法

下面讨论如何让计算机去识别视频中 行为?首先,对于很多图像视频分类问 题来讲,最核心地找到一个好的表示。 下面我们先介绍如何利用非深度学习方 法。早期做图像识别时,利用兴趣点和 局部图像特征构建视频表示,这个方法可 以被推广到视频。 这是 IJCV2005 年发 表的一篇论文,提出了 Spatial-temporal interest points 时空兴趣点,像下图中运 动员当头顶到球的时候,在这个位置和 这个时刻会形成一个识别兴趣点。

image

行为中包含的运动信息不仅仅是某一 个点的运动或者某一个时刻的运动,而 是一个连续的过程。因此运动轨迹可以 为行为的描述提供丰富的信息。我们可 以通过短时光流获取运动轨迹,并在视 频中去密集地跟踪一些运动轨迹,沿着 这些运动轨迹再提取一些图像区域。这 些区域通常对于运动显著性区域,运动 轨迹比原来点的描述更加丰富一些。

通常,沿着运动轨迹我们会提取三个 类型的直方图特征。第一个是 HoG 梯度 的直方图,这个是描述图像的。第二个 是光流直方图 HoF,光流是描述运动很 重要的信息,用于表示一个像素点到下 一帧图像中 x、y 方向发生的偏移。最后 一个是,MBH 运动边缘直方图。它是由 光流沿着 x 方向和 y 方向去做一次差分梯 度后获得。这样操作的好处在于可以把 物体边缘的运动提取出来。

我们会在时空信息点,或者沿着运动 的边缘,把 HoG、HoF、MBH 三种特征 都抽出来。当然除了这三类还有其他局 部特征,我们之前的一个工作就是把图 像的梯度和光流进行联合编码,实验表 明这样的方法可以提高识别率。对于给 定的一个视频,可以在视频里可能找到 很多点或者找到很多轨迹,在每个点、 每条轨迹周围提取一个三维小的立方体; 然后围绕这个立方体提取局部特征,包 括 HoG、HoF 或者 MBH;接着采用 Bag of Visual Words 框架或其改进的方法, 对局部特征进行编码,以获取全局表示。 这个过程,设计很多环节,包括特征预 处理、字典学习方法、参数的选择等, 我们的一个工作就是把这些环节涉及的 各种选择进行充分的对比,后面这个工 作也被期刊 CVIU 录用,代码也公开了。 后期不少论文引用了我们的工作。

image

在研究行为识别问题时,我们观察到 一个问题,对视频来讲既有静态的特征, 也有动态的特征。动态的特征像 HoF,这 些特征联合使用可以提高识别率。怎么来 用?一个简单的方法,可以把这些特征串 起来,再去学习字典。但是这个方法效果 并不好,因为串起来后特征维度高了,增 大了字典学习的难度。因此,大家传统的 做法就是,静态图像的特征和动态的光流 分别学习字典,然后分别编码,这个方法 可行性比较强,但忽略了特征间的相关性。 我们提出把不同类型的局部特征进行联合 编码,区分出共享的部分和各自独立的部 分。这就需要一个更好的字典,这个字典 不仅仅是对一种特征,而是对多种特征进 行联合建模。

image

这里我们利用混合概率典型相关分析 模型作为我们的字典。该字典可以对不 同类型特征间相关部分和独立部分进行 建模。实验表明,该方法可以提高识别率。

image

除此之外,我们还有其他工作,简单的 分享一下。之前这些局部描述的一个缺陷就 是仅仅描述局部区域能力有限,所以我们提 取中层运动子 Motionlet 特征,这个中层特 征是靠机器学习的方法从视频数据中学习获 得的。我们还根据中层运动子特征构建运动 词组 Motion Phrase,细节可以参见我们发表 在 CVPR13 和 ICCV13 的论文。

目录
打赏
0
0
0
0
16488
分享
相关文章
AI + 低代码技术揭秘(十二):开发人员工具和可扩展性
VTJ平台提供开发工具与扩展框架,支持低代码应用的开发与拓展。包含CLI、插件系统及Uni-App集成,结合Vite、TypeScript和Vue优化开发流程。
122 62
构建可落地的企业AI Agent,背后隐藏着怎样的技术密码?
三桥君深入解析企业AI Agent技术架构,涵盖语音识别、意图理解、知识库协同、语音合成等核心模块,探讨如何实现业务闭环与高效人机交互,助力企业智能化升级。
60 6
让AI时代的卓越架构触手可及,阿里云技术解决方案开放免费试用
阿里云推出基于场景的解决方案免费试用活动,新老用户均可领取100点试用点,完成部署还可再领最高100点,相当于一年可获得最高200元云资源。覆盖AI、大数据、互联网应用开发等多个领域,支持热门场景如DeepSeek部署、模型微调等,助力企业和开发者快速验证方案并上云。
827 39
让AI时代的卓越架构触手可及,阿里云技术解决方案开放免费试用
AI + 低代码技术揭秘(十):平台实施
VTJ 提供多平台部署支持,涵盖 Web、移动及跨平台环境。通过专用适配器和低代码优化,实现统一开发体验,并支持 Element Plus、Vant UI 等框架,提升开发效率与应用性能。
112 57
AI量化交易软件开发技术逻辑
AI量化交易融合人工智能与量化分析,通过算法模型深度解析市场数据,自动生成并执行交易策略,显著提升交易效率与决策精准度。其开发涵盖目标分析、数据处理、算法设计、系统构建、测试优化、合规安全及持续迭代等多个关键环节,涉及金融、编程、大数据与AI等多领域技术。掌握这些核心技术,方能打造高效智能的量化交易系统,助力投资者实现更优收益。
16个AI Logo 设计工具大盘点:技术解析、Logo格式对比与实用推荐
本文介绍了品牌标志(Logo)的重要性,并盘点了多款免费且好用的 Logo 生成工具,分析其输出尺寸、格式及适用场景,帮助无设计基础的用户选择合适工具,高效制作满足不同用途的 Logo。
62 0
AI时代,Apipost和Apifox如何利用AI技术赋能API研发测试管理所需?
在数字化转型加速背景下,API成为企业互联互通的关键。Apipost与Apifox作为主流工具,在AI赋能方面差异显著。Apipost通过智能参数命名、接口设计自动化、测试用例生成、断言自动化等功能大幅提升研发效率和质量,尤其适合中大型企业及复杂业务场景。相比之下,Apifox功能依赖手动操作较多,适用性更偏向初创或小型项目。随着AI技术发展,Apipost展现出更强的智能化与前瞻性优势,为企业提供高效、稳定的API管理解决方案,助力其在竞争激烈的市场中实现创新突破。
44 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等