中国人工智能学会通讯——基于视频的行为识别技术 1.4 早期行为识别方法

简介:

1.4 早期行为识别方法

下面讨论如何让计算机去识别视频中 行为?首先,对于很多图像视频分类问 题来讲,最核心地找到一个好的表示。 下面我们先介绍如何利用非深度学习方 法。早期做图像识别时,利用兴趣点和 局部图像特征构建视频表示,这个方法可 以被推广到视频。 这是 IJCV2005 年发 表的一篇论文,提出了 Spatial-temporal interest points 时空兴趣点,像下图中运 动员当头顶到球的时候,在这个位置和 这个时刻会形成一个识别兴趣点。

image

行为中包含的运动信息不仅仅是某一 个点的运动或者某一个时刻的运动,而 是一个连续的过程。因此运动轨迹可以 为行为的描述提供丰富的信息。我们可 以通过短时光流获取运动轨迹,并在视 频中去密集地跟踪一些运动轨迹,沿着 这些运动轨迹再提取一些图像区域。这 些区域通常对于运动显著性区域,运动 轨迹比原来点的描述更加丰富一些。

通常,沿着运动轨迹我们会提取三个 类型的直方图特征。第一个是 HoG 梯度 的直方图,这个是描述图像的。第二个 是光流直方图 HoF,光流是描述运动很 重要的信息,用于表示一个像素点到下 一帧图像中 x、y 方向发生的偏移。最后 一个是,MBH 运动边缘直方图。它是由 光流沿着 x 方向和 y 方向去做一次差分梯 度后获得。这样操作的好处在于可以把 物体边缘的运动提取出来。

我们会在时空信息点,或者沿着运动 的边缘,把 HoG、HoF、MBH 三种特征 都抽出来。当然除了这三类还有其他局 部特征,我们之前的一个工作就是把图 像的梯度和光流进行联合编码,实验表 明这样的方法可以提高识别率。对于给 定的一个视频,可以在视频里可能找到 很多点或者找到很多轨迹,在每个点、 每条轨迹周围提取一个三维小的立方体; 然后围绕这个立方体提取局部特征,包 括 HoG、HoF 或者 MBH;接着采用 Bag of Visual Words 框架或其改进的方法, 对局部特征进行编码,以获取全局表示。 这个过程,设计很多环节,包括特征预 处理、字典学习方法、参数的选择等, 我们的一个工作就是把这些环节涉及的 各种选择进行充分的对比,后面这个工 作也被期刊 CVIU 录用,代码也公开了。 后期不少论文引用了我们的工作。

image

在研究行为识别问题时,我们观察到 一个问题,对视频来讲既有静态的特征, 也有动态的特征。动态的特征像 HoF,这 些特征联合使用可以提高识别率。怎么来 用?一个简单的方法,可以把这些特征串 起来,再去学习字典。但是这个方法效果 并不好,因为串起来后特征维度高了,增 大了字典学习的难度。因此,大家传统的 做法就是,静态图像的特征和动态的光流 分别学习字典,然后分别编码,这个方法 可行性比较强,但忽略了特征间的相关性。 我们提出把不同类型的局部特征进行联合 编码,区分出共享的部分和各自独立的部 分。这就需要一个更好的字典,这个字典 不仅仅是对一种特征,而是对多种特征进 行联合建模。

image

这里我们利用混合概率典型相关分析 模型作为我们的字典。该字典可以对不 同类型特征间相关部分和独立部分进行 建模。实验表明,该方法可以提高识别率。

image

除此之外,我们还有其他工作,简单的 分享一下。之前这些局部描述的一个缺陷就 是仅仅描述局部区域能力有限,所以我们提 取中层运动子 Motionlet 特征,这个中层特 征是靠机器学习的方法从视频数据中学习获 得的。我们还根据中层运动子特征构建运动 词组 Motion Phrase,细节可以参见我们发表 在 CVPR13 和 ICCV13 的论文。

相关文章
|
8天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
13天前
|
人工智能 安全 算法
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
2024年12月11日,由中国计算机学会计算机视觉专委会主办的“打造大模型时代的可信AI”论坛在上海举行。论坛汇聚了来自多家知名学术机构和企业的顶尖专家,围绕AI的技术风险与治理挑战,探讨如何在大模型时代确保AI的安全性和可信度,推动技术创新与安全治理并行。论坛重点关注计算机视觉领域的最新进展,提出了多项技术手段和治理框架,为AI的健康发展提供了有力支持。
56 8
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
|
13天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
108 2
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
12天前
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
79 14
|
4天前
|
人工智能 分布式计算 供应链
高效提取图片信息:AI技术赋能企业数字化转型
本文介绍了如何通过AI技术高效提取图片中的结构化信息,提升企业运营效率。具体应用场景包括票据与合同管理、电商商品信息管理、保险理赔和物流单据处理等。AI技术能将传统人工录入流程缩短至秒级,准确率高达99%,减少人为错误,提升客户满意度。方案优势在于易于扩展、灵活高性价比的调用模式及便捷安全的云产品接入。文中还详细描述了部署应用、访问示例应用及使用官方示例进行信息提取的操作步骤,并提供了参考链接和源码下载途径。
|
4天前
|
机器学习/深度学习 传感器 人工智能
开源AI视频监控系统在监狱安全中的应用——实时情绪与行为分析、暴力预警技术详解
针对监狱环境中囚犯情绪波动和复杂人际互动带来的监控挑战,传统CCTV系统难以有效预警暴力事件。AI视频监控系统基于深度学习与计算机视觉技术,实现对行为、情绪的实时分析,尤其在低光环境下表现优异。该系统通过多设备协同、数据同步及自适应训练,确保高精度识别(95%以上)、快速响应(<5秒),并具备24小时不间断运行能力,极大提升了监狱安全管理的效率与准确性。
|
11天前
|
存储 人工智能 运维
AI-Native的路要怎么走?一群技术“老炮儿”指明了方向
上世纪70年代,沃兹尼亚克、乔布斯等人成立Homebrew Computer Club,推动个人电脑普及。如今,创原会承袭这一精神,由CNCF执行董事Priyanka Sharma等构建,聚焦云原生和AI技术,汇聚各行业技术骨干,探索前沿科技。2024年创原会年度峰会达成“全面拥抱AI-Native”共识,解决算力与存储瓶颈,推动AI原生应用开发,助力千行万业智能化转型,成为行业创新风向标。
|
13天前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
30 6
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
师资研修|AI技术赋能教材建设和课程开发——乌鲁木齐某教育部门
近日,TsingtaoAI派出AI专家为乌鲁木齐中职院校的教师团队,举办“AI技术赋能教材建设与课程开发”的师资研修。此次培训由TsingtaoAI的AI专家高寒和教育专家刘建老师亲自授课,面对的是来自乌鲁木齐的教育工作者,特别是中职院校的教学骨干。整个活动不仅涉及人工智能技术本身的深度解析,还深入探讨了如何将这些前沿技术高效应用于教材和课程体系的创新。
22 0
|
7天前
|
人工智能 安全 图形学
【AI落地应用实战】篡改检测技术前沿探索——从基于检测分割到大模型
在数字化洪流席卷全球的当下,视觉内容已成为信息交流与传播的核心媒介,然而,随着PS技术和AIGC技术的飞速发展,图像篡改给视觉内容安全带来了前所未有的挑战。 本文将探讨篡改检测技术的现实挑战,分享篡改检测技术前沿和最新应用成果。