暗中观察,没有「头环」:AI摄像头就可以看出你上课是否走神

简介: 在AI摄像头走进课堂后,伪装认真听课也是越来越难了。近日,港科大、哈工程的研究者开发了一种用AI摄像头记录、分析学生情感变化的系统,不仅能知道学生什么时候开始走神,还能具体看到每个学生一整节课的「心路历程」。


微信图片_20211202162415.jpg


关于 AI 在课堂上所能完成的监控工作,很多人已经习以为常。


「一位教授在授课结束后查看他的电脑。借助一款软件,他能看到这一整堂课中学生的情绪变化。在上课 30 分钟之后,大部分学生已经失去兴趣并开始走神,这也大概是他讲跑题的那个时间点。所以教授做了个记录,提醒自己以后不要跑题。」

现实中的课堂大多还不是这个样子,但随着技术的发展,这样的情景会越来越普遍。


近日,一篇有关课堂监控技术的论文刊登在《IEEE Transactions on Visualization and Computer Graphics》上。在论文中,来自香港科技大学、哈尔滨工程大学等机构的研究者提出了一种名为 EmotionCues 的系统。该系统主要关注如何记录学生面部表情,并据此来分析学生在课堂上的情绪变化、注意力集中程度。


作者之一、香港科技大学计算机教授屈华民介绍说,这个系统「为教师提供了一种更快速、更方便去衡量学生在课堂上参与度的方法。」


这项研究的初衷是「善意」的:依靠该系统去监控学生在课堂上的情绪反馈,判断学生在什么时候开始感到无聊,什么时候注意力更加集中,以此来提醒老师该如何改善课堂内容、提高授课质量。


研究团队在两间教室里对提出的系统进行了测试,一间教室是香港科技大学的学生,代表高校学生群体;另一间教室是日本某所幼儿园,代表低龄学生群体。


测试发现,这套视觉分析系统在检测那些「明显情绪」方面效果比较好,比如学习兴趣较为强烈时的愉悦感。但系统对于「愤怒」或者「悲伤」等表情的解读能力还是有所欠缺。学生们可能只是单纯地专注于课堂内容本身,仅仅因为深入思考而皱了一下眉头,却容易被系统解读为「愤怒」。


微信图片_20211202162420.jpg


系统的工作流程


下图 2 展示了整个系统的工作流程,包括数据处理和视觉探索两大阶段。


微信图片_20211202162423.jpg

图2。


数据处理过程


第一阶段是处理一系列原始数据并利用计算机视觉算法提取出情感信息,包括面部检测、面部识别、情感识别、特征抽取等步骤。


在面部检测步骤中,研究者采用 MTCNN(多任务级联卷积网络,一种用于预测面部和 Landmark 位置的深度卷积网络)去检测每个样本帧中的人脸。


在面部识别阶段,面部对比的通常方法是对图像进行矢量化操作。研究者采用了 facenet(一种在面部识别中较为完善的深度学习模型),它可以直接学习从面部图像到紧致欧式空间的映射。


在情感识别阶段,研究者出于直观和可理解方面的考虑,选择使用了分类模型。他们微调了一个 CNN 模型(ResNet-50),采用了 FER 2013 数据集。这一数据集一直广泛用于面部表情识别。


考虑到情绪识别可能没那么准确,研究者挑出了一些影响因素(如人脸大小、遮挡情况、图像分辨率、照明情况等),并在系统中对它们进行了视觉编码,以此判断学生们的情感状况。


这些影响因素可能在系统情绪分析中起到了比较关键的作用。比如离摄像头比较远的人,他的脸部在视频中占据的面积比较小,就更容易被错误识别。除此之外,一个人的脸如果经常被他人遮挡,也会有更高的系统误判风险。研究者将这些因素整合到了系统分析流程之中,提供了更加丰富的交互功能来改进系统性能。


交互式的视觉系统


第二阶段是根据五大要求(细节见论文)设计一个交互式的视觉系统,该系统可以支持两种粒度的课堂视频视觉分析,包括学生的总体情感演变和某个学生单独的情感演变过程。


研究者基于 Vue.js 前端框架和 Flask 后端框架实现了一个基于 web 的系统,如下图 3 所示。该系统包括三大视图:摘要视图(summary view,图 3a-b);人物视图(character view,图 3c)和视频视图(video view,Fig. 3d)。


微信图片_20211202162426.jpg

图3。


为老师提供学生情感变化的总体情况非常重要,因此研究者设计了一个摘要视图,让老师看到学生情感的静态和动态演变数据。图 3(a)显示的是学生的情感档案,用于展示学生的情感分布(静态摘要);图 3(b)显示的是学生的情感变化曲线(动态摘要)。


人物视图通过肖像类标志符号,将所选定目标人物的情绪状态可视化地表现出来。不同情感肖像之间的差异使得用户能够识别和比较不同人物的特征。如下图 5 所示,研究者在设计中采用了定制化的饼状图:


微信图片_20211202162429.jpg

图 5:情感变化的可视化图示。


通过这种定制化的饼状图设计,用户可以很容易地观察到详细的情感信息以及对其感兴趣的影响因素。同时,屏幕快照功能使得不同人之间的情感信息比较变得更加容易。如果用户希望查看详细信息,可以单击感兴趣的快照进行查看。快照的示例位于人物视图(图 3c)的左侧。


在系统中,研究者提供了原始视频以供用户在视频视图(图 3d)中浏览。同时,用户可以用不同速度播放视频,当用户将视频暂停时,每一帧中对应的面部都会被高亮显示。用户还可以根据自己对情感流的观察挑选出感兴趣的部分进行进一步的探索和挖掘。


「改善」教学,还是「监控」教学?


这项研究的初衷是帮助授课者收集学生反馈、提升教学质量。但事实真能如其所愿吗?


相比于依据视频记录去分析情绪,在国内的课堂中,还有更夸张的「智能头环」。

在浙江金华某小学的课堂之上,每一个座位上的学生都戴着一个状如「金箍」的黑色头环,专注时亮红灯,走神时亮蓝灯,这个注意力分数每 10 分钟发送一次到授课教师的电脑,并同步到家长微信群中,让身在校外的家长随时掌握孩子的上课状态。


但这种头环,或者此类课堂监控技术,面对着非常多的质疑。比如伦理问题:它暴露了学生在课堂中的个人情绪,让教师能够知道谁在课堂上专注或不专注。这涉及到学生的隐私问题。


另外,在一节 40 分钟的课程中,学生的注意力本就不可能保持全程专注,持续性监控学生的注意力并对任何注意力不专注的行为进行校正没有意义。

还有一方面,这种监控系统可能会分散教师和学生的注意力,因为身在其中的人会觉得有一双眼睛「无时无刻不在盯着自己」。如果是头戴金箍,这种情绪会变得更加明显。这种被实时监控的感觉会在一定程度上会影响课堂参与者自由发表意见。

参考链接:

https://spectrum.ieee.org/the-human-os/biomedical/devices/ai-tracks-emotions-in-the-classroom

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8948010

1月16日,新一期AAAI 2020线上分享,我们邀请到了旷视研究院算法研究员万昭祎,为我们介绍他们在论文中提出的高性能实时文字检测算法和更鲁棒的文字识别框架。


微信图片_20211202162434.jpg


相关文章
|
人工智能 并行计算 openCL
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
随着 Llama2 的开源,以及通义千问、百川、智谱等国内大模型的问世,很多用户有了本地部署去尝试大模型的需求,然而硬件的需求阻碍了很多人的尝试,并不是所有人都拥有一块英伟达显卡的,所以 Llama2 问世不久,大神 Andrej Karpathy 的一个 weekend project 爆火——llama2.c。
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
|
3月前
|
缓存 人工智能 测试技术
腾讯混元 3D 世界模型家族又添新成员Voyager:支持超长距离漫游
9 月 2 日,腾讯混元宣布,其3D世界模型系列最新成员——HunyuanWorld-Voyager(简称混元Voyager)发布并开源,这将推动AI在空间智能领域的应用扩展,为虚拟现实、物理仿真、游戏开发等领域提供高保真3D场景漫游能力,加速行业应用落地。
282 0
|
机器学习/深度学习 计算机视觉 异构计算
【YOLOv8改进 - Backbone主干】ShuffleNet V2:卷积神经网络(CNN)架构
【YOLOv8改进 - Backbone主干】ShuffleNet V2:卷积神经网络(CNN)架构
|
机器学习/深度学习 人工智能 供应链
智能制造:AI驱动的生产革命——探索生产线优化、质量控制与供应链管理的新纪元
【7月更文第19天】随着第四次工业革命的浪潮席卷全球,人工智能(AI)正逐步成为推动制造业转型升级的核心力量。从生产线的智能化改造到质量控制的精密化管理,再到供应链的全局优化,AI技术以其强大的数据处理能力和深度学习算法,为企业开启了全新的生产效率和质量标准。本文将深入探讨AI在智能制造中的三大关键领域——生产线优化、质量控制、供应链管理中的应用与影响,并通过具体案例和代码示例加以阐述。
1632 3
|
机器学习/深度学习 人工智能 监控
AI安防监控
AI安防监控运用人工智能技术分析视频监控,实现对象识别、追踪和预警,广泛应用在安防、交通和工业等领域。它提升了监控的实时性和准确性,降低了人力成本,但面临误判、隐私泄露和高成本等问题。随着市场需求增长,全球安防监控行业将迎来持续发展,需在提升技术的同时保障个人隐私。
713 0
|
人工智能 自然语言处理 文字识别
MinerU-大语言语料处理神器,CPU/GPU均可跑,开源免费“敲”好用
在7月4日举行的WAIC 2024科学前沿主论坛上,书生·浦语2.5正式发布,面向大模型研发与应用的全链条工具体系同时迎来升级。
MinerU-大语言语料处理神器,CPU/GPU均可跑,开源免费“敲”好用
|
SQL 中间件 关系型数据库
MyCAT数据库中间件的架构与使用方法
MyCAT数据库中间件的架构与使用方法
|
机器学习/深度学习 数据可视化 网络协议
ubuntu16.04下ROS操作系统学习笔记(二)命令工具了解和仿真小海龟
ubuntu16.04下ROS操作系统学习笔记(二)命令工具了解和仿真小海龟
658 0
|
运维 Kubernetes Cloud Native
《云原生架构容器&微服务优秀案例集》——03 零售/电商——三只松鼠 云原生架构升级,完美应对双十一
《云原生架构容器&微服务优秀案例集》——03 零售/电商——三只松鼠 云原生架构升级,完美应对双十一
346 0
|
Web App开发 前端开发 PHP
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html><head><meta http-equiv="Cont
每日更新关注:http://weibo.com/hanjunqiang  新浪微博! 知识点概括:HTML表单/PHP环境搭建/表单提交数据与PHP交互 第一部分:HTML表单 表单...
773 0