Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

简介:

Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

雷锋网按:Automatic Alt-Text (AAT) 的发布让盲人(或使用屏幕阅读器的用户)更好地读懂新闻推送  (News Feeds) 里的照片的内容。以访谈,可用性测试以及调查为手段的用户研究给工具的发明提供了帮助。我们将在本文简要介绍这项工作的一些亮点,雷锋网(公众号:雷锋网)独家编译,未经许可不得转载。

这项工作的主要作者、数据科学家Shaomei Wu将会出席本周在波特兰举办的CSCW 2017,届时她将在会上详细介绍该工具的功能以及所进行的研究。如果您想面对面探讨,请在会上和我们联系。

背景

众所周知,Facebook的新闻推送大多都带有图像和视频,随着配备高画质相机的手机上越来越普及,大家分享的图像和视频会越来越多。通过视觉媒体让大家观看和讨论所发生的事,是Facebook提供的一项关键功能。事实上,人们每天在Facebook、Instagram、Messenger和WhatsApp上分享的照片超过20亿张。听起来不错吧?有人欢喜有人愁,对盲人等有视觉障碍的人来说,他们注定很难参与围绕图片展开的交流。

Facebook的目标是于创造一个更加开放、互联的世界,和赋予人们分享的能力。超过3900万的盲人和2.46亿有严重视力障碍的人分布在全球,他们都曾经有过因为不能全程参与以照片和视频为中心的交流而感到被排斥或被孤立的沮丧经历。为了让更多的人参与图片社交,Facebook推出了AAT技术,希望屏幕阅读器用户也能够理解新闻推送中大部分图像的内容(有望很快覆盖所有图像!)。

Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

前世今生

该从哪里开始克服这个挑战?关于如何创建AAT和构建计算机视觉模型的Lumos技术,详情请参考Face-book数据科学家Shaomei Wu以前的技术帖子。在这里,我们聚焦如何和盲人合作从而给他们创造绝佳的用户体验。

从以前的研究中可知,一些服务会使用定制化的服务(或叫好友帮忙)来描述照片,这种服务一张照片对应一个请求。不幸的是,这种方法存在一些缺点:

•耗时很长

•需要一个愿意执行任务的人在场

•浏览新闻推送被中途打断

•最重要的是很难进行扩展

然而积极的一面是,朋友或被委托人针对照片给出的翻译可以达到很高的精准度。考虑到你们的关系,朋友还可能提供额外的图片信息(例如绘声绘色地进行描述或讲一个隐藏其中的玩笑)。但是如何取其精华去其糟粕地扩展这个方案?为此我们的目标是革新这种定制服务,以此构建一个新的Facebook功能。

AAT项目通过寻求更佳的算法,针对照片得出有用和准确的描述,这种方法不会受限于用户的知识面,可以在更大范围进行扩展。由于alt-text具有HTML属性的这个设计,可作为图像的替换文本,网页的图像内容管理员可以轻松把图像更换为alt-text,并且采用W3C可访问性标准,当用户把屏幕阅读器软件的光标移动到任一图像上,软件都能对图像进行识别和朗读。

研究

在构建可扩展的稳定人工智能系统的10个月里,我们完成了两类研究。我们对Shaomei Wu设计的原型进行了质性研究和可用性测试,从中找出了系统的关键性缺陷,并对原型系统进行了改善。系统发布后,以前感到沮丧和困惑的人们现在惊喜又感谢。对研究结果进行三角测量的另一种方法是进行这样一个实验:告知并获得测试者(实验组)的同意为他们启用一项实验功能,与没有启用该功能的组(控制组)进行同样的实验。两组成员都是VoiceOver Facebook iOS用户。

访谈和可用性测试

在这个过程中我们遇到的最大挑战,是平衡人类想获得更多图片信息的欲望和图片蕴含信息的质量以及不同智力之间的平衡。解读视觉文本是非常主观和依赖背景,例如,即使人们主要关心谁在照片里以及他们在做什么,有时候背景才是使照片有趣或重要的关键。这个关键的发现最终决定了我们呈现给用户的句子是如何构成的。

此外,对人类来说轻挑选出照片最有趣的部分易举就能,这事对即使最聪明的人工智也是难如登天。社会知识和大量有效的反馈是这项服务提供绝佳用户体验的关键,我们希望最终能实现这点!通过访谈我们意识到,相较于遗漏大家不确定的事物,给出错误的信息往往更糟糕,例如,系统不小心把照片里一位娇小女性误认为一个小孩。我们同样吸取其他公司的AI系统把事情变得糟糕的教训,例如把人类描述成动物,这会使各方处于苦恼境地。如果用户知道朋友并没有孩子,系统给出这样的评论会导致用户难堪和引起社交尴尬。牢记我们与开发团队要创建这样的一个系统:

•可以大规模识别内容

•可以挑选照片中有趣的概念或事物

•可以向用户提供有意义的反馈

•可以无缝互动

在定性研究过程中我们学到最后一个大教训是,不要谈论AI从照片中得出哪些概念的确定性有多大,这非常重要。否则据我们所知,谈论这点会使参与者觉得这个系统不吉利或者非常不智能,并对系统逐渐产生不信任感。我们的补救措施是,(高于AI一定精度阈值的前提下)极度肯定从照片中得出的概念,并把复述评价AI系统所得概念有多正确的功能删除。尽管准确度提高了,系统初始版本能识别出至少一个概念的照片比例,占到了上传到Facebook所有图片的50%以上,随着时间的推移,这个数字将随着更好的技术问世而上升。

开展试验以来,和这些乐于助人的参与者一起工作,让我们在如何面试盲人这方面受益良多,我们希望把一些实用的建议分享给做盲人定性研究的同行。

一个小小的经验是,即使他们根据自己的需要预设了辅助功能,也要让盲人参与者自带设备,因为这让他们在研究中更舒适自然(对任何参与者来说都是一个好建议)。

另一个提示是要求使用屏幕阅读器的用户将语音速率稍微降低,这样参与者才能既跟得上读音又能出声思考。出声思考在很多方面都是关于参与者究竟如何解读屏幕阅读器所读出的话。如果思维跟不上这两个声音(即参与者和阅读器的声音),即表示您错过了一半的信息。在开始这阶段之前,学习使用屏幕阅读器将使您成为一个更有效率的主持人。

最后,一些研究人员说,招聘屏幕阅读器用户极具挑战性,因为许多用户体验招聘者不熟悉这类人群,与倡导团体(例如Lighthouse,感谢您的支持)合作,或者联系专业招聘人员寻找参与者更加高效。

调查

未知的定性理解还太多,为此我们把研究转向更全面、被更广泛理解地描述AAT的使用感受的方向,调查了大约550名确定有一种(或以上)视力障碍或失明参与者。如上所述,总样本大约9,000份,我们收到来自控制组(使用普通版本Facebook)和实验组(使用ATT版Facebook)的综合反馈。参与者都填写了几乎相同的问题,唯一的区别是实验组会问一些关于AAT的问题。参与者都能选择参与抽奖活动,十名幸运儿获得了亚马逊的100美元礼品券。

与其他调查一样,为目标受访者设计一个简洁、通俗易懂的调查很重要,为盲人用户创建调查,我们发现了一些实用技巧:

•避免使用水平单选按钮和拖放问题。前者比垂直选项更难分页,而后者则不可能应用到屏幕阅读器上。

•避免使用矩阵和星级评分问题。前者有时在HTML侧不会被正确地标记,也就不可能分辨矩阵中的应答者在哪,而后者应该被替换为非图形HTML元素,使不同的屏幕阅读器能通用地访问。

•避免给屏幕阅读器提供返回功能,否则误触导致的错误会频频发生。

•相比调查使用鼠标操作系统的视力正常用户,在屏幕阅读器上进行调查所花的时间更长。如果屏幕阅读器用户响应调查对您来说很重要,那么首先引导用户阅读简介很重要。

•与传统的优秀调查设计一样,尽量减少每页的问题,避免认知复杂性和导航问题。

•使用间距来确保单选按钮和复选框与其标签关联清楚,能避免出现模糊与混乱。

•缩略语在调查中很常见。然而并非所有受访者都对它们熟悉或记得住,屏幕阅读器可能会混淆字母缩写和缩略语的发音。“首字母缩写”和“缩略语”提示标签可以用于缓解这一点,并且“标题”属性在需要的时候可以提供更多的信息。

调查/实验结果:亮点

相比于没有打开AAT功能的控制组,测试组中的人员认为AAT作用很大,他们的答案也反映出了这一点。更广泛地,测试组的参与者更有可能这样做:

•给新闻推送中的照片点赞(或对照片作出回复)

•相比于非AAT用户,认为Facebook更关心可访问性

•总体而言,相比于非AAT用户,认为Facebook更有用

•最重要的是,能在更短的时间内弄清楚照片中内容

调查的样本问题:

我们请AAT用户确认,在点击新闻推送中的照片时,是否听到这样一句话:“图片可能包含......”,如果他们说真的有听到这句话,我们会问他们几个问题!

问题:(如果在测试组)听到这个替换文本后,感觉如何?(检查所有适用)

测试组中的受访者在听完图片中的替换文本后,一组随机词语随即被提供给他们选择,让他们用这些词语描述听完的感觉,此外我们还设立了一组可以随意描述感受的参照组。根据我们的研究结果,我们发现 着重强调愉快(29%),惊讶(26%)和印象深刻(25%)等的积极词语遥遥领先。

问题:(要回答这个问题,请回想在新闻推送中最后的几张照片)分辨出这些照片是和什么有关的难易程度有多大?

两者在回答“稍微容易”(23%vs2%)和“极其困难”(42%vs73%)的这两个难度上,差距都很大,这点展现了ATT的附加价值

Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

下一步呢?

我们承认这一功能还不成熟,该如何改进AAT,几乎所有受访者都在他们的写入反馈上提出了建议。这些建议集中在以下两个类别:

•从图像中提取和识别文本(29%的人提了这个建议)

•尽可能提供图像中人物的信息(26%的人提了这个建议)

其他请求包括扩展算法的词汇、增加现有标签的调用、使AAT在更多的语言和平台中可用。

最后的想法

将快速增长的视觉社交网络覆盖更多地区的前景让我们感到兴奋。对Omid来说,这是他在无障碍领域的第一次深度探索,能接触到和以往所从事的完全不同类型的统计学让他十分着迷。Julie以前的工作是让服务更容易互联,这项工作让她以前的工作和Facebook出色的工程能力连接起来。

Facebook担起致力于使世界更加开放和连接的使命,Facebook无障碍团队 (accessibility team) 将在为每个人提供卓越用户体验的路上继续探索。在成功实现这项功能的基础上,我们聘请了第一个全职的无障碍研究员,现在团队上下都对未来的发展充满憧憬。

本文作者:陈鸣鸠

本文转自雷锋网禁止二次转载,原文链接

相关文章
|
9天前
|
人工智能 UED 智能硬件
活动报名|AI火花会线下沙龙:AI大模型助力视觉终端进化新未来​
活动报名|AI火花会线下沙龙:AI大模型助力视觉终端进化新未来​
|
10天前
|
人工智能 自然语言处理 机器人
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
|
10天前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
|
10天前
|
数据采集 人工智能 编解码
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
31 9
|
12天前
|
存储 人工智能 搜索推荐
Memobase:开源AI长期记忆系统,让AI真正记住每个用户的秘密武器
Memobase 是一个开源的长期记忆系统,专为生成式 AI 应用设计,通过用户画像和时间感知记忆功能,帮助 AI 记住、理解并适应用户需求。
87 0
|
12天前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
在电商中,制作精美的商品展示图成本高且流程复杂。AI 换装技术允许商家快速更换模特的服装或配件,无需重新拍摄,大大缩短准备时间。这项技术减少了对专业摄影师和后期团队的依赖,使中小商家也能轻松产出高质量的商品图片,灵活响应市场变化,有效降低成本,提升竞争力。本方案利用函数计算 FC 构建 Web 服务,采用百炼视觉模型 qwen-vl-max-latest、aitryon、aitryon-refiner、shoemodel-v1 来分别实现 AI 人物主体信息提取、模特试衣、试衣精修、模特换鞋。
|
23天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
123 9
|
1月前
|
人工智能
AI对话网站一键生成系统源码
可以添加进自己的工具箱,也可以嵌入自己博客的页面中,引流效果杠杠的,新拟态设计风格,有能力的大佬可以进行二开,仅提供学习,用户可输入网站名称、AI默认的开场白、AI头像昵称、AI网站中引流的你的网站等等内容,所有生成的网页全部保存到你的服务器上
61 27
AI对话网站一键生成系统源码
|
2月前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
158 5
|
2月前
|
人工智能 自然语言处理 搜索推荐
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。
100 4
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互

热门文章

最新文章