Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

简介:

Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

雷锋网按:Automatic Alt-Text (AAT) 的发布让盲人(或使用屏幕阅读器的用户)更好地读懂新闻推送  (News Feeds) 里的照片的内容。以访谈,可用性测试以及调查为手段的用户研究给工具的发明提供了帮助。我们将在本文简要介绍这项工作的一些亮点,雷锋网(公众号:雷锋网)独家编译,未经许可不得转载。

这项工作的主要作者、数据科学家Shaomei Wu将会出席本周在波特兰举办的CSCW 2017,届时她将在会上详细介绍该工具的功能以及所进行的研究。如果您想面对面探讨,请在会上和我们联系。

背景

众所周知,Facebook的新闻推送大多都带有图像和视频,随着配备高画质相机的手机上越来越普及,大家分享的图像和视频会越来越多。通过视觉媒体让大家观看和讨论所发生的事,是Facebook提供的一项关键功能。事实上,人们每天在Facebook、Instagram、Messenger和WhatsApp上分享的照片超过20亿张。听起来不错吧?有人欢喜有人愁,对盲人等有视觉障碍的人来说,他们注定很难参与围绕图片展开的交流。

Facebook的目标是于创造一个更加开放、互联的世界,和赋予人们分享的能力。超过3900万的盲人和2.46亿有严重视力障碍的人分布在全球,他们都曾经有过因为不能全程参与以照片和视频为中心的交流而感到被排斥或被孤立的沮丧经历。为了让更多的人参与图片社交,Facebook推出了AAT技术,希望屏幕阅读器用户也能够理解新闻推送中大部分图像的内容(有望很快覆盖所有图像!)。

Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

前世今生

该从哪里开始克服这个挑战?关于如何创建AAT和构建计算机视觉模型的Lumos技术,详情请参考Face-book数据科学家Shaomei Wu以前的技术帖子。在这里,我们聚焦如何和盲人合作从而给他们创造绝佳的用户体验。

从以前的研究中可知,一些服务会使用定制化的服务(或叫好友帮忙)来描述照片,这种服务一张照片对应一个请求。不幸的是,这种方法存在一些缺点:

•耗时很长

•需要一个愿意执行任务的人在场

•浏览新闻推送被中途打断

•最重要的是很难进行扩展

然而积极的一面是,朋友或被委托人针对照片给出的翻译可以达到很高的精准度。考虑到你们的关系,朋友还可能提供额外的图片信息(例如绘声绘色地进行描述或讲一个隐藏其中的玩笑)。但是如何取其精华去其糟粕地扩展这个方案?为此我们的目标是革新这种定制服务,以此构建一个新的Facebook功能。

AAT项目通过寻求更佳的算法,针对照片得出有用和准确的描述,这种方法不会受限于用户的知识面,可以在更大范围进行扩展。由于alt-text具有HTML属性的这个设计,可作为图像的替换文本,网页的图像内容管理员可以轻松把图像更换为alt-text,并且采用W3C可访问性标准,当用户把屏幕阅读器软件的光标移动到任一图像上,软件都能对图像进行识别和朗读。

研究

在构建可扩展的稳定人工智能系统的10个月里,我们完成了两类研究。我们对Shaomei Wu设计的原型进行了质性研究和可用性测试,从中找出了系统的关键性缺陷,并对原型系统进行了改善。系统发布后,以前感到沮丧和困惑的人们现在惊喜又感谢。对研究结果进行三角测量的另一种方法是进行这样一个实验:告知并获得测试者(实验组)的同意为他们启用一项实验功能,与没有启用该功能的组(控制组)进行同样的实验。两组成员都是VoiceOver Facebook iOS用户。

访谈和可用性测试

在这个过程中我们遇到的最大挑战,是平衡人类想获得更多图片信息的欲望和图片蕴含信息的质量以及不同智力之间的平衡。解读视觉文本是非常主观和依赖背景,例如,即使人们主要关心谁在照片里以及他们在做什么,有时候背景才是使照片有趣或重要的关键。这个关键的发现最终决定了我们呈现给用户的句子是如何构成的。

此外,对人类来说轻挑选出照片最有趣的部分易举就能,这事对即使最聪明的人工智也是难如登天。社会知识和大量有效的反馈是这项服务提供绝佳用户体验的关键,我们希望最终能实现这点!通过访谈我们意识到,相较于遗漏大家不确定的事物,给出错误的信息往往更糟糕,例如,系统不小心把照片里一位娇小女性误认为一个小孩。我们同样吸取其他公司的AI系统把事情变得糟糕的教训,例如把人类描述成动物,这会使各方处于苦恼境地。如果用户知道朋友并没有孩子,系统给出这样的评论会导致用户难堪和引起社交尴尬。牢记我们与开发团队要创建这样的一个系统:

•可以大规模识别内容

•可以挑选照片中有趣的概念或事物

•可以向用户提供有意义的反馈

•可以无缝互动

在定性研究过程中我们学到最后一个大教训是,不要谈论AI从照片中得出哪些概念的确定性有多大,这非常重要。否则据我们所知,谈论这点会使参与者觉得这个系统不吉利或者非常不智能,并对系统逐渐产生不信任感。我们的补救措施是,(高于AI一定精度阈值的前提下)极度肯定从照片中得出的概念,并把复述评价AI系统所得概念有多正确的功能删除。尽管准确度提高了,系统初始版本能识别出至少一个概念的照片比例,占到了上传到Facebook所有图片的50%以上,随着时间的推移,这个数字将随着更好的技术问世而上升。

开展试验以来,和这些乐于助人的参与者一起工作,让我们在如何面试盲人这方面受益良多,我们希望把一些实用的建议分享给做盲人定性研究的同行。

一个小小的经验是,即使他们根据自己的需要预设了辅助功能,也要让盲人参与者自带设备,因为这让他们在研究中更舒适自然(对任何参与者来说都是一个好建议)。

另一个提示是要求使用屏幕阅读器的用户将语音速率稍微降低,这样参与者才能既跟得上读音又能出声思考。出声思考在很多方面都是关于参与者究竟如何解读屏幕阅读器所读出的话。如果思维跟不上这两个声音(即参与者和阅读器的声音),即表示您错过了一半的信息。在开始这阶段之前,学习使用屏幕阅读器将使您成为一个更有效率的主持人。

最后,一些研究人员说,招聘屏幕阅读器用户极具挑战性,因为许多用户体验招聘者不熟悉这类人群,与倡导团体(例如Lighthouse,感谢您的支持)合作,或者联系专业招聘人员寻找参与者更加高效。

调查

未知的定性理解还太多,为此我们把研究转向更全面、被更广泛理解地描述AAT的使用感受的方向,调查了大约550名确定有一种(或以上)视力障碍或失明参与者。如上所述,总样本大约9,000份,我们收到来自控制组(使用普通版本Facebook)和实验组(使用ATT版Facebook)的综合反馈。参与者都填写了几乎相同的问题,唯一的区别是实验组会问一些关于AAT的问题。参与者都能选择参与抽奖活动,十名幸运儿获得了亚马逊的100美元礼品券。

与其他调查一样,为目标受访者设计一个简洁、通俗易懂的调查很重要,为盲人用户创建调查,我们发现了一些实用技巧:

•避免使用水平单选按钮和拖放问题。前者比垂直选项更难分页,而后者则不可能应用到屏幕阅读器上。

•避免使用矩阵和星级评分问题。前者有时在HTML侧不会被正确地标记,也就不可能分辨矩阵中的应答者在哪,而后者应该被替换为非图形HTML元素,使不同的屏幕阅读器能通用地访问。

•避免给屏幕阅读器提供返回功能,否则误触导致的错误会频频发生。

•相比调查使用鼠标操作系统的视力正常用户,在屏幕阅读器上进行调查所花的时间更长。如果屏幕阅读器用户响应调查对您来说很重要,那么首先引导用户阅读简介很重要。

•与传统的优秀调查设计一样,尽量减少每页的问题,避免认知复杂性和导航问题。

•使用间距来确保单选按钮和复选框与其标签关联清楚,能避免出现模糊与混乱。

•缩略语在调查中很常见。然而并非所有受访者都对它们熟悉或记得住,屏幕阅读器可能会混淆字母缩写和缩略语的发音。“首字母缩写”和“缩略语”提示标签可以用于缓解这一点,并且“标题”属性在需要的时候可以提供更多的信息。

调查/实验结果:亮点

相比于没有打开AAT功能的控制组,测试组中的人员认为AAT作用很大,他们的答案也反映出了这一点。更广泛地,测试组的参与者更有可能这样做:

•给新闻推送中的照片点赞(或对照片作出回复)

•相比于非AAT用户,认为Facebook更关心可访问性

•总体而言,相比于非AAT用户,认为Facebook更有用

•最重要的是,能在更短的时间内弄清楚照片中内容

调查的样本问题:

我们请AAT用户确认,在点击新闻推送中的照片时,是否听到这样一句话:“图片可能包含......”,如果他们说真的有听到这句话,我们会问他们几个问题!

问题:(如果在测试组)听到这个替换文本后,感觉如何?(检查所有适用)

测试组中的受访者在听完图片中的替换文本后,一组随机词语随即被提供给他们选择,让他们用这些词语描述听完的感觉,此外我们还设立了一组可以随意描述感受的参照组。根据我们的研究结果,我们发现 着重强调愉快(29%),惊讶(26%)和印象深刻(25%)等的积极词语遥遥领先。

问题:(要回答这个问题,请回想在新闻推送中最后的几张照片)分辨出这些照片是和什么有关的难易程度有多大?

两者在回答“稍微容易”(23%vs2%)和“极其困难”(42%vs73%)的这两个难度上,差距都很大,这点展现了ATT的附加价值

Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

下一步呢?

我们承认这一功能还不成熟,该如何改进AAT,几乎所有受访者都在他们的写入反馈上提出了建议。这些建议集中在以下两个类别:

•从图像中提取和识别文本(29%的人提了这个建议)

•尽可能提供图像中人物的信息(26%的人提了这个建议)

其他请求包括扩展算法的词汇、增加现有标签的调用、使AAT在更多的语言和平台中可用。

最后的想法

将快速增长的视觉社交网络覆盖更多地区的前景让我们感到兴奋。对Omid来说,这是他在无障碍领域的第一次深度探索,能接触到和以往所从事的完全不同类型的统计学让他十分着迷。Julie以前的工作是让服务更容易互联,这项工作让她以前的工作和Facebook出色的工程能力连接起来。

Facebook担起致力于使世界更加开放和连接的使命,Facebook无障碍团队 (accessibility team) 将在为每个人提供卓越用户体验的路上继续探索。在成功实现这项功能的基础上,我们聘请了第一个全职的无障碍研究员,现在团队上下都对未来的发展充满憧憬。

本文作者:陈鸣鸠

本文转自雷锋网禁止二次转载,原文链接

相关文章
|
10天前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
59 9
|
1月前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
57 2
|
21天前
|
人工智能 自然语言处理 机器人
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
10 月 18 日, InfoQ《C 位面对面》栏目邀请到阿里云 CIO 及 aliyun.com 负责人蒋林泉(花名:雁杨),就 AI 时代企业 CIO 的角色转变、企业智能化转型路径、AI 落地实践与人才培养等主题展开了讨论。
686 64
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
|
19天前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
9天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗领域的革命:智能诊断系统的未来
在科技日新月异的今天,人工智能(AI)技术正逐渐渗透到我们生活的每一个角落,其中医疗领域尤为显著。本文将探讨AI在医疗诊断中的应用及其带来的变革,重点介绍智能诊断系统的发展现状与未来趋势。通过深入浅出的方式,我们将揭示AI如何改变传统医疗模式,提高诊断效率和准确性,最终造福广大患者。
|
14天前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
108 6
|
28天前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
50 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
7天前
|
人工智能 自然语言处理 安全
AI技术在智能客服系统中的应用与挑战
【10月更文挑战第28天】本文将深入探讨人工智能(AI)技术在智能客服系统中的应用及其面临的挑战。我们将通过实例分析,了解AI如何改善客户服务体验,提高效率和降低成本。同时,我们也将关注AI在实际应用中可能遇到的问题,如语义理解、情感识别和数据安全等,并提出相应的解决方案。
|
30天前
|
人工智能 安全 自动驾驶
【通义】AI视界|英特尔和AMD“史无前例”首次合作,组建X86生态系统咨询小组
本文概览了近期科技领域的五大热点新闻,包括联想与Meta合作推出个人AI智能体“AI Now”,英特尔和AMD首次合作组建X86生态系统咨询小组,特斯拉计划大规模生产自动驾驶出租车,前Palantir首席信息安全官加盟OpenAI,以及Meta因涉嫌损害青少年心理健康面临美国多州诉讼。更多资讯,请访问通义平台。
|
1月前
|
数据采集 人工智能 测试技术
还在死磕AI咒语?北大-百川搞了个自动提示工程系统PAS
【10月更文挑战第4天】北京大学和百川智能研究人员开发了一种名为PAS的即插即用自动提示工程(APE)系统,利用高质量数据集训练的大型语言模型(LLMs),在基准测试中取得了显著成果,平均提升了6.09个百分点。PAS仅需9000个数据点即可实现顶尖性能,并能自主生成提示增强数据,提高了灵活性和效率。尽管存在训练数据质量和提示多样性等方面的潜在局限性,PAS仍为解决提示工程挑战提供了有前景的方法,有望提升LLM的可用性和有效性。论文详见:https://arxiv.org/abs/2407.06027。
41 3
下一篇
无影云桌面