这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试
【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)
响应式web设计之CSS3 Media Queries
开始研究响应式web设计,CSS3 Media Queries是入门。
Media Queries,其作用就是允许添加表达式用以确定媒体的环境情况,以此来应用不同的样式表。换句话说,其允许我们在不改变内容的情况下,改变页面的布局以精确适应不同的设备。
如何解决VQA语言先验问题?阿里文娱提出新思路
本文对北京理工大学、阿里文娱摩酷实验室合作的论文《Overcoming Language Priors in VQA viaDecomposed Linguistic Representations》进行解读,该论文发表在AAAI 2020,提出了一种基于语言注意力的视觉问答方法。我们的方法可以灵活地学习和利用问题中各种信息(问题类型,指代对象和期望概念)的分解表达。因此我们的方法可以最大程度地减少语言先验的影响,并实现透明的回答过程。
DinamicX 详解:如何让盲人也能在线购物?
目前中国有 1700 多万视障人士,在互联网发达的今天,他们无法像大部分人一样享受到互联网带来的便利,比如用手机网购。不过我们可以通过技术来改善这一现状,最大程度地让他们的生活更加便捷。本文分享手淘在使用 DinamicX 支持无障碍上的技术方案,并给出了相关示例,希望对移动端开发者有所启发。(文末福利:Git 快速上手公开课)
盲人也能用,优酷App做了哪些无障碍实践?
虽然Android和iOS系统本身就有对无障碍技术的官方支持,但是随着各种技术的迭代和演进,以及页面内容的复杂度的增加,靠系统自身的支持已经远远无法达到理想的无障碍用户体验。优酷客户端针对视障群体实际需求及反馈进行梳理,并进行了全面的深度适配和体验优化。本文分享相关技术细节和实践经验。