信息无障碍

首页 标签 信息无障碍
# 信息无障碍 #
关注
367内容
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试
【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)
一个在北美学设计学生的笔记
学设计第一个要认识到的就是设计不是艺术。我就是一开始没有分清这个概念,在第一次上设计课时可苦大了。设计是沟通,是传达,而艺术是表现,是创 作。这并不是说设计里没有表现的成份,更不是说艺术是不在乎沟通的。
【晒出你的第83行代码】十年全栈编程,视障工程师@蔡勇斌带我们走进他的代码视听世界
作为一个拥有10年PC开发经验的盲人程序员,他不仅参与了钉钉无障碍版本的测试,还编写过很多帮助盲人使用电脑之类的软件。他带我们走进了属于他的代码视听世界,让更多盲人看见。
阿里巴巴发布助残报告:17万残疾人在淘宝天猫三年创造销售额近300亿
6月26日,阿里巴巴联合中国残疾人联合会发布《阿里公益助残报告》,报告显示,2016年8月至2019年5月,共有17.41万残疾人在淘宝天猫注册网店,这些网店创下了298.4亿元销售额。
深度学习中的Normalization模型(附实例&公式)
本文以非常宏大和透彻的视角分析了深度学习中的多种Normalization模型,从一个新的数学视角分析了BN算法为什么有效。
如何解决VQA语言先验问题?阿里文娱提出新思路
本文对北京理工大学、阿里文娱摩酷实验室合作的论文《Overcoming Language Priors in VQA viaDecomposed Linguistic Representations》进行解读,该论文发表在AAAI 2020,提出了一种基于语言注意力的视觉问答方法。我们的方法可以灵活地学习和利用问题中各种信息(问题类型,指代对象和期望概念)的分解表达。因此我们的方法可以最大程度地减少语言先验的影响,并实现透明的回答过程。
AI-DSW 上编辑嵌套式模型实现Resnet手势识别
体验了KerasGraph后,个人感觉它代表了最新的ai开发环境演进方向——类似轻代码(low code)编辑器,可以快速构建模型结构并验证模型效果,提升了我们对模型结构的实现效率,避免纠结与在TF过于繁琐的源码,而是Focus在模型结构优化本身,总体来说还是不错的。
物联网在教育中的应用简介
物联网进入主流教育可能还需要一段时间。本文关于物联网在教育中的应用的目的是阐明将物联网集成到教育环境中所产生的强大效益。
免费试用