仅100多元,他给视障人群装上AI“眼睛”

简介: 上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。

在上海的一间小工作室里,两位从未碰过硬件的搭友,决定用胶带蒙住双眼,戴上自己手搓的 AI 眼镜,走上街头,当一天“盲人”。


这不是行为艺术,而是一场关于“AI能否真正帮助视障群体”的校验。

https://www.bilibili.com/video/BV1THstzuEZ9/?spm_id_from=333.337.search-card.all.click


从一条评论开始的公益之旅

2022年,魔搭社区的搭友“帆哥”开始探索 AI 视觉能力。今年,他做了许多展示Qwen-VL(通义千问多模态模型)能力的视频,评论区总会看到类似这样的评论:

“既然 AI 这么强,那为什么街上看不到盲人用它?”

这句话像一根刺,扎进了他的心里。

帆哥和他的伙伴国宇决定:要让AI成为视障人士的“第三只眼”。


100多元、3D打印:做一款“真能用”的AI眼镜

市面上的导盲设备要么笨重,要么昂贵,动辄上千元。 他们给自己定下四个硬指标:轻便、便宜、小巧、低延时。


经过不断的实践、踩坑,最终帆哥终于研发出一种方案,初步符合这个严苛的要求:

他们基于云端大模型 Qwen-Omni API,构建了一套高性价比的实时环境感知系统,其硬件成本仅100元出头。


所有数据通过ESP32连接手机热点上传至云端服务器,由 Qwen 理解用户语音意图,调度不同“工作流”——比如:“帮我找西瓜”“过马路”“识别盲道”。每个工作流中都有一个小模型来做接近实时的路径和物体的检测。


系统以20帧/秒的频率进行语音实时反馈:“向左”“右移”“保持直行”……

这些声音,成了黑暗中唯一的导航。

被盲协主席“泼冷水”后,他们重做了一版

项目初期,帆哥满怀期待地带着AI眼镜去见上海市杨浦区盲人协会赵主席——一位体验过无数视障产品的资深用户。

结果?

产品频频出bug、指令混乱、设计“没戳中痛点”。

赵主席委婉地指出问题,帆哥意识到产品需要回炉重造。

没有气馁,他们连夜重构系统,提升鲁棒性,优化语音交互逻辑。

“而且这次我们得自己亲身实测!一定要让他靠谱”帆哥如是说。



蒙眼实测:恐惧、崩溃,也有温暖

第一次上街测试,帆哥蒙上双眼,心跳加速。

“闭上眼站在马路中间,电瓶车从耳边呼啸而过——那种恐惧,无法形容。”


还好AI眼镜真的在工作:

  • 精准识别灰色盲道,哪怕被落叶覆盖
  • 检测盲道上的电瓶车、摊位、行人
  • 在斑马线前识别红绿灯,提示“绿灯,可以通行”
  • 实时纠偏:“左转,左转,右移!”


经过练习后,帆哥连续走过4个街区、3个红绿灯,仅用27分钟——而过去走1/4路程就要30分钟。


更让他动容的是路人的善意:

  • 有大叔默默挪开占用盲道的电瓶车
  • 有小女孩在看到帆哥走偏以后,小声提醒“往右边走”
  • 有学生主动询问:“需要我带你过去吗?”

“技术能导航,但人心才是真正的光。”他说。


开源,为了让更多人加入这场“照亮”行动

目前,AI眼镜项目的全部代码、硬件清单、3D外壳模型和部署教程,均已在魔搭社区开源。




帆哥说:“我们开源出来,是希望有人能在此基础上做出更好的版本——哪怕只帮到一个人,也值得。”


他同时呼吁更多开发者可以关注魔搭社区发起的AI公益赛事,用AI传递ai!


开源项目:

https://www.modelscope.cn/models/archifancy/AIGlasses_for_navigation


魔搭「小有可为」AI 开源公益创新挑战赛:

https://www.modelscope.cn/competition/136


魔搭作为AI开源社区,我们致敬的不仅是乐于分享技术的人,更是那些愿意走进黑暗、倾听无声需求,并坚持用技术点亮微光的开发者。


帆哥说:“测试完撕下眼罩那一刻,那种感觉很复杂——但我可以和你保证,如果你是一个拥有健全身体的“普通人”,那么你已经足够幸运了。”



点击了解魔搭「小有可为」AI 开源公益创新挑战赛,四大赛道

「小有可为」AI 开源公益创新挑战赛modelscope.cn/active/small-but-promising?=pr

欢迎报名参加~

ModelScope 魔搭社区www.modelscope.cn/competition/136/%E6%AF%94%E8%B5%9B%E7%AE%80%E4%BB%8B

目录
相关文章
|
4月前
|
人工智能 程序员 开发者
「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者
10月24日程序员节,魔搭社区联合知乎发布《THE NEXT WAVE:AI时代开发者生态白皮书》,揭示AI时代开发者新画像:以“超级个体”为核心,兼具技术与商业闭环能力,工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征,展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。
359 0
|
4月前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
409 1
|
4月前
|
人工智能 编解码 芯片
【AI绘画】你有多久没有打开SD了?
曾几何时,Stable Diffusion的复杂参数令人崩溃,如今即梦、可灵等AI工具已让生成图片变得轻而易举。哩布哩布发布2.0升级公告,看似迈向更易用的未来,却也悄然为那个钻研模型、拼接工作流的“拓荒时代”奏响终章。技术迭代飞快,但那份对创造的热爱与探索精神,永不褪色。
799 9
刚刚参加了一个MCP赛事,奖金还可以,搭友们可以去试试看
社区8月比赛未获奖有点失落,但发现通义灵码×蚂蚁百宝箱MCP赛事正火热进行!参赛即有机会赢取丰厚奖金,激励满满,令人眼前一亮。已跃跃欲试,搭友们快来一起冲榜夺奖吧!https://tianchi.aliyun.com/competition/entrance/532442
|
3月前
|
自然语言处理 语音技术 Apache
阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX
阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,支持零样本TTS、多语言方言及情感、风格、副语言特征精准控制,采用统一LLM框架,实现文本驱动音频创作。
706 88
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式
通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。
754 1
|
3月前
|
人工智能 搜索推荐 API
蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」:你的全能城市向导来啦~
蚂蚁百宝箱联合深铁集团、深圳通推出全国首个“公共出行+城市服务”AI智能体「深铁宝」,上线于深圳地铁、深圳通及支付宝APP,实现一句话直达、秒级响应的智慧出行体验,涵盖出行规划、乘车码快捷调取、周边生活服务推荐等一站式功能,助力城市交通与服务数字化升级。
512 30
|
6月前
|
机器人 图形学 开发者
腾讯混元最新开源:一张图,秒变游戏大片
有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?
506 3