Siri不够聪明,再给它一双眼吧!CMU与苹果合作,摄像头让AI助手更精确

简介: Siri不够聪明,再给它一双眼吧!CMU与苹果合作,摄像头让AI助手更精确

你也向往科幻片里的语音助手吗?比如托尼家的Jarvis、Friday,引得众多漫威迷的羡慕,它们不止是语音助手,简直可以说是智能管家!从生活起居到组装钢铁战衣再到研究敌人装备,可以说是无所不能。

再看看自己手机里的语音助手,只能通过它调用一些基本功能,更不可能跳出手机跟主人在现实中互动。

然而,近期卡内基梅隆大学人机交互研究所的研究人员设计了一款名叫“WorldGaze”的IOS程序,似乎可以将手机中的AI语音助手带到现实中来,进一步融入我们的生活。

AI语音助手跳出屏幕,走进现实

这个AI系统可以同时调智能手机的前后摄像头,通过前置摄像头在现实空间中定位用户的头部,而后置摄像头可以实时观察用户周围的场景,并利用计算机视觉技术解析识别附近的物体。

当你走在路上时,AI可以将你的头部和眼睛作为指针,当你将视线转向路上的任何建筑或物体时,AI也可以随之检测到。

不仅如此,AI还能掌握这些建筑或物体的信息,甚至当你看到路边的星巴克时可以问它,“星巴克什么时候关门?

又或者当你走进一家零售店,问它“那款沙发还有其他颜色可以选择吗?”,“这把椅子和那把椅子哪个更便宜?”它都可以解答你的疑问,随时与你互动。

回到家中,AI语音助手还可以与你的智能家居网络进行互联,你可以远程控制各种设备,例如你看向电视并对语音助手说“打开它”,电视就能打开,而无需说出家具名称。这款语音助手可以结合你的视线和语音,简化操作语音指令。

这款AI语音助手未来有望应用到AR眼镜上

该AI语音助手的研究人员Chris Harrison称,希望这项技术能够有助于“社交化移动AR体验”,让人们变成“抬头族”,而不再是走在路上低头刷手机。

愿望是美好的,然而现在的技术还存在一定的局限性。比如,AI需要通过手机后置摄像头拍摄来检测物体,然而用户一直举着手机并不方便,也难免会有些尴尬。

或许像智能眼镜之类的设备才是更适合这种AI语音助手的载体。Harrison也证实,该软件可以轻松地应用在AR眼镜上。

Harrison还称,“两种可能性都有,”他们目前选择专注于智能手机,只是因为现阶段手机已经成为了每个人的必需品,而目前几乎没有人戴AR眼镜。

他补充道,“AR眼镜越来越多地加入了追踪注视位置的传感器(比如Magic Leap,它用于对焦),所以在这种情况下,人们只需要一个向外的摄像头就可以了。”

如果这项黑科技再向前迈进一步又可以做到什么?

会不会就越来越像科幻片中的场景,当我们走在路上,戴着眼镜,看向一位路人,问“那是谁?”,语音助手在短短几秒内调取了这个人的资料读给你。

当然,这还只是开发人员一个大胆的猜想,因为要想系统与面部识别技术相结合,那么必须要得到人脸信息相关数据库的合法授权。

随着科技的进步,科技所面临的社会争议也愈发强烈,当开发人员被问及这种可能性时,Harrison表示,“必须要得到许可,还需要具备一定程度的安全性,这不是我们目前正在考虑的事情,但这是一个有趣的,也可能是一个可怕的想法

相关报道:

https://techcrunch.com/2020/04/15/worldgaze-uses-smartphone-cameras-to-help-voice-assistants-cut-to-the-chase/

相关论文:https://chrisharrison.net/projects/worldgaze/WorldGaze.pdf


相关文章
|
人工智能
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
谷歌和苹果的研究揭示了大型语言模型(LLM)的惊人秘密:尽管LLM能自主识别错误,却在生成答案时装作不知情。这一“幻觉”现象背后,模型内部已编码了关于输出真实性的信息,但其外部表现与内部判断常有矛盾,暴露出LLM在实际应用中的局限性。研究为未来开发更有效的错误检测和缓解策略提供了新思路。论文地址:https://arxiv.org/pdf/2410.02707
292 30
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
1100 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
8月前
|
传感器 数据采集 人工智能
AI是如何收集体育数据的?从摄像头到算法,揭秘赛场背后的“数字间谍网“!
⚽ 你是否好奇:AI如何知道哈兰德每秒跑多快?教练的平板为何比裁判还清楚谁偷懒?本文揭秘AI收集体育数据的“黑科技”:视觉追踪、传感器网络、数据清洗与高阶分析。从高速摄像机捕捉梅西肌肉抖动,到GPS背心记录姆巴佩冲刺速度;从表情识别判断装伤,到量子计算模拟战术可能,AI正让体育更透明、精准。未来已来,2030年世界杯或将实现AI替代球探、裁判甚至教练!你认为AI数据收集算侵犯隐私吗?最想统计哪些奇葩指标?留言互动吧!
|
人工智能 机器人 芯片
【通义】AI视界|苹果发布macOS Sequoia 15.1最新公测版:可体验Apple Intelligence
本文概览了近期科技动态,包括英伟达与台积电合作遇阻、亿万富翁投资者Druckenmiller后悔清仓英伟达、阿斯麦财报显示芯片需求复苏缓慢、苹果发布macOS Sequoia 15.1公测版及波士顿动力与丰田合作推进人形机器人技术。更多信息,请访问通义。
|
11月前
|
人工智能 编解码 算法
如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送
本文详细讲解了在Python环境下使用大牛直播SDK实现RTMP推流的过程。从技术背景到代码实现,涵盖Python生态优势、AI视觉算法应用、RTMP稳定性及跨平台支持等内容。通过丰富功能如音频编码、视频编码、实时预览等,结合实际代码示例,为开发者提供完整指南。同时探讨C接口转换Python时的注意事项,包括数据类型映射、内存管理、回调函数等关键点。最终总结Python在RTMP推流与AI视觉算法结合中的重要性与前景,为行业应用带来便利与革新。
645 5
|
12月前
|
数据采集 人工智能 监控
Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%
Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。
630 4
|
存储 人工智能 安全
【通义】AI视界|苹果停止签署iOS 18.0.1,升级用户无法降级
本文由通义自动生成,涵盖24小时内精选的五条科技资讯:奥特曼谈OpenAI未来发展方向,ChatGPT新搜索功能上线遇故障,Perplexity AI选举搜索面临挑战,马斯克谈特斯拉造手机的可能性,以及苹果停止签署iOS 18.0.1。更多精彩内容,欢迎访问通通知道。
|
人工智能 自动驾驶 搜索推荐
【通义】AI视界|苹果AI本周正式上线,将引入四大功能
本文由【通义】自动生成,涵盖苹果AI上线、特斯拉被华尔街重新评估、谷歌开发控制计算机的AI、Meta与路透社合作及Waymo获56亿美元融资等科技动态。点击链接或扫描二维码获取更多信息。
|
人工智能 自动驾驶 机器人
【通义】AI视界|苹果自动驾驶汽车项目画上句号:加州测试许可被取消
本文精选了24小时内的重要科技新闻,包括Waymo前CEO批评马斯克对自动驾驶的态度、AMD发布新款AI芯片但股价波动、苹果造车项目终止、Familia.AI推出家庭应用以及AI逆向绘画技术的进展。更多内容请访问通义官网体验。
|
人工智能 自然语言处理 安全
【通义】AI视界|2分钟看完苹果发布会:iPhone16 5999元起售,全系支持苹果AI
本文精选了过去24小时内的重要科技新闻,包括苹果发布iPhone 16、Sora模型发布时间未定、快手可灵AI发布导演共创计划、高盛对ChatGPT流量下滑的误判以及vivo即将发布蓝心大模型。文章详细介绍了各新闻的关键信息和背景,帮助读者快速了解最新动态。点击链接访问通义官网,体验更多功能。