AI与硬件的结合正逐步改变我们的生活方式,本期合集将带您了解AI+硬件的最新动态:
01「AI+硬件现状与趋势」
AI硬件现状
众多大厂和初创公司纷纷入局 AI 硬件领域,自 2019 年以来已有十多位大厂或知名公司高管下场创业。例如,字节跳动发布了集成大模型的智能耳机 Ola Friend,Rabbit 推出了 Rabbit R1 智能硬件并发布了新的通用跨平台代理系统 LAM Playground。
AI硬件:市场很大
2022年AI硬件市场规模为92.1亿美元,预计到2032年将达到465.9亿美元。
部分产品如 Humane AI Pin 等,虽曾吸引大量关注,却因功能不佳、依赖其他设备运行等问题,未得到市场广泛认可,销售不佳且退货多。产品功能存在缺陷,如 AI Pin 功能鸡肋,只能打电话、发信息、拍照,缺少 App 调用能力,续航和发热问题也被用户诟病。部分产品依赖手机运行,无法独立作为个人计算设备,导致未获得广泛市场认可。
到底是硬件+AI,还是AI+硬件?
AI硬件,到底该怎么做才好?
「甲子光年」认为,或许可以从“硬件”和“软件”两个方面思考这一问题,思考是“硬件+AI”还是“AI+硬件”。
做新的硬件产品一般有两种思路:一,在已有品类上做创新和提升;二,定义全新的品类。
第一种思路是“硬件+AI”的逻辑,用AI赋能本就存在的硬件产品,做功能的迭代升级,或者找准细分市场需求做差异化的创新。
第二种思路是“AI+硬件”的逻辑。AI作为一种新的技术形式,是可以从根本上变革个人计算设备的产品形态的。正如互联网催生了PC和笔记本电脑,移动互联网催生了智能手机、iPad,AI大模型也催生了Humane AI Pin、Rabbit R1等新的AI硬件形态。换句话说,可以通过软件定义硬件。
附上报道原文:
AI硬件的未来形态
怒喵科技 CEO 李楠参与播客《脑放电波》录制,围绕 AI 硬件展开了多方面的深入探讨。在热门案例盘点中,对 AI Pin、Ray - Ban Meta 智能眼镜、Limitless 项链、Rabbit R1 等进行了分析,指出了它们的特点、优势与不足,比如 AI Pin 因工程问题被认为三年内带显示的 AI 设备可能遇冷,Ray - Ban Meta 智能眼镜功能少而精获得成功等。
在 AI 硬件完整分析部分,提到了加速算力革命,以图片处理软件为例阐述了其与经典算力的不同,以及硬件应随之重新考虑;还谈到可穿戴设备作为计算中心的未来可能性,包括其应具备的特性和可能的形态等;同时对商业格局的变化也进行了展望,如开发者和产品经理角色的转变、边缘算力提供商的出现以及 AI device 渗透率的预测等。
对于 “AI 手机”,探讨了手机的生命力及与 AI 结合的必然性,也指出了手机厂商做 AI 手机面临的问题,包括利润挤压、转型困难等。最后,爆料了怒喵在研 AI 耳机的设计思路,如优先确保音频体验、设计高低端版本且高端带摄像头等,以及其其他特性,如算力在云端、受 5G 网络覆盖影响连接方式、价格较高、产品开发透明等,强调了当前 AI 硬件是风口,对硬件创业者而言充满机遇。
02「AI+电脑」
Claude 更新:功能全面升级与创新应用
Claude更新后功能多样且有显著提升。其模型能力方面,Claude 3.5 Sonnet在编码等多方面进步,多种测试中表现优异,推理等能力出色且无延迟增加;Claude 3.5 Haiku能力全面提升,智能基准测试成绩超越Claude 3 Opus,编码突出,低延迟且指令理解和工具使用精准,还将支持图像输入。同时,新增操作计算机功能,通过新的“计算机使用”API,Claude能将自然语言指令转换为计算机操作,模拟人在电脑前的操作,如查看屏幕、移动鼠标、点击按钮、输入文字等,可使用各种标准工具和软件程序。在OSWorld测试中正确率高于GPT - 4但低于人类,处于测试阶段有提升潜力,且已有GitLab用于自动化开发、Replit创建“自主验证器”、Canva探索设计编辑流程应用等案例。
自主完成供应商请求表单,通过从 CRM 系统中检索所需信息
附上报道原文:
Claude 更新,有惊喜!AI 直接操作电脑,产品创新遥遥领先 OpenAI
Computer Use的新功能,可以让Claude像人一样使用计算机!
Claude 的 Computer Use 功能在 AI + 硬件方面表现出色,具体包括:
- 在官方提供的填写表格的例子中,涉及到的数据分散在了电脑不同的位置,如果人工挨个寻找费时费力。现在,你只需要跟Claude说一声需求,它就会先“看”屏幕,发现所需要的数据不在这份表格里,马上掉头去CRM搜索所需数据。找到匹配的信息之后,Claude就会自己滚动网页,最后把对应的数据填写到相应的表格栏中。
- 根据用户想看金门大桥日出的指令,能够在网页上搜索相关信息,在地图中查找最佳观赏位置。进一步规划从用户所在地到金门大桥的出行路线,并将完整的出行方案自动添加到用户日历中,整合了网页搜索、地图应用和日历应用等不同软件功能。
- 对于编程任务,例如创建一个 90 年代风格的个人网站,可自动在电脑网页中打开 Claude 网站生成代码,并在网页上运行代码查看效果。当遇到如本地未安装 Python 等问题时,能够自行发现错误,并采取措施解决问题,如自动下载安装相关软件或库,直至完成整个编程任务,实现了与编程相关软件和工具的交互操作。
附上报道原文:
03「AI+手机」
荣耀在骁龙峰会展示 AI 手机功能
在骁龙 8 至尊版发布现场,荣耀展示了其 AI 手机功能。端侧 AI 具有主动性,如通过一句话命令,手机 AI 智能体可协助用户跨应用关闭自动续费服务,还能根据用户喜好找到常去咖啡馆并订购咖啡,展示了荣耀 MagicOS 9.0 上实装的全新荣耀 AI 智能体能力,荣耀 Magic7 系列将搭载该系统并于 10 月 30 日发布。
荣耀与高通合作取得了多方面成果,包括智慧互联实现多终端服务无缝流转、交互创新以一句话满足用户需求打破应用隔阂、性能提升解决游戏相关难题等。荣耀的 AI 战略架构涉及系统融合、操作系统重构、端侧应用以及端云协同等内容。在终端智能化分级标准下,荣耀处于领先位置,其 “一句话魔法” 达到 L3 级水平。同时,对 AI 手机未来进入自动驾驶时代进行了展望,并且 MagicOS 9.0 已经正式发布,荣耀 Magic7 系列也即将与消费者见面,届时用户可以亲身体验其 AI 手机功能和自动驾驶水平。
附上报道原文:
AI在手机上的应用新进展
AI在手机上的应用新进展,包括荣耀MagicOS 9.0及荣耀Magic7系列手机的YOYO智能助手和百度云智大会上展示的相关应用,体现了AI从本能反应到动脑子、从交付能力到交付服务、从单兵作战到团队协作的发展趋势。具体内容如下:
1. 荣耀YOYO点咖啡功能:荣耀MagicOS 9.0及荣耀Magic7系列手机的YOYO智能助手可自动拆分需求,打开APP并操作,完成点咖啡等任务。如赵明演示的“点三杯瑞幸的美式咖啡,大杯”,YOYO能确定点单环境,打开美团,通过阅读理解屏幕自动完成搜索店铺、下单等步骤,展示了AI动脑子推理和进化的成果。
以下视频来源于:AI产品榜
2. 百度一句话自驾游功能:百度执行副总裁沈抖在百度云智大会上演示了一句话完成自驾游安排,涵盖查攻略、安排行程、订机票酒店、规划自驾路线、支付等全流程。
以下视频来源于:AI产品榜
AI发展趋势
- 从本能反应到动脑子:OpenAI o1之前的模型多为本能反应的快思考,而o1及类似荣耀YOYO这样的应用开始动脑子进行慢思考,能更好地理解用户需求并完成任务。
- 从交付能力到交付服务:以ChatGPT和豆包为例,虽有强大对话能力和较多月活用户,但因缺乏场景未成为超级应用,AI应用月活率低。而荣耀YOYO点咖啡提供了完整服务,美团可能面临用户认知被改变的风险。
- 从单兵作战到团队协作:引用比尔·盖茨的话,指出荣耀和百度的应用都是通过多个智能体协作实现任务,如点咖啡任务中涉及思考问题、阅读理解屏幕等不同智能体协作,预示多智能体协作时代即将到来。
附上报道原文:
为什么 Siri 是渣渣,这才是 AI 在手机上该有的样子,中国 AI 颠覆你的手机使用方式|李榜主
Mobile-Agent-v2,一句话自己打车
Mobile-Agent-v2 开源框架的主要功能
一句话操作手机:用户可以通过简单的语音命令让AI助手完成复杂的任务,例如打车、查看天气并生成穿衣指南等。适用于老人及视障人群,解决他们不会使用或无法使用手机APP的问题。
跨应用操作:AI助手能够跨多个应用程序完成任务。例如,查看聊天软件中的未读消息,并按照未读消息的要求完成任务(如在TikTok中找到宠物相关的视频并分享给消息发布者)。在社交媒体平台上搜索名人、关注并评论帖子等复杂任务也能顺利完成。
多语言支持:Mobile-Agent-v2不仅支持英文场景,还支持非英文场景,包括中文应用上的表现,如在小红书中搜索攻略并评论,以及帮助用户回复微信消息。
附上报道原文:
04「AI+机器人」
智元人形机器人
智元机器人在发展过程中成绩斐然。从发布会的历程来看,一年内实现了产品的快速丰富与成熟,团队在筹备过程中全力以赴,展现出强大的拼搏精神。产品方面,双足形态适合与人做轻交互场景,如引导、接待、迎宾等;轮式适用于结构化环境下的任务执行,如工厂场景,且未来双足技术成熟后未来有望统一形态,且注重软件和智能系统开发,同时兼顾硬件,在多方面技术上积极布局。市场竞争中,通用机器人赛道竞争激烈,智元通过扩团队等方式应对,产品已在 4S 店导购场景成功落地,并计划重点投入制造业,总结了相关场景类别,且有出海布局以吸引人才和开展合作,整体发展态势良好,潜力巨大。
附上报道原文:
智元机器人自研中间件AimRT
智元机器人自研的中间件 AimRT 于 2024 年 9 月 25 日开源,它是基于现代 C++ 开发的轻量通信中间件,旨在解决 ROS2 在机器人 + AI、机器人 + 云等方面的不足。它具有轻量、设计现代、插件化、支持多种通信方式、对云与 AI 领域友好且兼容 ROS2 等特点,其架构包含核心功能及多种模块和接口。AimRT 与 ROS2 在定位、通信中间件层面及生态层面有区别也有联系,适用于传统机器人、AI、云服务后台等领域开发者以及特定类型的软件开发者。目前 AimRT 存在原生生态需积累、使用量小等不足,后续将小步快跑迭代,预计年底发布正式版,通过开源开放和生态共创吸引开发者参与建设,推进产业发展。
附上报道原文:
双臂机器人扩散大模型RDT,懂调酒能遛狗
清华大学开源了全球最大双臂机器人扩散大模型 RDT。该模型成果显著:
- 调酒能力:RDT 可指挥机器人双臂完成调酒任务,如调 Malibu Sunset 鸡尾酒,能精准完成倒冰块、加酒、注入石榴汁、夹柠檬片等操作。
- 遛狗操作:在 RDT 指挥下,机器人能握住迷你摇杆控制机器狗走直线,而其他模型无法做到。
- 指令遵循:RDT 能理解并遵循人类语言指令,倒水时可精确控制水量,其他模型则难以做到。
- 适应能力:RDT 能在未见过的杯子、不同场景中端茶倒水,适应环境变化。
- 学习能力:RDT 学习叠衣服仅需演示 1 遍,而其他模型需几十遍。
在指令遵循、适应能力和学习能力等方面表现出色。其具有模型参数量大、预训练数据集大以及双臂微调数据集大的特点优势。在设计原理上,涉及多模态输入编码、网络结构改进和独特的训练方式。通过 7 个挑战性任务的测试评估,显示 RDT 在多个方面表现优秀,且扩散建模等因素有助于提升其性能。
附上报道原文:
清华开源全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶HF具身热榜
05「其他+硬件」
AI和Arduino打造一个智能桌宠(桌面机器人)
上半年出现的 LOOI 桌面小宠物,借助 AI 可在桌面自由滑动、进行动作捕捉、人脸识别等,能提供情绪价值,价格为 1580 元,引发关注。通过 5 天的 “地狱式” 开发,利用 AI 和 Arduino 打造智能桌宠,最终未完成项目,摄像头捕捉部分问题多,如软件安装编译不顺利,后调整策略先解决其他问题再处理摄像头。
附上报道原文:
【小白也能学】从挫败到突破,5天地狱式开发,如何用 AI 和 Arduino 打造属于自己的智能桌宠?——慢慢学AI144
Rabbit R1,在 R1 上能做许多事情
Rabbit R1 是一款备受关注的AI硬件设备,但在发布后遭遇了一些质疑和负面评价。
尽管如此,Rabbit公司并没有放弃,而是继续推进其功能和技术。R1 通过意图分类系统理解用户意图,将文本发送给 LLM 提供商,再触发不同 API 或功能,可在网页操作 Spotify、DoorDash 等服务,虽不使用 API 但能实现功能且维护工作量小。近期推出的 LAM Playground 是通用跨平台代理系统第一步,用户可语音访问网站浏览,智能体可分解步骤执行任务,开发者还能用其创建应用程序。与巨头相比,Rabbit 优势在于快速推出新产品,R1 能做一些 iPhone 无法做到的事,如通过代理技术访问无 API 的服务。
附上报道原文:
全球最火 AI 硬件创始人回应一切:在 R1 上能做的许多事情,你无法在 iPhone 上做到
「Ray-Ban Meta」智能眼镜,可以每天佩戴的智能眼镜
Meta眼镜增加了摄像、耳机及AI功能,用户可以通过语音指令“Hey Meta”与内置的AI进行交互。只需要用右手长按镜框上的一个按钮,就可以开启摄像功能。如果不愿意用手操作,还可以选择语音操作——喊一句「Hey Meta,开始录制」。
Meta 眼镜在外观上与普通的雷朋太阳镜非常相似,提供了多种框架和颜色选择,美观且时尚。重量为48克,接近普通眼镜的舒适区,佩戴体验较好。
同时具有极强的防抖效果,最长录制时间三分钟。比如在高速驾驶的情况下看到了美丽的风景、在骑马的马背上不允许携带手机的时候、在和儿童或宠物进行交流的时候等等。在这些场景下,Meta 眼镜的出现让我看到了一种新的可能。
附上报道原文:
戴了「Ray-Ban Meta」两个月,我开始相信 AI 眼镜的未来
豆包耳机,AI朋友
字节跳动发布了集成了豆包大模型的智能耳机Ola Friend。Ola Friend 是一款全开放式(OWS)耳机,不入耳,通过空气传导声音,佩戴舒适。耳机采用紫色设计,颜色鲜艳且精致。佩戴在耳朵上非常别致,与其他耳机不同,给人一种特别的感觉。
功能
- 语音助手功能:用户可通过 “豆包豆包” 唤醒 AI 助手,实现查询单词发音、释义等操作,还能获得发音指导和记忆方法,助力英语学习。其日常使用场景丰富,涵盖学习、做饭及日常生活各方面,随时为用户答疑解惑,如解决做饭步骤疑问、解释各类生活现象等。
- 多轮对话能力:支持多轮对话,能更好理解用户意图并顺畅交流,且随着使用增加,对用户需求的理解和回应会更出色。
好像有了一个全知全能、随时会回应我的AI朋友。这种陪伴的感觉,手机还真不行,只有AI耳机才能做到,无时无刻。
技术特点
- TTS 模型:TTS 模型在情感和语气表达方面表现卓越,音质好听。
- 佩戴体验:作为 OWS 耳机,佩戴几乎无压迫感,长时间佩戴舒适。
AI 耳机一些未来可能的功能,例如在面对面讨论时开启录音,并自动将录音传送到飞书妙记中生成会议纪要。另外,还提到出国旅行时可以使用耳机进行实时翻译,以及与预设好的智能体对话等功能。随着更多功能的加入和生态系统的完善,Ola Friend 有望成为未来AI硬件的重要组成部分。
附上报道原文:
更多信息,请点击链接👇查看魔搭品牌馆原文~
https://modelscope.cn/brand/view/Mobile-Agent?branch=0&tree=3