“今日热点:AI像人类一样使用手机和电脑”,魔搭社区的开源项目已先行一步

简介: 今天,Claude发布了Computer Use的新功能,可以让AI像人一样使用电脑!

今天,Claude发布了Computer Use的新功能,可以让AI像人一样使用电脑!

在官方提供的填写表格的例子中,涉及到的数据分散在了电脑不同的位置,如果人工挨个寻找费时费力。

现在,你只需要跟Claude说一声需求,它就会先“看”屏幕,发现所需要的数据不在这份表格里,马上掉头去CRM搜索所需数据。找到匹配的信息之后,Claude就会自己滚动网页,最后把对应的数据填写到相应的表格栏中。

而整个演示的过程,无需人类任何的参与!让大家感受到了什么叫做“生产力的极大提升”!但也有一线开发者热评:

让我们也来顺势回顾一下Mobile-agent:

通义NLP实验室联合魔搭社区在今年2月份推出了Mobile-Agent框架(开源地址:https://github.com/X-PLUG/MobileAgent),在手机端和PC端实现了高级的RPA(Robotic Process Automation)功能。Mobile-Agent通过纯视觉方案,利用视觉感知工具和操作工具,实现了智能体在手机上的自动化操作,无需依赖系统级别的UI文件,展现了即插即用的能力。Mobile-Agent的推出,迅速在AI领域和手机制造商中引起了广泛关注。让我们看下官方和开发者出的一些demo:

案例1:PC端自主化操作

  • 通过浏览器访问网页并下载保存文件
  • 在Microsoft Word中创建新文档、编辑文本及保存文件
  • 通过浏览器访问网页并复制文字发送消息给阿里钉

0bc35aaaoaaa6yalqoiy -small-original.gif

好的标题可以获得更多的推荐及关注者


案例2:一句指令操作手机

  • 帮你点奶茶
  • 帮你打微信视频电话
  • 帮你搜索旅游攻略并发给自己微信好友

0b2ebiaauaaayyali2yy -small-original.gif

好的标题可以获得更多的推荐及关注者


案例3:智能抓药机械臂

它可以通过语音对话了解用户病症并思考合适的药品,通过视觉理解模型识别不同药品,然后驱动机械臂抓取药物到指定的盘子。

image.png


好的标题可以获得更多的推荐及关注者

在大模型加持下,AI硬件正当时。

成熟终端手机、汽车、电脑等正加装AI能力作为新卖点,同时,新的硬件形态层出不穷,如Meta-Ray Glass、Rabbit R1、Plaud Note的先行者已创造销量奇迹;AI玩具、AI穿戴设备、AI教育工具、AI机器人各个赛道也是群雄角逐。

中国电子产业链成熟,加上AI能力后更显生机勃勃。在此节点,魔搭社区、阿里云、英特尔共同发起「2024 AI+硬件创新大赛」,一起推动AI硬件的创新创业,孵化和助力下一个现象级AI+硬件产品。奖金池总共50万!欢迎各位开发者组队参与这次比赛!


比赛详情:https://startup.aliyun.com/aihackathon/ai3c

One More Thing

如果想跟Mobile-Agent作者团队面对面沟通,还可以报名参加上海场沙龙~


   往期回顾


点击链接👇查看比赛详情!

https://startup.aliyun.com/aihackathon/ai3c

相关文章
|
2月前
|
人工智能 Rust 自然语言处理
37.1K star!AI模型全能工具箱,这个开源项目让智能体开发更简单!
"Awesome MCP Servers 是当前最全面的模型上下文协议服务器集合,为AI开发者提供开箱即用的工具链支持。通过标准化协议实现AI模型与各类资源的无缝对接,堪称智能体开发的瑞士军刀!"
104 7
|
2月前
|
人工智能 自然语言处理 安全
90.9K star!一键部署AI聊天界面,这个开源项目让大模型交互更简单!
"像使用微信一样操作大模型!Open WebUI 让AI对话从未如此简单"
118 0
|
3月前
|
人工智能 自然语言处理 机器人
9.9K star!大模型原生即时通信机器人平台,这个开源项目让AI对话更智能!
"😎高稳定、🧩支持插件、🦄多模态 - 大模型原生即时通信机器人平台"
|
1月前
|
人工智能 Cloud Native Java
2025 开源之夏开启报名|AI + 云原生,10个开源项目、24个课题任您挑选
“开源之夏”是由中国科学院软件研究所发起的暑期活动,旨在鼓励高校学生参与开源软件开发与维护。活动联合各大开源社区提供项目任务,面向全球年满18周岁的高校学生开放报名。每位学生最多可申请一个项目。阿里云云原生提报了包括Apache Dubbo、RocketMQ、Seata等在内的10个开源项目共24个课题,涵盖技术优化、功能实现及AI应用等领域。活动流程包括选题、申请、开发与结项考核,具体信息可访问官网了解。
1011 32
|
3月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
3004 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
2月前
|
人工智能 安全 虚拟化
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
Cua是一个结合高性能虚拟化与AI代理能力的开源框架,能在Apple Silicon上以接近原生性能运行虚拟机,并让AI直接操作系统应用。
292 17
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
|
6月前
|
数据采集 自然语言处理 安全
控制电脑手机的智能体人人都能造,微软开源OmniParser
微软研究团队推出OmniParser,旨在提升GPT-4V等多模态模型在用户界面操作方面的性能。通过解析用户界面截图为结构化元素,OmniParser显著增强了模型的交互能力,使其在多种基准测试中表现出色。该技术开源,促进了社区合作与技术创新,但同时也面临数据质量、计算资源及安全隐私等挑战。
313 14
|
5月前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
495 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
3月前
|
人工智能 API 决策智能
还在蹲Manus的邀请码?别等了!开源版Manus为你快速创建AI工位,给AI一台电脑,然后你就玩去吧!
OpenManus 是 MetaGPT 的开源 AI 平台,支持多语言模型和工具链,执行代码、处理文件等任务,具备实时反馈。OWL 基于 CAMEL-AI,支持角色分配、任务分解和记忆功能,实现高效任务自动化。
803 22
还在蹲Manus的邀请码?别等了!开源版Manus为你快速创建AI工位,给AI一台电脑,然后你就玩去吧!
|
4月前
|
人工智能 自然语言处理 安全
【2025】世界顶级AI模型本地部署私有化完整版教程 DeepSeek-R1+Ollama+ChatboxAI合体,瞬间升级你的个人电脑秒变智能神器!
震撼发布!让你的电脑智商飙升,DeepSeek-R1+Ollama+ChatboxAI合体教程,打造私人智能神器!
654 42
【2025】世界顶级AI模型本地部署私有化完整版教程 DeepSeek-R1+Ollama+ChatboxAI合体,瞬间升级你的个人电脑秒变智能神器!
下一篇
oss创建bucket