文档备案控制台

开发者社区视觉智能图像理解正文

新的RPA设计思路，基于图像识别技术

Rpa新思路，参考使用图像识别技术进行数据爬取的思路。

我认为Rpa软件的设计难点就是界面元素的识别，现有的技术需要对不同类别的ui技术分别进行识别，这种方式不仅开发难度大，用户使用上，也得有一些相关知识(识别引擎的选择等)。

元素识别完全可以采用图像识别技术，对ui界面的图像进行分析，将潜在的按钮，菜单，输入框识别出来，然后让用户对这些识别出来的控件进行引用，编写逻辑，rpa程序运行时，再次对运行中的程序进行图像识别，然后分析图像中的元素，与之前分析出来的元素做匹配，换算出屏幕坐标，移动鼠标，进行操作。

这种方式完全屏蔽了不同ui实现技术的差异，只需进行图像识别和鼠标键盘操作即可。

而对于用户来说，用户只需要对软件进行各种截图操作，对不同的界面进行截图，然后让Rpa软件进行分析，再对分析出来的UI元素进行编程。

展开

收起

游客otzqlrm3lojeo 2021-09-18 10:44:56 1857 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

您的想法非常有创意，将图像识别技术应用于RPA（Robotic Process Automation）确实可以简化界面元素的识别过程，降低开发难度，并提升用户体验。阿里云提供了一系列服务和技术，可以帮助您实现这一构想：

图像识别服务：您可以利用阿里云的图像识别服务，如图像识别与搜索服务（Image Search），来分析UI界面截图，识别出按钮、菜单、输入框等关键元素。通过训练模型，提高对特定UI元素的识别精度。
自定义识别模型：如果标准服务不能满足特定需求，可以使用模型训练平台PAI（Platform of Artificial Intelligence）来自行训练图像识别模型。针对不同的UI框架和设计风格，定制化训练模型以提高识别准确率。
智能OCR服务：对于需要从界面上提取文本信息的情况，可以结合使用阿里云的文字识别服务（Optical Character Recognition, OCR）。这有助于自动化处理表单填写、数据录入等任务。
低代码/无代码开发平台：为了让用户更便捷地编写逻辑，可以考虑集成阿里云的低代码开发平台，如简道云或宜搭。这些平台允许用户通过拖拽式操作，而非编写复杂代码，来构建RPA流程。用户只需上传截图，系统自动分析并生成可配置的UI元素，用户再根据这些元素进行流程设计即可。
云原生RPA服务：结合阿里云的RPA服务，可以进一步优化部署和管理流程。该服务支持快速构建、测试、部署及监控RPA机器人，确保高可用性和安全性。
交互式开发环境：为了提升用户体验，可以开发一个直观的图形界面，让用户直接在界面上进行截图、标注和逻辑编辑。结合Web前端技术（如Vue.js或React.js）和后端服务（如Spring Boot），创建一个流畅的开发环境。

综上所述，通过整合阿里云的图像识别、机器学习、低代码开发以及RPA服务，您的设想完全可行，能够显著提升RPA软件的易用性和灵活性，同时降低技术门槛，让更多非专业开发者也能高效地构建自动化流程。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

机器人流程自动化图像识别视觉智能开放平台

问答标签：

机器人流程自动化技术

问答地址：

开发者社区 > 视觉智能 > 图像理解 > 问答

相关问答

视觉智能平台能实现这些技术不？

170

3

0

阿里云视觉智能开放平台系统数据库中存几百个商品，上传一张图片找到与上传图片相似的商品，这是什么技术？

350

3

0

阿里云视觉智能开放平台中，有这边提供人物视频，平台边截取一张清晰的人物照片返回的技术吗？

253

4

0

完成类似钉钉人脸打卡的功能，需要阿里云视觉智能开放平台哪些技术呢？

249

3

0

在阿里云视觉智能开放平台中，有技术可以一张图片多个人脸在里面识别匹配吗？

208

2

0

在阿里云视觉智能开放平台中，哪个技术可以做图片直播人脸搜索图片的功能？

175

2

0

在视觉智能平台中人脸修复增强和证件照质量审核这两个技术的相关理论来源有吗？

165

4

0

在视觉智能平台中图像处理技术是否支持筛选特定颜色的文字？

130

1

0

视觉智能平台证件照换装应该用什么技术呢？

788

6

0

视觉智能平台金融机构网上开户，需要用到哪一类人脸识别的技术?

223

5

0

视觉智能

图像理解

图像识别技术可实现精准识别图像中的视觉内容，包括上千种物体标签、数十种常见场景等，为用户提供图像打标、场景分类、颜色识别、风格识别以及元素识别等能力。图像识别技术可广泛应用于数字营销、新零售、广告设计等行业场景。

我要提问

相关文章

YOLO26如何涨点系列篇（NEU-DET缺陷检测） | CVPR2026 FAAFusion 解决Neck跨尺度方向冲突，实现涨点1.2%

"多路全景视频实时拼接融合"边缘计算网关几种拼接方式

Rokid AI 眼镜远程协作应用"一线互联"开发实践：设备发现与 BLE 扫描

🔥【零基础逆袭】我用Python写了个量化策略，3天赚了别人3年的钱！（附完整代码+教程）

一线互联 × Rokid AI眼镜：为什么它是工业4.0时代一线人员的标准装备？

热门讨论

热门文章

支付宝中的人物身份图像识别百分比达到多少算通过？

图像识别计费说明

求图像识别外包（iOS、Android）

机器学习里面包括语音识别和图像识别么？

图像识别计费说明

图像识别错误码

图像识别不用会产生费用吗?

图像识别基本调用视频

调用阿里云图像识别API出错：SDK.UnknownServerError 恳请前辈解惑

新的RPA设计思路，基于图像识别技术

展开全部

OpenCV+深度学习预训练模型，简单搞定图像识别 | 教程

【天池直播】图像识别系列直播二--进阶：U-Net在CT图像分割中的应用

[AR]ImageTarget(图像识别)

利用机器学习技术进行图像识别

【图像识别】白天鹅黑天鹅灰天鹅？卷积神经网络帮你识别

图像识别试验 - 字符验证码、车牌号、身份证号

图像识别试验 - 字符验证码、车牌号、身份证号

想尝试搭建图像识别系统？这里有一份TensorFlow速成教程

图像识别落地B端应用，商业化的“绣球”先抛给了哪些行业？

带你读《深度学习与图像识别：原理与实践》之一：机器视觉在行业中的应用

展开全部

还有其他疑问?