新的RPA设计思路,基于图像识别技术

Rpa新思路,参考使用图像识别技术进行数据爬取的思路

我认为Rpa软件的设计难点就是界面元素的识别,现有的技术需要对不同类别的ui技术分别进行识别,这种方式不仅开发难度大,用户使用上,也得有一些相关知识(识别引擎的选择等)。

元素识别完全可以采用图像识别技术,对ui界面的图像进行分析,将潜在的按钮,菜单,输入框识别出来,然后让用户对这些识别出来的控件进行引用,编写逻辑,rpa程序运行时,再次对运行中的程序进行图像识别,然后分析图像中的元素,与之前分析出来的元素做匹配,换算出屏幕坐标,移动鼠标,进行操作。

这种方式完全屏蔽了不同ui实现技术的差异,只需进行图像识别和鼠标键盘操作即可。

而对于用户来说,用户只需要对软件进行各种截图操作,对不同的界面进行截图,然后让Rpa软件进行分析,再对分析出来的UI元素进行编程。

展开
收起
游客otzqlrm3lojeo 2021-09-18 10:44:56 1668 分享 版权
阿里云 AI 助理回答

您的想法非常有创意,将图像识别技术应用于RPA(Robotic Process Automation)确实可以简化界面元素的识别过程,降低开发难度,并提升用户体验。阿里云提供了一系列服务和技术,可以帮助您实现这一构想:

  1. 图像识别服务:您可以利用阿里云的图像识别服务,如图像识别与搜索服务(Image Search),来分析UI界面截图,识别出按钮、菜单、输入框等关键元素。通过训练模型,提高对特定UI元素的识别精度。

  2. 自定义识别模型:如果标准服务不能满足特定需求,可以使用模型训练平台PAI(Platform of Artificial Intelligence)来自行训练图像识别模型。针对不同的UI框架和设计风格,定制化训练模型以提高识别准确率。

  3. 智能OCR服务:对于需要从界面上提取文本信息的情况,可以结合使用阿里云的文字识别服务(Optical Character Recognition, OCR)。这有助于自动化处理表单填写、数据录入等任务。

  4. 低代码/无代码开发平台:为了让用户更便捷地编写逻辑,可以考虑集成阿里云的低代码开发平台,如简道云宜搭。这些平台允许用户通过拖拽式操作,而非编写复杂代码,来构建RPA流程。用户只需上传截图,系统自动分析并生成可配置的UI元素,用户再根据这些元素进行流程设计即可。

  5. 云原生RPA服务:结合阿里云的RPA服务,可以进一步优化部署和管理流程。该服务支持快速构建、测试、部署及监控RPA机器人,确保高可用性和安全性。

  6. 交互式开发环境:为了提升用户体验,可以开发一个直观的图形界面,让用户直接在界面上进行截图、标注和逻辑编辑。结合Web前端技术(如Vue.js或React.js)和后端服务(如Spring Boot),创建一个流畅的开发环境。

综上所述,通过整合阿里云的图像识别、机器学习、低代码开发以及RPA服务,您的设想完全可行,能够显著提升RPA软件的易用性和灵活性,同时降低技术门槛,让更多非专业开发者也能高效地构建自动化流程。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

图像识别技术可实现精准识别图像中的视觉内容,包括上千种物体标签、数十种常见场景等,为用户提供图像打标、场景分类、颜色识别、风格识别以及元素识别等能力。图像识别技术可广泛应用于数字营销、新零售、广告设计等行业场景。

还有其他疑问?
咨询AI助理