一、案例说明
网页抓取过程中,多数网站获取的href地址为不包含域名的相对路径,无法直接访问使用。本案例是基于火语言RPA,自动批量提取页面内所有链接相对地址,通过循环批量补全网站根域名,拼接生成可直接访问的标准完整URL的应用场景,适用于批量访问详情页、数据采集等多种业务场景。
二、案例逻辑
打开浏览器进入目标公告页面(http://www.ccgp.gov.cn/cggg/zygg/ ),批量提取页面链接的href相对路径,通过循环逐条遍历所有相对链接,拼接网站根域名,生成可直接访问的完整URL。
三、操作细则
1、列表打开或新建,新建空列表list1用于存储列表数据
2、打开浏览器,选择浏览器类型
3、浏览网页,输入网址URLhttp://www.ccgp.gov.cn/cggg/zygg/
4、获取多元素信息/属性值,获取href路径,可以看出这里获得的是相对路径,无法直接访问,那么这里就需要补全完整的链接
目标元素://ul[@class="c_list_bid"]/li//a[@target="_blank"]
返回结果:指定属性值
属性名称:href
5、ForEach循环,逐条处理每一条短链接
5.1打印日志,打印变量item,查看遍历的内容,
可以看到打印的结果:./fblbgg/202606/t20260605_26696649.htm
完整的URL地址:http://www.ccgp.gov.cn/cggg/zygg/fblbgg/202606/t20260605_26696649.htm
那么把./fblbgg/202606/t20260605_26696649.htm替换成:fblbgg/202606/t20260605_26696649.htm
5.2字符串替换,对遍历item短链接进行字符串替换"./"替换成"空值"
5.3打印日志,打印替换后的结果
可以看到这里已经替换成:fblbgg/202606/t20260605_26696649.htm
5.4字符串连接,补齐域名,相对链接补齐完整可访问的链接,追加http://www.ccgp.gov.cn/cggg/zygg/到头部
5.5打印日志,打印补齐后的结果

5.6列表添加一项,把拼接好的完整链接存入全局列表List1
6、关闭浏览器,释放浏览器资源
四、划重点
网页抓取的 href 大多为相对路径,不带域名,直接打开会报错,必须拼接网站根域名;这里我们使用的是字符串连接的组件,当然也可以直接使用网址/图片地址获取组件。