Regtop(正则巅峰)使用方法简介

简介: Regtop(正则巅峰)使用方法简介

正则巅峰一个超强字符串处理工具,之所以取名叫“正则巅峰”,是因为它主要就是靠正则,将正则真正融入,无须依赖什么开发工具或者某个语言即可直接使用正则处理你手头文本数据相关的事务,真正将正则应用达到了一个巅峰。


它最擅长的就是字符串处理,文本处理,可以直接在命令提示符下调用,同样在你的程序的中也可以调用。使用非常方便。


如果你比较熟悉正则,那么你会发现正则巅峰(Regtop)会给你在日常工作中带来极大的便利,使得你离不开它。因为只需极少的命令即可处理一个比较复杂的问题,而且绿色环保无公害:)


此工具的另一个特色就是可以直接从网页上采集数据,并可以使用正则对数据做基础的处理然后保存到本地,可以广泛的应用于网页采集。


下面介绍下其主要使用方法:



语法:

Regtop 参数1 参数2 参数3 参数4 参数5

参数1 对数据源的操作的方式。共有-g和-r两种形式,下面分别介绍:

-g 表示获取,仅仅获取源数据中需要的内容,-g紧接着的后面还有两个缺省元素,第一个一般是t,表示结果以表格形式形式保存,t后面是表格各列之间的分隔符,默认是“,”,一般在要将结果保存为csv文件时会这样设置。可以尝试用下-gt   和  -gt-  和 -g 的区别

-r 表示替换,将数据源中的指定内容替换成其它内容


参数2 数据源。可以是个网址也可以是个本地文件(文本格式)的路径

如果是网址的话需要加个“-w:”然后才可以写网址,表示数据来自与网络,工作时regtop会自动获取该网页的页面源代码,获取方式有两种,utf8模式和普通模式,这个可以通过regtop –d命令设置全局开关。

如果是本地文件的话可以直接写,也可以加个字符-f:然后写路径。这里支持相对路径和绝对路径,直接写个文件名的话就是表示regtop所在的目录。


参数3 处理结果保存位置。可以是个直接的文件路径,同样支持相对路径和绝对路径。

如果和参数2是相同的那么可以写作“%0”

如果对该文件是追加方式那么可用“-a:”前缀表示,默认是覆盖。


参数4 需要匹配的正则表达式


参数5 可缺省。此参数是获取需要的匹配内容(-g)或需要替换成的字符(-r),跟参数1相关,下面分别介绍:

(1).当参数1为-g时表示获取匹配到的结果中的哪些内容。可缺省。匹配成功后得到的结果可以分为两类:一类是整个表达式的匹配结果,这里称为父匹配;还有一类是括号捕获的结果,这里称为子匹配。

这时的参数5是可缺省,表示仅仅获取父匹配。

如果非缺省的话就是表示只需要指定的结果,形式需要按Regtop指定的规则:Regtop对匹配结果进行了编号,从0开始,0表示父匹配结果,1表示子匹配的第1组,2表示子匹配的第2组…。

假设有个表达式为“a(.?)b(.?)c(.*?)d”,那么子匹配有3组,如果我们仅仅需要获取子匹配的第1组和第3组,这时参数5就可以写作“0,1,3”,这里有3个数字,第一个数字的意义和后面的两个是有很大区别的。第一个数字0表示不需要父匹配结果,如果需要的话就写作1,完整的表达式为“1,1,3”,也就是说第一个数字永远只能是0或1,意义就是是否需要父匹配结果。 后面的理解起来就简单多了,1显然就是表示获取子匹配的第1组,3就表示第三组,这里是有顺序的,后面的两个3和1调换下的话,那么输出结果组3的将会排在1的前面,当然也可以重复,比如我要子匹配的3输出两次,那么就写作“0,1,3,3”。如果使用了不存在的子匹配,例如这里用了4那么程序会忽略然后继续处理下一个数字,具体的用户可以用具体的数据去试试。

在这里有个典型的应用就是对csv文件的处理,比如要将文件的第1列和第3列调换下,那么用regtop就可以轻而易举解决了,这里的参数5就是“0,3,2,1”。具体应用实例请参照:topic.csdn.net/u/20091218/…(2). 当参数1为-r时表示需要替换成的内容。可缺省,缺省表示替换为空。这里一般是个固定的字符串,还可以包含正则本身的特性,例如捕获的结果含有子匹配,那么这里就可以用1表示子匹配的第1组,1表示子匹配的第1组,112表示子匹配的第2组,这个属于正则知识本身的范畴了,这里不做讨论,主要说下Regtop中自身的特性,如果替换后的内容包含特殊的字符怎么办?regtop中采用了和大多数语言一样使用了转义的方法处理,例如回车用/r/n表示,制表符用/t表示,具体有时间会整理出一个列表,大多都和标准一样。


\

其他使用范例:

topic.csdn.net/u/20100421/… (替换指定文件中数据的范例,参考4楼)

topic.csdn.net/u/20110720/… (获取指定文件中数据的范例,只获取指定“列”,参考30楼)

topic.csdn.net/u/20091218/… (获取指定文件中的数据的范例,调整指定“列”,参考7楼)

正则表达式测试工具 for vb6_无·法的博客-CSDN博客_时时彩源码 (正则测试工具,可以快速测试正则表达式的正确性,可以和regtop配套使用)

如流,新一代智能工作平台(从网页获取数据并保存为csv文件的范例)

巧用正则巅峰采集黄金白银大盘价信息_无·法的博客-CSDN博客 (应用范例推荐:巧用正则巅峰采集黄金白银大盘价信息)

目录
相关文章
|
传感器 网络协议 物联网
华为鸿蒙OS尖刀武器之分布式软总线技术
华为鸿蒙OS尖刀武器之分布式软总线技术
华为鸿蒙OS尖刀武器之分布式软总线技术
|
安全 Cloud Native Unix
企业拥抱开源之前,必须了解的七件事
新的时代,开源的发展越来越蓬勃,开源和云的关系越来越复杂,耦合度越来越高,云是开源软件允许的最佳环境之一,也为开源软件插上安全高效的腾飞引擎。
15297 1
企业拥抱开源之前,必须了解的七件事
|
机器学习/深度学习 测试技术 异构计算
手撕Desenet卷积神经网络-pytorch-详细注释版(可以直接替换自己数据集)-直接放置自己的数据集就能直接跑。跑的代码有问题的可以在评论区指出,看到了会回复。训练代码和预测代码均有。
手撕Desenet卷积神经网络-pytorch-详细注释版(可以直接替换自己数据集)-直接放置自己的数据集就能直接跑。跑的代码有问题的可以在评论区指出,看到了会回复。训练代码和预测代码均有。
手撕Desenet卷积神经网络-pytorch-详细注释版(可以直接替换自己数据集)-直接放置自己的数据集就能直接跑。跑的代码有问题的可以在评论区指出,看到了会回复。训练代码和预测代码均有。
|
缓存 JavaScript 前端开发
|
网络协议 网络虚拟化 Windows
测试vpn设备 带宽,丢包率windows使用iperf3
iPerf3是用于主动测试IP网络上最大可用带宽的工具。它支持时序、缓冲区、协议(TCP,UDP,SCTP与IPv4和IPv6)有关的各种参数。对于每次测试,它都会详细的带宽报告,延迟抖动和数据包丢失。
1282 0
测试vpn设备 带宽,丢包率windows使用iperf3
|
安全 Linux 网络安全
SSL-VPN接入|学习笔记
快速学习SSL-VPN接入
SSL-VPN接入|学习笔记
|
芯片
脉冲波形的产生与变换
脉冲是指一种瞬间突变、持续时间极短的电压或电流信号。它可以是周期性变化的,也可以是非周期性的或单次的。
2776 0
脉冲波形的产生与变换
|
存储 自然语言处理 Java
阿里云对象储存服务OSS快速入门使用
OSS的快速简单入门使用教程
967 0
阿里云对象储存服务OSS快速入门使用
|
Android开发 容器
Android窗口管理分析(2):WindowManagerService窗口管理之Window添加流程
Android窗口管理分析(2):WindowManagerService窗口管理之Window添加流程
618 0
Android窗口管理分析(2):WindowManagerService窗口管理之Window添加流程
|
消息中间件 存储 缓存
Android Handler与Looper原理浅析
Android Handler与Looper原理浅析
280 0
Android Handler与Looper原理浅析