正则表达式的初体验:分析字符串数据

简介:
在程序中,对于数据的分析是非常重要及常见的。对于字符串数据的分析,往往就是对字符串的内容提取,捕获和替换。除非你要做的分析是简单的要求,否则你就不要再使用string的IndexOf、LastIndexOf、StartsWith 和 EndsWith 方法了,而是应该改用正则表达式搜索字符串。
正则表达式虽然学习起来非常的另人头痛和难过,但他也实在是非常的有效。
.NET Framework 正则表达式引擎是回溯的正则表达式匹配器,它并入了传统的非确定性有限自动机 (NFA) 引擎,虽然相比纯正则表达式确定性有限自动机 (DFA) 引擎来讲,速度上面有点慢,但功能更加强大了。

通过强大的正则表达式,可以作很多分析服务

 

1   // 要求整个数字可以有-号,精度必须为2
2   string  pattern  =   @" ^-?/d+(/./d{2})?$ " ;
3  System.Text.RegularExpressions.Regex rx  =   new  System.Text.RegularExpressions.Regex(pattern);
4   string [] patternTest  = "-12.23""+12.23""22.3""22""=2.34""2.34.45""3242 ""343.343""" } ;
5   for  ( int  i  =   0 ; i  <=  patternTest.Length  -   1 ; i ++ )
6   {
7 System.Console.WriteLine("{0} is {1}", patternTest[i], rx.IsMatch(patternTest[i]));
8 }
运行结果为
-12.23 is True
+12.23 is False
22.3 is False
22 is True
=2.34 is False
2.34.45 is False
3242 is False
343.343 is False
is False

修正了正则表达式,又可以对数据有其他的分析
1   string  pattern  =   @" ^[-|+]?/d+(/./d{0,2})?$ " ;
2  System.Text.RegularExpressions.Regex rx  =   new  System.Text.RegularExpressions.Regex(pattern);
3   string [] patternTest  = "-12.23""+12.23""22.3""22""=2.34""2.34.45""32. ","343.343""" } ;
4   for  ( int  i  =   0 ; i  <=  patternTest.Length  -   1 ; i ++ )
5   {
6 System.Console.WriteLine("{0} is {1}", patternTest[i], rx.IsMatch(patternTest[i]));
7 }

运行结果是
-12.23 is True
+12.23 is True
22.3 is True
22 is True
=2.34 is False
2.34.45 is False
32. is False
343.343 is False
is False

依据这个例子,可以作一个很有效的分析用户输入的程序了


以下是一个向远程请求http页面的,根据返回的结果,查找url连接的demo,可以根据这个demo了解象FlashGet之类的软件是如何快速有效的分析出可以下载的地址的。 

 

1   string  url  =   " Http://news.sina.com.cn " ;
2  System.Net.WebRequest request  =  System.Net.WebRequest.Create(url);
3  System.Net.HttpWebResponse response  =  (System.Net.HttpWebResponse)request.GetResponse();
4  System.IO.Stream httpStream  =  response.GetResponseStream();
5  System.IO.StreamReader htmlRead  =   new  System.IO.StreamReader(httpStream);
6   string  html  =  htmlRead.ReadToEnd();
7
8   // System.Console.WriteLine(html); 
9
10
11   string  pattern  =   @" http://([/w-]+/.)+[/w-]+(/[/w- ./?%&=]*)? " ;
12  System.Text.RegularExpressions.Regex rx  =   new  System.Text.RegularExpressions.Regex(pattern);
13  System.Text.RegularExpressions.MatchCollection matches  =  rx.Matches(html);
14
15   for  ( int  i  =   0 ; i  <=  matches.Count  -   1 ; i ++ )
16   {
17 System.Console.WriteLine(matches[i].Value);
18 }


运行结果是,显示所有连接,大致如下
http://www.nen.com.cn/ target=_blank
http://www.tianshannet.com.cn/ target=_blank
http://www.nmgcb.com.cn/ target=_blank
http://www.jxcn.cn/ target=_blank
http://www.szed.com/ target=_blank
http://www.hljdaily.com.cn/ target=_blank
http://www.hifly.tv/ target=_blank
http://www.chinalegalnews.com.cn/ target=_blank
http://www.newssc.org
http://www.sconline.com.cn/ target=_blank
http://www.xawb.com/gb/news/node_2.htm target=_blank
http://www.anhuinews.com/ target=_blank
http://www.xinminweekly.com.cn/ target=_blank
http://news.cnhubei.com/ target=_blank
http://www.sdnews.com.cn/ target=_blank
http://www.qingdaonews.com/ target=_blank
http://www.dzwww.com/ target=_blank
http://www.66wz.com/cmsweb/webportal/ target=_blank
http://www.bjd.com.cn/ target=_blank
http://www.beijing.org.cn
http://news.sina.com.cn/media.html target=_blank
http://image2.sina.com.cn/c.gif width=1 height=1
http://tech.sina.com.cn/focus/sinahelp.shtml target=_blank
http://net.china.cn/chinese/index.htm target=_blank
http://corp.sina.com.cn/chn/ class=sinatail
http://corp.sina.com.cn/eng/ class=sinatail
http://ads.sina.com.cn/ class=sinatail
http://www.sina.com.cn/contactus.html class=sinatail
http://corp.sina.com.cn/chn/sina_job.html class=sinatail
http://www.sina.com.cn/intro/lawfirm.shtml class=sinatail
http://english.sina.com
http://members.sina.com.cn/apply/ class=sinatail
http://tech.sina.com.cn/focus/sinahelp.shtml class=sinatail
http://www.sina.com.cn/intro/copyright.shtml class=sinatail
http://ad4.sina.com.cn/200702/13/82610_news-couple-l.swf
http://ad4.sina.com.cn/200702/13/82609_news-couple-r.swf
http://ad4.sina.com.cn/sina/ae/ad_src/couplet/coupletv4.js
http://rm.sina.com.cn/icast/rotator.js
http://cast.icast.com.cn/a/4/4/1/9/1/389.js
http://image2.sina.com.cn/unipro/pub/getclickinfo_sinahome.js
 



本文转自shyleoking 51CTO博客,原文链接:http://blog.51cto.com/shyleoking/806259

相关文章
|
JavaScript 前端开发 Java
正则表达式深度解析:匹配任意字符串
【4月更文挑战第1天】
7304 0
|
JavaScript 前端开发
JavaScript随手笔记 --- 用正则表达式匹配字符串是否为运算公式
JavaScript随手笔记 --- 用正则表达式匹配字符串是否为运算公式
|
算法 测试技术 C#
【动态规划】【字符串】C++算法:正则表达式匹配
【动态规划】【字符串】C++算法:正则表达式匹配
|
JavaScript 前端开发
用JavaScript正则表达式匹配对应字符串高亮显示,并过滤掉空格、<、>等HTML节点符号
用JavaScript正则表达式匹配对应字符串高亮显示,并过滤掉空格、<、>等HTML节点符号
|
10月前
|
API 数据库 Python
除了正则表达式,还有哪些方法可以验证用户输入数据的格式?
除了正则表达式,还有哪些方法可以验证用户输入数据的格式?
319 79
|
7月前
|
数据采集 监控 数据安全/隐私保护
Python正则表达式:用"模式密码"解锁复杂字符串
正则表达式是处理字符串的强大工具,本文以Python的`re`模块为核心,详细解析其原理与应用。从基础语法如字符类、量词到进阶技巧如贪婪匹配与预定义字符集,结合日志分析、数据清洗及网络爬虫等实战场景,展示正则表达式的强大功能。同时探讨性能优化策略(如预编译)和常见错误解决方案,帮助开发者高效掌握这一“瑞士军刀”。最后提醒,合理使用正则表达式,避免过度复杂化,追求简洁优雅的代码风格。
188 0
|
6月前
|
前端开发
前端使用正则表达式检查是否为十六进制字符串
前端使用正则表达式检查是否为十六进制字符串
158 6
|
JavaScript 前端开发 Java
如何使用这个正则表达式来验证一个字符串是否符合特定的格式要求?
如何使用这个正则表达式来验证一个字符串是否符合特定的格式要求?
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
Java API 索引
U4字符串以及正则表达式
【10月更文挑战第19天】在 Java 中,字符串是重要数据类型,支持多种操作如长度获取、字符访问、子串提取等。正则表达式提供强大的模式匹配和文本处理功能,通过 `Pattern` 和 `Matcher` 类实现。示例代码展示了如何使用正则表达式匹配单词字符。常用语法包括字符类、数量词、边界匹配和分组。
156 1