在C#中优化字符串操作

简介:

性能测试代码:/Files/zhuqil/PerformanceTest.zip 

     程序员通常都希望自己能的编写易读,易维护和易扩展的代码。然而,某些情况下,性能变成最重要的事情。本文提供了几个有用的窍门,来提高你常见的字符串操作的性能。

      最近,我花了很多时间去研究一个简单的代码编辑器。这个应用程序的主要特点之一是语法高亮,实现这样的功能,性能是关键。我花了很多时间来优化我的代码。在做这个项目的同时,我也学到了很多。在这里,我向大家分享一下我的经验。

      附在本文中的项目包含一个简单的基准测试应用程序,来比较下面描述的方法。

  N0.1:在字符串中搜索一个单词

      对字符串进行搜索是一件常见的任务。有几种方法可以做到这一点,下面将讨论每种方法。

1、使用正则表达式

      正则表达式是一个非常强大的,有用的,对于数据验证和字符串搜索是非常快速的 ,但是,当性能很重要,正则表达式可能成为一场噩梦,你可以做几件事,使你的代码运行得更快。

    规则#1:写一个好的正则表达式

    写一个正则表达式可能很容易,但写一个有效的正则表达式,也是一个挑战,优化正则表达式已经超出了本文的范围,有在网络上有许多讨论这一主题文章和书籍。最重要的规则是:保持简单,复杂的规则表达式,包括大量的交替,通常需要很长时间才能执行。

   规则#2:不要使用Regex类的静态方法

Regex类提供了一些静态的方法,进行基本的操作。下面的代码查找字符串变量input 是否包含变量pattern

string  input  =   " The quick brown fox jumps over the lazy dog " ;
string  pattern  =   " fox " ;  
if  (Regex.IsMatch(input, pattern)) {
  
/*  More code here...  */
}     
  

    IsMatch方法根据pattern变量中创建一个Regex对象,然后试着匹配input字符串,这个过程表现地非常缓慢,正则表达式不重复使用,这个才非常有用。

规则#3:尽可能地重复使用Regex对象

如上所述,一个正则表达式对象的创建需要一段时间,你应该避免频繁创建。在某些情况下,您可以在应用程序的启动的时候初始化一切必要的正则表达式,然后多次利用他们来处理长段的文本。这将会提高性能。

规则#4:考虑使用编译的正则表达式

   当创建一个正则表达式对象,如果你使用编译的选项,性能会更好

Regex pattern = new Regex("SomePattern", RegexOptions.Compiled); 

     虽然有几个缺点,编译正则表达式增加了应用程序的启动时间,造成更多的内存使用,Jeff Atwood 写了一篇文章,讨论了编译的正则表达式优势和缺点:

     http://www.codinghorror.com/blog/archives/000228.html 

2、使用indexOf()方法

    在一个字符串内进行搜索的时候,字符串类型IndexOf方法是非常有用的。你应该知道一些东西,来有效使用此方法。

    a、尽量使用char类型

    有两个IndexOf方法重载方法,第一个参数可以是一个字符或一个字符串,使用字符重载方法将快很多。如果您知道您正在搜索字符串的长度为1,请使用char类型代替。

    b、一个不成功搜索所花的时间将超过一个成功的搜索:

    这其实并不奇怪,如果IndexOf方法成功,它将返回给定的字符串或字符首次出现的位置,它省去了剩余字符串的搜索时间。 相反,如果输入的字符串不包含给定的字符或者字符串,IndexOf函数将对整个输入字符串进行搜索。

    c、经常有一种方法来消除不成功的搜索,例如,如果你想知道输入的字符串是否包含了一组单词的,你可以先搜索那些更可能出现在输入字符串的字符。

3、从零开始写的文本搜索的方法

    现在,到了的最有趣的部分。IndexOf方法搜索一个字符时是相当快的,但搜索一个单词是缓慢的,如何有一个更快的方式在字符串内搜索单词呢?

    花了一些时间,为寻找可能最快的的解决办法,以下方法是我想出的。

代码

    此函数基于IndexOf方法搜索一个字符非常快这个事实的。

    基本想法非常的简单,这个方法先搜索这个单词的第一个字符。如果一旦找到,它检测下一个的字符,该代码是有点乱,因为它包含了很多小的优化。例如,我发现,如果该方法在启动检测这个词的其余部分的“for”循环之前检查第二个字符(第一个已近被找到),平均性能将会更好。

    我已经对随机生成的字符串进行大量测试,比较上述所列三种方案和这里是结果:

    a、对一个单词的搜索,IndexOf函数速度总是比我的自定义FastIndexOf方法慢20%左右。
    b、如果输入字符和匹配字符串都足够的长,正则表达式是最快的方式找到一个字符串,
    下图是根据我的测量的值。它显示了两种最快的办法取决于输入字符串的长度:
    纵轴表示这个词的长度(以字符数),横轴显示的是(以字符)输入字符串的长度。条纹地区是自定义搜索方法优于正则表达式。
请注意,所有测量值是近似的。
N0.2:替换转义字符
    另一种常见的字符串的操作是要替换转义字符。有时替换是很容易的,你只需要设立一个反斜杠(或其他字符)在每一个转义字符的前面。
     试想以下情况:你是建立一个RTF文件,你要在文件中的插入字符串。在RTF文件中"(",")"和"\"字符具有特殊的意义,因此,必须先用反斜杠。现在的问题是:什么是最快的方法,以取代相应的转义序列的每个字符?
正则表达式
1、 用Regex类的 Replace 法是其中一个可行办法。但是,在这种情况下,使用正则表达式是目前最慢的选择。
2、字符串的 Replace() 方法
string  input;

/*  ....  */

input.Replace(
" \\ " " \\\\ " ).Replace( " { " " \\{ " ).Replace( " } " " \\} " ); 

    另一种简单的方法是使用的字符串类型Replace方法,当建立RTF文件,该更换程序将如下:这个易读,简短和干净的,但它并不总是最快的选择。

3、从头编写一个自定义方法
     就像前面的情况,我想编写一个定制的方法,完成相同的任务。以下是代码:
代码

      第一个参数是输入字符串,第二个是一个被转义字符数组,最后一个参数是转义字符,正如你可能知道,如果你需要做连续许多操作,直接编辑字符串的效率不是很高。StringBuilder类提供了一种有效的方式来编辑字符串,虽然它需要一点时间来初始化一个StringBuilder对象,如果你知道你需要反复编辑字符串,这需要合理的使用StringBuilder。

    我创建的另一个种使用StringBuilder方法:
代码

    我使用了3个方法来取代转义序列的3字符集描述方法。下图显示,该方法是最快的一个取决于输入字符串:

 
    纵轴显示转义字符串中的字符数,而横轴显示出现的转义字符频率的百分比。频率为50,即每输入字符串的都需要其他字符转义,频率为1,只有1%的字符输入字符串(每100字符)是转义的。
    如果有足够的字符进行转义,如果转义字符频率足够高(带区面积的左上图的右上角),String.Replace方法证明是最快的。
    图的其他部分显示:在大多数情况下,自定义字符转义方法是最快的选择。正如所料,如果替换的字符数足够多,在大约5个字符的情况下,该StringBuilder的方法更快。
    如果你想知道有点串更多string/StringBuilder 的性能比较,我建议以下的2个资源:

    Concatenating Strings Efficiently by Jon Skeet 

    StringBuilder vs String by Alois Kraus 

    如果你想要很高的性能,你必须知道处理的数据是什么样的,像我一样,你将不得不花一些时间比较所有可供选择。
    我希望这篇文章给你一个正确的方向,帮助你提高你的代码的性能。希望得到你的回复!
    参考原文:http://www.codeproject.com/KB/string/string_optimizations.aspx




本文转自麒麟博客园博客,原文链接:http://www.cnblogs.com/zhuqil/archive/2010/01/08/1641767.html,如需转载请自行联系原作者
 
 

 

相关文章
|
3月前
|
C# 开发者
C# 10.0引入常量插值字符串:编译时确定性的新篇章
【1月更文挑战第22天】在C# 10.0中,微软为开发者带来了一项引人注目的新特性——常量插值字符串。这一功能允许在编译时处理和计算字符串插值表达式,从而得到可以在编译时确定的常量字符串。本文将深入探讨C# 10.0中常量插值字符串的概念、工作原理、使用场景及其对现有字符串处理方式的改进,旨在帮助读者更好地理解和应用这一强大的新特性。
|
3月前
|
编译器 C# 开发者
C# 10.0中插值字符串的改进:灵活性与性能的双重提升
【1月更文挑战第19天】C# 10.0带来了对插值字符串的显著改进,进一步增强了这一功能的灵活性和性能。插值字符串是C#中处理字符串格式化的一种强大方式,它允许开发者直接在字符串中嵌入变量和表达式。在C# 10.0中,插值字符串不仅获得了语法上的简化,还通过新的编译时优化提高了运行时性能。本文将详细探讨C# 10.0中插值字符串的改进内容,以及这些改进如何为开发者带来更加高效和便捷的编程体验。
|
1月前
|
C#
C# 字节数组与INT16,float,double之间相互转换,字符数组与字符串相互转换,
C# 字节数组与INT16,float,double之间相互转换,字符数组与字符串相互转换,
37 1
|
3月前
|
JSON C# 开发者
C# 11.0引入自然字符串字面量:简化字符串处理的新时代
【1月更文挑战第26天】C# 11.0带来了一个令人兴奋的新特性:自然字符串字面量。这一特性旨在简化字符串的创建和处理,使开发者能够更直观地编写涉及多行字符串、转义字符和插值表达式的代码。自然字符串字面量不仅提高了代码的可读性,还减少了因转义字符引起的错误。本文将深入探讨C# 11.0中自然字符串字面量的概念、使用方法和其对现有字符串处理方式的改进。
|
3月前
|
存储 C# 索引
C# 字符串操作指南:长度、连接、插值、特殊字符和实用方法
字符串用于存储文本。一个字符串变量包含由双引号括起的字符集合
66 2
|
4月前
|
C# 图形学
【Unity 3D】C#中String类的介绍及字符串常用操作详解(附测试代码 超详细)
【Unity 3D】C#中String类的介绍及字符串常用操作详解(附测试代码 超详细)
76 0
|
4月前
|
C#
C# | [字节数组]与[16进制字符串]互相转换 - CodePlus系列
十六进制(简写为hex或下标16)是一种基数为16的计数系统,是一种逢16进1的进位制。通常用数字0、1、2、3、4、5、6、7、8、9和字母A、B、C、D、E、F(a、b、c、d、e、f)表示,其中:A~F表示10~15,这些称作十六进制数字。 我们在做开发的过程中,经常需要将收发数据打印出来检查。如何简单高效的一行代码转换字节数组到字符串呢?我们来一起看看吧!
57 0
C# | [字节数组]与[16进制字符串]互相转换 - CodePlus系列
|
4月前
|
存储 C#
C# | 二进制字符串(“101010101”)、字节数组(byte[])互相转换
当我们在计算机中处理数据时,经常需要将数据从一种格式转换为另一种格式。而本文的将二进制字符串转换为字节数组听起来很稀松平常但实际又不是那么常见的特殊的转换方式。 二进制字符串是由 0 和 1 组成的字符串,比如:“0111010010101000”。 字节数组常用于读取和写入二进制文件、网络通信等。
115 0
|
4月前
|
开发框架 .NET C#
C# | [二进制字符串] 与 [字节数组] 互相转换,一行代码就搞定! - CodePlus系列
开发中有时需要将二进制数据转换为字符串或相反。虽然.NET提供了一些用于二进制数据操作的类库,但是它们的使用有时候会比较繁琐。STTech.CodePlus是一个.NET扩展库,它提供了很多实用的扩展方法,可以帮助我们更方便地进行二进制数据操作。 在本文中,我们将介绍如何使用STTech.CodePlus扩展库实现二进制字符串和字节数组的快速互相转换。
70 0
|
4月前
|
BI C# 数据安全/隐私保护
C# 字符串常用方法的详细讲解和应用
C# 字符串常用方法的详细讲解和应用