文章目录
- 1、String类继承关系
- 2、成员变量
- 3、构造方法
- 4、长度/判空
- 5、取字符
- 6、比较
- 7、包含
- 8、hashCode
- 9、查询索引
- 10、获取子串
- 11、拼接
- 12、替换
- 13、切割
- 14、大小写转换
- 15、去空格
- 16、字符/字符串转换
- 17、格式化
- 18、intern()
本文基于jdk1.8
String类可谓是我们开发中使用最多的一个类了。对于它的了解,仅仅限于API的了解是不够的,必须对它的源码进行一定的学习。
一、前置
String类是Java中非常特别的一个类,虽然不是基本数据类型,但是通过一些处理,又在引用数据类型里比较特别,在学习之前,先了解一些JVM的知识。
- Method Area:方法区,当虚拟机装载一个class文件时,它会从这个class文件包含的二进制数据中解析类型信息,然后把这些类型信息(包括类信息、常量、静态变量等)放到方法区中,该内存区域被所有线程共享,本地方法区存在一块特殊的内存区域,叫常量池(Constant Pool)。
- Heap:堆是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,Java中的。
- Stack:栈,又叫堆栈或者虚拟机栈。JVM为每个新创建的线程都分配一个栈。也就是说,对于一个Java程序来说,它的运行就是通过对栈的操作来完成的。栈以帧为单位保存线程的状态。JVM对栈只进行两种操作:以帧为单位的压栈和出栈操作。我们知道,某个线程正在执行的方法称为此线程的当前方法。
- Program Count Register:程序计数器,又叫程序寄存器。JVM支持多个线程同时运行,当每一个新线程被创建时,它都将得到它自己的PC寄存器(程序计数器)。如果线程正在执行的是一个Java方法(非native),那么PC寄存器的值将总是指向下一条将被执行的指令,如果方法是 native的,程序计数器寄存器的值不会被定义。 JVM的程序计数器寄存器的宽度足够保证可以持有一个返回地址或者native的指针。
- Native Stack:本地方法栈,存储本地方方法的调用状态。
常量池(constant pool)指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据。它包括了关于类、方法、接口等中的常量,也包括字符串常量。Java把内存分为堆内存跟栈内存,前者主要用来存放对象,后者用于存放基本类型变量以及对象的引用。
二、String类源码解析
1、String类继承关系
public final class String implements java.io.Serializable, Comparable<String>, CharSequence {
看看String类的定义:
- String是一个final类,既不能被继承的类
- String类实现了java.io.Serializable接口,可以实现序列化
- String类实现了Comparable<String>,可以用于比较大小(按顺序比较单个字符的ASCII码)
- String类实现了 CharSequence 接口,表示是一个有序字符的序列,因为String的本质是一个char类型数组
String类继承关系如下图:
String类详细继承关系如下图:
2、成员变量
首先看看String类有哪些成员变量:
//用于字符存储的不可变字符数组 private final char value[]; // 缓存字符串的哈希码 private int hash; //默认为0 //实现序列化的标识 private static final long serialVersionUID = -6849794470754667710L;
这些成员变量里需要重点关注:
- private final char value[] 这是String字符串的本质,是一个字符集合,而且是final的,是不可变的。
3、构造方法
- 无参构造方法
/** * 初始化String对象,将""空字符串的value赋值给实例对象的value,也是空字符,因为字符串是不可变的,所以不需要用这个方法 * */ public String() { this.value = "".value; }
示例:
String str = new String() str = "hello";
- 1.先创建了一个空的String对象
- 2.接着又在常量池中创建了一个"hello",并赋值给第二个String
- 3.将第二个String的引用传递给第一个String
这种方式实际上创建了两个对象
- 参数为String的有参构造方法
/** * 参数为一个String对象 * 将形参的value和hash赋值给实例对象作为初始化 * 相当于深拷贝了一个形参String对象 */ public String(String original) { this.value = original.value; this.hash = original.hash; }
示例:
String str=new String("hello")
创建了一个对象。
- 参数为字符数组的有参构造方法
/** * 参数为一个char字符数组 * 将数组值拷贝赋给不可变字符数组 * 这里为什么不直接赋值呢? * 因为参数char value[]是可变的,如果直接赋值,当参数数组发生变化时,就会影响到新生成的String对象,着就破坏的String的“不可变性”。 */ public String(char value[]) { this.value = Arrays.copyOf(value, value.length); }
- 参数为字符数组(指定起止位置)的有参构造方法
/** * 参数为char字符数组,offset(起始位置,偏移量),count(个数) * 在char数组的基础上,从offset位置开始计数count个,构成一个新的String的字符串 **/ public String(char value[], int offset, int count) { if (offset < 0) { throw new StringIndexOutOfBoundsException(offset); } if (count <= 0) { if (count < 0) { throw new StringIndexOutOfBoundsException(count); } if (offset <= value.length) { this.value = "".value; return; } } // Note: offset or count might be near -1>>>1. if (offset > value.length - count) { throw new StringIndexOutOfBoundsException(offset + count); } this.value = Arrays.copyOfRange(value, offset, offset+count); }
- 参数为int数组(指定起止位置)的有参构造方法
/** * 参数为int字符数组,offset(起始位置,偏移量),count(个数) * int数组的元素则是字符对应的ASCII整数值 */ public String(int[] codePoints, int offset, int count) { if (offset < 0) { throw new StringIndexOutOfBoundsException(offset); } if (count <= 0) { if (count < 0) { throw new StringIndexOutOfBoundsException(count); } if (offset <= codePoints.length) { this.value = "".value; return; } } // Note: offset or count might be near -1>>>1. if (offset > codePoints.length - count) { throw new StringIndexOutOfBoundsException(offset + count); } final int end = offset + count; // Pass 1: Compute precise size of char[] int n = count; for (int i = offset; i < end; i++) { int c = codePoints[i]; if (Character.isBmpCodePoint(c)) continue; else if (Character.isValidCodePoint(c)) n++; else throw new IllegalArgumentException(Integer.toString(c)); } // Pass 2: Allocate and fill in char[] final char[] v = new char[n]; for (int i = offset, j = 0; i < end; i++, j++) { int c = codePoints[i]; if (Character.isBmpCodePoint(c)) v[j] = (char)c; else Character.toSurrogates(c, v, j++); } this.value = v; }
有一些标为过时我们就不再关注了。
- 参数为byte数组(指定起止位置、字符编码)的有参构造方法
/** * 参数为byte数组,offset(起始位置,偏移量),长度,和字符编码格式 * 传入一个byte数组,从offset开始截取length个长度,其字符编码格式为charsetName,如UTF-8 */ public String(byte bytes[], int offset, int length, String charsetName) throws UnsupportedEncodingException { if (charsetName == null) throw new NullPointerException("charsetName"); //判断byte数组是否越界 checkBounds(bytes, offset, length); this.value = StringCoding.decode(charsetName, bytes, offset, length); }
StringCoding类的decode方法:
static char[] decode(String charsetName, byte[] ba, int off, int len) throws UnsupportedEncodingException { StringDecoder sd = deref(decoder); String csn = (charsetName == null) ? "ISO-8859-1" : charsetName; if ((sd == null) || !(csn.equals(sd.requestedCharsetName()) || csn.equals(sd.charsetName()))) { sd = null; try { Charset cs = lookupCharset(csn); if (cs != null) sd = new StringDecoder(cs, csn); } catch (IllegalCharsetNameException x) {} if (sd == null) throw new UnsupportedEncodingException(csn); set(decoder, sd); } return sd.decode(ba, off, len); }
其余的从byte数组构造String的构造方法都是调用这个方法,这里就不再赘述。
- 参数为StringBuffer的有参构造方法
/** * 参数类型为StringBuffer,将StringBuffer值数组拷贝给String的值数组 * 线程安全的 **/ public String(StringBuffer buffer) { synchronized(buffer) { this.value = Arrays.copyOf(buffer.getValue(), buffer.length()); } }
使用StringBuilder为参数构造类似,不过不是线程安全的。
4、长度/判空
- length()
/** * 返回value数组的长度 */ public int length() { return value.length; }
- isEmpty()
/** * value数组的长度是否为0 */ public boolean isEmpty() { return value.length == 0; }
5、取字符
- charAt(int index)
/** * 获取下标为index的value数组字符 */ public char charAt(int index) { if ((index < 0) || (index >= value.length)) { throw new StringIndexOutOfBoundsException(index); } return value[index]; }
- codePointAt(int index)
/** * 返回String对象的char数组index位置的元素的ASSIC码(int类型) */ public int codePointAt(int index) { if ((index < 0) || (index >= value.length)) { throw new StringIndexOutOfBoundsException(index); } return Character.codePointAtImpl(value, index, value.length); }
- codePointBefore(int index)
/** * 返回index位置元素的前一个元素的ASSIC码(int型) */ public int codePointBefore(int index) { int i = index - 1; //获得index前一个元素的索引位置 if ((i < 0) || (i >= value.length)) { //所以,index不能等于0,因为i = 0 - 1 = -1 throw new StringIndexOutOfBoundsException(index); } return Character.codePointBeforeImpl(value, index, 0); }
- getChars(char dst[], int dstBegin)
/** * 将value数组dstBegin下标起的字符拷贝给dst */ void getChars(char dst[], int dstBegin) { System.arraycopy(value, 0, dst, dstBegin, value.length); }
6、比较
- equals(Object anObject)
/** * String的equals方法,重写了Object的equals方法(区分大小写) * 比较的是两个字符串的值是否相等 * 参数是一个Object对象,而不是一个String对象。这是因为重写的是Object的equals方法,所以是Object */ public boolean equals(Object anObject) { //如果较地址是否相等,是同一个对象 if (this == anObject) { return true; } //判断anObject是否是String类型 if (anObject instanceof String) { //将anObject转换为String类型 String anotherString = (String)anObject; int n = value.length; //判断anotherString是否和当前String的value数组长度相同 if (n == anotherString.value.length) { //v1为当前String的值,v2为参数对象anotherString的值 char v1[] = value; char v2[] = anotherString.value; int i = 0; //每次循环长度-1,直到长度消耗完,循环结束 while (n-- != 0) { //相同下标位置字符串比较,有一个不相同,返回false if (v1[i] != v2[i]) return false; i++; } //如比较期间没有问题,则说明相等,返回true return true; } } return false; }
- equalsIgnoreCase(String anotherString)
/** * 这也是一个String的equals方法,与上一个方法不用,该方法(不区分大小写),从名字也能看出来 * 是对String的equals方法的补充。 * 这里参数这是一个String对象,而不是Object了,因为这是String本身的方法,不是重写谁的方法 */ public boolean equalsIgnoreCase(String anotherString) { //先判断是否为同一个对象 return (this == anotherString) ? true : (anotherString != null) //再判断长度是否相等 && (anotherString.value.length == value.length) //再调用regionMatchs方法 && regionMatches(true, 0, anotherString, 0, value.length); }
- compareTo(String anotherString)
/** * 这是一个比较字符串中字符大小的函数,因为String实现了Comparable<String>接口,所以重写了compareTo方法 * Comparable是排序接口。若一个类实现了Comparable接口,就意味着该类支持排序。 * 实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arrays.sort进行自动排序。 * * 参数是需要比较的另一个String对象 * 返回的int类型,正数为大,负数为小,是基于字符的ASSIC码比较的 * */ public int compareTo(String anotherString) { int len1 = value.length; int len2 = anotherString.value.length; int lim = Math.min(len1, len2); char v1[] = value; char v2[] = anotherString.value; int k = 0; while (k < lim) { char c1 = v1[k]; char c2 = v2[k]; if (c1 != c2) { return c1 - c2; } k++; } return len1 - len2; }
7、包含
- startsWith(String prefix, int toffset)
/** * 作用就是当前对象[toffset,toffset + prefix.value.lenght]区间的字符串片段等于prefix * 也可以说当前对象的toffset位置开始是否以prefix作为前缀 * prefix是需要判断的前缀字符串,toffset是当前对象的判断起始位置 */ public boolean startsWith(String prefix, int toffset) { //获得当前对象的值 char ta[] = value; //获得需要判断的起始位置,偏移量 int to = toffset; //获得前缀字符串的值 char pa[] = prefix.value; int po = 0; int pc = prefix.value.length; // Note: toffset might be near -1>>>1. if ((toffset < 0) || (toffset > value.length - pc)) { return false; } //循环pc次,既prefix的长度 while (--pc >= 0) { //每次比较当前对象的字符串的字符是否跟prefix一样 if (ta[to++] != pa[po++]) { //一样则pc--,to++,po++,有一个不同则返回false return false; } } return true; }
- startsWith(String prefix)
// 判断当前对象[0, prefix.value.lenght]区间的字符串片段等于prefix。 public boolean startsWith(String prefix) { return startsWith(prefix, 0); }
- endsWith(String suffix)
//判断当前字符串对象是否以字符串prefix结尾 public boolean endsWith(String suffix) { return startsWith(suffix, value.length - suffix.value.length); }
//是否含有CharSequence这个子类元素,通常用于StrngBuffer,StringBuilder public boolean contains(CharSequence s) { return indexOf(s.toString()) > -1; }
8、hashCode
/** * String类重写了Object类的hashCode方法。 * 哈希表来实现的数据结构来使用,比如String对象要放入HashMap中。 * */ public int hashCode() { //hash是成员变量,所以默认为0 int h = hash; 如果hash为0,且字符串对象长度大于0,不为"" if (h == 0 && value.length > 0) { //获取当前对象的value char val[] = value; // 通过算法s[0]31^(n-1) + s[1]31^(n-2) + ... + s[n-1]计算hash值 for (int i = 0; i < value.length; i++) { //每次都是31 * 每次循环获得的h +第i个字符的ASSIC码 h = 31 * h + val[i]; } hash = h; } return h; }
9、查询索引
- indexOf(int ch, int fromIndex)
/** * index方法就是返回ch字符第一次在字符串中出现的位置 * 既从fromIndex位置开始查找,从头向尾遍历,ch整数对应的字符在字符串中第一次出现的位置 * -1代表字符串没有这个字符,整数代表字符第一次出现在字符串的位置 */ public int indexOf(int ch, int fromIndex) { final int max = value.length; if (fromIndex < 0) { fromIndex = 0; } else if (fromIndex >= max) { // Note: fromIndex might be near -1>>>1. return -1; } 一个char占用两个字节,如果ch小于2的16次方(65536),绝大多数字符都在此范围内 if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) { // handle most cases here (ch is a BMP code point or a // negative value (invalid code point)) final char[] value = this.value; //从 fromIndex位置起遍历value数组 for (int i = fromIndex; i < max; i++) { //存在相等的字符,返回第一次出现该字符的索引位置,并终止循环 if (value[i] == ch) { return i; } } return -1; } else { return indexOfSupplementary(ch, fromIndex); } } public int indexOf(int ch) { return indexOf(ch, 0);//从第一个字符开始搜索 }
- indexOf(String str)
/** * 这是一个不对外公开的静态函数 * source就是原始字符串,sourceOffset就是原始字符串的偏移量,起始位置。 * sourceCount就是原始字符串的长度,target就是要查找的字符串。 * fromIndex就是从原始字符串的第fromIndex开始遍历 * */ static int indexOf(char[] source, int sourceOffset, int sourceCount, String target, int fromIndex) { return indexOf(source, sourceOffset, sourceCount, target.value, 0, target.value.length, fromIndex); } /** * * 从fromIndex开始遍历,返回第一次出现str字符串的位置 * */ public int indexOf(String str, int fromIndex) { return indexOf(value, 0, value.length, str.value, 0, str.value.length, fromIndex); } /** * 返回第一次出现的字符串的位置 * */ public int indexOf(String str) { return indexOf(str, 0); }
- lastIndexOf(int ch)
/** * 从尾部向头部遍历,返回cn第一次出现的位置,value.length - 1就是起点 * 为了理解,我们可以认为是返回cn对应的字符在字符串中最后出现的位置 * * ch是字符对应的整数 */ public int lastIndexOf(int ch) { return lastIndexOf(ch, value.length - 1); }
- public int lastIndexOf(int ch, int fromIndex)
/** * 从尾部向头部遍历,从fromIndex开始作为起点,返回ch对应字符第一次在字符串出现的位置 * 既从头向尾遍历,返回cn对应字符在字符串中最后出现的一次位置,fromIndex为结束点 * */ public int lastIndexOf(int ch, int fromIndex) { if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) { // handle most cases here (ch is a BMP code point or a // negative value (invalid code point)) final char[] value = this.value; int i = Math.min(fromIndex, value.length - 1); for (; i >= 0; i--) { if (value[i] == ch) { return i; } } return -1; } else { return lastIndexOfSupplementary(ch, fromIndex); } }
10、获取子串
- substring(int beginIndex)
/** * 截取当前字符串对象的片段,组成一个新的字符串对象 * beginIndex为截取的初始位置,默认截到len - 1位置 */ public String substring(int beginIndex) { if (beginIndex < 0) { throw new StringIndexOutOfBoundsException(beginIndex); } int subLen = value.length - beginIndex; if (subLen < 0) { throw new StringIndexOutOfBoundsException(subLen); } //利用构造函数生成新的String对象 return (beginIndex == 0) ? this : new String(value, beginIndex, subLen); }
- substring(int beginIndex, int endIndex)
/** * 截取一个区间范围 * [beginIndex,endIndex),不包括endIndex */ public String substring(int beginIndex, int endIndex) { if (beginIndex < 0) { throw new StringIndexOutOfBoundsException(beginIndex); } if (endIndex > value.length) { throw new StringIndexOutOfBoundsException(endIndex); } int subLen = endIndex - beginIndex; if (subLen < 0) { throw new StringIndexOutOfBoundsException(subLen); } return ((beginIndex == 0) && (endIndex == value.length)) ? this : new String(value, beginIndex, subLen); }
11、拼接
- concat(String str)
/** * String的拼接函数 * 例如:String str = "abc"; str.concat("def") output: "abcdef" * */ public String concat(String str) { int otherLen = str.length(); if (otherLen == 0) { return this; } //获得当前String对象的长度 int len = value.length; //将数组扩容,将value数组拷贝到buf数组中,长度为len + str.lenght char buf[] = Arrays.copyOf(value, len + otherLen); //然后将str字符串从buf字符数组的len位置开始覆盖,得到一个完整的buf字符数组 str.getChars(buf, len); //生成新的Strintg对象 return new String(buf, true); }
- join(CharSequence delimiter, CharSequence… elements)
/** * 拼接CharSequence,包含String、StringBuilder、StringBuffer */ public static String join(CharSequence delimiter, CharSequence... elements) { Objects.requireNonNull(delimiter); Objects.requireNonNull(elements); // Number of elements not likely worth Arrays.stream overhead. StringJoiner joiner = new StringJoiner(delimiter); for (CharSequence cs: elements) { joiner.add(cs); } return joiner.toString(); }
12、替换
- replace(char oldChar, char newChar)
//替换,将字符串中的oldChar字符全部替换成newChar public String replace(char oldChar, char newChar) { if (oldChar != newChar) { int len = value.length; int i = -1; char[] val = value; /* avoid getfield opcode */ //循环len次 while (++i < len) { //找到第一个旧字符,打断循环 if (val[i] == oldChar) { break; } } //如果第一个旧字符的位置小于len if (i < len) { //new一个字符数组,len个长度 char buf[] = new char[len]; for (int j = 0; j < i; j++) { //把旧字符的前面的字符都复制到新字符数组上 buf[j] = val[j]; } //从i位置开始遍历 while (i < len) { char c = val[i]; //发现旧字符就替换,不相关的则直接复制 buf[i] = (c == oldChar) ? newChar : c; i++; } //通过新字符数组buf重构一个新String对象 return new String(buf, true); } } return this; }
- replaceAll(String regex, String replacement)
//当不是正规表达式时,与replace效果一样,都是全体换。如果字符串的正则表达式,则规矩表达式全体替换 public String replaceAll(String regex, String replacement) { return Pattern.compile(regex).matcher(this).replaceAll(replacement); }
13、切割
- split(String regex, int limit)
/** * 根据切割符号切割字符串 */ public String[] split(String regex, int limit) { /* 1、单个字符,且不是".$|()[{^?*+\\"其中一个 * 2、两个字符,第一个是"\",第二个大小写字母或者数字 */ char ch = 0; if (((regex.value.length == 1 && ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) || (regex.length() == 2 && regex.charAt(0) == '\\' && (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 && ((ch-'a')|('z'-ch)) < 0 && ((ch-'A')|('Z'-ch)) < 0)) && (ch < Character.MIN_HIGH_SURROGATE || ch > Character.MAX_LOW_SURROGATE)) { int off = 0; int next = 0; //大于0,limited==true,反之limited==false boolean limited = limit > 0; ArrayList<String> list = new ArrayList<>(); while ((next = indexOf(ch, off)) != -1) { //当参数limit<=0 或者 集合list的长度小于 limit-1 if (!limited || list.size() < limit - 1) { list.add(substring(off, next)); off = next + 1; } else { // last one //判断最后一个list.size() == limit - 1 list.add(substring(off, value.length)); off = value.length; break; } } //如果没有一个能匹配的,返回一个新的字符串,内容和原来的一样 if (off == 0) return new String[]{this}; // 当 limit<=0 时,limited==false,或者集合的长度 小于 limit是,截取添加剩下的字符串 if (!limited || list.size() < limit) list.add(substring(off, value.length)); // 当 limit == 0 时,如果末尾添加的元素为空(长度为0),则集合长度不断减1,直到末尾不为空 int resultSize = list.size(); if (limit == 0) { while (resultSize > 0 && list.get(resultSize - 1).length() == 0) { resultSize--; } } String[] result = new String[resultSize]; return list.subList(0, resultSize).toArray(result); } return Pattern.compile(regex).split(this, limit); }
- split(String regex)
public String[] split(String regex) { return split(regex, 0); }
14、大小写转换
- toLowerCase(Locale locale)
/** * 将大写字符转换为小写 */ public String toLowerCase(Locale locale) { if (locale == null) { throw new NullPointerException(); } int firstUpper; final int len = value.length; /* Now check if there are any characters that need to be changed. */ scan: { for (firstUpper = 0 ; firstUpper < len; ) { char c = value[firstUpper]; //判断字符是否大写 if ((c >= Character.MIN_HIGH_SURROGATE) && (c <= Character.MAX_HIGH_SURROGATE)) { int supplChar = codePointAt(firstUpper); if (supplChar != Character.toLowerCase(supplChar)) { break scan; } firstUpper += Character.charCount(supplChar); } else { if (c != Character.toLowerCase(c)) { break scan; } firstUpper++; } } return this; } char[] result = new char[len]; int resultOffset = 0; /* result may grow, so i+resultOffset * is the write location in result */ /* Just copy the first few lowerCase characters. */ System.arraycopy(value, 0, result, 0, firstUpper); String lang = locale.getLanguage(); boolean localeDependent = (lang == "tr" || lang == "az" || lang == "lt"); char[] lowerCharArray; int lowerChar; int srcChar; int srcCount; for (int i = firstUpper; i < len; i += srcCount) { srcChar = (int)value[i]; if ((char)srcChar >= Character.MIN_HIGH_SURROGATE && (char)srcChar <= Character.MAX_HIGH_SURROGATE) { srcChar = codePointAt(i); srcCount = Character.charCount(srcChar); } else { srcCount = 1; } if (localeDependent || srcChar == '\u03A3' || // GREEK CAPITAL LETTER SIGMA srcChar == '\u0130') { // LATIN CAPITAL LETTER I WITH DOT ABOVE lowerChar = ConditionalSpecialCasing.toLowerCaseEx(this, i, locale); } else { lowerChar = Character.toLowerCase(srcChar); } if ((lowerChar == Character.ERROR) || (lowerChar >= Character.MIN_SUPPLEMENTARY_CODE_POINT)) { if (lowerChar == Character.ERROR) { lowerCharArray = ConditionalSpecialCasing.toLowerCaseCharArray(this, i, locale); } else if (srcCount == 2) { resultOffset += Character.toChars(lowerChar, result, i + resultOffset) - srcCount; continue; } else { lowerCharArray = Character.toChars(lowerChar); } /* Grow result if needed */ int mapLen = lowerCharArray.length; if (mapLen > srcCount) { char[] result2 = new char[result.length + mapLen - srcCount]; System.arraycopy(result, 0, result2, 0, i + resultOffset); result = result2; } for (int x = 0; x < mapLen; ++x) { result[i + resultOffset + x] = lowerCharArray[x]; } resultOffset += (mapLen - srcCount); } else { result[i + resultOffset] = (char)lowerChar; } } return new String(result, 0, len + resultOffset); }
15、去空格
- trim()
/** * 去除字符串首尾部分的空值,如,' ' or " ",非"" * 原理是通过substring去实现的,首尾各一个指针 * 头指针发现空值就++,尾指针发现空值就-- * ' '的Int值为32,其实不仅仅是去空的作用,应该是整数值小于等于32的去除掉 */ public String trim() { //代表尾指针,实际是尾指针+1的大小 int len = value.length; //代表头指针 int st = 0; char[] val = value; /* avoid getfield opcode */ //st<len,且字符的整数值小于32则代表有空值,st++ while ((st < len) && (val[st] <= ' ')) { st++; } //len - 1才是真正的尾指针,如果尾部元素的整数值<=32,则代表有空值,len-- while ((st < len) && (val[len - 1] <= ' ')) { len--; } 截取st到len的字符串(不包括len位置) return ((st > 0) || (len < value.length)) ? substring(st, len) : this; }
16、字符/字符串转换
- toString()
//返回自己 public String toString() { return this; }
- toCharArray()
/** * 返回value数组的拷贝 */ public char[] toCharArray() { // Cannot use Arrays.copyOf because of class initialization order issues char result[] = new char[value.length]; System.arraycopy(value, 0, result, 0, value.length); return result; }
- valueOf(Object obj)
//将Object转换为字符串 public static String valueOf(Object obj) { return (obj == null) ? "null" : obj.toString(); }
17、格式化
- format(String format, Object… args)
//JAVA字符串格式化 //新字符串使用本地语言环境,制定字符串格式和参数生成格式化的新字符串。 public static String format(String format, Object... args) { return new Formatter().format(format, args).toString(); }
- format(Locale l, String format, Object… args)
//使用指定的语言环境,制定字符串格式和参数生成格式化的字符串。 public static String format(Locale l, String format, Object... args) { return new Formatter(l).format(format, args).toString(); }
18、intern()
一个本地方法。
当调用intern方法时,如果池中已经包含一个与该String确定的字符串相同equals(Object)的字符串,则返回该字符串。否则,将此String对象添加到池中,并返回此对象的引用。
public native String intern();
三、常量池
在查看构造函数的时候,我们知道最常见的两种声明一个字符串对象的形式有两种:
①、通过“字面量”的形式直接赋值
String str = "hello";
②、通过 new 关键字调用构造函数创建对象
String str = new String("hello");
这两种声明方式有什么区别呢?首先了解 JDK1.7(不包括1.7)以前的 JVM 的内存分布:
- ①、程序计数器:也称为 PC 寄存器,保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要从程序计数器中得到当前需要执行的指令所在存储单元的地址,然后根据得到的地址获取到指令,在得到指令之后,程序计数器便自动加1或者根据转移指针得到下一条指令的地址,如此循环,直至执行完所有的指令。线程私有。
- ②、虚拟机栈:基本数据类型、对象的引用都存放在这。线程私有。
- ③、本地方法栈:虚拟机栈是为执行Java方法服务的,而本地方法栈则是为执行本地方法(Native Method)服务的。在JVM规范中,并没有对本地方法栈的具体实现方法以及数据结构作强制规定,虚拟机可以自由实现它。在HotSopt虚拟机中直接就把本地方法栈和虚拟机栈合二为一。
- ④、方法区:存储了每个类的信息(包括类的名称、方法信息、字段信息)、静态变量、常量以及编译器编译后的代码等。注意:在Class文件中除了类的字段、方法、接口等描述信息外,还有一项信息是常量池,用来存储编译期间生成的字面量和符号引用。
- ⑤、堆:用来存储对象本身的以及数组(当然,数组引用是存放在Java栈中的)。
在 JDK1.7 以后,方法区的常量池被移除放到堆中了,如下:
常量池:Java运行时会维护一个String Pool(String池), 也叫“字符串缓冲区”。String池用来存放运行时中产生的各种字符串,并且池中的字符串的内容不重复。
- ①、字面量创建字符串或者纯字符串(常量)拼接字符串会先在字符串池中找,看是否有相等的对象,没有的话就在字符串池创建该对象;有的话则直接用池中的引用,避免重复创建对象。
- ②、new关键字创建时,直接在堆中创建一个新对象,变量所引用的都是这个新对象的地址,但是如果通过new关键字创建的字符串内容在常量池中存在了,那么会由堆在指向常量池的对应字符;但是反过来,如果通过new关键字创建的字符串对象在常量池中没有,那么通过new关键词创建的字符串对象是不会额外在常量池中维护的。
- ③、使用包含变量表达式来创建String对象,则不仅会检查维护字符串池,还会在堆区创建这个对象,最后是指向堆内存的对象。
String str1 = "hello"; String str2 = "hello"; String str3 = new String("hello"); System.out.println(str1==str2);//true System.out.println(str1==str3);//fasle System.out.println(str2==str3);//fasle System.out.println(str1.equals(str2));//true System.out.println(str1.equals(str3));//true System.out.println(str2.equals(str3));//true
首先 String str1 = “hello”,会先到常量池中检查是否有“hello”的存在,发现是没有的,于是在常量池中创建“hello”对象,并将常量池中的引用赋值给str1;
第二个字面量 String str2 = “hello”,在常量池中检测到该对象了,直接将引用赋值给str2;第三个是通过new关键字创建的对象,常量池中有了该对象了,不用在常量池中创建,然后在堆中创建该对象后,将堆中对象的引用赋值给str3,再将该对象指向常量池。如下图所示:
注意:看上图红色的箭头,通过 new 关键字创建的字符串对象,如果常量池中存在了,会将堆中创建的对象指向常量池的引用。
使用包含变量表达式创建对象:
String str1 = "hello"; String str2 = "helloworld"; String str3 = str1+"world";//编译器不能确定为常量(会在堆区创建一个String对象) String str4 = "hello"+"world";//编译器确定为常量,直接到常量池中引用 System.out.println(str2==str3);//fasle System.out.println(str2==str4);//true System.out.println(str3==str4);//fasle
str3 由于含有变量str1,编译器不能确定是常量,会在堆区中创建一个String对象。而str4是两个常量相加,直接引用常量池中的对象即可。
四、其它扩展
1、String 真的不可变吗?
String 类是用 final 关键字修饰的,不可被继承,仅此而已。
我们通过阅读源码知道,字符串是由字符组成,字符存在value数组中。
private final char value[];
value 被 final 修饰,只能保证引用不被改变,但是 value 所指向的堆中的数组,才是真实的数据,只要能够操作堆中的数组,依旧能改变数据。而且 value 是基本类型构成,那么一定是可变的,即使被声明为 private,我们也可以通过反射来改变。
所以String的不可变性仅仅是正常情况下的不可变,但绝非完全的不可变。
2、String类为什么要设计为不可变的?
- 便于实现字符串池(String pool)
- 多线程安全
- 避免安全问题
- 加快字符串处理速度
3、String对“+”的重载
在API文档上查阅到:
Java 语言提供对字符串串联符号("+")以及将其他对象转换为字符串的特殊支持。字符串串联是通过 StringBuilder(或 StringBuffer)类及其 append 方法实现的。字符串转换是通过 toString 方法实现的,该方法由 Object 类定义,并可被 Java 中的所有类继承。有关字符串串联和转换的更多信息,请参阅 Gosling、Joy 和 Steele 合著的 The Java Language Specification。
可以通过代码反编译验证一下:
public class StringDemo01 { public static void main(String[] args) { String a = "abc"; String b = "def"; System.out.println("abcdef" == a+b); } }
通过javap命令分析java汇编指令可以得知底层使用了StringBuilder实现
javap -v StringDemo.class
Classfile /home/qiao/桌面/课程/spring_study/java_study/spring_cloud_demo/java_demo/src/main/java/string/StringDemo01.class Last modified 2020-6-6; size 730 bytes MD5 checksum 8847314e26430be9703f9490a6d8ecf3 Compiled from "StringDemo01.java" public class string.StringDemo01 minor version: 0 major version: 52 flags: ACC_PUBLIC, ACC_SUPER Constant pool: #1 = Methodref #12.#25 // java/lang/Object."<init>":()V #2 = String #26 // abc #3 = String #27 // def #4 = Fieldref #28.#29 // java/lang/System.out:Ljava/io/PrintStream; #5 = String #30 // abcdef #6 = Class #31 // java/lang/StringBuilder #7 = Methodref #6.#25 // java/lang/StringBuilder."<init>":()V #8 = Methodref #6.#32 // java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder; #9 = Methodref #6.#33 // java/lang/StringBuilder.toString:()Ljava/lang/String; #10 = Methodref #34.#35 // java/io/PrintStream.println:(Z)V #11 = Class #36 // string/StringDemo01 #12 = Class #37 // java/lang/Object #13 = Utf8 <init> #14 = Utf8 ()V #15 = Utf8 Code #16 = Utf8 LineNumberTable #17 = Utf8 main #18 = Utf8 ([Ljava/lang/String;)V #19 = Utf8 StackMapTable #20 = Class #38 // "[Ljava/lang/String;" #21 = Class #39 // java/lang/String #22 = Class #40 // java/io/PrintStream #23 = Utf8 SourceFile #24 = Utf8 StringDemo01.java #25 = NameAndType #13:#14 // "<init>":()V #26 = Utf8 abc #27 = Utf8 def #28 = Class #41 // java/lang/System #29 = NameAndType #42:#43 // out:Ljava/io/PrintStream; #30 = Utf8 abcdef #31 = Utf8 java/lang/StringBuilder #32 = NameAndType #44:#45 // append:(Ljava/lang/String;)Ljava/lang/StringBuilder; #33 = NameAndType #46:#47 // toString:()Ljava/lang/String; #34 = Class #40 // java/io/PrintStream #35 = NameAndType #48:#49 // println:(Z)V #36 = Utf8 string/StringDemo01 #37 = Utf8 java/lang/Object #38 = Utf8 [Ljava/lang/String; #39 = Utf8 java/lang/String #40 = Utf8 java/io/PrintStream #41 = Utf8 java/lang/System #42 = Utf8 out #43 = Utf8 Ljava/io/PrintStream; #44 = Utf8 append #45 = Utf8 (Ljava/lang/String;)Ljava/lang/StringBuilder; #46 = Utf8 toString #47 = Utf8 ()Ljava/lang/String; #48 = Utf8 println #49 = Utf8 (Z)V { public string.StringDemo01(); descriptor: ()V flags: ACC_PUBLIC Code: stack=1, locals=1, args_size=1 0: aload_0 1: invokespecial #1 // Method java/lang/Object."<init>":()V 4: return LineNumberTable: line 11: 0 public static void main(java.lang.String[]); descriptor: ([Ljava/lang/String;)V flags: ACC_PUBLIC, ACC_STATIC Code: stack=4, locals=3, args_size=1 0: ldc #2 // String abc 2: astore_1 3: ldc #3 // String def 5: astore_2 6: getstatic #4 // Field java/lang/System.out:Ljava/io/PrintStream; 9: ldc #5 // String abcdef 11: new #6 // class java/lang/StringBuilder 14: dup 15: invokespecial #7 // Method java/lang/StringBuilder."<init>":()V 18: aload_1 19: invokevirtual #8 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder; 22: aload_2 23: invokevirtual #8 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder; 26: invokevirtual #9 // Method java/lang/StringBuilder.toString:()Ljava/lang/String; 29: if_acmpne 36 32: iconst_1 33: goto 37 36: iconst_0 37: invokevirtual #10 // Method java/io/PrintStream.println:(Z)V 40: return LineNumberTable: line 14: 0 line 15: 3 line 17: 6 line 21: 40 StackMapTable: number_of_entries = 2 frame_type = 255 /* full_frame */ offset_delta = 36 locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ] stack = [ class java/io/PrintStream ] frame_type = 255 /* full_frame */ offset_delta = 0 locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ] stack = [ class java/io/PrintStream, int ] } SourceFile: "StringDemo01.java"
String拼接,有字符串变量参与时,中间会产生StringBuilder对象(JDK1.5之前产生StringBuffer)