Java String类源码阅读笔记

简介: Java String类源码阅读笔记

文章目录

本文基于jdk1.8


String类可谓是我们开发中使用最多的一个类了。对于它的了解,仅仅限于API的了解是不够的,必须对它的源码进行一定的学习。


一、前置

String类是Java中非常特别的一个类,虽然不是基本数据类型,但是通过一些处理,又在引用数据类型里比较特别,在学习之前,先了解一些JVM的知识。

image.png

  • Method Area:方法区,当虚拟机装载一个class文件时,它会从这个class文件包含的二进制数据中解析类型信息,然后把这些类型信息(包括类信息、常量、静态变量等)放到方法区中,该内存区域被所有线程共享,本地方法区存在一块特殊的内存区域,叫常量池(Constant  Pool)。
  • Heap:堆是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,Java中的。
  • Stack:栈,又叫堆栈或者虚拟机栈。JVM为每个新创建的线程都分配一个栈。也就是说,对于一个Java程序来说,它的运行就是通过对栈的操作来完成的。栈以帧为单位保存线程的状态。JVM对栈只进行两种操作:以帧为单位的压栈和出栈操作。我们知道,某个线程正在执行的方法称为此线程的当前方法。
  • Program Count Register:程序计数器,又叫程序寄存器。JVM支持多个线程同时运行,当每一个新线程被创建时,它都将得到它自己的PC寄存器(程序计数器)。如果线程正在执行的是一个Java方法(非native),那么PC寄存器的值将总是指向下一条将被执行的指令,如果方法是  native的,程序计数器寄存器的值不会被定义。 JVM的程序计数器寄存器的宽度足够保证可以持有一个返回地址或者native的指针。
  • Native Stack:本地方法栈,存储本地方方法的调用状态。

常量池(constant pool)指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据。它包括了关于类、方法、接口等中的常量,也包括字符串常量。Java把内存分为堆内存跟栈内存,前者主要用来存放对象,后者用于存放基本类型变量以及对象的引用。

二、String类源码解析

1、String类继承关系

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {

看看String类的定义:

  • String是一个final类,既不能被继承的类
  • String类实现了java.io.Serializable接口,可以实现序列化
  • String类实现了Comparable<String>,可以用于比较大小(按顺序比较单个字符的ASCII码)
  • String类实现了 CharSequence 接口,表示是一个有序字符的序列,因为String的本质是一个char类型数组

String类继承关系如下图:

image.png


String类详细继承关系如下图:

12_01.jpg12_02.jpg12_03.jpg12_04.jpg12_05.jpg12_06.jpg12_07.jpg

2、成员变量

首先看看String类有哪些成员变量:

//用于字符存储的不可变字符数组
private final char value[];
// 缓存字符串的哈希码
private int hash;   //默认为0
//实现序列化的标识
private static final long serialVersionUID = -6849794470754667710L;

这些成员变量里需要重点关注:

  • private final char value[] 这是String字符串的本质,是一个字符集合,而且是final的,是不可变的。

3、构造方法

  • 无参构造方法
   /**
   * 初始化String对象,将""空字符串的value赋值给实例对象的value,也是空字符,因为字符串是不可变的,所以不需要用这个方法
   * 
   */
    public String() {
        this.value = "".value;
    }

示例:

String str = new String()
str = "hello";
  • 1.先创建了一个空的String对象
  • 2.接着又在常量池中创建了一个"hello",并赋值给第二个String
  • 3.将第二个String的引用传递给第一个String
    这种方式实际上创建了两个对象

  • 参数为String的有参构造方法
  /**
  *  参数为一个String对象
  * 将形参的value和hash赋值给实例对象作为初始化
  * 相当于深拷贝了一个形参String对象
  */
    public String(String original) {
        this.value = original.value;
        this.hash = original.hash;
    }

示例:

String str=new String("hello")

创建了一个对象。

  • 参数为字符数组的有参构造方法
   /**
    * 参数为一个char字符数组
    * 将数组值拷贝赋给不可变字符数组
    * 这里为什么不直接赋值呢?
    * 因为参数char value[]是可变的,如果直接赋值,当参数数组发生变化时,就会影响到新生成的String对象,着就破坏的String的“不可变性”。 
   */
    public String(char value[]) {
        this.value = Arrays.copyOf(value, value.length);
    }

  • 参数为字符数组(指定起止位置)的有参构造方法
   /**
   *  参数为char字符数组,offset(起始位置,偏移量),count(个数)
   * 在char数组的基础上,从offset位置开始计数count个,构成一个新的String的字符串
   **/
    public String(char value[], int offset, int count) {
        if (offset < 0) {
            throw new StringIndexOutOfBoundsException(offset);
        }
        if (count <= 0) {
            if (count < 0) {
                throw new StringIndexOutOfBoundsException(count);
            }
            if (offset <= value.length) {
                this.value = "".value;
                return;
            }
        }
        // Note: offset or count might be near -1>>>1.
        if (offset > value.length - count) {
            throw new StringIndexOutOfBoundsException(offset + count);
        }
        this.value = Arrays.copyOfRange(value, offset, offset+count);
    }

  • 参数为int数组(指定起止位置)的有参构造方法
    /** 
  * 参数为int字符数组,offset(起始位置,偏移量),count(个数)
  * int数组的元素则是字符对应的ASCII整数值
  */
    public String(int[] codePoints, int offset, int count) {
        if (offset < 0) {
            throw new StringIndexOutOfBoundsException(offset);
        }
        if (count <= 0) {
            if (count < 0) {
                throw new StringIndexOutOfBoundsException(count);
            }
            if (offset <= codePoints.length) {
                this.value = "".value;
                return;
            }
        }
        // Note: offset or count might be near -1>>>1.
        if (offset > codePoints.length - count) {
            throw new StringIndexOutOfBoundsException(offset + count);
        }
        final int end = offset + count;
        // Pass 1: Compute precise size of char[]
        int n = count;
        for (int i = offset; i < end; i++) {
            int c = codePoints[i];
            if (Character.isBmpCodePoint(c))
                continue;
            else if (Character.isValidCodePoint(c))
                n++;
            else throw new IllegalArgumentException(Integer.toString(c));
        }
        // Pass 2: Allocate and fill in char[]
        final char[] v = new char[n];
        for (int i = offset, j = 0; i < end; i++, j++) {
            int c = codePoints[i];
            if (Character.isBmpCodePoint(c))
                v[j] = (char)c;
            else
                Character.toSurrogates(c, v, j++);
        }
        this.value = v;
    }

有一些标为过时我们就不再关注了。

  • 参数为byte数组(指定起止位置、字符编码)的有参构造方法
    /** 
  * 参数为byte数组,offset(起始位置,偏移量),长度,和字符编码格式
  * 传入一个byte数组,从offset开始截取length个长度,其字符编码格式为charsetName,如UTF-8
  */
    public String(byte bytes[], int offset, int length, String charsetName)
            throws UnsupportedEncodingException {
        if (charsetName == null)
            throw new NullPointerException("charsetName");
        //判断byte数组是否越界    
        checkBounds(bytes, offset, length);
        this.value = StringCoding.decode(charsetName, bytes, offset, length);
    }

StringCoding类的decode方法:

    static char[] decode(String charsetName, byte[] ba, int off, int len)
        throws UnsupportedEncodingException
    {
        StringDecoder sd = deref(decoder);
        String csn = (charsetName == null) ? "ISO-8859-1" : charsetName;
        if ((sd == null) || !(csn.equals(sd.requestedCharsetName())
                              || csn.equals(sd.charsetName()))) {
            sd = null;
            try {
                Charset cs = lookupCharset(csn);
                if (cs != null)
                    sd = new StringDecoder(cs, csn);
            } catch (IllegalCharsetNameException x) {}
            if (sd == null)
                throw new UnsupportedEncodingException(csn);
            set(decoder, sd);
        }
        return sd.decode(ba, off, len);
    }

其余的从byte数组构造String的构造方法都是调用这个方法,这里就不再赘述。

  • 参数为StringBuffer的有参构造方法
   /**
   *  参数类型为StringBuffer,将StringBuffer值数组拷贝给String的值数组
   * 线程安全的
   **/
    public String(StringBuffer buffer) {
        synchronized(buffer) {
            this.value = Arrays.copyOf(buffer.getValue(), buffer.length());
        }
    }

使用StringBuilder为参数构造类似,不过不是线程安全的。

4、长度/判空

  • length()
   /**
   *  返回value数组的长度
   */
    public int length() {
        return value.length;
    }
  • isEmpty()
     /**
     *  value数组的长度是否为0
   */
    public boolean isEmpty() {
        return value.length == 0;
    }

5、取字符

  • charAt(int index)
   /**
   * 获取下标为index的value数组字符
   */
    public char charAt(int index) {
        if ((index < 0) || (index >= value.length)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        return value[index];
    }
  • codePointAt(int index)
   /**
    * 返回String对象的char数组index位置的元素的ASSIC码(int类型)
    */
    public int codePointAt(int index) {
        if ((index < 0) || (index >= value.length)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        return Character.codePointAtImpl(value, index, value.length);
    }
  • codePointBefore(int index)
   /**
    * 返回index位置元素的前一个元素的ASSIC码(int型)
    */
    public int codePointBefore(int index) {
        int i = index - 1;  //获得index前一个元素的索引位置
        if ((i < 0) || (i >= value.length)) { //所以,index不能等于0,因为i = 0 - 1 = -1
            throw new StringIndexOutOfBoundsException(index);
        }
        return Character.codePointBeforeImpl(value, index, 0);
    }
  • getChars(char dst[], int dstBegin)
   /**
    * 将value数组dstBegin下标起的字符拷贝给dst
    */
    void getChars(char dst[], int dstBegin) {
        System.arraycopy(value, 0, dst, dstBegin, value.length);
    }

6、比较

  • equals(Object anObject)
   /**
   *  String的equals方法,重写了Object的equals方法(区分大小写)
   * 比较的是两个字符串的值是否相等
   * 参数是一个Object对象,而不是一个String对象。这是因为重写的是Object的equals方法,所以是Object
   */
    public boolean equals(Object anObject) {
        //如果较地址是否相等,是同一个对象
        if (this == anObject) {
            return true;
        }
        //判断anObject是否是String类型
        if (anObject instanceof String) {
           //将anObject转换为String类型
            String anotherString = (String)anObject;
            int n = value.length;
            //判断anotherString是否和当前String的value数组长度相同
            if (n == anotherString.value.length) {
                 //v1为当前String的值,v2为参数对象anotherString的值
                char v1[] = value;
                char v2[] = anotherString.value;
                int i = 0;
                //每次循环长度-1,直到长度消耗完,循环结束 
                while (n-- != 0) {
                   //相同下标位置字符串比较,有一个不相同,返回false
                    if (v1[i] != v2[i])
                        return false;
                    i++;
                }
                //如比较期间没有问题,则说明相等,返回true
                return true;
            }
        }
        return false;
    }
  • equalsIgnoreCase(String anotherString)
    /**
  * 这也是一个String的equals方法,与上一个方法不用,该方法(不区分大小写),从名字也能看出来
  * 是对String的equals方法的补充。
  * 这里参数这是一个String对象,而不是Object了,因为这是String本身的方法,不是重写谁的方法
  */
    public boolean equalsIgnoreCase(String anotherString) {
       //先判断是否为同一个对象
        return (this == anotherString) ? true
                : (anotherString != null)
                //再判断长度是否相等
                && (anotherString.value.length == value.length)
                //再调用regionMatchs方法 
                && regionMatches(true, 0, anotherString, 0, value.length);
    }
  • compareTo(String anotherString)
  /**
  * 这是一个比较字符串中字符大小的函数,因为String实现了Comparable<String>接口,所以重写了compareTo方法
  * Comparable是排序接口。若一个类实现了Comparable接口,就意味着该类支持排序。
  * 实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arrays.sort进行自动排序。
  * 
  * 参数是需要比较的另一个String对象
  * 返回的int类型,正数为大,负数为小,是基于字符的ASSIC码比较的
  * 
  */
    public int compareTo(String anotherString) {
        int len1 = value.length;
        int len2 = anotherString.value.length;
        int lim = Math.min(len1, len2);
        char v1[] = value;
        char v2[] = anotherString.value;
        int k = 0;
        while (k < lim) {
            char c1 = v1[k];
            char c2 = v2[k];
            if (c1 != c2) {
                return c1 - c2;
            }
            k++;
        }
        return len1 - len2;
    }

7、包含

  • startsWith(String prefix, int toffset)
    /**
  * 作用就是当前对象[toffset,toffset + prefix.value.lenght]区间的字符串片段等于prefix
  * 也可以说当前对象的toffset位置开始是否以prefix作为前缀
  * prefix是需要判断的前缀字符串,toffset是当前对象的判断起始位置
  */
    public boolean startsWith(String prefix, int toffset) {
      //获得当前对象的值
        char ta[] = value;
        //获得需要判断的起始位置,偏移量
        int to = toffset;
        //获得前缀字符串的值
        char pa[] = prefix.value;
        int po = 0;
        int pc = prefix.value.length;
        // Note: toffset might be near -1>>>1.
        if ((toffset < 0) || (toffset > value.length - pc)) {
            return false;
        }
         //循环pc次,既prefix的长度
        while (--pc >= 0) {
        //每次比较当前对象的字符串的字符是否跟prefix一样
            if (ta[to++] != pa[po++]) {
                //一样则pc--,to++,po++,有一个不同则返回false
                return false;
            }
        }
        return true;
    }
  • startsWith(String prefix)
   // 判断当前对象[0, prefix.value.lenght]区间的字符串片段等于prefix。
    public boolean startsWith(String prefix) {
        return startsWith(prefix, 0);
    }
  • endsWith(String suffix)
   //判断当前字符串对象是否以字符串prefix结尾
    public boolean endsWith(String suffix) {
        return startsWith(suffix, value.length - suffix.value.length);
    }
    //是否含有CharSequence这个子类元素,通常用于StrngBuffer,StringBuilder
    public boolean contains(CharSequence s) {
        return indexOf(s.toString()) > -1;
    }

8、hashCode

     /**
      * String类重写了Object类的hashCode方法。
      * 哈希表来实现的数据结构来使用,比如String对象要放入HashMap中。
      *
   */
    public int hashCode() {
       //hash是成员变量,所以默认为0
        int h = hash;
        如果hash为0,且字符串对象长度大于0,不为""
        if (h == 0 && value.length > 0) {
            //获取当前对象的value
            char val[] = value;
            // 通过算法s[0]31^(n-1) + s[1]31^(n-2) + ... + s[n-1]计算hash值 
            for (int i = 0; i < value.length; i++) {
                //每次都是31 * 每次循环获得的h +第i个字符的ASSIC码
                h = 31 * h + val[i];
            }
            hash = h;
        }
        return h;
    }

9、查询索引

  • indexOf(int ch, int fromIndex)
  /**
   * index方法就是返回ch字符第一次在字符串中出现的位置
   * 既从fromIndex位置开始查找,从头向尾遍历,ch整数对应的字符在字符串中第一次出现的位置
   * -1代表字符串没有这个字符,整数代表字符第一次出现在字符串的位置
   */
 public int indexOf(int ch, int fromIndex) {
        final int max = value.length;
        if (fromIndex < 0) {
            fromIndex = 0;
        } else if (fromIndex >= max) {
            // Note: fromIndex might be near -1>>>1.
            return -1;
        }
       一个char占用两个字节,如果ch小于2的16次方(65536),绝大多数字符都在此范围内
        if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
            // handle most cases here (ch is a BMP code point or a
            // negative value (invalid code point))
            final char[] value = this.value;
            //从 fromIndex位置起遍历value数组
            for (int i = fromIndex; i < max; i++) {
                //存在相等的字符,返回第一次出现该字符的索引位置,并终止循环
                if (value[i] == ch) {
                    return i;
                }
            }
            return -1;
        } else {
            return indexOfSupplementary(ch, fromIndex);
        }
    }
      public int indexOf(int ch) {
        return indexOf(ch, 0);//从第一个字符开始搜索
      }
  • indexOf(String str)
/**
  * 这是一个不对外公开的静态函数
  * source就是原始字符串,sourceOffset就是原始字符串的偏移量,起始位置。
  * sourceCount就是原始字符串的长度,target就是要查找的字符串。
  * fromIndex就是从原始字符串的第fromIndex开始遍历
  *
  */
    static int indexOf(char[] source, int sourceOffset, int sourceCount,
            String target, int fromIndex) {
        return indexOf(source, sourceOffset, sourceCount,
                       target.value, 0, target.value.length,
                       fromIndex);
    }
/**
  *
  * 从fromIndex开始遍历,返回第一次出现str字符串的位置
  *
  */
    public int indexOf(String str, int fromIndex) {
        return indexOf(value, 0, value.length,
                str.value, 0, str.value.length, fromIndex);
    }
  /**
  * 返回第一次出现的字符串的位置
  *
  */
    public int indexOf(String str) {
        return indexOf(str, 0);
    }
  • lastIndexOf(int ch)
   /**
  * 从尾部向头部遍历,返回cn第一次出现的位置,value.length - 1就是起点 
  * 为了理解,我们可以认为是返回cn对应的字符在字符串中最后出现的位置
  *  
  * ch是字符对应的整数
  */
    public int lastIndexOf(int ch) {
        return lastIndexOf(ch, value.length - 1);
    }
  • public int lastIndexOf(int ch, int fromIndex)
  /**
  * 从尾部向头部遍历,从fromIndex开始作为起点,返回ch对应字符第一次在字符串出现的位置
  * 既从头向尾遍历,返回cn对应字符在字符串中最后出现的一次位置,fromIndex为结束点
  *
  */
    public int lastIndexOf(int ch, int fromIndex) {
        if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
            // handle most cases here (ch is a BMP code point or a
            // negative value (invalid code point))
            final char[] value = this.value;
            int i = Math.min(fromIndex, value.length - 1);
            for (; i >= 0; i--) {
                if (value[i] == ch) {
                    return i;
                }
            }
            return -1;
        } else {
            return lastIndexOfSupplementary(ch, fromIndex);
        }
    }

10、获取子串

  • substring(int beginIndex)
   /**
  *  截取当前字符串对象的片段,组成一个新的字符串对象
  *  beginIndex为截取的初始位置,默认截到len - 1位置
  */
    public String substring(int beginIndex) {
        if (beginIndex < 0) {
            throw new StringIndexOutOfBoundsException(beginIndex);
        }
        int subLen = value.length - beginIndex;
        if (subLen < 0) {
            throw new StringIndexOutOfBoundsException(subLen);
        }
        //利用构造函数生成新的String对象
        return (beginIndex == 0) ? this : new String(value, beginIndex, subLen);
    }
  • substring(int beginIndex, int endIndex)
    /**
  * 截取一个区间范围
  * [beginIndex,endIndex),不包括endIndex
  */
    public String substring(int beginIndex, int endIndex) {
        if (beginIndex < 0) {
            throw new StringIndexOutOfBoundsException(beginIndex);
        }
        if (endIndex > value.length) {
            throw new StringIndexOutOfBoundsException(endIndex);
        }
        int subLen = endIndex - beginIndex;
        if (subLen < 0) {
            throw new StringIndexOutOfBoundsException(subLen);
        }
        return ((beginIndex == 0) && (endIndex == value.length)) ? this
                : new String(value, beginIndex, subLen);
    }

11、拼接

  • concat(String str)
   /**
  * String的拼接函数
  * 例如:String  str = "abc"; str.concat("def")    output: "abcdef"
  *
  */
    public String concat(String str) {
        int otherLen = str.length();
        if (otherLen == 0) {
            return this;
        }
        //获得当前String对象的长度 
        int len = value.length;
        //将数组扩容,将value数组拷贝到buf数组中,长度为len + str.lenght
        char buf[] = Arrays.copyOf(value, len + otherLen);
        //然后将str字符串从buf字符数组的len位置开始覆盖,得到一个完整的buf字符数组
        str.getChars(buf, len);
        //生成新的Strintg对象
        return new String(buf, true);
    }
  • join(CharSequence delimiter, CharSequence… elements)
   /**
   * 拼接CharSequence,包含String、StringBuilder、StringBuffer
   */
    public static String join(CharSequence delimiter, CharSequence... elements) {
        Objects.requireNonNull(delimiter);
        Objects.requireNonNull(elements);
        // Number of elements not likely worth Arrays.stream overhead.
        StringJoiner joiner = new StringJoiner(delimiter);
        for (CharSequence cs: elements) {
            joiner.add(cs);
        }
        return joiner.toString();
    }

12、替换

  • replace(char oldChar, char newChar)
   //替换,将字符串中的oldChar字符全部替换成newChar
    public String replace(char oldChar, char newChar) {
        if (oldChar != newChar) {
            int len = value.length;
            int i = -1;
            char[] val = value; /* avoid getfield opcode */
            //循环len次 
            while (++i < len) {
                //找到第一个旧字符,打断循环
                if (val[i] == oldChar) {
                    break;
                }
            }
            //如果第一个旧字符的位置小于len
            if (i < len) {
               //new一个字符数组,len个长度
                char buf[] = new char[len];
                for (int j = 0; j < i; j++) {
                   //把旧字符的前面的字符都复制到新字符数组上
                    buf[j] = val[j];
                }
                 //从i位置开始遍历
                while (i < len) {
                    char c = val[i];
                    //发现旧字符就替换,不相关的则直接复制
                    buf[i] = (c == oldChar) ? newChar : c;
                    i++;
                }
                //通过新字符数组buf重构一个新String对象
                return new String(buf, true);
            }
        }
        return this;
    }
  • replaceAll(String regex, String replacement)
   //当不是正规表达式时,与replace效果一样,都是全体换。如果字符串的正则表达式,则规矩表达式全体替换
    public String replaceAll(String regex, String replacement) {
        return Pattern.compile(regex).matcher(this).replaceAll(replacement);
    }


13、切割

  • split(String regex, int limit)
   /**
   *  根据切割符号切割字符串
   */
    public String[] split(String regex, int limit) {
      /* 1、单个字符,且不是".$|()[{^?*+\\"其中一个
       * 2、两个字符,第一个是"\",第二个大小写字母或者数字
       */
        char ch = 0;
        if (((regex.value.length == 1 &&
             ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
             (regex.length() == 2 &&
              regex.charAt(0) == '\\' &&
              (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
              ((ch-'a')|('z'-ch)) < 0 &&
              ((ch-'A')|('Z'-ch)) < 0)) &&
            (ch < Character.MIN_HIGH_SURROGATE ||
             ch > Character.MAX_LOW_SURROGATE))
        {
            int off = 0;
            int next = 0;
            //大于0,limited==true,反之limited==false
            boolean limited = limit > 0;
            ArrayList<String> list = new ArrayList<>();
            while ((next = indexOf(ch, off)) != -1) {
            //当参数limit<=0 或者 集合list的长度小于 limit-1
                if (!limited || list.size() < limit - 1) {
                    list.add(substring(off, next));
                    off = next + 1;
                } else {    // last one
                    //判断最后一个list.size() == limit - 1
                    list.add(substring(off, value.length));
                    off = value.length;
                    break;
                }
            }
            //如果没有一个能匹配的,返回一个新的字符串,内容和原来的一样
            if (off == 0)
                return new String[]{this};
           // 当 limit<=0 时,limited==false,或者集合的长度 小于 limit是,截取添加剩下的字符串
            if (!limited || list.size() < limit)
                list.add(substring(off, value.length));
            // 当 limit == 0 时,如果末尾添加的元素为空(长度为0),则集合长度不断减1,直到末尾不为空
            int resultSize = list.size();
            if (limit == 0) {
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                    resultSize--;
                }
            }
            String[] result = new String[resultSize];
            return list.subList(0, resultSize).toArray(result);
        }
        return Pattern.compile(regex).split(this, limit);
    }
  • split(String regex)
    public String[] split(String regex) {
        return split(regex, 0);
    }

14、大小写转换

  • toLowerCase(Locale locale)
  /**
  * 将大写字符转换为小写
  */
  public String toLowerCase(Locale locale) {
        if (locale == null) {
            throw new NullPointerException();
        }
        int firstUpper;
        final int len = value.length;
        /* Now check if there are any characters that need to be changed. */
        scan: {
            for (firstUpper = 0 ; firstUpper < len; ) {
                char c = value[firstUpper];
                //判断字符是否大写
                if ((c >= Character.MIN_HIGH_SURROGATE)
                        && (c <= Character.MAX_HIGH_SURROGATE)) {
                    int supplChar = codePointAt(firstUpper);
                    if (supplChar != Character.toLowerCase(supplChar)) {
                        break scan;
                    }
                    firstUpper += Character.charCount(supplChar);
                } else {
                    if (c != Character.toLowerCase(c)) {
                        break scan;
                    }
                    firstUpper++;
                }
            }
            return this;
        }
        char[] result = new char[len];
        int resultOffset = 0;  /* result may grow, so i+resultOffset
                                * is the write location in result */
        /* Just copy the first few lowerCase characters. */
        System.arraycopy(value, 0, result, 0, firstUpper);
        String lang = locale.getLanguage();
        boolean localeDependent =
                (lang == "tr" || lang == "az" || lang == "lt");
        char[] lowerCharArray;
        int lowerChar;
        int srcChar;
        int srcCount;
        for (int i = firstUpper; i < len; i += srcCount) {
            srcChar = (int)value[i];
            if ((char)srcChar >= Character.MIN_HIGH_SURROGATE
                    && (char)srcChar <= Character.MAX_HIGH_SURROGATE) {
                srcChar = codePointAt(i);
                srcCount = Character.charCount(srcChar);
            } else {
                srcCount = 1;
            }
            if (localeDependent ||
                srcChar == '\u03A3' || // GREEK CAPITAL LETTER SIGMA
                srcChar == '\u0130') { // LATIN CAPITAL LETTER I WITH DOT ABOVE
                lowerChar = ConditionalSpecialCasing.toLowerCaseEx(this, i, locale);
            } else {
                lowerChar = Character.toLowerCase(srcChar);
            }
            if ((lowerChar == Character.ERROR)
                    || (lowerChar >= Character.MIN_SUPPLEMENTARY_CODE_POINT)) {
                if (lowerChar == Character.ERROR) {
                    lowerCharArray =
                            ConditionalSpecialCasing.toLowerCaseCharArray(this, i, locale);
                } else if (srcCount == 2) {
                    resultOffset += Character.toChars(lowerChar, result, i + resultOffset) - srcCount;
                    continue;
                } else {
                    lowerCharArray = Character.toChars(lowerChar);
                }
                /* Grow result if needed */
                int mapLen = lowerCharArray.length;
                if (mapLen > srcCount) {
                    char[] result2 = new char[result.length + mapLen - srcCount];
                    System.arraycopy(result, 0, result2, 0, i + resultOffset);
                    result = result2;
                }
                for (int x = 0; x < mapLen; ++x) {
                    result[i + resultOffset + x] = lowerCharArray[x];
                }
                resultOffset += (mapLen - srcCount);
            } else {
                result[i + resultOffset] = (char)lowerChar;
            }
        }
        return new String(result, 0, len + resultOffset);
    }

15、去空格

  • trim()
   /**
  * 去除字符串首尾部分的空值,如,' ' or " ",非""
  * 原理是通过substring去实现的,首尾各一个指针
  * 头指针发现空值就++,尾指针发现空值就--
  * ' '的Int值为32,其实不仅仅是去空的作用,应该是整数值小于等于32的去除掉
  */
    public String trim() {
        //代表尾指针,实际是尾指针+1的大小
        int len = value.length;
        //代表头指针
        int st = 0;
        char[] val = value;    /* avoid getfield opcode */
        //st<len,且字符的整数值小于32则代表有空值,st++
        while ((st < len) && (val[st] <= ' ')) {
            st++;
        }
        //len - 1才是真正的尾指针,如果尾部元素的整数值<=32,则代表有空值,len--
        while ((st < len) && (val[len - 1] <= ' ')) {
            len--;
        }
        截取st到len的字符串(不包括len位置)
        return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
    }

16、字符/字符串转换

  • toString()
    //返回自己
    public String toString() {
        return this;
    }
  • toCharArray()
   /**
   * 返回value数组的拷贝
   */
    public char[] toCharArray() {
        // Cannot use Arrays.copyOf because of class initialization order issues
        char result[] = new char[value.length];
        System.arraycopy(value, 0, result, 0, value.length);
        return result;
    }
  • valueOf(Object obj)
   //将Object转换为字符串
    public static String valueOf(Object obj) {
        return (obj == null) ? "null" : obj.toString();
    }

17、格式化

  • format(String format, Object… args)
   //JAVA字符串格式化
  //新字符串使用本地语言环境,制定字符串格式和参数生成格式化的新字符串。
    public static String format(String format, Object... args) {
        return new Formatter().format(format, args).toString();
    }
  • format(Locale l, String format, Object… args)
   //使用指定的语言环境,制定字符串格式和参数生成格式化的字符串。
    public static String format(Locale l, String format, Object... args) {
        return new Formatter(l).format(format, args).toString();
    }

18、intern()

一个本地方法。

当调用intern方法时,如果池中已经包含一个与该String确定的字符串相同equals(Object)的字符串,则返回该字符串。否则,将此String对象添加到池中,并返回此对象的引用。

  public native String intern();

三、常量池

在查看构造函数的时候,我们知道最常见的两种声明一个字符串对象的形式有两种:

①、通过“字面量”的形式直接赋值

String str = "hello";

②、通过 new 关键字调用构造函数创建对象

String str = new String("hello");

这两种声明方式有什么区别呢?首先了解 JDK1.7(不包括1.7)以前的 JVM 的内存分布:

image.png

  • ①、程序计数器:也称为 PC  寄存器,保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要从程序计数器中得到当前需要执行的指令所在存储单元的地址,然后根据得到的地址获取到指令,在得到指令之后,程序计数器便自动加1或者根据转移指针得到下一条指令的地址,如此循环,直至执行完所有的指令。线程私有。
  • ②、虚拟机栈:基本数据类型、对象的引用都存放在这。线程私有。
  • ③、本地方法栈:虚拟机栈是为执行Java方法服务的,而本地方法栈则是为执行本地方法(Native   Method)服务的。在JVM规范中,并没有对本地方法栈的具体实现方法以及数据结构作强制规定,虚拟机可以自由实现它。在HotSopt虚拟机中直接就把本地方法栈和虚拟机栈合二为一。
  • ④、方法区:存储了每个类的信息(包括类的名称、方法信息、字段信息)、静态变量、常量以及编译器编译后的代码等。注意:在Class文件中除了类的字段、方法、接口等描述信息外,还有一项信息是常量池,用来存储编译期间生成的字面量和符号引用。
  • ⑤、堆:用来存储对象本身的以及数组(当然,数组引用是存放在Java栈中的)。

在 JDK1.7 以后,方法区的常量池被移除放到堆中了,如下:

image.png

常量池:Java运行时会维护一个String Pool(String池), 也叫“字符串缓冲区”。String池用来存放运行时中产生的各种字符串,并且池中的字符串的内容不重复。

  • ①、字面量创建字符串或者纯字符串(常量)拼接字符串会先在字符串池中找,看是否有相等的对象,没有的话就在字符串池创建该对象;有的话则直接用池中的引用,避免重复创建对象。
  • ②、new关键字创建时,直接在堆中创建一个新对象,变量所引用的都是这个新对象的地址,但是如果通过new关键字创建的字符串内容在常量池中存在了,那么会由堆在指向常量池的对应字符;但是反过来,如果通过new关键字创建的字符串对象在常量池中没有,那么通过new关键词创建的字符串对象是不会额外在常量池中维护的。
  • ③、使用包含变量表达式来创建String对象,则不仅会检查维护字符串池,还会在堆区创建这个对象,最后是指向堆内存的对象。
String str1 = "hello";
String str2 = "hello";
String str3 = new String("hello");
System.out.println(str1==str2);//true
System.out.println(str1==str3);//fasle
System.out.println(str2==str3);//fasle
System.out.println(str1.equals(str2));//true
System.out.println(str1.equals(str3));//true
System.out.println(str2.equals(str3));//true

首先 String str1 = “hello”,会先到常量池中检查是否有“hello”的存在,发现是没有的,于是在常量池中创建“hello”对象,并将常量池中的引用赋值给str1;

第二个字面量 String str2 =  “hello”,在常量池中检测到该对象了,直接将引用赋值给str2;第三个是通过new关键字创建的对象,常量池中有了该对象了,不用在常量池中创建,然后在堆中创建该对象后,将堆中对象的引用赋值给str3,再将该对象指向常量池。如下图所示:

注意:看上图红色的箭头,通过 new 关键字创建的字符串对象,如果常量池中存在了,会将堆中创建的对象指向常量池的引用。

使用包含变量表达式创建对象:

String str1 = "hello";
String str2 = "helloworld";
String str3 = str1+"world";//编译器不能确定为常量(会在堆区创建一个String对象)
String str4 = "hello"+"world";//编译器确定为常量,直接到常量池中引用
System.out.println(str2==str3);//fasle
System.out.println(str2==str4);//true
System.out.println(str3==str4);//fasle

str3 由于含有变量str1,编译器不能确定是常量,会在堆区中创建一个String对象。而str4是两个常量相加,直接引用常量池中的对象即可。


四、其它扩展

1、String 真的不可变吗?

String 类是用 final 关键字修饰的,不可被继承,仅此而已。

我们通过阅读源码知道,字符串是由字符组成,字符存在value数组中。

private final char value[];

value 被 final 修饰,只能保证引用不被改变,但是 value  所指向的堆中的数组,才是真实的数据,只要能够操作堆中的数组,依旧能改变数据。而且 value 是基本类型构成,那么一定是可变的,即使被声明为  private,我们也可以通过反射来改变。

所以String的不可变性仅仅是正常情况下的不可变,但绝非完全的不可变。


2、String类为什么要设计为不可变的?

  • 便于实现字符串池(String pool)
  • 多线程安全
  • 避免安全问题
  • 加快字符串处理速度


3、String对“+”的重载

在API文档上查阅到:

Java 语言提供对字符串串联符号("+")以及将其他对象转换为字符串的特殊支持。字符串串联是通过 StringBuilder(或  StringBuffer)类及其 append 方法实现的。字符串转换是通过 toString 方法实现的,该方法由 Object  类定义,并可被 Java 中的所有类继承。有关字符串串联和转换的更多信息,请参阅 Gosling、Joy 和 Steele 合著的 The  Java Language Specification。

可以通过代码反编译验证一下:

public class StringDemo01 {
    public static void main(String[] args) {
        String a = "abc";
        String b = "def";
        System.out.println("abcdef" == a+b);
    }
}

通过javap命令分析java汇编指令可以得知底层使用了StringBuilder实现

javap -v StringDemo.class
Classfile /home/qiao/桌面/课程/spring_study/java_study/spring_cloud_demo/java_demo/src/main/java/string/StringDemo01.class
  Last modified 2020-6-6; size 730 bytes
  MD5 checksum 8847314e26430be9703f9490a6d8ecf3
  Compiled from "StringDemo01.java"
public class string.StringDemo01
  minor version: 0
  major version: 52
  flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
   #1 = Methodref          #12.#25        // java/lang/Object."<init>":()V
   #2 = String             #26            // abc
   #3 = String             #27            // def
   #4 = Fieldref           #28.#29        // java/lang/System.out:Ljava/io/PrintStream;
   #5 = String             #30            // abcdef
   #6 = Class              #31            // java/lang/StringBuilder
   #7 = Methodref          #6.#25         // java/lang/StringBuilder."<init>":()V
   #8 = Methodref          #6.#32         // java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
   #9 = Methodref          #6.#33         // java/lang/StringBuilder.toString:()Ljava/lang/String;
  #10 = Methodref          #34.#35        // java/io/PrintStream.println:(Z)V
  #11 = Class              #36            // string/StringDemo01
  #12 = Class              #37            // java/lang/Object
  #13 = Utf8               <init>
  #14 = Utf8               ()V
  #15 = Utf8               Code
  #16 = Utf8               LineNumberTable
  #17 = Utf8               main
  #18 = Utf8               ([Ljava/lang/String;)V
  #19 = Utf8               StackMapTable
  #20 = Class              #38            // "[Ljava/lang/String;"
  #21 = Class              #39            // java/lang/String
  #22 = Class              #40            // java/io/PrintStream
  #23 = Utf8               SourceFile
  #24 = Utf8               StringDemo01.java
  #25 = NameAndType        #13:#14        // "<init>":()V
  #26 = Utf8               abc
  #27 = Utf8               def
  #28 = Class              #41            // java/lang/System
  #29 = NameAndType        #42:#43        // out:Ljava/io/PrintStream;
  #30 = Utf8               abcdef
  #31 = Utf8               java/lang/StringBuilder
  #32 = NameAndType        #44:#45        // append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
  #33 = NameAndType        #46:#47        // toString:()Ljava/lang/String;
  #34 = Class              #40            // java/io/PrintStream
  #35 = NameAndType        #48:#49        // println:(Z)V
  #36 = Utf8               string/StringDemo01
  #37 = Utf8               java/lang/Object
  #38 = Utf8               [Ljava/lang/String;
  #39 = Utf8               java/lang/String
  #40 = Utf8               java/io/PrintStream
  #41 = Utf8               java/lang/System
  #42 = Utf8               out
  #43 = Utf8               Ljava/io/PrintStream;
  #44 = Utf8               append
  #45 = Utf8               (Ljava/lang/String;)Ljava/lang/StringBuilder;
  #46 = Utf8               toString
  #47 = Utf8               ()Ljava/lang/String;
  #48 = Utf8               println
  #49 = Utf8               (Z)V
{
  public string.StringDemo01();
    descriptor: ()V
    flags: ACC_PUBLIC
    Code:
      stack=1, locals=1, args_size=1
         0: aload_0
         1: invokespecial #1                  // Method java/lang/Object."<init>":()V
         4: return
      LineNumberTable:
        line 11: 0
  public static void main(java.lang.String[]);
    descriptor: ([Ljava/lang/String;)V
    flags: ACC_PUBLIC, ACC_STATIC
    Code:
      stack=4, locals=3, args_size=1
         0: ldc           #2                  // String abc
         2: astore_1
         3: ldc           #3                  // String def
         5: astore_2
         6: getstatic     #4                  // Field java/lang/System.out:Ljava/io/PrintStream;
         9: ldc           #5                  // String abcdef
        11: new           #6                  // class java/lang/StringBuilder
        14: dup
        15: invokespecial #7                  // Method java/lang/StringBuilder."<init>":()V
        18: aload_1
        19: invokevirtual #8                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
        22: aload_2
        23: invokevirtual #8                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
        26: invokevirtual #9                  // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
        29: if_acmpne     36
        32: iconst_1
        33: goto          37
        36: iconst_0
        37: invokevirtual #10                 // Method java/io/PrintStream.println:(Z)V
        40: return
      LineNumberTable:
        line 14: 0
        line 15: 3
        line 17: 6
        line 21: 40
      StackMapTable: number_of_entries = 2
        frame_type = 255 /* full_frame */
          offset_delta = 36
          locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ]
          stack = [ class java/io/PrintStream ]
        frame_type = 255 /* full_frame */
          offset_delta = 0
          locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ]
          stack = [ class java/io/PrintStream, int ]
}
SourceFile: "StringDemo01.java"

String拼接,有字符串变量参与时,中间会产生StringBuilder对象(JDK1.5之前产生StringBuffer)

目录
相关文章
|
1月前
|
存储 JavaScript Java
Java 中的 String Pool 简介
本文介绍了 Java 中 String 对象及其存储机制 String Pool 的基本概念,包括字符串引用、构造方法中的内存分配、字符串文字与对象的区别、手工引用、垃圾清理、性能优化,以及 Java 9 中的压缩字符串特性。文章详细解析了 String 对象的初始化、内存使用及优化方法,帮助开发者更好地理解和使用 Java 中的字符串。
Java 中的 String Pool 简介
|
3月前
|
Java 测试技术 开发者
Java零基础-indexOf(String str)详解!
【10月更文挑战第14天】Java零基础教学篇,手把手实践教学!
135 65
|
1月前
|
缓存 安全 Java
java 为什么 String 在 java 中是不可变的?
本文探讨了Java中String为何设计为不可变类型,从字符串池的高效利用、哈希码缓存、支持其他对象的安全使用、增强安全性以及线程安全等方面阐述了不可变性的优势。文中还通过具体代码示例解释了这些优点的实际应用。
java 为什么 String 在 java 中是不可变的?
|
2月前
|
JSON Java 关系型数据库
Java更新数据库报错:Data truncation: Cannot create a JSON value from a string with CHARACTER SET 'binary'.
在Java中,使用mybatis-plus更新实体类对象到mysql,其中一个字段对应数据库中json数据类型,更新时报错:Data truncation: Cannot create a JSON value from a string with CHARACTER SET 'binary'.
189 4
Java更新数据库报错:Data truncation: Cannot create a JSON value from a string with CHARACTER SET 'binary'.
|
1月前
|
存储 Java
Java 11 的String是如何优化存储的?
本文介绍了Java中字符串存储优化的原理和实现。通过判断字符串是否全为拉丁字符,使用`byte`代替`char`存储,以节省空间。具体实现涉及`compress`和`toBytes`方法,前者用于尝试压缩字符串,后者则按常规方式存储。代码示例展示了如何根据配置决定使用哪种存储方式。
|
2月前
|
C语言 C++ 容器
【c++丨STL】string模拟实现(附源码)
本文详细介绍了如何模拟实现C++ STL中的`string`类,包括其构造函数、拷贝构造、赋值重载、析构函数等基本功能,以及字符串的插入、删除、查找、比较等操作。文章还展示了如何实现输入输出流操作符,使自定义的`string`类能够方便地与`cin`和`cout`配合使用。通过这些实现,读者不仅能加深对`string`类的理解,还能提升对C++编程技巧的掌握。
94 5
|
2月前
|
Java
在Java中如何将基本数据类型转换为String
在Java中,可使用多种方法将基本数据类型(如int、char等)转换为String:1. 使用String.valueOf()方法;2. 利用+运算符与空字符串连接;3. 对于数字类型,也可使用Integer.toString()等特定类型的方法。这些方法简单高效,适用于不同场景。
119 7
|
2月前
|
存储 编译器 C语言
【c++丨STL】string类的使用
本文介绍了C++中`string`类的基本概念及其主要接口。`string`类在C++标准库中扮演着重要角色,它提供了比C语言中字符串处理函数更丰富、安全和便捷的功能。文章详细讲解了`string`类的构造函数、赋值运算符、容量管理接口、元素访问及遍历方法、字符串修改操作、字符串运算接口、常量成员和非成员函数等内容。通过实例演示了如何使用这些接口进行字符串的创建、修改、查找和比较等操作,帮助读者更好地理解和掌握`string`类的应用。
70 2
|
11天前
|
监控 Java
java异步判断线程池所有任务是否执行完
通过上述步骤,您可以在Java中实现异步判断线程池所有任务是否执行完毕。这种方法使用了 `CompletionService`来监控任务的完成情况,并通过一个独立线程异步检查所有任务的执行状态。这种设计不仅简洁高效,还能确保在大量任务处理时程序的稳定性和可维护性。希望本文能为您的开发工作提供实用的指导和帮助。
57 17
|
21天前
|
Java
Java—多线程实现生产消费者
本文介绍了多线程实现生产消费者模式的三个版本。Version1包含四个类:`Producer`(生产者)、`Consumer`(消费者)、`Resource`(公共资源)和`TestMain`(测试类)。通过`synchronized`和`wait/notify`机制控制线程同步,但存在多个生产者或消费者时可能出现多次生产和消费的问题。 Version2将`if`改为`while`,解决了多次生产和消费的问题,但仍可能因`notify()`随机唤醒线程而导致死锁。因此,引入了`notifyAll()`来唤醒所有等待线程,但这会带来性能问题。
Java—多线程实现生产消费者