赫夫曼编码
基本介绍
- 赫夫曼编码也翻译为 哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式, 属于一种程序算法
- 赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。
- 赫夫曼编码广泛地用于数据文件压缩。其压缩率通常在 20%~90%之间
- 赫夫曼码是可变字长编码(VLC)的一种。Huffman 于 1952 年提出一种编码方法,称之为最佳编码
原理剖析
定长编码
变长编码
赫夫曼编码
传输的 字符串 ,按照字符的出险次数出现权重
- i like like like java do you like a java
- d:1 y:1 u:1 j:2 v:2 o:2 l:4 k:4 e:4 i:5 a:5 :9 // 各个字符对应的个数
- 按照上面字符出现的次数构建一颗赫夫曼树, 次数作为权值
步骤:
- 从小到大进行排序, 将每一个数据,每个数据都是一个节点 , 每个节点可以看成是一颗最简单的二叉树
- 取出根节点权值最小的两颗二叉树
- 组成一颗新的二叉树, 该新的二叉树的根节点的权值是前面两颗二叉树根节点权值的和
- 再将这颗新的二叉树,以根节点的权值大小 再次排序, 不断重复 1-2-3-4 的步骤,直到数列中,所有的数据都被处理, 就得到一颗赫夫曼树
根据赫夫曼树,给各个字符,规定编码 (前缀编码), 向左的路径为 0 向右的路径为 1 , 编码
如下:
按照上面的赫夫曼编码,我们的"i like like like java do you like a java" 字符串对应的编码为 (注意这里我们使用的无损压缩)
10101001101111011110100110111101111010011011110111101000011000011100110011110000110 01111000100100100110111101111011100100001100001110
长度为:133
原来长度是 359 , 压缩了 (359-133) / 359 = 62.9%
此编码满足前缀编码, 即字符的编码都不能是其他字符编码的前缀。不会造成匹配的多义性
赫夫曼编码是无损处理方案
注意事项
最佳实践-数据压缩(创建赫夫曼树)
将给出的一段文本,比如 "i like like like java do you like a java" , 根据前面的讲的赫夫曼编码原理,对其进行数 据 压 缩 处 理 ,形 式 如 :
1010100110111101111010011011110111101001101111011110100001100001110011001111000011001111000100100100110111101111011100100001100001110
步骤 1:
根据赫夫曼编码压缩数据的原理,需要创建 "i like like like java do you like a java" 对应的赫夫曼树
思路:前面已经分析过了,而且我们已然讲过了构建赫夫曼树的具体实现。
public static Node createHuffManTree(List<Node> nodes) { while (nodes.size() > 1) { //首先从小到大排序 list Collections.sort(nodes); // 找到list中最小的子树 Node leftnode = nodes.get(0); //找到倒数第二小的 Node rightnode = nodes.get(1); Node parent = new Node(null, leftnode.wight + rightnode.wight); parent.left = leftnode; parent.right = rightnode; // 删除两个被处理过的子树 nodes.remove(leftnode); nodes.remove(rightnode); // 之后将parent 加入到list // 这样遍历到最后只剩下一个节点 就是我们需要的赫夫曼树 nodes.add(parent); } return nodes.get(0); }
最佳实践-数据压缩(生成赫夫曼编码和赫夫曼编码后的数据)
我们已经生成了 赫夫曼树, 下面我们继续完成任务
生成赫夫曼树对应的赫夫曼编码 , 如下表:
=01 a=100 d=11000 u=11001 e=1110 v=11011 i=101 y=11010 j=0010 k=1111 l=000 o=0011
使用赫夫曼编码来生成赫夫曼编码数据 ,即按照上面的赫夫曼编码,将"i like like like java do you like a java"
字符串生成对应的编码数据, 形式如下:
1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000101111111100110001001010011011100
思路:前面已经分析过了,而且我们讲过了生成赫夫曼编码的具体实现。
/* 生成赫夫曼树对应的赫夫曼编码 * 思路 : * 1. 将赫夫曼编码存放在map<byte,string>的形式的map里 * 2。在生成赫夫曼编码表示,需要去拼接一些路径 定一个一个 stringbuilder 存放叶子节点的路径 * */ static Map<Byte, String> huffmanCodes = new HashMap<>(); //存放叶子节点的路径的 stringbuilder static StringBuilder stringBuilder = new StringBuilder(); //为了调用方便 重载getcode public static Map<Byte, String> getCodes(Node root) { if (root == null) { return null; } // 处理左子树 getCodes(root.left, "0", stringBuilder); //处理右子树 getCodes(root.right, "1", stringBuilder); return huffmanCodes; } /** * @author 冷环渊 Doomwatcher * @context: 将传入的node节点的所有子节点的赫夫曼编码得到,并且放入huffmanCodes集合中 * @date: 2022/2/12 15:07 * @return: void * @param node 传入的节点 * @param code 路径,左子节点是 0 右子节点事 1 * @param stringBuilder 用于拼接路径 */ public static void getCodes(Node node, String code, StringBuilder stringBuilder) { StringBuilder stringBuilder1 = new StringBuilder(stringBuilder); //将code 加入到 string builder1 stringBuilder1.append(code); if (node != null) { // 如果为null 不处理 //判断是否为叶子结点 if (node.data == null) { //如果data不为空那么代表非叶子节点 // 向左继续递归 getCodes(node.left, "0", stringBuilder1); // 向右边递归 getCodes(node.right, "1", stringBuilder1); } else { //如果进入到这里说明是一个叶子结点 // 存入到 huffmanCodes这个集合中 huffmanCodes.put(node.data, stringBuilder1.toString()); } } }
最佳实践-数据解压(使用赫夫曼编码解码)
使用赫夫曼编码来解码数据,具体要求是
- 前面我们得到了赫夫曼编码和对应的编码 byte[] , 即:[-88, -65, -56, -65, -56, -65, -55, 77 , -57, 6, -24, -14, -117, -4, -60, -90, 28]
- 现在要求使用赫夫曼编码, 进行解码,又重新得到原来的字符串"i like like like java do you like a java"
- 思路:解码过程,就是编码的一个逆向操作。
/** * @author 冷环渊 Doomwatcher * @context: 将一个byte 转成 一个二进制的字符串 * @date: 2022/2/12 23:14 * @param flag 标志是否需要不高位,如果是ture 表示需要补高位,如果是false表示不需要 * @param b 传入的 byte * @return: java.lang.String 返回的b 对应的二进制的字符串(注意事按照补码返回) */ public static String byteToBitString(boolean flag, byte b) { //使用变量保存 b int temp = b; //如果是正数我们还需要补高位 if (flag) { //按位与 256 1 0000 0000| 00000 0001 => 1 0000 0001 temp |= 256; } String str = Integer.toBinaryString(temp); if (flag) { return str.substring(str.length() - 8); } else { return str; } } /** * @author 冷环渊 Doomwatcher * @context: 完成对数据的解压 * 思路: * 1. 其实这就是我们之前压缩思路的逆向, * 2.我们先需要将 byte数组形式的转成二进制的心态, * 3. 之后转成赫夫曼编码,之后转换成字符 * @date: 2022/2/12 21:49 * @param huffmanBytes 赫夫曼编码对应的byte数组 * @param huffmanCodes 赫夫曼编码表 * @return: void */ public static byte[] decode(Map<Byte, String> huffmanCodes, byte[] huffmanBytes) { //1. 先得到huffmancodebytes 对应的 二进制字符串,如 1010100010111 StringBuilder stringBuilder = new StringBuilder(); //将byte 数组转成二进制字符串 for (int i = 0; i < huffmanBytes.length; i++) { byte b = huffmanBytes[i]; boolean flag = (i == huffmanBytes.length - 1); stringBuilder.append(byteToBitString(!flag, b)); } //System.out.println("赫夫曼字节数组解码二进制=>" + stringBuilder.toString()); // 按照置顶的赫夫曼编码把字符串进行解码 // 把赫夫曼编码进行转换 a ->100 100->a Map<String, Byte> map = new HashMap<>(); for (Map.Entry<Byte, String> stringByteEntry : huffmanCodes.entrySet()) { map.put(stringByteEntry.getValue(), stringByteEntry.getKey()); } //创建一个集合 里面存放byte List<Byte> list = new ArrayList<>(); // i可以理解成为索引,扫描stringbuilder for (int i = 0; i < stringBuilder.length(); ) { //得到编码的计数器 int count = 1; boolean flag = true; Byte b = null; while (flag) { //取出一个 ‘1’或者‘0’,i不动 让 count移动直到匹配到一个字符,递增取出 String key = stringBuilder.substring(i, i + count); b = map.get(key); if (b == null) { // 说明没有匹配到 count++; } else { //匹配到就退出循环 flag = false; } } list.add(b); //匹配到之后 i 直接移动步长为count位,就可以继续匹配了, i += count; } //当for循环结束后我们的list存放了所有的字符 // 之后把list 中的数据放入byte[]并且返回 byte[] b = new byte[list.size()]; for (int i = 0; i < b.length; i++) { b[i] = list.get(i); } return b; }
最佳实践-文件压缩
我们学习了通过赫夫曼编码对一个字符串进行编码和解码, 下面我们来完成对文件的压缩和解压, 具体要求:
给你一个图片文件,要求对其进行无损压缩, 看看压缩效果如何。
思路:读取文件-> 得到赫夫曼编码表 -> 完成压缩
/** * @author 冷环渊 Doomwatcher * @context: 编写方法 完成对压缩文件的解压 * @date: 2022/2/13 0:33 * @param zipFile 准备解压的文件路径 * @param dstFile 将文件解压到什么路径 * @return: void */ public static void unZipFile(String zipFile, String dstFile) { //定义文件输入流 InputStream is = null; //定义对象输入流 ObjectInputStream ois = null; //输出流 OutputStream os = null; try { // 创建文件输入流 is = new FileInputStream(zipFile); // 创建对象输入流 ois = new ObjectInputStream(is); byte[] huffmanbytes = (byte[]) ois.readObject(); // 读取赫夫曼编码表 Map<Byte, String> huffmanCodes = (Map<Byte, String>) ois.readObject(); // 解码 byte[] bytes = decode(huffmanCodes, huffmanbytes); //将byte 数组写入目标文件 os = new FileOutputStream(dstFile); // 写数据到fstFile文件 os.write(bytes); } catch (Exception e) { e.printStackTrace(); } finally { try { os.close(); ois.close(); is.close(); } catch (IOException e) { e.printStackTrace(); } } }
最佳实践-文件解压(文件恢复)
具体要求:将前面压缩的文件,重新恢复成原来的文件。
思路:读取压缩文件(数据和赫夫曼编码表)-> 完成解压(文件恢复)
/** * @author 冷环渊 Doomwatcher * @context: 编写方法 完成对压缩文件的解压 * @date: 2022/2/13 0:33 * @param zipFile 准备解压的文件路径 * @param dstFile 将文件解压到什么路径 * @return: void */ public static void unZipFile(String zipFile, String dstFile) { //定义文件输入流 InputStream is = null; //定义对象输入流 ObjectInputStream ois = null; //输出流 OutputStream os = null; try { // 创建文件输入流 is = new FileInputStream(zipFile); // 创建对象输入流 ois = new ObjectInputStream(is); byte[] huffmanbytes = (byte[]) ois.readObject(); // 读取赫夫曼编码表 Map<Byte, String> huffmanCodes = (Map<Byte, String>) ois.readObject(); // 解码 byte[] bytes = decode(huffmanCodes, huffmanbytes); //将byte 数组写入目标文件 os = new FileOutputStream(dstFile); // 写数据到fstFile文件 os.write(bytes); } catch (Exception e) { e.printStackTrace(); } finally { try { os.close(); ois.close(); is.close(); } catch (IOException e) { e.printStackTrace(); } } }
代码汇总
package com.hyc.DataStructure.huffmanCode; import java.io.*; import java.util.*; /** * @projectName: DataStructure * @package: com.hyc.DataStructure.huffmanCode * @className: huffmanCodeDemo * @author: 冷环渊 doomwatcher * @description: TODO * @date: 2022/2/9 19:06 * @version: 1.0 */ public class huffmanCodeDemo { public static void main(String[] args) { // 压缩文件测试 // String srcfile = "D:\\JavaEngineer\\algorithm\\code\\DataStructure\\src.bmp"; // String dstfile = "D:\\JavaEngineer\\algorithm\\code\\DataStructure\\srcdst.zip"; // zipFile(srcfile, dstfile); // 解压文件测试 String zipfile = "D:\\\\JavaEngineer\\\\algorithm\\\\code\\\\DataStructure\\\\srcdst.zip"; String dstFile = "D:\\\\JavaEngineer\\\\algorithm\\\\code\\\\DataStructure\\\\src1.bmp"; unZipFile(zipfile, dstFile); /* String content = "i like like like java do you like a java"; byte[] contentbytes = content.getBytes(); System.out.println("压缩之前的长度 =>" + contentbytes.length); // 40 byte[] huffmanCodesBytes = huffmanZip(contentbytes); System.out.println("压缩之后的长度 =>" + huffmanCodesBytes.length); byte[] decode = decode(huffmanCodes, huffmanCodesBytes); System.out.println("输出解码之后的字符串" + new String(decode));*/ } /** * @author 冷环渊 Doomwatcher * @context: 编写方法 完成对压缩文件的解压 * @date: 2022/2/13 0:33 * @param zipFile 准备解压的文件路径 * @param dstFile 将文件解压到什么路径 * @return: void */ public static void unZipFile(String zipFile, String dstFile) { //定义文件输入流 InputStream is = null; //定义对象输入流 ObjectInputStream ois = null; //输出流 OutputStream os = null; try { // 创建文件输入流 is = new FileInputStream(zipFile); // 创建对象输入流 ois = new ObjectInputStream(is); byte[] huffmanbytes = (byte[]) ois.readObject(); // 读取赫夫曼编码表 Map<Byte, String> huffmanCodes = (Map<Byte, String>) ois.readObject(); // 解码 byte[] bytes = decode(huffmanCodes, huffmanbytes); //将byte 数组写入目标文件 os = new FileOutputStream(dstFile); // 写数据到fstFile文件 os.write(bytes); } catch (Exception e) { e.printStackTrace(); } finally { try { os.close(); ois.close(); is.close(); } catch (IOException e) { e.printStackTrace(); } } } /** * @author 冷环渊 Doomwatcher * @context: 文件压缩 * @date: 2022/2/13 0:17 * @param srcFile 传入的希望压缩的文件的全路径 * @param dstFile 压缩之后需要输出的文件路径 * @return: void */ public static void zipFile(String srcFile, String dstFile) { // 创建文件输出流 // 创建文件输入流 FileInputStream is = null; FileOutputStream os = null; ObjectOutputStream oos = null; try { is = new FileInputStream(srcFile); // 创建一个和源文件大小一样的byte数组 当做缓冲区 byte[] bytes = new byte[is.available()]; // 读取文件 is.read(bytes); //获取到文件对应的赫夫曼编码 byte[] huffmanBytes = huffmanZip(bytes); // 创建文件的输出流,存放压缩文件 os = new FileOutputStream(dstFile); // 创建一个和文件输出流关联的objoutputstream oos = new ObjectOutputStream(os); //把赫夫曼编码后的字节数组写入压缩文件 oos.writeObject(huffmanBytes); //这里我们用对象流的方式写入赫夫曼编码,目的是为了回复文件的时候使用 oos.writeObject(huffmanCodes); } catch (Exception e) { e.printStackTrace(); } finally { try { is.close(); os.close(); oos.close(); } catch (IOException e) { e.printStackTrace(); } } } /** * @author 冷环渊 Doomwatcher * @context: 完成对数据的解压 * 思路: * 1. 其实这就是我们之前压缩思路的逆向, * 2.我们先需要将 byte数组形式的转成二进制的心态, * 3. 之后转成赫夫曼编码,之后转换成字符 * @date: 2022/2/12 21:49 * @param huffmanBytes 赫夫曼编码对应的byte数组 * @param huffmanCodes 赫夫曼编码表 * @return: void */ public static byte[] decode(Map<Byte, String> huffmanCodes, byte[] huffmanBytes) { //1. 先得到huffmancodebytes 对应的 二进制字符串,如 1010100010111 StringBuilder stringBuilder = new StringBuilder(); //将byte 数组转成二进制字符串 for (int i = 0; i < huffmanBytes.length; i++) { byte b = huffmanBytes[i]; boolean flag = (i == huffmanBytes.length - 1); stringBuilder.append(byteToBitString(!flag, b)); } //System.out.println("赫夫曼字节数组解码二进制=>" + stringBuilder.toString()); // 按照置顶的赫夫曼编码把字符串进行解码 // 把赫夫曼编码进行转换 a ->100 100->a Map<String, Byte> map = new HashMap<>(); for (Map.Entry<Byte, String> stringByteEntry : huffmanCodes.entrySet()) { map.put(stringByteEntry.getValue(), stringByteEntry.getKey()); } //创建一个集合 里面存放byte List<Byte> list = new ArrayList<>(); // i可以理解成为索引,扫描stringbuilder for (int i = 0; i < stringBuilder.length(); ) { //得到编码的计数器 int count = 1; boolean flag = true; Byte b = null; while (flag) { //取出一个 ‘1’或者‘0’,i不动 让 count移动直到匹配到一个字符,递增取出 String key = stringBuilder.substring(i, i + count); b = map.get(key); if (b == null) { // 说明没有匹配到 count++; } else { //匹配到就退出循环 flag = false; } } list.add(b); //匹配到之后 i 直接移动步长为count位,就可以继续匹配了, i += count; } //当for循环结束后我们的list存放了所有的字符 // 之后把list 中的数据放入byte[]并且返回 byte[] b = new byte[list.size()]; for (int i = 0; i < b.length; i++) { b[i] = list.get(i); } return b; } /** * @author 冷环渊 Doomwatcher * @context: 将一个byte 转成 一个二进制的字符串 * @date: 2022/2/12 23:14 * @param flag 标志是否需要不高位,如果是ture 表示需要补高位,如果是false表示不需要 * @param b 传入的 byte * @return: java.lang.String 返回的b 对应的二进制的字符串(注意事按照补码返回) */ public static String byteToBitString(boolean flag, byte b) { //使用变量保存 b int temp = b; //如果是正数我们还需要补高位 if (flag) { //按位与 256 1 0000 0000| 00000 0001 => 1 0000 0001 temp |= 256; } String str = Integer.toBinaryString(temp); if (flag) { return str.substring(str.length() - 8); } else { return str; } } /** * * @author 冷环渊 Doomwatcher * @context: 封装 赫夫曼编码压缩 * @date: 2022/2/12 20:12 * @param bytes * @return: byte[] */ public static byte[] huffmanZip(byte[] bytes) { List<Node> nodes = getNodes(bytes); Node huffManTreeroot = createHuffManTree(nodes); Map<Byte, String> codes = getCodes(huffManTreeroot); byte[] huffmanCodeBytes = zip(bytes, codes); return huffmanCodeBytes; } /** * @author 冷环渊 Doomwatcher * @context: 编写一个方法,将字符串转成对应的 Byte[] 数组,通过生成的哈夫曼编码表,返回一个赫夫曼编码压缩后的Byte[] * 举例子: string content = i like like like java do you like java * 返回的字符串应该是一大串 八位的byte * 比如 huffmanCodeBytes[0] = 10101000(补码) => byte[推导 推成反码 10101000 -1 => 10100111(反码)] 原码就是符号位不变,其他取反 [11011000] * @date: 2022/2/12 15:35 * @param bytes 原始字符串对应的byte * @param huffmanCodes 生成赫夫曼编码的map * @return: java.lang.Byte[] */ public static byte[] zip(byte[] bytes, Map<Byte, String> huffmanCodes) { // 首先利用 huffmanCode是将 bytes 转成赫夫曼编码的字符串 StringBuilder stringBuilder = new StringBuilder(); for (byte b : bytes) { stringBuilder.append(huffmanCodes.get(b)); } //System.out.println(stringBuilder); // 将对应的字符串 转成 byte[]数组 // 返回 数组 huffmancodeBytes的长度 int len; if (stringBuilder.length() % 8 == 0) { len = stringBuilder.length() / 8; } else { len = stringBuilder.length() / 8 + 1; } // 创建存储压缩后的byte数组 byte[] huffmanCodeBytes = new byte[len]; int index = 0; for (int i = 0; i < stringBuilder.length(); i += 8) { String strByte; if (i + 8 > stringBuilder.length()) { // 进入这里代表后面的最后一位数 不够八位了 strByte = stringBuilder.substring(i); } else { strByte = stringBuilder.substring(i, i + 8); } huffmanCodeBytes[index] = (byte) Integer.parseInt(strByte, 2); index++; } return huffmanCodeBytes; } /* 生成赫夫曼树对应的赫夫曼编码 * 思路 : * 1. 将赫夫曼编码存放在map<byte,string>的形式的map里 * 2。在生成赫夫曼编码表示,需要去拼接一些路径 定一个一个 stringbuilder 存放叶子节点的路径 * */ static Map<Byte, String> huffmanCodes = new HashMap<>(); //存放叶子节点的路径的 stringbuilder static StringBuilder stringBuilder = new StringBuilder(); //为了调用方便 重载getcode public static Map<Byte, String> getCodes(Node root) { if (root == null) { return null; } // 处理左子树 getCodes(root.left, "0", stringBuilder); //处理右子树 getCodes(root.right, "1", stringBuilder); return huffmanCodes; } /** * @author 冷环渊 Doomwatcher * @context: 将传入的node节点的所有子节点的赫夫曼编码得到,并且放入huffmanCodes集合中 * @date: 2022/2/12 15:07 * @return: void * @param node 传入的节点 * @param code 路径,左子节点是 0 右子节点事 1 * @param stringBuilder 用于拼接路径 */ public static void getCodes(Node node, String code, StringBuilder stringBuilder) { StringBuilder stringBuilder1 = new StringBuilder(stringBuilder); //将code 加入到 string builder1 stringBuilder1.append(code); if (node != null) { // 如果为null 不处理 //判断是否为叶子结点 if (node.data == null) { //如果data不为空那么代表非叶子节点 // 向左继续递归 getCodes(node.left, "0", stringBuilder1); // 向右边递归 getCodes(node.right, "1", stringBuilder1); } else { //如果进入到这里说明是一个叶子结点 // 存入到 huffmanCodes这个集合中 huffmanCodes.put(node.data, stringBuilder1.toString()); } } } //前序遍历 public static void PreOrder(Node node) { if (node != null) { node.PreOrder(); } else { System.out.println("空树无法遍历"); } } /** * * @author 冷环渊 Doomwatcher * @context: 用来生成每一个节点的出现次数的list集合 * @date: 2022/2/10 2:40 * @param bytes 存放每一个字母的数组 * @return: java.util.List<com.hyc.DataStructure.huffmanCode.Node> 返回一个带着字母出现权重的list */ public static List<Node> getNodes(byte[] bytes) { // 创建一个 arraylist ArrayList<Node> nodes = new ArrayList<>(); // 遍历bytes 统计每一个bytes 出现的次数 用 map 来统计 Map<Byte, Integer> counts = new HashMap<>(); for (byte b : bytes) { Integer count = counts.get(b); if (count == null) { // map 还没有这个字符 证明是第一次 counts.put(b, 1); } else { // 进入到这里说明之前有加入过了 counts.put(b, count + 1); } } //把每个键值对转换成一个 Node 对象 并且进入到Nodes集合 //遍历map for (Map.Entry<Byte, Integer> entry : counts.entrySet()) { nodes.add(new Node(entry.getKey(), entry.getValue())); } return nodes; } public static Node createHuffManTree(List<Node> nodes) { while (nodes.size() > 1) { //首先从小到大排序 list Collections.sort(nodes); // 找到list中最小的子树 Node leftnode = nodes.get(0); //找到倒数第二小的 Node rightnode = nodes.get(1); Node parent = new Node(null, leftnode.wight + rightnode.wight); parent.left = leftnode; parent.right = rightnode; // 删除两个被处理过的子树 nodes.remove(leftnode); nodes.remove(rightnode); // 之后将parent 加入到list // 这样遍历到最后只剩下一个节点 就是我们需要的赫夫曼树 nodes.add(parent); } return nodes.get(0); } } class Node implements Comparable<Node> { //用于存放字符的ascll值 Byte data; //出现的次数 权重 int wight; Node left; Node right; public Node(Byte data, int wight) { this.data = data; this.wight = wight; } @Override public String toString() { return "Node{" + "data=" + data + ", wight=" + wight + '}'; } // 前序遍历 public void PreOrder() { System.out.println(this); if (this.left != null) { this.left.PreOrder(); } if (this.right != null) { this.right.PreOrder(); } } @Override public int compareTo(Node o) { return this.wight - o.wight; } }
赫夫曼编码压缩文件注意事项
- 如果文件本身就是经过压缩处理的,那么使用赫夫曼编码再压缩效率不会有明显变化, 比如视频,ppt 等等文件 [举例压一个 .ppt]
- 赫夫曼编码是按字节来处理的,因此可以处理所有的文件(二进制文件、文本文件) [举例压一个.xml 文件]
- 如果一个文件中的内容,重复的数据不多,压缩效果也不会很明显.
二叉排序树
先看一个需求:
给你一个数列 (7, 3, 10, 12, 5, 1, 9),要求能够高效的完成对数据的查询和添加
使用数组
数组未排序, 优点:直接在数组尾添加,速度快。 缺点:查找速度慢.
数组排序,优点:可以使用二分查找,查找速度快,缺点:为了保证数组有序,在添加新数据时,找到插入位
置后,后面的数据需整体移动,速度慢。
链式存储-链表
不管链表是否有序,查找速度都慢,添加数据速度比数组快,不需要数据整体移动。
二叉排序树介绍
二叉排序树:BST: (Binary Sort(Search) Tree), 对于二叉排序树的任何一个非叶子节点,要求左子节点的值比当 前节点的值小,右子节点的值比当前节点的值大。
特别声明
特别说明:如果有相同的值,可以将该节点放在左子节点或右子节点
比如针对前面的数据 (7, 3, 10, 12, 5, 1, 9) ,对应的二叉排序树为:
二叉排序树创建和遍历
一个数组创建成对应的二叉排序树,并使用中序遍历二叉排序树,比如: 数组为 Array(7, 3, 10, 12, 5, 1, 9) , 创
建成对应的二叉排序树为 :
二叉排序树的删除
二叉排序树的删除情况比较复杂,有下面三种情况需要考虑
- 删除叶子节点 (比如:2, 5, 9, 12)
- 删除只有一颗子树的节点 (比如:1)
- 删除有两颗子树的节点. (比如:7, 3,10 )
对删除结点的各种情况的思路分析:
第一种情况: 删除叶子节点 (比如:2, 5, 9, 12)
思路:
- 需求先去找到要删除的结点 targetNode
- 找到 targetNode 的 父结点 parent
- 确定 targetNode 是 parent 的左子结点 还是右子结点
- 根据前面的情况来对应删除
左子结点 parent.left = null
右子结点 parent.right = null;
第二种情况: 删除只有一颗子树的节点 比如 1
思路 :
- 需求先去找到要删除的结点 targetNode
- 找到 targetNode 的 父结点 parent
- 确定 targetNode 的子结点是左子结点还是右子结点
- targetNode 是 parent 的左子结点还是右子结点
- 如果 targetNode 有左子结点
- 如果 targetNode 是 parent 的左子结点 parent.left = targetNode.left;
- 如果 targetNode 是 parent 的右子结点 parent.right = targetNode.left;
- 如果 targetNode 有右子结点
- 如果 targetNode 是 parent 的左子结点 parent.left = targetNode.right
- 如果 targetNode 是 parent 的右子结点 parent.right = targetNode.right
情况三 : 删除有两颗子树的节点. (比如:7, 3,10 )
思路 :
- 需求先去找到要删除的结点 targetNode
- 找到 targetNode 的 父结点 parent
- 从 targetNode 的右子树找到最小的结点
- 用一个临时变量,将 最小结点的值保存 temp = 11
- 删除该最小结点
- targetNode.value = temp
二叉排序树代码实现
package com.hyc.DataStructure.binarysorttree; /** * @projectName: DataStructure * @package: com.hyc.DataStructure.binarysorttree * @className: BinarySortDemo * @author: 冷环渊 doomwatcher * @description: TODO * @date: 2022/2/15 16:33 * @version: 1.0 */ public class BinarySortDemo { public static void main(String[] args) { int[] arr = {7, 3, 10, 12, 5, 1, 9, 2}; BinarySortTree binarySortTree = new BinarySortTree(); for (int i = 0; i < arr.length; i++) { binarySortTree.add(new Node(arr[i])); } // 中序要遍历 binarySortTree.infixOrder(); // 测试删除节点 binarySortTree.delNode(2); binarySortTree.delNode(7); binarySortTree.delNode(3); binarySortTree.delNode(12); binarySortTree.delNode(5); binarySortTree.delNode(1); binarySortTree.delNode(9); binarySortTree.delNode(10); System.out.println("删除节点后"); // 中序要遍历 binarySortTree.infixOrder(); } } class BinarySortTree { private Node root; //查找要删除的节点 public Node search(int value) { if (root == null) { return null; } else { return root.search(value); } } //查找父节点· public Node searchParent(int value) { if (root == null) { return null; } else { return root.searchParent(value); } } //删除节点方法 public void delNode(int value) { if (root == null) { return; } else { // 需要先去找到要删除的节点,targetNode Node targetNode = search(value); // 如果没有找到要删除的节点 if (targetNode == null) { return; } // 如果我们发现当前这个颗树 只有一个节点 if (root.left == null && root.right == null) { root = null; return; } // 找到targetNode的父节点 Node parent = searchParent(value); // 如果需要删除的节点是叶子节点 if (targetNode.left == null && targetNode.right == null) { // 判断targetNode是父节点的左子节点还是右子节点 if (parent.left != null && parent.left.value == value) { parent.left = null; } else if (parent.right != null && parent.right.value == value) { parent.right = null; } } else if (targetNode.left != null && targetNode.right != null) { // 删除有两颗子树的节点 int minVal = delRightTreeMin(targetNode.right); targetNode.value = minVal; } else { // 删除有一颗子树 // 如果要删除的节点有左子节点 if (targetNode.left != null) { //判断 parent 的非空判断 if (parent != null) { // 如果targetNode是Parent的左子节点 if (parent.left.value == value) { parent.left = targetNode.left; } else { //targentNode 是parent右子节点 parent.right = targetNode.left; } } else { root = targetNode.left; } } else { if (parent != null) { // 如果要删除的节点有右子节点 // 如果targetNode 是parent的右子节点 if (parent.left.value == value) { parent.left = targetNode.right; } else { parent.right = targetNode.right; } } else { root = targetNode.right; } } } } } /** * @author 冷环渊 Doomwatcher * @context: * 返回的以node为根节点的二叉树的最小节点值 * 删除node 为根节点的二叉排序树的最小节点 * @date: 2022/2/17 22:19 * @param node 传入的节点 (当前二叉排序树树的根节点) * @return: int 返回的以node为根节点的二叉排序树的最小节点值 */ public int delRightTreeMin(Node node) { Node target = node; // 循环查找左节点 就会找到最小值 while (target.left != null) { target = target.left; } //这个target就指向了最小的节点 //删除最小节点 delNode(target.value); return target.value; } // 添加节点的方法 public void add(Node node) { //如果能空的话 if (root == null) { root = node; } else { root.add(node); } } // 中序遍历 public void infixOrder() { if (root != null) { root.infixOrder(); } else { System.out.println("空树 无法遍历"); } } } class Node { int value; Node left; Node right; public Node(int value) { this.value = value; } /** * @author 冷环渊 Doomwatcher * @context: * 找到想要查到要删除的节点 * @date: 2022/2/17 14:15 * @param value 想要删除的节点的值 * @return: com.hyc.DataStructure.binarysorttree.Node 如果找到了就返回节点,如果没找到那就返回null */ public Node search(int value) { if (value == this.value) { //如果相同就返回自己 return this; } else if (value < this.value) { //如果查找的值 小于当前节点就向左子树递归查找 if (this.left == null) { return null; } return this.left.search(value); } else { // 如果查找的值不下节点,向右子树递归查找 if (this.right == null) { return null; } return this.right.search(value); } } /** * @author 冷环渊 Doomwatcher * @context: 查找要删除节点的父节点 * @date: 2022/2/17 14:23 * @param value value 要找的节点值 * @return: com.hyc.DataStructure.binarysorttree.Node 返回的事要删除的节点 */ public Node searchParent(int value) { // 判断当前节点的两个子节点的值是不是等于我们要查找的值,如果是的话当前节点就是我们要寻找的父节点 if ((this.left != null && this.left.value == value) || (this.right != null && this.right.value == value)) { return this; } else { // 如果查找的值小于当前的节点值,并且当前节点的左子节点不等于空 if (value < this.value && this.left != null) { //向左子树递归查找 return this.left.searchParent(value); } else if (value >= this.value && this.right != null) { //向右子树递归查找 return this.right.searchParent(value); } else { //没有找到 return null; } } } @Override public String toString() { return "Node{" + "value=" + value + '}'; } public void add(Node node) { if (node == null) { return; } // 判断传入接待你值是否大于当前节点 if (node.value < this.value) { //如果当前节点左子节点为null if (this.left == null) { this.left = node; } else { this.left.add(node); } } else { // 判断节点如果大于当前节点的值 if (this.right == null) { this.right = node; } else { this.right.add(node); } } } //中序遍历 public void infixOrder() { if (this.left != null) { this.left.infixOrder(); } System.out.println(this); if (this.right != null) { this.right.infixOrder(); } } }
平衡二叉树(AVL 树)
给你一个数列{1,2,3,4,5,6},要求创建一颗二叉排序树(BST), 并分析问题所在. :
- 左子树全部为空,从形式上看,更像一个单链表.
- 插入速度没有影响
- 查询速度明显降低(因为需要依次比较), 不能发挥 BST 的优势,因为每次还需要比较左子树,其查询速度比
解决方案-平衡二叉树(AVL)
基本介绍
- 平衡二叉树也叫平衡二叉搜索树(Self-balancing binary search tree)又被称为 AVL 树, 可以保证查询效率较高。
- 具有以下特点:它是一 棵空树或它的左右两个子树的高度差的绝对值不超过 1,并且左右两个子树都是一棵 平衡二叉树。平衡二叉树的常用实现方法有红黑树、AVL、替罪羊树、Treap、伸展树等。
- 举例说明, 看看下面哪些 AVL 树, 为什么?
应用案例-单旋转(左旋转)
给你一个数列,创建出对应的平衡二叉树.数列 {4,3,6,5,7,8}
左旋转代码
//左旋转方法 public void leftRotate() { // 创建新节点 以当前节点的值 Node newnode = new Node(value); // 把新节点的左子树这只成当前节点的左子树 newnode.left = left; // 把新节点的右子树设置成当前节点的右子树的左子树 newnode.right = right.left; //把当前节点的值 替换成右子节点的值 value = right.value; // 把当前节点右子树设置成下一个节点的右子树 right = right.right; // 把当前节点的左子树设置成新的节点 left = newnode; }
应用案例-单旋转(右旋转)
给你一个数列,创建出对应的平衡二叉树.数列 {10,12, 8, 9, 7, 6}
右旋转代码
//右旋转方法 public void rightRotate() { Node newnode = new Node(value); newnode.right = right; newnode.left = left.right; value = left.value; left = left.left; right = newnode; }
应用案例-双旋转
前面的两个数列,进行单旋转(即一次旋转)就可以将非平衡二叉树转成平衡二叉树,但是在某些情况下,单旋转 不能完成平衡二叉树的转换。比如数列
int[] arr = { 10, 11, 7, 6, 8, 9 }; 运行原来的代码可以看到,并没有转成 AVL 树.
int[] arr = {2,1,6,5,7,3}; // 运行原来的代码可以看到,并没有转成 AVL 树
- 当符号右旋转的条件时
- 如果它的左子树的右子树高度大于它的左子树的高度
- 先对当前这个结点的左节点进行左旋转
- 在对当前结点进行右旋转的操作即可
代码汇总
package com.hyc.DataStructure.AVL; /** * @projectName: DataStructure * @package: com.hyc.DataStructure.AVL * @className: avlTreeDemo * @author: 冷环渊 doomwatcher * @description: TODO * @date: 2022/2/18 23:30 * @version: 1.0 */ public class avlTreeDemo { public static void main(String[] args) { //左旋转demo实例 //int[] arr = {4, 3, 6, 5, 7, 8}; //右旋转demo实例 int[] arr = {10, 12, 8, 9, 7, 6}; //int[] arr = {10, 11, 7, 6, 8, 9}; //创建一个 AVLTree对象 AVLTree avlTree = new AVLTree(); //添加结点 for (int i = 0; i < arr.length; i++) { avlTree.add(new Node(arr[i])); } //遍历 System.out.println("中序遍历"); avlTree.infixOrder(); System.out.println("在平衡处理~~"); System.out.println("树的高度=" + avlTree.getRoot().height()); //3 System.out.println("树的左子树高度=" + avlTree.getRoot().leftHeight()); // 2 System.out.println("树的右子树高度=" + avlTree.getRoot().rightHeight()); // 2 System.out.println("当前的根结点=" + avlTree.getRoot());//8 } } class AVLTree { private Node root; public Node getRoot() { return root; } public void setRoot(Node root) { this.root = root; } //查找要删除的节点 public Node search(int value) { if (root == null) { return null; } else { return root.search(value); } } //查找父节点· public Node searchParent(int value) { if (root == null) { return null; } else { return root.searchParent(value); } } //删除节点方法 public void delNode(int value) { if (root == null) { return; } else { // 需要先去找到要删除的节点,targetNode Node targetNode = search(value); // 如果没有找到要删除的节点 if (targetNode == null) { return; } // 如果我们发现当前这个颗树 只有一个节点 if (root.left == null && root.right == null) { root = null; return; } // 找到targetNode的父节点 Node parent = searchParent(value); // 如果需要删除的节点是叶子节点 if (targetNode.left == null && targetNode.right == null) { // 判断targetNode是父节点的左子节点还是右子节点 if (parent.left != null && parent.left.value == value) { parent.left = null; } else if (parent.right != null && parent.right.value == value) { parent.right = null; } } else if (targetNode.left != null && targetNode.right != null) { // 删除有两颗子树的节点 int minVal = delRightTreeMin(targetNode.right); targetNode.value = minVal; } else { // 删除有一颗子树 // 如果要删除的节点有左子节点 if (targetNode.left != null) { //判断 parent 的非空判断 if (parent != null) { // 如果targetNode是Parent的左子节点 if (parent.left.value == value) { parent.left = targetNode.left; } else { //targentNode 是parent右子节点 parent.right = targetNode.left; } } else { root = targetNode.left; } } else { if (parent != null) { // 如果要删除的节点有右子节点 // 如果targetNode 是parent的右子节点 if (parent.left.value == value) { parent.left = targetNode.right; } else { parent.right = targetNode.right; } } else { root = targetNode.right; } } } } } /** * @author 冷环渊 Doomwatcher * @context: * 返回的以node为根节点的二叉树的最小节点值 * 删除node 为根节点的二叉排序树的最小节点 * @date: 2022/2/17 22:19 * @param node 传入的节点 (当前二叉排序树树的根节点) * @return: int 返回的以node为根节点的二叉排序树的最小节点值 */ public int delRightTreeMin(Node node) { Node target = node; // 循环查找左节点 就会找到最小值 while (target.left != null) { target = target.left; } //这个target就指向了最小的节点 //删除最小节点 delNode(target.value); return target.value; } // 添加节点的方法 public void add(Node node) { //如果能空的话 if (root == null) { root = node; } else { root.add(node); } } // 中序遍历 public void infixOrder() { if (root != null) { root.infixOrder(); } else { System.out.println("空树 无法遍历"); } } } class Node { int value; Node left; Node right; public Node(int value) { this.value = value; } //左旋转方法 public void leftRotate() { // 创建新节点 以当前节点的值 Node newnode = new Node(value); // 把新节点的左子树这只成当前节点的左子树 newnode.left = left; // 把新节点的右子树设置成当前节点的右子树的左子树 newnode.right = right.left; //把当前节点的值 替换成右子节点的值 value = right.value; // 把当前节点右子树设置成下一个节点的右子树 right = right.right; // 把当前节点的左子树设置成新的节点 left = newnode; } //右旋转方法 public void rightRotate() { Node newnode = new Node(value); newnode.right = right; newnode.left = left.right; value = left.value; left = left.left; right = newnode; } //返回左子树的高度 public int leftHeight() { if (left == null) { return 0; } return left.height(); } //返回右子树的高度 public int rightHeight() { if (right == null) { return 0; } return right.height(); } public int height() { //加一是因为需要算上当前节点 return Math.max(left == null ? 0 : left.height(), right == null ? 0 : right.height()) + 1; } /** * @author 冷环渊 Doomwatcher * @context: * 找到想要查到要删除的节点 * @date: 2022/2/17 14:15 * @param value 想要删除的节点的值 * @return: Node 如果找到了就返回节点,如果没找到那就返回null */ public Node search(int value) { if (value == this.value) { //如果相同就返回自己 return this; } else if (value < this.value) { //如果查找的值 小于当前节点就向左子树递归查找 if (this.left == null) { return null; } return this.left.search(value); } else { // 如果查找的值不下节点,向右子树递归查找 if (this.right == null) { return null; } return this.right.search(value); } } /** * @author 冷环渊 Doomwatcher * @context: 查找要删除节点的父节点 * @date: 2022/2/17 14:23 * @param value value 要找的节点值 * @return: Node 返回的事要删除的节点 */ public Node searchParent(int value) { // 判断当前节点的两个子节点的值是不是等于我们要查找的值,如果是的话当前节点就是我们要寻找的父节点 if ((this.left != null && this.left.value == value) || (this.right != null && this.right.value == value)) { return this; } else { // 如果查找的值小于当前的节点值,并且当前节点的左子节点不等于空 if (value < this.value && this.left != null) { //向左子树递归查找 return this.left.searchParent(value); } else if (value >= this.value && this.right != null) { //向右子树递归查找 return this.right.searchParent(value); } else { //没有找到 return null; } } } @Override public String toString() { return "Node{" + "value=" + value + '}'; } public void add(Node node) { if (node == null) { return; } // 判断传入接待你值是否大于当前节点 if (node.value < this.value) { //如果当前节点左子节点为null if (this.left == null) { this.left = node; } else { this.left.add(node); } } else { // 判断节点如果大于当前节点的值 if (this.right == null) { this.right = node; } else { this.right.add(node); } } // 当前添加玩一个节点之后 判断( 右子树的高度 - 左子树的高度 >1 )就代表需要左旋转 if (rightHeight() - leftHeight() > 1) { //如果他的右子树的左子树高度大于它的右子树的右子树的高度 if (right != null && right.leftHeight() > right.leftHeight()) { // 先对右子节点,进行右旋转 right.rightRotate(); leftHeight(); } else { // 直接进行左旋转即可 leftRotate(); } return; } // 当添加完一个节点后,如果(左子树的高度-右子树的高度)>1 右旋转 if (leftHeight() - rightHeight() > 1) { if (left != null && left.rightHeight() > left.leftHeight()) { // 先对当前节点的左结点(左子树) - 》左旋转 left.leftRotate(); //再对当前节点进行右旋转 rightRotate(); } else { //直接进行右旋转即可 rightRotate(); } } } //中序遍历 public void infixOrder() { if (this.left != null) { this.left.infixOrder(); } System.out.println(this); if (this.right != null) { this.right.infixOrder(); } } }
多路查找树
二叉树与 B 树
二叉树的问题分析
- 二叉树需要加载到内存的,如果二叉树的节点少,没有什么问题,但是如果二叉树的节点很多(比如 1 亿), 就 存在如下问题:
- 问题 1:在构建二叉树时,需要多次进行 i/o 操作(海量数据存在数据库或文件中),节点海量,构建二叉树时, 速度有影响
- 问题 2:节点海量,也会造成二叉树的高度很大,会降低操作速度
多叉树
- 在二叉树中,每个节点有数据项,最多有两个子节点。如果允许每个节点可以有更多的数据项和更多的子节点, 就是多叉树(multiway tree)
- 后面我们讲解的 2-3 树,2-3-4 树就是多叉树,多叉树通过重新组织节点,减少树的高度,能对二叉树进行优化。
2-3树是一种多叉树
B 树的基本介绍
B 树通过重新组织节点,降低树的高度,并且减少 i/o 读写次数来提升效率。
- 如图 B 树通过重新组织节点, 降低了树的高度.
- 文件系统及数据库系统的设计者利用了磁盘预读原理,将一个节点的大小设为等于一个页(页得大小通常为 4k), 这样每个节点只需要一次 I/O 就可以完全载入
- 将树的度 M 设置为 1024,在 600 亿个元素中最多只需要 4 次 I/O 操作就可以读取到想要的元素, B 树(B+)广泛 应用于文件存储系统以及数据库系统中
2-3 树
2-3 树是最简单的 B 树结构, 具有如下特点:
- 2-3 树的所有叶子节点都在同一层.(只要是 B 树都满足这个条件)
- 有两个子节点的节点叫二节点,二节点要么没有子节点,要么有两个子节点.
- 有三个子节点的节点叫三节点,三节点要么没有子节点,要么有三个子节点.
- 2-3 树是由二节点和三节点构成的树。
2-3 树应用案例
将数列{16, 24, 12, 32, 14, 26, 34, 10, 8, 28, 38, 20} 构建成 2-3 树,并保证数据插入的大小顺序。(演示一下构建 2-3 树的过程.)
插入规则:
- 2-3 树的所有叶子节点都在同一层.(只要是 B 树都满足这个条件)
- 有两个子节点的节点叫二节点,二节点要么没有子节点,要么有两个子节点.
- 有三个子节点的节点叫三节点,三节点要么没有子节点,要么有三个子节点
- 当按照规则插入一个数到某个节点时,不能满足上面三个要求,就需要拆,先向上拆,如果上层满,则拆本层, 拆后仍然需要满足上面 3 个条件。
- 对于三节点的子树的值大小仍然遵守(BST 二叉排序树)的规则
除了 23 树,还有 234 树等,概念和 23 树类似,也是一种 B 树。
B 树、B+树和 B*树
B-tree 树即 B 树,B 即 Balanced,平衡的意思。有人把 B-tree 翻译成 B-树,容易让人产生误解。会以为 B-树 是一种树,而 B 树又是另一种树。实际上,B-tree 就是指的 B 树。
前面已经介绍了 2-3 树和 2-3-4 树,他们就是 B 树(英语:B-tree 也写成 B-树),这里我们再做一个说明,我们在学 习 Mysql 时,经常听到说某种类型的索引是基于 B 树或者 B+树的,如图:
对上图的说明:
- B 树的阶:节点的最多子节点个数。比如 2-3 树的阶是 3,2-3-4 树的阶是 4
- B-树的搜索,从根结点开始,对结点内的关键字(有序)序列进行二分查找,如果命中则结束,否则进入查询 关键字所属范围的儿子结点;重复,直到所对应的儿子指针为空,或已经是叶子结点
- 关键字集合分布在整颗树中, 即叶子节点和非叶子节点都存放数据
- 搜索有可能在非叶子结点结束
- 其搜索性能等价于在关键字全集内做一次二分查找
B+树的介绍
B+树是 B 树的变体,也是一种多路搜索树。
对上图的说明:
- B+树的搜索与 B 树也基本相同,区别是 B+树只有达到叶子结点才命中(B 树可以在非叶子结点命中),其性 能也等价于在关键字全集做一次二分查找
- 所有关键字都出现在叶子结点的链表中(即数据只能在叶子节点【也叫稠密索引】),且链表中的关键字(数据) 恰好是有序的。
- 不可能在非叶子结点命中
- 非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储(关键字)数据的数据层
- 更适合文件索引系统
- B 树和 B+树各有自己的应用场景,不能说 B+树完全比 B 树好,反之亦然
B*树的介绍
B*树是 B+树的变体,在 B+树的非根和非叶子结点再增加指向兄弟的指针。
B*树的说明:
- B树定义了非叶子结点关键字个数至少为(2/3)M,即块的最低使用率为 2/3,而 B+树的块的最低使用率为的
1/2。
- 从第 1 个特点我们可以看出,B*树分配新结点的概率比 B+树要低,空间使用率更高
Trie树
又称为: 前缀树,字典树
取名来自 retrieval
什么是Trie树!??
比如我们一串字符串需要检查拼写错误
数据: code cook Five File Fat
根据匹配这串字符生成的字典树
特点:
- 根节点不包括字符,除去根节点外 每个节点只包含一个字符
- 从根节点到叶子节点,路径上经过的字符,对应的字符串
- 每个节点的子节点包含不同的字符(相同字符在下一层节点分裂)
此时演示特点三的情况
插入规则:
- 先查看节点是否存在,存在i向下遍历,不存咋创建新的节点
查找规则:
- 从根节点开始遍历,如查找goodbye Good 找到前缀字符,但是此时字典树遍历完成,而单词并没有完成,结果任然不存在
删除规则
- 先要遍历出当前字符串路径,从叶子节点向上删除,除去叶子节点外的节点,如果有其他节点,此节点保留,删除子树