TLV格式 及 VARINT数值压缩存储方法

简介: TLV格式 及 VARINT数值压缩存储方法

使用Thrift格式进行数据序列化反序列化,thrift的存储格式,主要使用thrift的TCompactProtocol。

发现该序列化方式主要使用了TLV格式式来存储每个字段,使用VARINT来表示其中的L。

1. TLV 格式

很简单,Type-length-value(类型-长度-值)。在一串字节中,使用该方式标示出一个自定义的字段。

三个域的表示方式均可自定义。如使用1个字节标示数据类型T,使用4个字节标示数据长度L,之后使用L个字节来表示数据的值。(其实Thrift的TBinaryProtocol就是这种方式)

2. VARINT 数值压缩存储

c中int使用4个固定字节表式,即使数字很小。假如使用int16,则不能表示较大的数字。

而VARINT是一种可变长度的表示数字的方法,当数字较小时可以使用1个字节,如果比较大需要利用5个。

3.java实现

int转为varint,TCompact 的java实现如下:

  private void writeVarint32(int n) {                                                                                  
    int idx = 0;
    while (true) {
      if ((n & ~0x7F) == 0) {
        i32buf[idx++] = (byte)n;
        break;
      } else {
        i32buf[idx++] = (byte)((n & 0x7F) | 0x80);
        n >>>= 7;
      }
    }
    trans_.write(i32buf, 0, idx); // trans_不用管,可以看作字节流
  }  

其实就是,依次从字节串的末尾选取7位,最高位添加1或0构造出1个字节。并且,只有最后一次选取时最高位置为0,此时剩余的位构成到数字是小于 1000 0000,的所以添加0并不会影响其大小。如下:

10进制: 296
16进制: x01 x28
2进制: 0000 0001 0010 1000
转换:a --- ---- ==> 1010 1000 选择末7位,最高位置为1

 b    -- ---- -          ==> 1010 1000 0000 0010    右移7位,选择末7位,最高位置为0

VARINT: 1010 1000 0000 0010
16进制:xa8 x02
很明显,通过这种方法,我们得到的VARINT,依次读取每个字节,只有表示该VARINT的最后一个字节,最高位为0。所以,当我们读取VARINT时,只要读取到最高位为0的字节时,就表示已经是VARINT的最后一个字节了。

结合TLV就是:先读取1个字节得到类型T;然后读取n个字节计算出长度L,其中第n个字节的最高位为0;然后读取L个字节,表示我们的V。

4.python实现

最后,我们看下读取VARINT时,python的处理方法:

def readVarint(trans):
  result = 0 
  shift = 0 
  while True:
    x = trans.readAll(1)    // 读取下一个字符
    byte = ord(x)              // 转成整数表示
    result |= (byte & 0x7f) << shift // 将该字节去掉最高位放在已有结果的左侧
    if byte >> 7 == 0:       // 如果该字节最高位是0,结束
      return result
    shift += 7
目录
相关文章
|
2月前
求两个整数的较大值
两幅图片展示,无文字描述。第一张图链接源为:[结果](https://so.csdn.net/so/search?q=%E7%BB%93%E6%9E%9C&spm=1001.2101.3001.7020)。
23 1
求两个整数的较大值
|
2月前
|
算法
算法题 — 整数转二进制,查找其中1的数量
算法题 — 整数转二进制,查找其中1的数量
19 0
excel中将带文本单位的数据转换成纯数值
excel中将带文本单位的数据转换成纯数值
|
11月前
|
存储 算法 JavaScript
设计并实现一个函数, 功能为给定一个存储为随机整数的数组,从中删除所有值为i的整数
设计并实现一个函数, 功能为给定一个存储为随机整数的数组,从中删除所有值为i的整数
|
C++ iOS开发
【C++之标准类型数据的格式输出1】输入一批数值,要求保留3位小数,且上下行小数点对齐
【C++之标准类型数据的格式输出1】输入一批数值,要求保留3位小数,且上下行小数点对齐
|
存储 SQL JSON
不全?MySQL数据类型精讲,定点日期枚举文本字符串,json二进制,空间,选择建议,完整详细可收藏
不全?MySQL数据类型精讲,定点日期枚举文本字符串,json二进制,空间,选择建议,完整详细可收藏
292 1
不全?MySQL数据类型精讲,定点日期枚举文本字符串,json二进制,空间,选择建议,完整详细可收藏
如何将Excel中以文本形式存储的数字批量快速地转换为数值类型
如何将Excel中以文本形式存储的数字批量快速地转换为数值类型
如何将Excel中以文本形式存储的数字批量快速地转换为数值类型
|
存储 数据库
长整数在插入较短的列时会被转换,但不会被截断为什么?公式是什么?
长整数在插入较短的列时会被转换,但不会被截断为什么?公式是什么?
C#中字符串是否可以转换为数值
C#中字符串是否可以转换为数值
|
存储
字符串按照固定长度分割并存储在数组
字符串按照固定长度分割并存储在数组
145 0