DPDK_Hash(1)

简介: DPDK_Hash(1)

前言


什么是Hash和解决hash 冲突的方案:


哈希的本质是从一个较大空间映射到一个较小的空间,因此在插入数据足够多之后,根据鸽巢原理,一定会存在位置冲突。常见的哈希表(Hash Table 或者字典,dictionary)会通过链表、开放地址探测等方式来处理冲突。单桶多函数的布谷鸟哈希,便是开放地址法处理冲突的一种哈希表,只不过有冲突后,不是通过线性寻找新的位置,而是通过额外哈希函数来寻找。

DPDK 提供的Hash是采用Cuckoo Hase 实现。 DPDK Hash 具备一下特点:


  • 每个条目有唯一的key标识;
  • 所有key 占有相同大小的空间,空间大小有创建的时候设定;

一、什么是CUCKOO Hash


Cuckoo Hash Table是本次引入的数据结构,它用了两个哈希函数来解决冲突。

Cuckoo利用两个哈希函数来实现最差O(1)的查询复杂度:


  • 对任意一个Key可求出两个哈希值,相当于映射到两个桶,如A被映射到1,4,说明它可以被存到1号或4号桶,而实际在1号桶。本图中,用箭头连接某个Key实际存入的桶和另一个对应的桶,如1—>4。
  • 当插入一个F时,如果对应的两个桶至少有一个为空,则将其插入到这个位置,否则任选一个桶,不妨设为A所在的1号桶。我们将其中原有的A =Key’/Value’踢出,将新的F存入。对于刚取出的A,它之所以存储在1号桶是因为用了两个哈希函数之一,那么我们用另外一个哈希函数,知道A对应的位置还有4号桶。若4号桶为空,则将A放入,整个过程就结束了。而事实上,4号桶中还存有B

= Key’’/Value’’,那么把它们踢出并重复上面的操作。整个过程中进行踢出、填入操作的,形如“1->4-> … ->空位”这样的序列我们将其称为Cuckoo Kick路径。

  • 当查询一个F时,分别检查它的的哈希值对应的两个位置即可。

04708a7b1e6d3a924049550275c63f77_f4cdba0c868c47b7823b2b747b794ad2.png


二、常见 Hash特点


1.Hash 优点

  1. Cuckoo查询操作的理论复杂度为最差O(1),优于Dense的期望查询复杂度O(1)和Chain的O(1+α)。
  2. 而Cuckoo的插入复杂度为均摊O(1)

三、DPDK采用的Hash 原理


3.1 DPDK Hash libary 具体原理

dd4d24e6c32e915cd23298bc9580de87_b8a042c672e74eeba9b06aad706c2670.png


3.2 DPDK Hash Table 具体实现

Hase table 包含两个表:

第一个表是一个桶数组构成,每个桶中具有相同数量的连续数组条目。每个条目包含计算的给定Key的主要和次要签名(hask index)(如下所述)和第二个表的索引。

第二个表是存储在哈希表中的所有Key的数组及其与每个Key相关联的数据。(Key + 8Byte integer 或者 key + ptr)

d97c9462c639fc1a79dcde6de857fb0f_95a382a6c3024fd29b66c685c3703bcc.png


3.3存储的数据

b00247648abaa5450a0df5a1713ca671_953fd56156924a00a7b2b651cdcdbb62.png


**NODE**

只能在单线程模式下,使用的API: “rte_hash_set_cmp_func()”.

b04b684e91b53dc5bbe396083f6865b4_0a2cafb928ec403dbb8df72a5bcb7ec8.png

943ebe4f77908f72543d262ced5ada1f_c3400611ef3842d4b01c2ff79fd71cb4.png


3.5 Hash bucket index

bucket

First table is an array of buckets each of which consists of multiple entrie.


bucket index

f5f9dfea3ca123d45b6252a6b7f2147a_58bf3ea0665d454da617fa308b652380.png


四、DPDK应用


Hash 可以用来实现 Flow Classification。流分类用于将每个输入数据包映射到它所属的连接/流。这种操作是必需的,因为每个输入分组的处理通常在其连接的上下文中进行,因此相同的操作集合被应用于来自相同流的所有分组。

使用流分类的每个应用通常具有被定义为从输入报文中读取一个或多个字段来构成Key,用于标识流。我们通常使用5-tuple 来标识一条流。


参考


DPDK官方文档中文版

DPDK 官方文档

Cuckoo Hashing的应用及性能优化


总结

目录
相关文章
|
7月前
|
存储 前端开发 Linux
DPDK-mempool(1)
DPDK-mempool(1)
153 0
|
7月前
|
存储 前端开发 JavaScript
hash 的特性与运用
hash 的特性与运用
|
7月前
|
算法 API
DPDK-Hash(2)
DPDK-Hash(2)
192 0
|
7月前
|
存储 缓存 测试技术
DPDK-mempool(3)
DPDK-mempool(3)
162 0
|
NoSQL Redis
Redis集群环境各节点无法互相发现与Hash槽分配异常 CLUSTERDOWN Hash slot not served的解决方式
Redis集群环境各节点无法互相发现与Hash槽分配异常 CLUSTERDOWN Hash slot not served的解决方式
269 0
|
人工智能 程序员 开发者
《深入浅出DPDK》—第2章2.5节Cache预取
以上章节讲到了多种和Cache相关的技术,但是事实上,Cache对于绝大多数程序员来说都是透明不可见的。程序员在编写程序时不需要关心是否有Cache的存在,有几级Cache,每级Cache的大小是多少;不需要关心Cache采取何种策略将指令和数据从内存中加载到Cache中;也不需要关心Cache何时将处理完毕的数据写回到内存中。
4759 0
|
存储 算法 C#
C#实现Hash应用全解
C#实现Hash应用全解1、引言HASH是根据文件内容的数据通过逻辑运算得到的数值, 不同的文件(即使是相同的文件名)得到的HASH值是不同的。 Hash 通过一定的哈希算法(典型的有MD5,SHA-1等),将一段较长的数据映射为较短小的数据,这段小数据就是大数据的哈希值。
1448 0
|
存储 NoSQL Redis
redis必杀命令:哈希(Hash)
题记: Redis hash 是一个string类型的field和value的映射表,hash特别适合用于存储对象。 Redis 中每个 hash 可以存储 232 - 1 键值对(40多亿)。
1042 0
|
Linux 数据处理
DPDK
数据平面开发套件(DPDK[1]  ,Data Plane Development Kit)是由6WIND,Intel等多家公司开发,主要基于Linux系统运行,用于快速数据包处理的函数库与驱动集合,可以极大提高数据处理性能和吞吐量,提高数据平面应用程序的工作效率。
2263 0