DPDK_Hash(1)

简介: DPDK_Hash(1)

前言


什么是Hash和解决hash 冲突的方案:


哈希的本质是从一个较大空间映射到一个较小的空间,因此在插入数据足够多之后,根据鸽巢原理,一定会存在位置冲突。常见的哈希表(Hash Table 或者字典,dictionary)会通过链表、开放地址探测等方式来处理冲突。单桶多函数的布谷鸟哈希,便是开放地址法处理冲突的一种哈希表,只不过有冲突后,不是通过线性寻找新的位置,而是通过额外哈希函数来寻找。

DPDK 提供的Hash是采用Cuckoo Hase 实现。 DPDK Hash 具备一下特点:


  • 每个条目有唯一的key标识;
  • 所有key 占有相同大小的空间,空间大小有创建的时候设定;

一、什么是CUCKOO Hash


Cuckoo Hash Table是本次引入的数据结构,它用了两个哈希函数来解决冲突。

Cuckoo利用两个哈希函数来实现最差O(1)的查询复杂度:


  • 对任意一个Key可求出两个哈希值,相当于映射到两个桶,如A被映射到1,4,说明它可以被存到1号或4号桶,而实际在1号桶。本图中,用箭头连接某个Key实际存入的桶和另一个对应的桶,如1—>4。
  • 当插入一个F时,如果对应的两个桶至少有一个为空,则将其插入到这个位置,否则任选一个桶,不妨设为A所在的1号桶。我们将其中原有的A =Key’/Value’踢出,将新的F存入。对于刚取出的A,它之所以存储在1号桶是因为用了两个哈希函数之一,那么我们用另外一个哈希函数,知道A对应的位置还有4号桶。若4号桶为空,则将A放入,整个过程就结束了。而事实上,4号桶中还存有B

= Key’’/Value’’,那么把它们踢出并重复上面的操作。整个过程中进行踢出、填入操作的,形如“1->4-> … ->空位”这样的序列我们将其称为Cuckoo Kick路径。

  • 当查询一个F时,分别检查它的的哈希值对应的两个位置即可。

04708a7b1e6d3a924049550275c63f77_f4cdba0c868c47b7823b2b747b794ad2.png


二、常见 Hash特点


1.Hash 优点

  1. Cuckoo查询操作的理论复杂度为最差O(1),优于Dense的期望查询复杂度O(1)和Chain的O(1+α)。
  2. 而Cuckoo的插入复杂度为均摊O(1)

三、DPDK采用的Hash 原理


3.1 DPDK Hash libary 具体原理

dd4d24e6c32e915cd23298bc9580de87_b8a042c672e74eeba9b06aad706c2670.png


3.2 DPDK Hash Table 具体实现

Hase table 包含两个表:

第一个表是一个桶数组构成,每个桶中具有相同数量的连续数组条目。每个条目包含计算的给定Key的主要和次要签名(hask index)(如下所述)和第二个表的索引。

第二个表是存储在哈希表中的所有Key的数组及其与每个Key相关联的数据。(Key + 8Byte integer 或者 key + ptr)

d97c9462c639fc1a79dcde6de857fb0f_95a382a6c3024fd29b66c685c3703bcc.png


3.3存储的数据

b00247648abaa5450a0df5a1713ca671_953fd56156924a00a7b2b651cdcdbb62.png


**NODE**

只能在单线程模式下,使用的API: “rte_hash_set_cmp_func()”.

b04b684e91b53dc5bbe396083f6865b4_0a2cafb928ec403dbb8df72a5bcb7ec8.png

943ebe4f77908f72543d262ced5ada1f_c3400611ef3842d4b01c2ff79fd71cb4.png


3.5 Hash bucket index

bucket

First table is an array of buckets each of which consists of multiple entrie.


bucket index

f5f9dfea3ca123d45b6252a6b7f2147a_58bf3ea0665d454da617fa308b652380.png


四、DPDK应用


Hash 可以用来实现 Flow Classification。流分类用于将每个输入数据包映射到它所属的连接/流。这种操作是必需的,因为每个输入分组的处理通常在其连接的上下文中进行,因此相同的操作集合被应用于来自相同流的所有分组。

使用流分类的每个应用通常具有被定义为从输入报文中读取一个或多个字段来构成Key,用于标识流。我们通常使用5-tuple 来标识一条流。


参考


DPDK官方文档中文版

DPDK 官方文档

Cuckoo Hashing的应用及性能优化


总结

目录
相关文章
|
4月前
|
算法
Ngnix02 --- Ngnix的功能特性及常见功能,Ngnix常用的功能模块,有不同算法,根据不同算法进行转发,ip_hash、url_hash、fair,核心组成 ngnix二进制可执行文件
Ngnix02 --- Ngnix的功能特性及常见功能,Ngnix常用的功能模块,有不同算法,根据不同算法进行转发,ip_hash、url_hash、fair,核心组成 ngnix二进制可执行文件
|
6月前
|
存储 前端开发 JavaScript
hash 的特性与运用
hash 的特性与运用
|
6月前
|
算法 API
DPDK-Hash(2)
DPDK-Hash(2)
173 0
|
6月前
|
Ubuntu
[DPDK] dpdk测试收包
[DPDK] dpdk测试收包
|
存储 算法 安全
Hash 算法详细介绍与实现 (二)
书接上回,昨天写了第一部分,《Hash 算法详细介绍与实现 (一)》详细介绍了Hash表和Hash算法的相关概念以及算法的基本原理。同时简单介绍几种hash算法的实现:直接取余法和乘法取整法;本文接着详细唠唠Hash算法和Hash表这个数据结构的具体实现以及Hash算法和Hash表常见问题的解决方案,比如解决Hash表的冲突问题等等.相关的理论知识已在上篇文章详细介绍,这里就不再赘述,多的不说少的不唠,直接进入今天的主题:利用Hash算法实现Hash表
480 1
|
NoSQL Redis
Redis集群环境各节点无法互相发现与Hash槽分配异常 CLUSTERDOWN Hash slot not served的解决方式
Redis集群环境各节点无法互相发现与Hash槽分配异常 CLUSTERDOWN Hash slot not served的解决方式
253 0
|
存储 安全 调度
DPDK环形缓冲区(Ring)详解及性能优化
DPDK环形缓冲区(Ring)详解及性能优化
|
存储 算法 Java
Hash 冲突 | 学习笔记
快速学习 Hash 冲突。
|
人工智能 程序员 开发者
《深入浅出DPDK》—第2章2.5节Cache预取
以上章节讲到了多种和Cache相关的技术,但是事实上,Cache对于绝大多数程序员来说都是透明不可见的。程序员在编写程序时不需要关心是否有Cache的存在,有几级Cache,每级Cache的大小是多少;不需要关心Cache采取何种策略将指令和数据从内存中加载到Cache中;也不需要关心Cache何时将处理完毕的数据写回到内存中。
4719 0
|
存储 算法 安全
什么是 Hash 算法?
散列算法(Hash Algorithm),又称哈希算法,杂凑算法,是一种从任意文件中创造小的数字「指纹」的方法。与指纹一样,散列算法就是一种以较短的信息来保证文件唯一性的标志,这种标志与文件的每一个字节都相关,而且难以找到逆向规律。因此,当原有文件发生改变时,其标志值也会发生改变,从而告诉文件使用者当前的文件已经不是你所需求的文件。
什么是 Hash 算法?