由于有许多最小完美哈希函数的应用,实现一个能够时空高效构建这个函数的算法是很重要的。在开源软件世界缺少类似的库已经成了建立CMPH库的重要驱动(gperf有 点不同,因为它设想为较小的键集合建立一个快速完美哈希函数,CMPH库设想为较大的键集合建立最小完美哈希函数)。CMPH库是可移植的LGPLed库,可以用来生成和操作非常高效的最小完美哈希函数。
· 快速
· 对于比较消耗内存的文档能够在空间上很高效处理
· 多种非常好的算法模型可供选择
· 可以通过适配器模式处理in-disk键集合
· 序列化哈希函数
· 可移植C代码(GNU/Linux、WIN32、OpenBSD、Solaris)
· 面向对象实现
· 易于扩展
· 发行的完好封装的 API兼容二进制(binary compatibility) 。
· 开源
o 它是线性时间内构建PHFs和MPHFs的最快的算法;
o 它可以生成了我们熟知的最简洁的PHFs和MPHFs;
o 它生成PHFs的负载系数高达99%;
o 它可以用来生成t-完美哈希函数;
一个t-完美哈希函数允许一个存储空间上至多发生t次冲突。众所周知,当今的存储都是以块为单位作为组织转移单元的。 比如内存中的cache线或者硬盘中的扇区都是这种存储块。因此,实现在这种块中的IO操作是非常有用的。
o 它是一个二级设计形式。它使用第一级哈希函数通过参数b[1,32]把键集进行均分到buckets中。在第二级,使用转移值来解决在buckets中出现的冲突问题。
o 它生成的MPHFs可以用大约2.07个比特来存储每个key。
o 最大装填因子和BDZ algorithm (81 %)一样, 作为结果的PHFs 大约需要1.40 bits 来存储每个键。
o 它非常简单有效,在下边的各方面表现都很优秀。
o 它在线性时间内构建PHFs和MPHFs。
o 对于PHF最大装填因子可以达到1/1.23。
o 它基于acyclic random 3-graphs. 一个 3-graph 是一个图的派生,每条边连接3个点而不是2个点。
o 生成的MPHFs是不保序的。
o 生成的MPHFs的存储需要(2+x)cn比特,其中c应该大于等于1.23,x是一个大于0的常数(实际上,x = 1/b ,b是一个大于2的参数)。例如c = 1.23 ,b = 8,那么最后每个键大约需要2.6个比特来存储。
o 它最大的装填因子 (81 %), 作为结果的PHFs 大约需要1.95 bits 来存储每个键。
o 构建MPHFs只需要线性时间。
o 它基于cyclic random graphs. 这使它比CHM algorithm更快.
o 生成的MPHFs是不保序的。
o 生成的MPHFs比CHM algorithm 生成的更加紧凑,只需要4cn bytes, c的范围[0.93,1.15].
o 一个基于扩展存储的快速算法,构建的MPHFs可以用来处理大约百万数量的键集。
o 工作时间是线性的。
o 作为结果的MPHFs是不保序的。
o 作为结果的 MPHFs需要不到 8.0 bits来存储每个键。
o 在线性时间内构建MPHFs。
o 基于acyclic random graphs。
o 作为结果的MPHFs是不保序的。
o 作为结果的MPHFs 存储在4cn bytes空间中, c大于2.
o 构建的 MPHFs 需要不到 4 bits 来保存每个键。
o 评估时,作为结果的MPHFs非常简洁、有效。
o 该算法只对较小规模键集有效。
o 它被用作BRZ算法的内置算法用来高效解决更大的问题,尽管如此,它生成的MPHFs需要大约4.1bits来存储每个键。为了达到这个要求,你只需要设置参数 -a为brz,参数-c为一个大于等于2.6的值。
#include <cmph.h> #include <string.h> // Create minimal perfect hash function from in-memory vector int main(int argc, char **argv) { // Creating a filled vector unsigned int i = 0; const char *vector[] = {"aaaaaaaaaa", "bbbbbbbbbb", "cccccccccc", "dddddddddd", "eeeeeeeeee", "ffffffffff", "gggggggggg", "hhhhhhhhhh", "iiiiiiiiii", "jjjjjjjjjj"}; unsigned int nkeys = 10; FILE* mphf_fd = fopen("temp.mph", "w"); // Source of keys cmph_io_adapter_t *source = cmph_io_vector_adapter((char **)vector, nkeys); //Create minimal perfect hash function using the brz algorithm. cmph_config_t *config = cmph_config_new(source); cmph_config_set_algo(config, CMPH_BRZ); cmph_config_set_mphf_fd(config, mphf_fd); cmph_t *hash = cmph_new(config); cmph_config_destroy(config); cmph_dump(hash, mphf_fd); cmph_destroy(hash); fclose(mphf_fd); //Find key mphf_fd = fopen("temp.mph", "r"); hash = cmph_load(mphf_fd); while (i < nkeys) { const char *key = vector[i]; unsigned int id = cmph_search(hash, key, (cmph_uint32)strlen(key)); fprintf(stderr, "key:%s -- hash:%u\n", key, id); i++; } //Destroy hash cmph_destroy(hash); cmph_io_vector_adapter_destroy(source); fclose(mphf_fd); return 0; }
下载 vector_adapter_ex1.c. 这个例子不能再0.6版本下工作。
#include <cmph.h> #include <stdio.h> #include <string.h> // Create minimal perfect hash function from in-disk keys using BDZ algorithm int main(int argc, char **argv) { //Open file with newline separated list of keys FILE * keys_fd = fopen("keys.txt", "r"); cmph_t *hash = NULL; if (keys_fd == NULL) { fprintf(stderr, "File \"keys.txt\" not found\n"); exit(1); } // Source of keys cmph_io_adapter_t *source = cmph_io_nlfile_adapter(keys_fd); cmph_config_t *config = cmph_config_new(source); cmph_config_set_algo(config, CMPH_BDZ); hash = cmph_new(config); cmph_config_destroy(config); //Find key const char *key = "jjjjjjjjjj"; unsigned int id = cmph_search(hash, key, (cmph_uint32)strlen(key)); fprintf(stderr, "Id:%u\n", id); //Destroy hash cmph_destroy(hash); cmph_io_nlfile_adapter_destroy(source); fclose(keys_fd); return 0; }
下载 file_adapter_ex2.c 和 keys.txt. 这个例子在版本0.8以下不能工作。
#include <cmph.h> #include <string.h> // Create minimal perfect hash function from in-memory vector #pragma pack(1) typedef struct { cmph_uint32 id; char key[11]; cmph_uint32 year; } rec_t; #pragma pack(0) int main(int argc, char **argv) { // Creating a filled vector unsigned int i = 0; rec_t vector[10] = {{1, "aaaaaaaaaa", 1999}, {2, "bbbbbbbbbb", 2000}, {3, "cccccccccc", 2001}, {4, "dddddddddd", 2002}, {5, "eeeeeeeeee", 2003}, {6, "ffffffffff", 2004}, {7, "gggggggggg", 2005}, {8, "hhhhhhhhhh", 2006}, {9, "iiiiiiiiii", 2007}, {10,"jjjjjjjjjj", 2008}}; unsigned int nkeys = 10; FILE* mphf_fd = fopen("temp_struct_vector.mph", "w"); // Source of keys cmph_io_adapter_t *source = cmph_io_struct_vector_adapter(vector, (cmph_uint32)sizeof(rec_t), (cmph_uint32)sizeof(cmph_uint32), 11, nkeys); //Create minimal perfect hash function using the BDZ algorithm. cmph_config_t *config = cmph_config_new(source); cmph_config_set_algo(config, CMPH_BDZ); cmph_config_set_mphf_fd(config, mphf_fd); cmph_t *hash = cmph_new(config); cmph_config_destroy(config); cmph_dump(hash, mphf_fd); cmph_destroy(hash); fclose(mphf_fd); //Find key mphf_fd = fopen("temp_struct_vector.mph", "r"); hash = cmph_load(mphf_fd); while (i < nkeys) { const char *key = vector[i].key; unsigned int id = cmph_search(hash, key, 11); fprintf(stderr, "key:%s -- hash:%u\n", key, id); i++; } //Destroy hash cmph_destroy(hash); cmph_io_vector_adapter_destroy(source); fclose(mphf_fd); return 0; }
Cmph 应用
$ # Using the chm algorithm (default one) for constructing a mphf for keys in file keys_file
$ ./cmph -g keys_file
$ # Query id of keys in the file keys_query
$ ./cmph -m keys_file.mph keys_query
其他的选项可以让你设置C API中的大多数参数。下边就是全部的使用帮助:
usage: cmph [-v] [-h] [-V] [-k nkeys] [-f hash_function] [-g [-c algorithm_dependent_value][-s seed] ]
[-a algorithm] [-M memory_in_MB] [-b algorithm_dependent_value] [-t keys_per_bin] [-d tmp_dir]
[-m file.mph] keysfile
Minimum perfect hashing tool
-h 打印这个帮助消息
-c c值决定:
* 在BMZ和CHM算法中,c决定图中点的数量
* 在FCH算法中,c决定每个键需要的存储比特数
* 在CHD_PH算法中,c决定装填因子
-a 算法- 合法参数有:
* bmz
* bmz8
* chm
* brz
* fch
* bdz
* bdz_ph
* chd_ph
* chd
-f 哈希函数(可能多次使用) - 合法参数有:
* jenkins
-V 打印版本信息并退出
-v increase verbosity (可能多次使用)
-k 键的数量
-g 生成模式
-s 随机种子
-m MPHF文件
-M 在BRZ算法中,决定可供使用的主存容量(MB)
-d 在BRZ算法中,临时使用的目录
-b 这个参数的意义取决于-a选项选择的算法:
* 在BRZ中,这个参数用来限制bucket中键的最大数量,可取值的范围[64,175]。默认是 128.
* 在BDZ 中,it is used to determine the size of some precomputed rank
information and its value should be an integer in the range [3,10]. Default
is 7. The larger is this value, the more compact are the resulting functions
and the slower are them at evaluation time.
* 在CHD 和 CHD_PH中, it is used to set the average number of keys per bucket
and its value should be an integer in the range [1,32]. Default is 4. The
larger is this value, the slower is the construction of the functions.
This parameter has no effect for other algorithms.
-t 为t-完美哈希函数设置每个bin中键的数量。一个t-PHF允许在bin中至多发生t次冲突。. 这个参数仅对CHD 和CHD_PH 算法有效.取值范围 [1,128]. 默认是1
keysfile line separated file with keys