论文精选 | 性能收益相对提升了58.84%?——自适应二进制量化方法

简介:

散列法(Hashing)或哈希法是一种将字符组成的字符串转换为固定长度(一般是更短长度)的数值或索引值的方法,称为散列法,也叫哈希法。由于通过更短的哈希值比用原始值进行数据库搜索更快,这种方法一般用来在数据库中建立索引并进行搜索,同时还用在各种解密算法中。

快速近邻搜索的自适应二进制量化(Adaptive Binary Quantization for Fast Nearest Neighbor Search)

 论文精选 | 性能收益相对提升了58.84%?自适应二进制量化方法

摘要:对于大数据中快速近邻搜索,哈希法已被证明是一个很有吸引力的技术。与基于哈希法的投影相比,基于原型的投影有更强的能力去生成数据(具有复杂的固有结构)的判别性二进制码。然而,我们的观察表明,它们仍然无法获得高质量的编码——通常在一个超立方体中利用完整的二进制代码。为了解决该问题,我们提出了自适应二进制量化方法——学习一个与原型相应、有着小且独特二进制代码的判别性散列函数。我们的交替优化以有效的方式自适应地发现原型集和不同尺寸的代码集,它总的鲁棒性近似与数据关系。我们的方法可以很自然地推广到长散列码乘积空间。我们相信,我们的想法对于散列研究非常有帮助。在四个大型(高达8000万)数据集上的大量的实验表明,我们的方法显着优于最好散列方法,性能收益相对提升了58.84%。

第一作者简介

Zhujin Li

北京航空航天大学软件开发环境国家重点实验室

文章总结及应用场景

受到我们观察的启发——原型为基础的散列有可能存在一个更好的编码解决方案,即只使用一小部分的二进制码,而不是完整的集合,本文提出了一种自适应二进制量化方法——在原空间中共同追求一套原型和Hamming 空间中的一个二进制代码子集。原型和代码相应关联且一起定义有着更小散列编码的散列函数。我们的方法计算速度更快,且具备在乘积空间中生成长散列码的能力,和具有判别能力的最近邻搜索。

在过去的十年中,由于散列技术成功的应用于许多领域,如大规模的视觉搜索、机器学习、推荐系统等,其在快速最近邻搜索领域已被广泛研究。

via:ECAI  2016

PS : 本文由雷锋网(公众号:雷锋网)独家编译,未经许可拒绝转载!

原论文下载

论文精选 | 性能收益相对提升了58.84%?自适应二进制量化方法


本文作者:章敏


本文转自雷锋网禁止二次转载,原文链接

相关文章
|
4天前
|
机器学习/深度学习 人工智能 算法
【PyTorch深度强化学习】TD3算法(双延迟-确定策略梯度算法)的讲解及实战(超详细 附源码)
【PyTorch深度强化学习】TD3算法(双延迟-确定策略梯度算法)的讲解及实战(超详细 附源码)
527 1
|
4天前
|
机器学习/深度学习 自然语言处理
YOLOv5改进 | 2023 | CARAFE提高精度的上采样方法(助力细节长点)
YOLOv5改进 | 2023 | CARAFE提高精度的上采样方法(助力细节长点)
157 2
|
4天前
|
机器学习/深度学习 编解码 自然语言处理
YOLOv8改进 | 2023 | CARAFE提高精度的上采样方法(助力细节长点)
YOLOv8改进 | 2023 | CARAFE提高精度的上采样方法(助力细节长点)
180 2
|
4天前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
33 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
4天前
|
自然语言处理 安全 算法
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
80 0
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
|
4天前
|
机器学习/深度学习 算法 PyTorch
【PyTorch深度强化学习】带基线的蒙特卡洛策略梯度法(REINFOECE)在短走廊和CartPole环境下的实战(超详细 附源码)
【PyTorch深度强化学习】带基线的蒙特卡洛策略梯度法(REINFOECE)在短走廊和CartPole环境下的实战(超详细 附源码)
54 0
|
机器学习/深度学习 人工智能 算法
一文搞懂模型量化算法基础
一文搞懂模型量化算法基础
2842 0
|
机器学习/深度学习 计算机视觉
谷歌最新研究:用性能差的模型计算「相似度」反而更准?
谷歌最新研究:用性能差的模型计算「相似度」反而更准?
|
机器学习/深度学习 自然语言处理 资源调度
机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)含特征优化模型融合等
在进行归回模型训练涉及主流ML模型:决策树、随机森林,lightgbm等;在模型验证方面:讲解了相关评估指标以及交叉验证等;同时用lgb对特征进行优化;最后进行基于stacking方式模型融合。
|
机器学习/深度学习 自然语言处理 算法
少样本学习综述:技术、算法和模型
少样本学习(FSL)是机器学习的一个子领域,它解决了只用少量标记示例学习新任务的问题
620 0