【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

0. 论文信息

Title: Unsupervised Human Preference Learning

Authors: Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Dilek Hakkani Tur

Comments: EMNLP 2024 Main Conference

https://arxiv.org/pdf/2410.03731

1. 摘要:

本文提出了一种新颖的方法,使用小型参数模型作为偏好代理,以生成指导大型预训练模型的自然语言规则,实现个性化内容的高效生成。该方法通过一个小型的本地“方向盘”模型来指导一个更大的基础模型,以产生符合个人偏好的内容,同时利用大模型的广泛知识和能力,且无需对大模型进行微调。实验结果表明,该技术在数据和计算效率方面显著优于现有的个性化方法。

2. 研究背景:

大型语言模型(LLMs)在推理、知识检索和内容生成方面展示了令人印象深刻的能力,但在适应个体用户偏好方面存在挑战。现有的个性化技术,如上下文学习和参数高效微调,难以捕捉人类偏好的复杂性,尤其是在个人数据集较小的情况下。

3. 问题与挑战:

LLMs通常在大规模、通用的数据集上进行训练,这促进了中立性,但限制了它们学习和适应个体细微差别的能力。此外,现有的个性化技术在面对有限的个人数据时,难以实现有效的个性化。

4. 如何解决:

研究者提出了一种基于偏好代理的概念的新方法。这些代理是小型的、本地可训练的语言模型,旨在学习和编码个体用户的偏好到简洁的自然语言规则中。这些代理充当小型“方向盘”,引导更大、更通用的LLMs的输出,以期望的个性化风格和内容为目标。

5. 创新点:

  • 提出了一种新的微调目标,利用提取的偏好信息而非传统的输入-输出对,促进了用户偏好的有效学习。
  • 通过偏好代理的使用,实现了显著的性能提升,尤其是在将LLMs与个体风格和偏好对齐方面。
  • 发布了三个大型、人类意图注释的偏好数据集,以促进未来个性化研究。

6. 算法模型:

该方法涉及两个关键组件:生成捕获用户偏好的自然语言规则,并使用这些规则指导一个更大的预训练语言模型。这种模块化架构允许在不进行广泛重新训练的情况下进行有效的个性化。

文章中提到的小型参数模型,即偏好代理(preference agents),是用来学习和编码用户个性化偏好的小型语言模型。这些模型的工作方式如下:

  1. 任务定义:偏好代理的目标是将用户意图(u)和相关的任务元数据(m)映射到自然语言偏好规则(P)。这些规则将用来引导大型预训练模型(ML)的输出,以匹配用户的个性化需求。
  2. 模型训练
  • 零样本响应:首先,让大型模型(ML)对训练数据集(D)生成零样本(zero-shot)响应。这些响应是基于模型的预训练知识,不包含任何用户特定的偏好信息。
  • 提取偏好规则:然后,利用ML的能力提取零样本输出(Yz)和真实输出(G)之间的差异。这个差异代表了需要由小型模型(MS)学习的偏好规则(P)。
  • 训练小型模型:接下来,训练小型模型(MS)来生成这些偏好规则。训练数据由输入-偏好规则对组成,MS学习将用户意图和任务元数据映射到自然语言偏好规则。
  1. 模型对齐:训练完成后的偏好代理(MA)用于将大型模型的输出与未见过的用户数据对齐。对于新的输入(x),首先使用训练有素的代理生成偏好规则(p),然后将这些规则作为额外的上下文与原始输入一起提供给大型语言模型(ML),生成考虑用户偏好的输出(ya)。
  2. 量化对齐:使用一个评估函数(Eval)在未见过的测试集(T)上评估对齐效果。对于T中的每个例子,该函数比较考虑偏好规则的输出(ya)和不考虑偏好规则的零样本输出(yz)。通过在测试集上聚合这些分数,得到一个总体的对齐分数(Score(T))。
  3. 偏好规则的生成:偏好代理通过分析零样本响应和真实响应之间的差异来生成规则,这些规则以自然语言的形式提供具体的指导,例如调整语气、长度、风格等。

这种方法的关键在于,它允许使用小型模型来有效地学习和适应个体用户的偏好,而无需对大型模型进行全面的微调。这样,个性化的过程既高效又实用,因为它不需要大量的计算资源,并且可以轻松地集成到各种应用中。

7. 实验效果:

  • 在包括电子邮件、新闻文章和产品评论在内的三个不同的数据集上评估了该方法。
  • 结果表明,偏好引导的LLMs在自动指标、GPT-4o评估和人类判断方面,显著优于微调基线和标准提示技术。
  • 在某些情况下,与现有个性化方法相比,性能提升高达80%。

8. 重要数据与结论:

  • 在不同的数据集和LLMs上,偏好代理显著提高了与用户偏好对齐的LLM输出。
  • 该方法在数据和计算效率方面显著优于现有方法。

9. 小结

这篇文章提出了一个创新的方法来解决个性化LLMs的挑战,这对于希望在不牺牲个性化的情况下扩展LLMs应用的研究人员和实践者来说是非常有价值的。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术


目录
相关文章
|
编解码 自然语言处理
重磅!阿里巴巴开源最大参数规模大模型——高达720亿参数规模的Qwen-72B发布!还有一个的18亿参数的Qwen-1.8B
阿里巴巴开源了720亿参数规模的Qwen-72B大语言模型,是目前国内最大参数规模的开源模型。该模型在3万亿tokens数据上训练,支持多种语言和代码、数学等数据。Qwen-72B模型具有出色的评估效果,在数学逻辑和意图理解等方面超过了其他开源模型,并且支持多语言扩展。此外,阿里巴巴还开源了18亿参数规模的Qwen-1.8B模型,虽然规模较小但效果不错。Qwen-72B模型已对学术和个人完全开放,商用情况下月活低于100万可直接商用。有兴趣的用户可以通过相关链接获取模型地址和资源信息。
|
10月前
|
机器学习/深度学习 自然语言处理 人机交互
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
在大型语言模型(LLM)的预训练中,尽管模型已接触数万亿个标记,但仍可能生成不符合预期的响应。为解决这一问题,研究者提出了RLHF、DPO和KTO等对齐技术。然而,这些技术各有局限。为此,论文《UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function》提出了一种新的统一对齐方法UNA。UNA通过引入广义隐式奖励函数,成功将RLHF/PPO、DPO和KTO统一起来,简化了训练过程,提高了模型的鲁棒性和性能。
289 15
|
11月前
|
调度
Doris给动态分区添加历史分区问题汇总
Doris动态分区表添加历史分区
|
数据采集 算法 物联网
【算法精讲系列】阿里云百炼SFT微调实践分享
本内容为您提供了百炼平台SFT微调的实践案例,帮助您方便并快速借助模型微调定制化您自己的专属模型。
3005 14
|
机器学习/深度学习 算法 开发工具
大语言模型的直接偏好优化(DPO)对齐在PAI-QuickStart实践
阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对DPO算法提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现大语言模型的DPO对齐微调。本文以阿里云最近推出的开源大型语言模型Qwen2(通义千问2)系列为例,介绍如何在PAI-QuickStart实现Qwen2的DPO算法对齐微调。
|
SQL 存储 安全
SQL安全深度剖析:守护数据安全的坚固防线
展望未来,随着技术的不断进步和攻击手段的不断翻新,SQL安全将面临更多的挑战。因此,我们需要持续关注SQL安全领域的最新动态和技术发展,并不断更新和完善我们的防护措施。同时,加强国际合作与信息共享也是提升全球SQL安全性的重要途径。让我们共同努力,为构建一个更加安全、可靠的数字化环境而奋斗。
|
11月前
|
机器学习/深度学习 PyTorch 测试技术
Ultralytics YOLOv5简介
Ultralytics YOLOv5简介
196 0
|
JavaScript Java 测试技术
基于SpringBoot+Vue的大学生二手闲置物品置换交易管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue的大学生二手闲置物品置换交易管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
245 0
|
分布式计算 Hadoop Java
Hbase集群搭建
Hbase集群搭建
|
缓存 NoSQL 安全
Redis 新特性篇:多线程模型解读
Redis 新特性篇:多线程模型解读
336 5