1. What makes your model a low-empathy or warmth person: Exploring theOrigins of Personality in LLMs
Authors: Shu Yang, Shenzhe Zhu, Ruoxuan Bao, Liang Liu, Yu Cheng, Lijie Hu, Mengdi Li, Di Wang
https://arxiv.org/abs/2410.10863
什么让你的模型成为一个低同理心或温暖的人:探索大型语言模型中个性的起源
摘要
本文探讨了大型语言模型(LLMs)在生成类人文本和表现出与人类相似的个性特征方面的显著能力。然而,LLMs如何编码和表达诸如宜人性和冲动性等特征的机制仍不清楚。基于社会决定论理论,研究了长期背景因素(如家庭环境和文化规范)与短期压力(如外部指令)如何相互作用,塑造和影响LLMs的个性特征。通过在模型内部使用可解释的特征来引导LLMs的输出,探索了这些背景和压力因素如何在不需要进一步微调的情况下导致模型特征的变化。此外,从个性的角度提出了这些因素对模型安全性的潜在影响。
研究背景
随着大型语言模型(LLMs)的发展,它们在模仿人类行为和展示独特、一致的个性特征方面的能力越来越受到关注。这些个性特征与社会偏见、隐私风险以及传播错误信息或产生有缺陷的代码的倾向等重要的信任问题密切相关。尽管已有研究表明LLMs具有个性特征,但我们仍然不完全理解这些特征是如何从预训练数据中编码到它们的参数中,以及它们如何表现为类似于低同理心或温暖导向的人的行为。
算法模型
本研究基于社会决定论理论,将其与LLMs的个性发展联系起来。研究者们提出了两种主要策略来赋予LLMs特定的个性特征:(i)通过在大型数据集上训练LLMs,类似于让它们接触长期背景因素;(ii)通过明确的指令(例如“你是一个友好的助手”)引导LLMs采取特定的个性特征。此外,研究者们还利用稀疏自编码器(SAEs)和基于表示的方法来提取与个性相关的特征,并引导模型的生成。
核心创新点
- 提出了一种新的零样本学习方法,使用码本特征和稀疏自编码器(SAEs)来有效地从LLMs中去除特定信息,同时保留模型在无关数据上的性能。
- 首次成功地在LLMs中实现了具有上下文相关性的特定主题的“遗忘”,标志着机器“遗忘”在实际应用中迈出了重要一步。
- 通过利用瓶颈来分解激活空间并调节信息流,实现了目标信息的高效“遗忘”,同时保持了模型在其他任务上的整体性能。
实验效果
实验结果表明,通过调整背景特征,模型在各种安全性问题上的表现有所下降,这表明增强背景特征可能会降低模型的安全性。此外,研究还发现,模型对于短期压力的敏感性不同,这可能与模型的大小和训练数据的多样性有关。
后续潜在研究方向
- 如何进一步提高LLMs的个性化和上下文适应性,同时保持其在安全性和偏见问题上的表现。
- 探索如何将这些发现应用于其他类型的LLMs,以及如何将这些技术扩展到其他领域,如医疗和金融。
- 研究如何通过更精细的控制来引导LLMs的行为,以更好地符合人类的价值观和期望。
推荐阅读指数:★★★★☆
2. Fill In The Gaps: Model Calibration and Generalization with Synthetic Data
Authors: Yang Ba, Michelle V. Mancenido, and Rong Pan
https://arxiv.org/abs/2410.10864
填补空白:使用合成数据进行模型校准和泛化
摘要
随着机器学习模型的快速发展,在校准模型性能方面面临着重大挑战。大多数现有的校准方法由于验证数据的多样性不足,通常会对模型准确性产生负面影响,导致泛化能力降低。为了解决这个问题,我们提出了一种校准方法,该方法通过引入合成数据来校准模型,而不损害准确性。我们使用Probably Approximately Correct (PAC)学习框架推导出预期校准误差(ECE)的界限。大型语言模型(LLMs),以其模仿真实数据和生成混合类别标签文本的能力而闻名,被用作合成数据生成策略,以降低ECE界限并提高模型在真实测试数据上的准确性。此外,我们还提出了数据生成机制,以实现高效的校准。在四种不同的自然语言处理任务上测试我们的方法,我们观察到平均准确度提高了34%,ECE降低了33%。
研究背景
自然语言处理(NLP)模型在句法和语义分析、信息检索和文本自动生成方面取得了根本性的进步。最新的模型(例如,transformers、BERT和RoBERTa)在实际的、以用户为中心的应用中表现出色,如自动化客户支持聊天机器人、个性化内容策展和实时多语言文本翻译。其他专门为特定使用背景训练的NLP模型也已经被开发出来,并针对包括情感分析、命名实体识别(NER)和文本分类在内的众多下游任务进行了微调,作为决策支持系统(DSS)的一部分。这些分类模型在准确性、F1分数和AUC方面取得了显著的性能水平。随着机器学习理念的不断发展,人们越来越关注超越简单分类准确性的指标。近年来,社会负责任的人工智能(AI)得到了算法监管框架的强烈倡导,尤其是在安全关键领域,如医疗和执法。社会负责任AI的一些关键支柱包括可问责性、透明度和鲁棒性。确保校准的ML模型对其决策负责意味着它必须为任何决策提供清晰的解释,而透明度要求这些解释是可理解和可解释的;此外,鲁棒性要求ML模型在各种条件下表现一致良好。在分类任务中,这些要求可以通过适当管理模型输出不确定性来解决,即量化、校准和传达与每个预测相关的适当置信水平。在不确定性管理的三个方面中,校准通过确保模型预测与经验观察结果一致,直接提高模型性能。
算法模型
本研究基于Probably Approximately Correct (PAC)学习框架,提出了一种校准方法,该方法通过引入合成数据来校准模型,而不损害准确性。研究者们利用大型语言模型(LLMs)生成合成数据,以降低预期校准误差(ECE)界限并提高模型在真实测试数据上的准确性。此外,研究者们还提出了数据生成机制,以实现高效的校准。
核心创新点
- 提出了一种新的校准方法,该方法通过引入合成数据来校准模型,而不损害准确性。
- 使用Probably Approximately Correct (PAC)学习框架推导出预期校准误差(ECE)的界限。
- 提出了数据生成机制,以实现高效的校准。
实验效果
在四种不同的自然语言处理任务上测试该方法,观察到平均准确度提高了34%,ECE降低了33%。
后续潜在研究方向
- 如何进一步提高模型的校准性能,特别是在数据稀缺的情况下。
- 探索如何将这些发现应用于其他类型的NLP任务,以及如何将这些技术扩展到其他领域。
- 研究如何通过更精细的控制来引导模型的行为,以更好地符合人类的价值观和期望。
推荐阅读指数:★★★★☆
3. Generating Synthetic Datasets for Few-shot Prompt Tuning
Authors: Xu Guo, Zilin Du, Boyang Li, Chunyan Miao
https://arxiv.org/abs/2410.10865
为少量提示调整生成合成数据集
摘要
提示调整的一个主要限制是它依赖于大型标记训练数据集。在少量样本学习设置下,提示调整远远落后于全模型微调,限制了其应用范围。在本文中,我们利用强大的LLMs为训练软提示合成特定任务的标记数据。我们首先介绍了一种分布对齐的加权生成器调整(DawGen)方法,以鼓励生成与少量真实数据对齐的分布内数据。然后,我们使用梯度手术方法在合成数据和真实数据上训练软提示,该方法消除了不同数据源的冲突梯度。在七个句子对分类数据集上的实验表明,我们提出的方法在提升少量样本学习设置中的提示调整方面是有效的。在QQP、MRPC和SICK数据集上的结果甚至可以与从大型真实数据集中转移学习的性能相媲美,显示了合成数据作为增强软提示调整的替代品的前景。
研究背景
随着大型语言模型(LLMs)的规模不断扩大,通过微调(FT)每个任务的单独副本来适应下游任务变得越来越不切实际。提示调整(PT)作为解决这一挑战的方案,通过冻结LLM并改为以端到端的方式训练输入数据前的一组软提示。与其他参数高效的学习方法(如适配器调整和LoRA)相比,PT不改变模型架构,可以应用于具有静态计算图的冻结模型,实现快速灵活的部署。在广泛的下游任务中,PT显示出与FT相当的性能。然而,最近的研究表明,PT需要足够的标记训练数据才能实现与FT相竞争的性能,而在少量样本设置中,PT显著落后于FT。
算法模型
本研究提出了一种生成合成数据集的方法,以增强少量样本学习设置中的提示调整。研究者们利用大型语言模型(LLMs)生成合成训练数据集,这些数据集可以被视为从源LLM传递
预学习知识,以训练目标LLM的软提示,以实现增强的少量样本学习性能。
核心创新点
- 提出了一种新的生成合成数据集的方法,以增强少量样本学习设置中的提示调整。
- 引入了分布对齐的加权生成器调整(DawGen)方法,以鼓励生成与少量真实数据对齐的分布内数据。
- 使用梯度手术方法在合成数据和真实数据上训练软提示,消除了不同数据源的冲突梯度。
实验效果
在七个句子对分类数据集上的实验表明,所提出的方法在提升少量样本学习设置中的提示调整方面是有效的。在QQP、MRPC和SICK数据集上的结果甚至可以与从大型真实数据集中转移学习的性能相媲美。
后续潜在研究方向
- 如何进一步提高合成数据集的质量,以及如何更好地将这些数据集与真实数据集结合。
- 探索如何将这些发现应用于其他类型的NLP任务,以及如何将这些技术扩展到其他领域。
- 研究如何通过更精细的控制来引导模型的行为,以更好地符合人类的价值观和期望。
推荐阅读指数:★★★★☆
4. CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept
Authors: YuXuan Wu, Bonaventure F. P. Dossou, Dianbo Liu
https://arxiv.org/abs/2410.10866
CODEUNLEARN:使用离散概念在语言模型中进行零样本机器“遗忘”
摘要
大型语言模型(LLMs)提供了跨各个领域的广泛知识,但它们可能会无意中记忆敏感、未经授权或恶意的数据,例如医疗和金融领域的个人信息。机器“遗忘”方法旨在在训练后从模型中移除特定信息,以解决这一问题。然而,当前的方法需要额外的模型训练,或难以有效地擦除特定数据点及其相关上下文,这是由于LLMs复杂、密集和连续的特性。在本研究中,我们提出了一种新的零样本“遗忘”方法,使用码本特征和稀疏自编码器(SAEs)。通过利用瓶颈来分解激活空间并调节信息流,我们的方法可以高效地“遗忘”目标信息,同时保留模型在无关数据上的性能。据我们所知,这是第一次成功地在LLM中实现具有上下文相关性的特定主题的“遗忘”,标志着机器“遗忘”在实际应用中迈出了重要一步。
研究背景
大型语言模型(LLMs)已被广泛应用于各种应用中,生成的文本回应试图创造人类对话的等价物。这些模型利用广泛的科学文献来促进和加速跨学科研究,同时利用大量人类生成的内容提供专业建议。然而,在许多情况下,这些数据是一把双刃剑。包含个人信息或敏感科学知识可能是有益的,反之亦然。例如,Soice等人(2023)讨论了非专家使用LLMs时如何能够创建生物制剂,这既可能带来潜在的好处,也存在重大风险。
算法模型
本研究提出了一种新的零样本“遗忘”方法,使用码本特征和稀疏自编码器(SAEs)。通过利用瓶颈来分解激活空间并调节信息流,实现了目标信息的高效“遗忘”,同时保持了模型在其他任务上的整体性能。
核心创新点
- 提出了一种新的零样本“遗忘”方法,使用码本特征和稀疏自编码器(SAEs)。
- 展示了如何通过向量量化(VQ)结构化潜在空间,以促进以分摊方式选择性地移除信息。
- 将方法扩展到传统机器“遗忘”技术之外,这些技术主要针对分类任务,以处理与语言模型相关的复杂语言任务,扩大了应用范围。
- 提供了语言模型中“遗忘”的基线,并验证了方法的有效性。
实验效果
实验结果表明,CodeUnlearn成功地减轻了模型复制被“遗忘”信息的能力,而不需要额外的训练,实现了显著的“遗忘”效果,并保持了可解释性。
后续潜在研究方向
- 如何进一步提高模型的“遗忘”性能,特别是在数据稀缺的情况下。
- 探索如何将这些发现应用于其他类型的NLP任务,以及如何将这些技术扩展到其他领域。
- 研究如何通过更精细的控制来引导模型的行为,以更好地符合人类的价值观和期望。
推荐阅读指数:★★★★☆
5. FreqMark: Frequency-Based Watermark for Sentence-Level Detection of LLM-Generated Text
Authors: Zhenyu Xu and Kun Zhang and Victor S. Sheng
https://arxiv.org/abs/2410.10876
FreqMark:基于频率的水印,用于句子级别检测LLM生成的文本
摘要
大型语言模型(LLMs)的日益使用为生成高度连贯和上下文相关的文本引入了新的风险,包括用于不道德目的的误用,如虚假信息或学术不端。为了应对这些挑战,我们提出了FreqMark,这是一种新颖的水印技术,它在LLM生成文本的令牌采样过程中嵌入可检测的基于频率的水印。该方法利用周期性信号引导令牌选择,创建可以通过短时傅里叶变换(STFT)分析检测的水印。这种方法使得即使在混合文本场景中,也能准确识别LLM生成的内容,这些场景包括人类撰写和LLM生成的段落。我们的实验表明,FreqMark的鲁棒性和精度很高,显示出对各种攻击场景(如改写和令牌替换)的强大检测能力。结果显示,FreqMark的AUC提高了高达0.98,显著优于现有的检测方法。
研究背景
大型语言模型(LLMs)的发展显著提高了自然语言处理的能力,使得生成高度连贯和上下文相关的文本成为可能。然而,这一进步也带来了重大挑战,特别是关于LLM生成文本的误用。这种误用对AI安全和可信AI计划的完整性构成了严重威胁。例如,LLMs可以被利用来制作虚假信息或假新闻,误导读者,可能造成公共伤害。此外,这些模型有时被用于不道德的做法,如为学生完成学术作业,这破坏了教育完整性。出现了许多检测和水印LLM生成文本的技术,但大多数现有方法主要关注二元分类任务——区分人类撰写和LLM生成的文本。然而,对于能够解决混合文本场景的更精确的水印技术和细粒度检测的需求日益增长,在这些场景中,人类撰写的内容与LLM生成的内容交织在一起。特别具有挑战性的是涉及混合文本的攻击方法,例如在LLM生成的文本中插入人类撰写的段落,或改写LLM生成内容的部分。这些复杂性需要先进的方法,这些方法超越了简单的二元分类,以确保各种应用中文本的完整性和起源。
算法模型
本研究提出了一种新颖的水印技术,它在LLM生成文本的令牌采样过程中嵌入可检测的基于频率的水印。该方法利用周期性信号引导令牌选择,创建可以通过短时傅里叶变换(STFT)分析检测的水印。
核心创新点
- 提出了一种新颖的水印技术,它在LLM生成文本的令牌采样过程中嵌入可检测的基于频率的水印。
- 利用短时傅里叶变换(STFT)分析来检测嵌入的水印,允许在句子级别对LLM生成的文本进行细粒度识别,即使在改写和令牌替换等对抗条件下也是如此。
- 构建了一个专门的混合内容数据集,基于realnewslike语料库,以严格评估水印检测的细粒度定位能力,实现在各种文本操作场景下的全面性能基准测试。
实验效果
实验结果表明,FreqMark在检测准确性和鲁棒性方面优于现有方法。FreqMark的AUC提高了高达0.98,显著优于现有的检测方法。
后续潜在研究方向
- 如何进一步提高模型的检测性能,特别是在数据稀缺的情况下。
- 探索如何将这些发现应用于其他类型的NLP任务,以及如何将这些技术扩展到其他领域。
- 研究如何通过更精细的控制来引导模型的行为,以更好地符合人类的价值观和期望。
推荐阅读指数:★★★★☆
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。