计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19-阿里云开发者社区

1. What makes your model a low-empathy or warmth person: Exploring theOrigins of Personality in LLMs

Authors: Shu Yang, Shenzhe Zhu, Ruoxuan Bao, Liang Liu, Yu Cheng, Lijie Hu, Mengdi Li, Di Wang

什么让你的模型成为一个低同理心或温暖的人：探索大型语言模型中个性的起源

摘要

本文探讨了大型语言模型（LLMs）在生成类人文本和表现出与人类相似的个性特征方面的显著能力。然而，LLMs如何编码和表达诸如宜人性和冲动性等特征的机制仍不清楚。基于社会决定论理论，研究了长期背景因素（如家庭环境和文化规范）与短期压力（如外部指令）如何相互作用，塑造和影响LLMs的个性特征。通过在模型内部使用可解释的特征来引导LLMs的输出，探索了这些背景和压力因素如何在不需要进一步微调的情况下导致模型特征的变化。此外，从个性的角度提出了这些因素对模型安全性的潜在影响。

研究背景

随着大型语言模型（LLMs）的发展，它们在模仿人类行为和展示独特、一致的个性特征方面的能力越来越受到关注。这些个性特征与社会偏见、隐私风险以及传播错误信息或产生有缺陷的代码的倾向等重要的信任问题密切相关。尽管已有研究表明LLMs具有个性特征，但我们仍然不完全理解这些特征是如何从预训练数据中编码到它们的参数中，以及它们如何表现为类似于低同理心或温暖导向的人的行为。

算法模型

本研究基于社会决定论理论，将其与LLMs的个性发展联系起来。研究者们提出了两种主要策略来赋予LLMs特定的个性特征：（i）通过在大型数据集上训练LLMs，类似于让它们接触长期背景因素；（ii）通过明确的指令（例如“你是一个友好的助手”）引导LLMs采取特定的个性特征。此外，研究者们还利用稀疏自编码器（SAEs）和基于表示的方法来提取与个性相关的特征，并引导模型的生成。

核心创新点

提出了一种新的零样本学习方法，使用码本特征和稀疏自编码器（SAEs）来有效地从LLMs中去除特定信息，同时保留模型在无关数据上的性能。
首次成功地在LLMs中实现了具有上下文相关性的特定主题的“遗忘”，标志着机器“遗忘”在实际应用中迈出了重要一步。
通过利用瓶颈来分解激活空间并调节信息流，实现了目标信息的高效“遗忘”，同时保持了模型在其他任务上的整体性能。

实验效果

实验结果表明，通过调整背景特征，模型在各种安全性问题上的表现有所下降，这表明增强背景特征可能会降低模型的安全性。此外，研究还发现，模型对于短期压力的敏感性不同，这可能与模型的大小和训练数据的多样性有关。

后续潜在研究方向

如何进一步提高LLMs的个性化和上下文适应性，同时保持其在安全性和偏见问题上的表现。
探索如何将这些发现应用于其他类型的LLMs，以及如何将这些技术扩展到其他领域，如医疗和金融。
研究如何通过更精细的控制来引导LLMs的行为，以更好地符合人类的价值观和期望。

推荐阅读指数：★★★★☆

2. Fill In The Gaps: Model Calibration and Generalization with Synthetic Data

Authors: Yang Ba, Michelle V. Mancenido, and Rong Pan

https://arxiv.org/abs/2410.10864

填补空白：使用合成数据进行模型校准和泛化

摘要

随着机器学习模型的快速发展，在校准模型性能方面面临着重大挑战。大多数现有的校准方法由于验证数据的多样性不足，通常会对模型准确性产生负面影响，导致泛化能力降低。为了解决这个问题，我们提出了一种校准方法，该方法通过引入合成数据来校准模型，而不损害准确性。我们使用Probably Approximately Correct (PAC)学习框架推导出预期校准误差（ECE）的界限。大型语言模型（LLMs），以其模仿真实数据和生成混合类别标签文本的能力而闻名，被用作合成数据生成策略，以降低ECE界限并提高模型在真实测试数据上的准确性。此外，我们还提出了数据生成机制，以实现高效的校准。在四种不同的自然语言处理任务上测试我们的方法，我们观察到平均准确度提高了34%，ECE降低了33%。

研究背景

自然语言处理（NLP）模型在句法和语义分析、信息检索和文本自动生成方面取得了根本性的进步。最新的模型（例如，transformers、BERT和RoBERTa）在实际的、以用户为中心的应用中表现出色，如自动化客户支持聊天机器人、个性化内容策展和实时多语言文本翻译。其他专门为特定使用背景训练的NLP模型也已经被开发出来，并针对包括情感分析、命名实体识别（NER）和文本分类在内的众多下游任务进行了微调，作为决策支持系统（DSS）的一部分。这些分类模型在准确性、F1分数和AUC方面取得了显著的性能水平。随着机器学习理念的不断发展，人们越来越关注超越简单分类准确性的指标。近年来，社会负责任的人工智能（AI）得到了算法监管框架的强烈倡导，尤其是在安全关键领域，如医疗和执法。社会负责任AI的一些关键支柱包括可问责性、透明度和鲁棒性。确保校准的ML模型对其决策负责意味着它必须为任何决策提供清晰的解释，而透明度要求这些解释是可理解和可解释的；此外，鲁棒性要求ML模型在各种条件下表现一致良好。在分类任务中，这些要求可以通过适当管理模型输出不确定性来解决，即量化、校准和传达与每个预测相关的适当置信水平。在不确定性管理的三个方面中，校准通过确保模型预测与经验观察结果一致，直接提高模型性能。

算法模型

本研究基于Probably Approximately Correct (PAC)学习框架，提出了一种校准方法，该方法通过引入合成数据来校准模型，而不损害准确性。研究者们利用大型语言模型（LLMs）生成合成数据，以降低预期校准误差（ECE）界限并提高模型在真实测试数据上的准确性。此外，研究者们还提出了数据生成机制，以实现高效的校准。