计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27(上)+https://developer.aliyun.com/article/1628902
4. OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching
Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang
https://arxiv.org/abs/2409.14038
OAEI-LLM:一个用于理解大型语言模型在本体匹配中幻觉现象的基准数据集
摘要
大型语言模型(LLMs)在特定领域的任务中常常出现幻觉现象,本体匹配(OM)也不例外。LLMs在OM任务中的应用日益广泛,这就需要基准数据集来更好地理解LLMs的幻觉现象。OAEI-LLM数据集是本体对齐评估倡议(OAEI)数据集的扩展版本,用于评估LLMs在OM任务中的特定幻觉。本文概述了数据集构建和模式扩展中使用的方法,并提供了潜在用例的示例。
研究背景
LLMs在自然语言生成(NLG)和问答(QA)方面展现出了令人难以置信的能力。在语义网社区,LLMs最近被用于本体匹配(OM)。尽管LLMs为OM提供了强大的背景知识库,但它们可能会生成一些错误的映射,并错过一些真正的映射,导致精确度或召回率降低。这种现象在最近的几篇论文中有所观察。
问题与挑战
LLMs在处理本体匹配任务时可能会产生幻觉现象,导致生成错误的映射或遗漏正确的映射。这种现象主要是由于LLMs在没有足够的背景知识或拥有有偏见的领域知识时倾向于生成合成答案。
创新点
- 提出了OAEI-LLM数据集,用于测量LLMs在OM任务中的幻觉程度。
- 将原始人类标记的结果与LLM生成的结果进行比较,分类不同LLMs产生的幻觉类型,并记录新的模式扩展信息。
算法模型
本文实现的基于LLM的OM系统生成了LLM-Alignment文件,该系统将源本体和目标本体作为输入,并生成一组预测映射。通过比较OAEI参考与LLM-Alignment来识别差异。
实验效果
本文没有提供具体的实验效果数据,而是侧重于介绍数据集的构建和潜在用途。
推荐阅读指数:
★★★☆☆
推荐理由
- 对于研究LLMs在特定领域任务(如本体匹配)中的表现和挑战的研究人员和开发者,本文提供了有价值的见解。
- 对于希望了解如何评估和改进LLMs在本体匹配任务中性能的专业人士,OAEI-LLM数据集可能非常有用。
- 本文为LLMs在本体匹配任务中的幻觉现象提供了一个评估框架,有助于未来在这一领域的研究。
5. The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills
Authors: Goran Buba\v{s}
https://arxiv.org/abs/2409.14050
GPT-4o和其他大型语言模型在提高和设计人际交流技能自我评估量表中的应用
摘要
本文探讨了如何使用GPT-4o和其他大型语言模型(LLMs)来改进和设计用于测量人际交流技能的自我评估量表。研究表明,这些模型在处理人类心理学和交流信息方面的能力为个性心理学和人际交流技能的科学应用提供了机会。
研究背景
随着大型语言模型(LLMs)在各种语言任务中的表现越来越接近甚至超过人类平均水平,它们在科学研究的多个阶段展现出了巨大的潜力。
问题与挑战
如何有效地利用LLMs处理关于人类心理学和交流的信息,以及如何将这些模型应用于个性心理学和人际交流技能的测量。
创新点
- 提出使用LLMs来改进和设计自我评估量表。
- 展示了LLMs在自动生成项目和评估内容有效性方面的潜力。
算法模型
- GPT-4o
- 其他大型语言模型,如Microsoft’s Copilot, Google’s Gemini 1.5 Pro, Antrophic’s Claude 3.5 Sonnet
实验效果
文中没有提供具体的实验数据和统计结果,但提到了LLMs在设计自我评估量表方面的潜在好处,并给出了使用LLMs进行评估、设计和改进人际交流技能自我评估量表的总结。
推荐阅读指数:
★★★☆☆
推荐理由
跨学科应用
6. Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction
Authors: Amrit Diggavi Seshadri
https://arxiv.org/abs/2409.14091
归一化窄跳跃至结论:针对参数高效提前退出的Transformer预测的归一化窄捷径
摘要
随着大型基于Transformer的语言模型尺寸和成本的增长,近期对早期Transformer隐藏表示直接映射到最终表示的捷径投射法,以实现更便宜的模型推理,引起了人们的兴趣。文章提出了Narrow Jump to Conclusions (NJTC) 和 Normalized Narrow Jump to Conclusions (N-NJTC),这是标准线性捷径的参数高效替代方案,将捷径参数数量减少了97%以上。研究表明,N-NJTC在早期阶段的准确性可靠地超过了Identity捷径,并为GPT-2-XL、Phi3-Mini和Llama2-7B等Transformer模型提供了从所有Transformer块级别稳定的精度。
研究背景
大型语言模型通过顺序堆叠由多头自注意力和前馈层组成的块来构建。这种堆叠提高了模型性能,但也增加了推理的计算成本。
问题与挑战
现有的Transformer模型在进行早期退出推理时,需要大量的参数,这导致了计算成本高昂。
创新点
- 提出了NJTC和N-NJTC作为标准线性捷径的参数高效替代方案。
- 展示了早期阶段的线性捷径可以通过低秩表示来近似,从而比JTC捷径减少超过97%的参数。
算法模型
- Narrow Jump To Conclusions (NJTC): 使用两层简单的线性神经网络,通过矩阵A和B来近似高阶段的Transformer块输出。
- Normalized Narrow Jump To Conclusions (N-NJTC): 在NJTC的基础上增加了批量归一化层,以避免对自然高方差Transformer维度的偏见。
实验效果
- GPT-2-XL: 48个Transformer块,隐藏维度1600,总参数1.5亿。
- Phi3-Mini: 32个Transformer块,隐藏维度3072,总参数3.8亿。
- Llama2-7B: 32个Transformer块,隐藏维度4096,总参数7亿。
实验结果显示,N-NJTC在所有模型的早期阶段都能可靠地超过Identity捷径,并在所有Transformer块级别提供稳定的精度和惊讶度。
推荐阅读指数:
★★★★☆
推荐理由
- 创新性:文章提出的NJTC和N-NJTC方法在大幅减少参数数量的同时,保持了模型预测的质量,对资源有限的环境具有重要意义。
- 实用性:对于需要在参数效率和模型性能之间取得平衡的应用场景,该研究提供了有价值的参考。
- 实验充分:在多个大型Transformer模型上进行了实验验证,结果具有说服力。
7. Will Large Language Models be a Panacea to Autonomous Driving?
Authors: Yuxuan Zhua, Shiyi Wang, Wenqing Zhong, Nianchen Shen, Yunqi Li, Siqi Wang, Zhiheng Li, Cathy Wu, Zhengbing He, Li Li
https://arxiv.org/abs/2409.14165
大型语言模型会是自动驾驶的灵丹妙药吗?
摘要
本文探讨了大型语言模型(LLMs)在自动驾驶(AD)中的应用,并分析了它们是否能够解决自动驾驶领域面临的挑战。目前自动驾驶技术主要有两种技术路径:模块化和端到端。模块化方法将驾驶任务分解为感知、预测、规划和控制等模块,而端到端方法则尝试通过单一模型直接从传感器数据映射到控制信号。文章分析了LLMs在优化这两种方法中的潜力,并讨论了LLMs在AD系统中可能遇到的局限性和挑战。
研究背景
自动驾驶是现代交通工具研究的关键领域,其发展深度依赖于人工智能(AI)的进步。随着AI技术的发展,自动驾驶的实现方式主要形成了模块化和端到端两种设计方法。
问题与挑战
自动驾驶系统在实际应用中面临诸多挑战,包括确保鲁棒性、可验证性、可解释性以及高效的人车交互。此外,无论是模块化还是端到端方法,都存在训练目标不一致、难以处理不可预测的长尾事件和复杂城市交通场景等问题。
创新点
文章提出了利用具有强大推理能力和广泛知识理解的LLMs来提升自动驾驶系统的可能性,并探讨了LLMs在解决现有自动驾驶解决方案中的问题和挑战方面的潜力。
算法模型
文章没有提出新的算法模型,而是对现有的自动驾驶技术和大型语言模型进行了全面的分析和讨论。
实验效果
文章通过案例研究和分析,展示了LLMs在自动驾驶任务中的潜在应用,包括在模块化和端到端方法中的应用。文章指出,尽管LLMs在参数数量大幅减少的情况下,仍能提供比传统方法更好的性能。
推荐阅读指数:
★★★★☆
推荐理由
- 全面性:文章全面分析了LLMs在自动驾驶领域的潜在应用,涵盖了从感知、预测、规划到控制的各个模块。
- 前瞻性:探讨了LLMs在自动驾驶领域的最新进展,对于理解未来自动驾驶技术的发展方向具有指导意义。
- 实用性:讨论了LLMs在实际自动驾驶系统中的应用潜力,对于相关领域的研究者和工程师具有参考价值。
8. Loop-Residual Neural Networks for Iterative Refinement
Authors: Kei-Sing Ng, Qingchen Wang
https://arxiv.org/abs/2409.14199
用于迭代细化的循环残差神经网络
摘要
本文介绍了一种新型的循环残差神经网络(Loop-Residual Neural Network),该网络通过利用更长的计算时间来提高性能,而不增加模型大小。该方法通过循环遍历模型的子集并使用残差连接,多次回顾输入,从而细化预测。通过将GPT-2的版本与我们的循环残差模型进行比较的实验,展示了在保持类似参数数量的同时,在语言建模任务中提高了性能。重要的是,这些改进是在不需要额外训练数据的情况下实现的。
研究背景
大规模语言模型(如GPT)的成功归功于它们能够有效地预测序列中的下一个token。然而,这些模型在预测时不论所预测token的复杂性或歧义性如何,都依赖于恒定的计算量,缺乏迭代细化的能力。
问题与挑战
现有模型执行单次前向传播以预测下一个token,这限制了它们进行迭代细化的能力。特别是,它们依赖于恒定的计算量,而不考虑正在预测的token的复杂性或歧义性。
创新点
- 新颖架构:引入了循环残差机制,在不增加参数数量的情况下增强了模型性能。
- 效率:通过利用更长的推理时间,模型在不需要额外训练数据的情况下实现了更好的性能。
- 可扩展性:该方法适用于大规模神经网络,并且在与GPT-2相当的模型上展示了有效性。
算法模型
循环残差模型引入了一种迭代机制,通过多次循环遍历transformer块,并使用残差连接来细化隐藏状态。该过程定义为:[x(n) = x(n-1) + f_\theta(x(n-1))],其中(x(n))是第n次迭代的隐藏状态,(x(0))是前一层或嵌入层的初始隐藏状态,(f_\theta)是由参数θ参数化的函数,包括循环遍历的transformer块预测残差。
实验效果
- 实验一:Loop-Residual GPT2-81M模型在OpenWebText数据集上达到了3.11的验证损失,与GPT-2-124M模型的3.12损失相当。
- 实验二:Loop-Residual GPT2-45M模型与Lite GPT-2-45M模型相比,验证损失从3.98降低到3.67,训练损失从3.96降低到3.65。
推荐阅读指数:★★★★☆
推荐理由
- 创新性:提出了一种新颖的循环残差机制,通过迭代细化来提高模型性能,而无需增加参数数量。
- 实用性:实验表明,该方法可以在不增加模型大小或额外数据的情况下,通过延长推理时间来提高性能。
9. LLMs are One-Shot URL Classifiers and Explainers
Authors: Fariza Rashid, Nishavi Ranaweera, Ben Doyle, Suranga Seneviratne
https://arxiv.org/abs/2409.14306
LLMs作为一次性URL分类器和解释器
摘要
本文探讨了如何使用大型语言模型(LLMs)来解决网络安全中恶意URL分类的问题。现有的基于机器学习和深度学习的方法通常因为缺乏代表性的训练数据集而面临泛化和领域适应问题。此外,这些模型无法用自然人类语言提供给定URL分类的解释。文章提出了一种基于LLM的一次性学习框架,使用链式推理(Chain-of-Thought, CoT)预测给定URL是良性还是网络钓鱼。实验表明,该框架与监督模型性能相近,且无需额外训练数据。
研究背景
网络安全领域中,电子邮件和短信等渠道的网络钓鱼攻击仍然是一个重大问题。现有的黑名单和白名单方法在大规模和动态环境中检测网络钓鱼攻击效果不佳。因此,提出了基于机器学习的方法来检测钓鱼URL。
问题与挑战
现有的URL分类模型在不同数据源上的测试性能显著下降,主要是由于高误报率,表明对良性URL指标的理解不足。此外,现有模型通常缺乏可解释性,这对于用户意识和培训至关重要。
创新点
- 提出了一种基于LLM的框架,利用CoT推理进行URL分类和解释。
- 评估了五种最先进的LLM在三个URL数据集上的性能,并与现有的监督URL分类器进行了比较。
- 展示了一次性方法在预测性能方面与监督设置的相似性,并提供了自然语言解释,增强了用户对良性和网络钓鱼URL特征的认识。
算法模型
文章提出了一种基于LLM的一次性学习框架,该框架通过CoT推理来预测URL是良性还是网络钓鱼。模型通过迭代循环和残差连接来细化预测。
实验效果
实验结果显示,GPT-4 Turbo在所有评估的LLMs中表现最佳,平均F1分数为0.92,仅比完全监督设置低0.07。这表明该方法在不需要额外训练数据的情况下,能够与监督学习方法相媲美。
推荐阅读指数:
★★★★☆
推荐理由
- 创新性:文章提出了一种结合了LLM和CoT推理的新方法,用于URL分类和解释,这是对现有技术的有益补充。
- 实用性:实验结果表明,该方法在预测性能上与监督学习模型相当,同时提供了有助于用户理解的解释,这对于实际应用是非常有价值的。
10. Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort
Authors: Yuxing Zhi, Yuan Guo, Kai Yuan, Hesong Wang, Heng Xu, Haina Yao, Albert C Yang, Guangrui Huang, Yuping Duan
https://arxiv.org/abs/2409.14478
大型语言模型能否逻辑预测心肌梗塞?基于英国生物银行队列的评估
摘要
本研究旨在定量评估最先进的通用大型语言模型(如ChatGPT和GPT-4)是否能够通过逻辑推理预测心肌梗塞(MI)的风险,并将它们的表现与其他模型进行比较,以全面评估LLMs的性能。
研究背景
大型语言模型(LLMs)在临床决策支持中的应用取得了显著进展,但目前对于LLMs在提供基于现实世界医疗数据的准确临床决策方面的潜力和局限性,尚需高质量的证据。
问题与挑战
如何验证LLMs是否能够逻辑地提供准确的临床诊断,尤其是在处理心脏病发作风险预测这类临床决策支持任务时。
创新点
- 使用来自英国生物银行数据库的数据,将风险因素的表格数据转换为标准化文本描述,用于ChatGPT识别。
- 利用“思维链”(Chain of Thought, CoT)提问方法,评估LLMs是否进行逻辑推理预测。
- 将ChatGPT和GPT-4的预测性能与传统机器学习模型和其他大型语言模型进行比较。
算法模型
- ChatGPT:基于GPT-3.5的模型,以对话形式提供医疗健康问题的回答。
- GPT-4:比ChatGPT更先进的模型,提供更精确、更具上下文相关性的回答。
实验效果
- ChatGPT和GPT-4在预测心肌梗塞方面的性能表现不佳,AUC值分别为0.62和0.69。
- 使用CoT方法并没有显著提高ChatGPT和GPT-4的性能。
- 与传统机器学习模型相比,ChatGPT和GPT-4的性能较差,但与其他LLMs表现相似。
重要数据与结论
- ChatGPT和GPT-4在预测心肌梗塞风险的任务中,性能未能满足临床应用的预期。
- 尽管GPT-4在灵敏度上表现更好,但ChatGPT和GPT-4均未能展现出对医疗知识的深入理解和逻辑推理能力。
推荐阅读指数:
★★☆☆☆
推荐理由
- 研究意义:探讨了LLMs在临床决策支持中的应用潜力,这是当前人工智能领域的一个热点问题。
- 方法创新:采用了CoT方法来评估模型的逻辑推理能力,这是一种新颖的尝试。
- 局限性:研究结果表明,目前的LLMs在处理复杂的临床决策任务时仍存在局限性,未能达到临床应用的标准。
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解前沿技术的发展现状。