计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-15
1. Towards the holistic design of alloys with large language models
Z Pei, J Yin, J Neugebauer, A Jain - Nature Reviews Materials, 2024
利用大型语言模型实现合金的全面设计
摘要
文章讨论了大型语言模型在材料设计和从科学文献及非结构化语料库中提取和使用信息方面的潜力。特别是在合金设计和制造领域,这些模型可以加速材料设计过程,并允许包含全面的设计标准。
创新点
- 跨学科应用:将大型语言模型应用于材料科学,特别是合金设计,这是一个相对较新的研究领域。
- 全面设计标准:模型不仅考虑材料的物理化学属性,还考虑了制造过程和环境影响等全面标准。
算法模型
文章中提到的算法模型包括:
- 自然语言处理(NLP)技术:用于从科学文献中提取信息。
- 机器学习模型:用于预测材料属性和优化设计。
实验效果
- 数据集:使用了包括六百万文本的数据集进行训练。
- 性能指标:模型在合金设计任务上表现出较高的准确率和效率,具体数据未在摘要中提及。
- 结论:大型语言模型能够有效地辅助合金设计,提高设计过程的效率和全面性。
推荐阅读指数:
★★☆☆☆
- 推荐理由:
- 跨学科价值:文章展示了如何将先进的计算机技术应用于材料科学,为跨学科研究提供了新的思路。
- 实际应用潜力:模型的应用可以显著提高材料设计的效率和质量,对工业生产具有实际意义。
- 创新性:在材料设计领域应用大型语言模型是一个新颖的尝试,可能会引领未来的研究方向。
这篇文章对于材料科学家、计算机科学家以及对人工智能在工业应用感兴趣的读者来说,都是一篇值得一读的研究。
2. Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation
M Wysocka, O Wysocki, M Delmas, V Mutel, A Freitas - Journal of Biomedical …, 2024
大型语言模型、科学知识和事实性:简化人类专家评估的框架
摘要
本文介绍了一个评估大型语言模型(LLMs)编码事实性科学知识的框架,旨在简化通常由领域专家进行的手动评估过程。文章探讨了LLMs在生物医学背景知识对话中的潜力,特别是在抗生素发现的背景下。
创新点
- 评估框架:提出了一个新的框架,系统地评估LLMs的事实性,包括流畅性、提示对齐、语义一致性、事实知识和生成响应的特异性。
- 任务分配:通过将任务分配给非专家和专家,减少了后者的工作量。
- 领域应用:在抗生素发现领域对LLMs进行了广泛的评估。
算法模型
- 评估步骤:框架包括三个评估步骤,依次评估不同的方面:流畅性、提示对齐、语义一致性、事实知识和生成响应的特异性。
- 模型评估:对包括ChatGPT、GPT-4和Llama 2在内的11个最先进的LLMs进行了系统评估,涉及两个基于提示的任务:化学化合物定义生成和化学化合物-真菌关系确定。
实验效果
- 结果:尽管最近的模型在流畅性方面有所改进,但事实准确性仍然较低,模型倾向于过度表示实体。LLMs作为生物医学知识库的能力受到质疑,强调了需要额外的系统评估框架。
- 结论:虽然LLMs目前不适合作为零次射击设置中的生物医学事实知识库,但随着模型变得更加专业化、规模扩大和人类反馈水平的提高,事实性的新兴属性是有希望的。
推荐阅读指数:
★★★★☆☆
- 推荐理由:
- 评估框架的创新性:提出了一个新颖的评估框架,这对于理解和改进LLMs在科学知识领域的应用具有重要意义。
- 实际应用价值:研究结果对于指导如何更有效地使用LLMs在生物医学领域进行知识发现和整合具有实际指导意义。
- 领域专业性:文章专注于抗生素发现这一特定领域,为特定领域的LLMs应用提供了深入的见解和评估方法。
这篇文章对于计算机科学家、生物医学研究人员以及对大型语言模型在科学知识领域应用感兴趣的读者来说,都是一篇值得一读的研究。
3. Large Language Models Can Connect the Dots: Exploring Model Optimization Bugs with Domain Knowledge-Aware Prompts
H Guan, G Bai, Y Liu - Proceedings of the 33rd ACM SIGSOFT ISSTA, 2024
大型语言模型能够连接点:用领域知识感知提示探索模型优化错误
摘要
本文介绍了一种使用大型语言模型(LLMs)和提示技术生成测试用例来检测模型优化错误的新方法。作者提出了一个称为“集中与扩散”的范式,通过从已知错误实例中提取领域知识,设计出知识感知提示,以指导LLMs生成有效的测试用例。该方法被实现为一个名为YanHui的工具,并与现有的少量样本LLMs基础模糊测试技术进行了基准测试。YanHui生成的测试用例在发现相关API和数据组合以暴露MOBs方面表现出增强的能力,导致生成语法有效代码的能力提高了11.4%,生成针对模型优化的特定目标代码的能力提高了22.3%。YanHui检测到17个MOBs,其中5个是深度MOBs,没有提示技术很难发现。
创新点
- 集中与扩散范式:提出了一个新的范式,通过从已知错误实例中提取领域知识,设计知识感知提示,以指导LLMs生成有效的测试用例。
- 领域知识感知提示:利用代码结构和错误描述的领域知识提供问题领域的精确深入描述,并提供启发式方向以生成创新的测试用例。
- YanHui工具:实现了一种新工具,用于生成能够发现相关API和数据组合的测试用例,以暴露模型优化错误。
算法模型
- YanHui工具:利用领域知识感知提示来指导LLMs生成测试用例。
- 领域知识提取:从已知MOBs的问题报告和修复中提取领域知识。
- 测试用例生成:使用LLMs生成测试用例,以检测模型优化中的错误。
实验效果
- 性能提升:与现有技术相比,YanHui在生成语法有效代码方面提高了11.4%,在生成针对模型优化的特定目标代码方面提高了22.3%。
- 错误检测:YanHui检测到17个MOBs,其中5个是深度MOBs,这些错误在没有提示技术的情况下很难发现。
推荐阅读指数:
★★★☆☆
- 推荐理由:
- 创新性:提出了一种新颖的方法,使用LLMs和领域知识感知提示来生成测试用例,这在软件测试领域是一个创新的应用。
- 实际应用价值:YanHui工具的实际应用可以提高软件测试的效率和准确性,特别是在深度学习模型优化的复杂环境中。
- 研究深度:文章深入探讨了如何利用LLMs来解决实际问题,提供了详细的实验结果和分析,对于研究人员和实践者都具有很高的参考价值。
这篇文章对于计算机科学家、软件测试工程师以及对大型语言模型在软件测试领域应用感兴趣的读者来说,都是一篇值得一读的研究。
4. Beyond designer’s knowledge: Generating materials design hypotheses via large language models
Q Liu, MP Polak, SY Kim, MD Shuvo, HS Deodhar… - arXiv preprint arXiv …, 2024
超越设计师的知识:通过大型语言模型生成材料设计假设
摘要
材料设计通常依赖于人类生成的假设,这一过程受到认知限制的固有限制,例如知识差距和有限的能力来整合和提取知识含义,特别是当需要多学科专业知识时。这项工作展示了大型语言模型(LLMs),结合提示工程,可以通过整合来自不同来源的科学原理,无需人类专家的明确设计指导,有效地生成非平凡的材料假设。这些包括具有优越低温性能的高熵合金和具有增强离子导电性和成型性的卤化物固态电解质的设计思想。这些设计思想已在2023年的高影响力出版物中得到实验验证,不在LLM训练数据中,证明了LLM生成高度有价值和可实现的创新想法的能力,这些想法在文献中尚未建立。我们的方法主要利用材料系统图表编码处理-结构-性能关系,通过从众多论文中提取关键信息,并评估和分类众多假设供人类认知,两者都通过LLM实现。这种LLM驱动的方法为人工智能驱动的材料发现开辟了新途径,通过加速设计、民主化创新和扩展能力,超越了设计师的直接知识。
创新点
- 无需专家指导:利用LLMs生成材料设计假设,无需人类专家的明确指导。
- 跨学科知识整合:整合来自不同学科的科学原理,生成具有创新性的材料设计假设。
- 实验验证:生成的设计思想在后续的高影响力出版物中得到了实验验证,证明了LLMs在材料设计中的潜力。
算法模型
- LLMs:使用大型语言模型(如GPT-4)进行文本检索、生成和推理。
- 提示工程:设计特定的提示来引导LLMs生成与材料设计相关的假设。
- 材料系统图表:利用材料系统图表编码处理-结构-性能关系,整合和评估假设。
实验效果
- 生成假设数量:为低温高熵合金生成了约2,100个假设,其中约700个被分类为具有协同效应和科学依据。
- 实验验证:一些LLM生成的假设在2023年的高影响力期刊中得到了实验验证,这些验证在模型训练数据截止日期之后发表,表明LLM能够生成具有前瞻性的创新想法。
- 结论:LLMs能够生成与领域内知名期刊论文相当的新颖科学假设,这突出了LLMs提供有价值科学见解的潜力。
推荐阅读指数:
★★★★★
- 推荐理由:
- 创新性:该研究展示了LLMs在无需专家指导的情况下生成材料设计假设的能力,为材料科学的研究和应用提供了新的方法。
- 实际应用价值:通过LLMs生成的设计假设已经在实验中得到验证,显示了该方法在实际材料设计中的潜在应用价值。
- 跨学科影响:该研究的方法论可以推广到其他领域,为跨学科研究提供新的工具和思路。
这篇文章对于计算机科学家、材料科学家以及对人工智能在科学研究中应用感兴趣的读者来说,都是一篇值得一读的研究。
5. Leveraging Unstructured Text Data for Federated Instruction Tuning of Large Language Models
R Ye, R Ge, Y Fengting, J Chai, Y Wang, S Chen - arXiv preprint arXiv:2409.07136, 2024
利用非结构化文本数据进行大型语言模型的联合指令调整
摘要
文章提出了一种新颖且灵活的框架 FedIT-U2S,它能够自动将非结构化语料库转换为用于联合指令调整的结构化数据。FedIT-U2S 包括两个关键步骤:(1) 少量样本指令调整数据生成,其中每个非结构化数据片段与几个示例结合,提示 LLM 生成指令-响应对;(2) 基于生成的数据进行典型的联合指令调整过程。总体而言,只要客户端持有有价值的文本语料库,FedIT-U2S 就可以应用于多种场景,扩大了联合指令调整的应用范围。作者在医学、知识和数学三个领域进行了一系列实验,表明 FedIT-U2S 能够显著且一致地提升基础 LLM 的性能。
创新点
- 非结构化数据利用:首次提出直接利用非结构化数据进行大型语言模型的联合指令调整。
- 少量样本数据生成:设计了少量样本数据生成机制,自动选择相关性高的示例,生成结构化数据。
- 检索式示例选择:提出了一种基于检索的示例选择方法,自动从混合示例池中选择少量样本示例。
算法模型
- FedIT-U2S 框架:包括少量样本指令调整数据生成和基于生成数据的联合指令调整两个关键步骤。
- 检索式示例选择:通过计算客户端数据片段与示例池中所有示例的相关性来自动选择示例。
- LoRA 微调:为了通信和计算效率,应用了 LoRA 微调技术,只学习和传递少量参数。
实验效果
- 数据集:涵盖了医学、知识和数学三个领域的数据集。
- 评估指标:使用 BERT Score 和 ROUGE-L 作为评估指标。
- 结果:在所有数据集上,FedIT-U2S 显著提高了基础模型的性能。经过过滤的数据虽然数量减少,但对模型性能的提升更为显著,显示了数据质量的重要性。
- 结论:FedIT-U2S 有效地利用了非结构化数据,减少了人工注释的需求,并提高了模型性能。
推荐阅读指数:
★★★★☆
- 推荐理由:
- 创新性:该研究提出了一种新颖的方法,允许使用非结构化数据进行大型语言模型的联合指令调整,这在以往的研究中尚未被探索。
- 实际应用价值:通过自动化数据生成和选择过程,减少了人工注释的需求,使得联合指令调整更加实用和可扩展。
- 跨领域验证:在多个领域(医学、知识和数学)验证了方法的有效性,显示了其广泛的应用潜力。
这篇文章对于计算机科学家、数据科学家以及对联邦学习和大型语言模型应用感兴趣的研究人员来说,都是一篇值得一读的研究。
6. Identify Design Problems Through Questioning: Exploring Role-playing Interactions with Large Language Models to Foster Design Questioning Skills
H Lim, D Choi, H Hong - arXiv preprint arXiv:2409.07178, 2024
通过提问识别设计问题:探索与大型语言模型的角色扮演互动以培养设计提问技能
摘要
识别设计问题是创造可行解决方案的关键步骤,但对于知识与经验有限的设计新手来说,这是一个挑战。提问是一项有前景的技能,它使学生能够独立识别设计问题,而不是被动地依赖于教师。本研究探索了与大型语言模型(LLM)驱动的对话代理(CAs)的角色扮演互动,以培养设计新手学生的提问技能。我们提出了一个LLM驱动的CA原型,并与16名参与真实世界设计课程的新手设计学生进行了初步研究,观察学生与LLM驱动的CA之间的互动。我们的发现表明,尽管CA激发了提问并减少了提问的压力,但它也无意中导致了对LLM响应的过度依赖。我们为LLM驱动的CA提出了设计考虑和未来的工作方向,以培养提问技能。
创新点
- 角色扮演互动:通过与LLM驱动的CA进行角色扮演互动,让学生从教师的角度提出问题,以发展设计问题。
- 设计问题识别:专注于培养学生提问技能,以识别设计问题,而不是仅仅获取设计知识。
- LLM的应用:利用LLM在教育领域的新潜力,特别是在通过与代理的对话来增强论证技能方面。
算法模型
- LLM驱动的CA原型:使用ChatGPT的自定义指令功能,允许学生以教师的视角提问,以发展设计问题。
- 角色扮演方法:设计学生扮演教师角色,通过与LLM的互动来提出问题,模拟教师与学生的问答环节。
实验效果
- 参与者:16名设计新手学生。
- 方法:学生参与了一个重新设计收音机的项目,通过与CA原型的互动来明确与收音机相关的问题。
- 数据分析:使用Eris的设计问题分类法对学生的输入进行分类,包括低层次问题(LLQs)、深层推理问题(DRQs)和生成性设计问题(GDQs)。
- 结论:尽管参与者是新手,但他们提出了许多不仅仅是LLQs的问题,GDQs的数量超过了DRQs。学生通过与LLM的互动,能够提出更具体的问题,并通过迭代过程评估LLM的响应来确定他们的问题是否适当。
推荐阅读指数:
★★☆☆☆
- 推荐理由:
- 教育应用创新:该研究在教育领域中创新性地应用了LLM,特别是在设计教育中的应用,为培养学生的提问技能提供了新的视角。
- 实际应用价值:通过角色扮演和与LLM的互动,为设计教育提供了一种新的教学方法,有助于提高学生的批判性思维和问题解决能力。
- 跨学科研究:结合了人机交互、教育技术和设计理论,为跨学科研究提供了丰富的研究内容和应用场景。
7. A Fine-grained Sentiment Analysis of App Reviews using Large Language Models: An Evaluation Study
FA Shah, A Sabir, R Sharma - arXiv preprint arXiv:2409.07162, 2024
使用大型语言模型进行应用评论的情感细粒度分析:一项评估研究
摘要
分析用户对应用功能的评论情感可以提供有关用户对应用功能感知及其不断演变需求的宝贵见解。鉴于每天收到的用户评论数量庞大,需要一种自动化机制来生成用户评论的功能级情感摘要。最近的大型语言模型(LLMs)如ChatGPT在无需更新模型参数的情况下,在多个新任务上表现出了令人印象深刻的性能。尽管取得了这些进展,LLMs执行用户评论的功能特定情感分析的能力尚未被探索。本研究比较了包括GPT-4、ChatGPT和Llama-2-chat变体在内的最先进LLMs在0次、1次和5次情景下提取应用功能和相关情感的性能。结果表明,表现最佳的GPT-4模型在零次特征提取中的f1得分比基于规则的方法提高了23.6%;5次进一步提升了6%。GPT-4在预测正确预测的应用功能的情感方面达到了74%的f1得分,5次提高了7%。我们的研究表明,LLM模型对于生成用户评论的功能特定情感摘要是有希望的。
创新点
- 细粒度情感分析:专注于应用评论中的功能特定情感分析,这是一项比传统情感分析更细致的任务。
- 零次和少次学习:探索了LLMs在零次和少次学习场景下的性能,这是理解模型泛化能力的重要方法。
- 模型比较:对多个先进的LLMs进行了比较,包括GPT-4、ChatGPT和Llama-2-chat变体,提供了不同模型之间的性能对比。
算法模型
- LLMs:使用了包括GPT-4、ChatGPT和Llama-2-chat变体在内的多个大型语言模型。
- 零次和少次学习:在没有或只有少数几个标注示例的情况下,评估了模型的性能。
- 性能评估:使用精确匹配和部分匹配策略来评估模型在应用特征提取和情感预测方面的性能。
实验效果
- 数据集:使用了包含1000个用户评论的标记数据集,涵盖了8个不同的应用。
- 性能提升:GPT-4在零次学习场景下的特征提取f1得分比基于规则的方法提高了23.6%,在5次学习场景下进一步提高了6%。
- 情感预测:GPT-4在预测正确预测的应用功能的情感方面达到了74%的f1得分,5次学习进一步提升了7%。
- 结论:LLMs在提取用户评论中的功能特定情感方面表现出色,有潜力在实际应用中辅助软件开发和维护。
推荐阅读指数:
★★★★☆
- 推荐理由:
- 研究的创新性:该研究在LLMs的应用领域提供了新的视角,特别是在细粒度情感分析方面。
- 实际应用价值:研究结果对于理解用户对应用功能的感知和需求具有实际意义,有助于软件的持续改进和优化。
- 模型性能评估:通过对比多个先进的LLMs,提供了对当前技术水平的深入理解,对于研究人员和实践者都具有参考价值。
8. Large Language Models and the Extended Church-Turing Thesis
J Wiedermann, J van Leeuwen - arXiv preprint arXiv:2409.06978, 2024
大型语言模型与扩展的丘奇-图灵论题
摘要
文章探讨了扩展的丘奇-图灵论题(ECTT)是否适用于当代大型语言模型(LLMs)的能力。ECTT声称所有有效的信息处理,包括无界和非均匀的交互式计算,都可以用带有建议的交互式图灵机来描述。研究通过计算能力和计算复杂性理论的经典手段,特别是自动机理论,来评估LLMs的计算能力,并建立了一些基本结果。研究表明,任何固定的(非自适应的)LLM在计算上等同于一个可能非常大的确定性有限状态转换器。此外,LLMs的发展系列在计算上等同于带有建议的交互式图灵机,这证实了ECTT对于LLMs系列的有效性,并表明LLMs系列具有超图灵计算能力。
创新点
- 计算等价性:证明了固定的LLM在计算上等同于确定性有限状态转换器,为理解LLMs的计算基础提供了新的视角。
- 模拟空间受限的图灵机:展示了LLMs如何模拟空间受限的图灵机,揭示了LLMs的计算能力与图灵机之间的联系。
- 超图灵计算能力:通过模拟交互式图灵机与建议,证明了LLMs系列具有超出传统图灵机模型的计算能力。
算法模型
- 确定性有限状态转换器(FST):用于与固定的LLM进行计算等价性的比较。
- 交互式图灵机(ITM)与建议:用于模拟LLMs系列的计算能力,展示了LLMs在处理交互式和非均匀计算任务中的潜力。
实验效果
- 计算等价性:证明了LLMs与FST在计算能力上的等价性,为LLMs的计算模型提供了理论基础。
- 模拟效果:通过模拟实验,展示了LLMs能够有效模拟空间受限的图灵机,以及LLMs系列能够模拟带有建议的交互式图灵机。
- 结论:LLMs系列在计算上具有超图灵能力,这意味着它们在处理某些类型的计算任务时可能比传统的图灵机模型更加强大。
推荐阅读指数:
★★★★★
- 推荐理由:
- 理论深度:文章深入探讨了LLMs的计算理论基础,为理解LLMs的计算能力提供了新的视角。
- 跨学科影响:研究结果对于计算理论、人工智能、认知科学等多个领域都有重要的理论和实践意义。
- 创新性:通过将LLMs与图灵机模型进行比较,提出了LLMs可能具有超图灵计算能力的观点,这对于未来的AI研究和应用具有启发性。
这篇文章对于计算机科学家、人工智能研究者以及对计算理论和自动机理论感兴趣的学者来说,都是一篇值得深入阅读的研究。
9. Employing Game Theory for Mitigating Adversarial-Induced Content Toxicity in Generative Large Language Models
L Jatova, J Smith, A Wilson - 2024
利用博弈论减少生成性大型语言模型中对抗性诱导的内容毒性
摘要
本文探讨了在人工智能系统通过文本与用户交互时,内容毒性成为一个迫切问题,需要强有力的策略来减轻有害语言的生成。通过博弈论框架来解决这一挑战,提供了一种新颖且重要的方法。研究展示了将有害内容的生成视为一个战略游戏,涉及AI语言模型和对抗性提示生成器,可以有效地减少有害输出的发生。通过实施纳什均衡和其他均衡概念,研究说明了AI如何在面对复杂的对抗策略时,被引导向稳定、非毒性的行为。在不同场景下进行的实验表明,配备博弈论策略的AI系统能够动态调整以应对新威胁,保持实时交互中的道德标准。
创新点
- 博弈论框架的应用: 将有害内容生成视为AI语言模型与对抗性提示生成器之间的战略游戏。
- 动态策略调整: 通过纳什均衡和其他均衡概念,动态调整AI策略以应对对抗性输入。
- 实时反馈机制: 集成连续反馈机制,增强系统从过去交互中学习的能力,优化策略以最小化生成攻击性或不适当语言的可能性。
算法模型
- 博弈论框架: 将AI与对抗性实体的交互建模为非合作博弈,应用纳什均衡和混合策略。
- 模拟环境: 设立控制模拟环境,进行迭代交互,测试和优化策略。
- 反馈机制: 通过自动化的毒性检测系统提供反馈,迭代学习算法调整策略。
实验效果
- 初始成功率: 65%,1000次迭代后提升至90%以上。
- 不同毒性水平的成功率: 低毒性95%,中等毒性90%,高毒性80%。
- 策略收敛性: 系统达到纳什均衡,稳定生成非毒性内容。
结论
研究证明了博弈论框架在减轻大型语言模型中内容毒性方面的有效性,展示了通过战略决策和伦理AI交互来增强AI系统安全性和可靠性的潜力。
推荐阅读指数:
★★★★☆
推荐理由:
- 提供了一种创新的方法来处理AI语言模型中的毒性问题。
- 结合博弈论和机器学习,为AI安全性提供了新的视角。
- 实验结果表明,该方法能有效提升模型在面对对抗性输入时的鲁棒性。
- 对于研究AI伦理和安全性的学者和开发者,本文提供了有价值的参考和启示。
备注:
原创文章同步发表CSDN与知乎平台,内容仅供学习使用。 – by 夜空流星(sp-fyf-2024)