计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17

1. WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs

Authors: Eryk Banatt, Jonathan Cheng, Skanda Vaidyanath, Tiffany Hwu

https://arxiv.org/abs/2410.10998

摘要:

这篇论文介绍了Wason Inductive Logic Test (WILT),这是一个多轮次、抗记忆的大型语言模型(LLMs)归纳逻辑测试基准。WILT旨在评估LLMs在多轮次推理任务中的表现,这些任务需要模型在多个回合中收集证据并得出逻辑结论。研究者发现,尽管LLMs在单轮次任务中表现出色,但在需要多轮次推理的场景中,它们的表现往往不尽如人意。WILT通过要求模型提出测试案例来缩小可能的假设空间,并最终推断出隐藏的函数,从而测试LLMs的多轮次推理能力。

研究背景:

大型语言模型(LLMs)在多个领域展现出了令人印象深刻的能力,但在需要跨多个回合收集证据并进行逻辑推理的任务上,它们仍然面临重大挑战。这些挑战对于依赖多轮次交互的LLM聊天用户界面来说是一个显著的障碍,例如服务聊天机器人需要在多个回合中收集客户信息以有效诊断和解决问题。

算法模型:

WILT测试基于Wason 2-4-6任务,要求参与者通过提出测试案例来推断涉及三个变量的基本布尔函数(例如,x < y < z)。在WILT中,每个测试都从一张白纸开始,只提供初始指令,防止模型依赖于预先学到的响应。模型必须通过多个回合与环境交互,提出测试案例,以缩小可能的假设空间,并最终基于结果推断出隐藏的函数。

核心创新点:
  • 提出了WILT,一个多轮次推理基准,旨在抵抗记忆化,要求模型在多个回合中收集证据并进行逻辑推理。
  • WILT测试了LLMs的两个重要能力:(1) 是否能通过提出正确的测试案例在多个回合中有效缩小可能的解决方案空间;(2) 是否能在积累证据后推荐一个简单且有意义的问题解决方案。
  • 通过实验发现,即使是表现最好的模型在WILT任务上也只达到了28%的准确率,这突显了LLMs在复杂多轮次推理任务上的性能差距。
实验效果:

实验结果显示,即使是最先进的LLMs在WILT任务上也表现不佳,最佳模型的准确率仅为28%。这表明,尽管在单轮次任务中表现强劲,但这并不总是能转化为多轮次设置中的性能。

后续潜在研究方向:

未来的工作可能会探索如何改进LLMs在多轮次推理任务中的表现,包括如何更好地结合不同模型的优势,以及如何设计能够更有效地探索和利用多轮次交互的数据集。

推荐阅读指数:★★★★☆

2. Implementing Derivations of Definite Logic Programs with Self-Attention Networks

Authors: Phan Thi Thanh Thuy, Akihiro Yamamoto

https://arxiv.org/abs/2410.11396

摘要:

这篇论文提出了一个限制版本的逻辑推理可以通过自注意力网络实现。研究者们展示了基于变换器网络构建的大型语言模型(LLMs)能够进行逻辑推理。他们通过分析自注意力网络——变换器网络的主要成分——来揭示LLMs的潜力。这种方法不基于自然语言的语义,而是基于逻辑推理的操作。研究者们展示了自注意力网络与前馈网络(FFNs)的层次结构可以实现一类逻辑公式的自顶向下推导,并且自底向上推导也可以实现。

研究背景:

大型语言模型(LLMs)对我们的生活产生了深远的影响。许多人开始以各种方式使用它们,并期望赋予它们更多的能力。逻辑推理就是这样一种能力。一些研究者声称LLMs可以进行逻辑推理,并讨论了LLMs输出的语义正确性,其中语义是自然语言句子的含义。从数学逻辑理论来看,逻辑推理的正确性不仅应该从语义上支持,还应该从操作上支持。逻辑推理操作是从假设中推导出结论并基于它们展示句子的真实性的方法。

算法模型:

研究者们分析了变换器网络,特别是自注意力网络,这些是变换器的主要组成部分。作为逻辑推理机制,他们采用了自顶向下推导来处理逻辑程序和查询。他们展示了自注意力网络的一种类型可以实现自顶向下推导,并且之前研究中处理的自底向上推导也可以通过另一种类型的自注意力网络实现。

核心创新点:
  • 提出了自注意力网络可以实现逻辑推理的限制版本。
  • 展示了自注意力网络与前馈网络(FFNs)的层次结构可以实现逻辑公式的自顶向下推导。
  • 展示了自底向上推导也可以通过自注意力网络实现。
实验效果:

论文中没有提供具体的实验数据,但提出了一种新的视角,即LLMs隐含地具有逻辑推理的能力。

后续潜在研究方向:

未来的工作可能包括将这种讨论扩展到概率命题逻辑,以便展示LLMs在实际应用中的更多潜力。

推荐阅读指数:★★★★☆

3. Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs

Authors: Wanying Wang, Zeyu Ma, Pengfei Liu, Mingang Chen

https://arxiv.org/abs/2410.11507

摘要:

尽管已经开发了各种垂直领域的大型语言模型(LLMs),但自动评估它们在不同领域的性能仍然是一个挑战。当前基于基准的评估方法表现出僵化、无目的的交互,并且依赖于预先收集的静态数据集,这些数据集构建成本高,跨领域不灵活,并且与实际用户需求不一致。为了解决这个问题,研究者们重新审视了评估组件,并引入了两个概念:Benchmark+,它将传统的问答基准扩展为更灵活的“策略-标准”格式;以及Assessment+,它增强了交互过程,支持更深入的探索,并支持定量和定性的洞察。这些概念通过更丰富的多轮次交互捕捉LLMs的细微行为。研究者们提出了一个基于代理的评估框架TESTAGENT,它通过检索增强生成和强化学习来实现这些概念。实验表明,TESTAGENT在各种场景中的有效性,包括构建垂直领域评估和激活现有基准。

研究背景:

大型语言模型(LLMs)已经在广泛的任务中展示了卓越的能力,重塑了各个行业,并导致了众多领域特定的LLMs和应用的发展。然而,由于自回归生成方式,LLMs的输出表现出高度的变异性。有效的评估可以更好地理解它们的能力和局限性。

算法模型:

TESTAGENT框架通过检索增强生成(RAG)和强化学习(RL)来实现Benchmark+和Assessment+的概念。它能够自动构建“策略-标准”对,形成扩展的基准,并自主执行探索性交互和评估。

核心创新点:
  • 引入了Benchmark+和Assessment+的概念,通过更丰富的多轮次交互捕捉LLMs的细微行为。
  • 提出了基于代理的评估框架TESTAGENT,它能够自动构建“策略-标准”对,并自主执行探索性交互和评估。
实验效果:

实验结果表明,TESTAGENT在各种场景中的有效性,包括构建垂直领域评估和激活现有基准。

后续潜在研究方向:

未来的工作可能包括探索更多的交互形式,以及深入和全面地评估模型性能。

推荐阅读指数:★★★★☆

4. AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data

Authors: Xinjie Zhao, Moritz Blum, Rui Yang, Boming Yang, Luis M’arquez

Carpintero, M’onica Pina-Navarro, Tony Wang, Xin Li, Huitao Li, Yanran Fu,

Rongrong Wang, Juntao Zhang, and Irene Li

https://arxiv.org/abs/2410.11531

摘要:

这篇文章介绍了AGENTiGraph,这是一个交互式知识图谱平台,用于基于LLM的聊天机器人,利用私有数据。AGENTiGraph通过自然语言交互进行知识管理。它集成了知识提取、整合和实时可视化。AGENTiGraph采用多代理架构,动态解释用户意图,管理任务,并整合新知识,确保适应不断演变的用户需求和数据上下文。该方法在知识图谱交互方面表现出色,特别是在复杂的领域特定任务中。实验结果表明,AGENTiGraph在任务分类上的准确率达到95.12%,在任务执行上的成功率达到90.45%,显著优于最先进的零样本基线。用户研究证实了其在现实世界场景中的有效性。为了展示多功能性,研究者们将AGENTiGraph扩展到立法和医疗领域,构建了能够回答法律和医疗背景下复杂查询的专业KG。

研究背景:

大型语言模型(LLMs)在各种应用中展示了能力,但在处理复杂、特定领域的任务(如问答)时面临挑战,例如幻觉、有限的推理能力和事实不一致性。虽然知识图谱(KGs)已被证明可以帮助缓解这些问题,但关于LLMs与背景KGs集成的研究仍然有限。特别是,用户的可访问性和底层KG的灵活性尚未得到充分探索。

算法模型:

AGENTiGraph平台通过自然语言界面实现与知识图谱的无缝、智能交互。关键特点包括语义解析、自适应多代理系统、动态知识整合等。

核心创新点:
  • 引入了AGENTiGraph,一个交互式知识图
    谱平台,用于基于LLM的聊天机器人,利用私有数据。
  • 集成了知识提取、整合和实时可视化。
  • 采用多代理架构,动态解释用户意图,管理任务,并整合新知识。
实验效果:

实验结果表明,AGENTiGraph在任务分类上的准确率达到95.12%,在任务执行上的成功率达到90.45%,显著优于最先进的零样本基线。

后续潜在研究方向:

未来的工作可能包括增强多跳推理、优化响应简洁性和完整性,并从用户交互中进行持续学习。

推荐阅读指数:★★★★☆

5. Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development

Authors: Tengfei Ma, Xuan Lin, Tianle Li, Chaoyi Li, Long Chen, Peng Zhou,

Xibao Cai, Xinyu Yang, Daojian Zeng, Dongsheng Cao, Xiangxiang Zeng

https://arxiv.org/abs/2410.11550

摘要:

这篇文章介绍了Y-Mol,这是一个多尺度生物医学知识引导的大型语言模型,用于药物开发。Y-Mol旨在完成从先导化合物发现、临床前到临床预测等跨领域的任务。通过整合数百万的多尺度生物医学知识和使用LLaMA2作为基础LLM,Y-Mol通过从出版物语料库、知识图谱和专家设计的合成数据中学习,增强了生物医学领域的推理能力。此外,Y-Mol提供了一组LLM范式,可以自动执行整个药物开发过程中的下游任务,包括虚拟筛选、药物设计、药理学属性预测和药物相关相互作用预测。广泛的评估表明,Y-Mol在发现先导化合物、预测分子属性和识别药物相互作用事件方面显著优于通用LLM。

研究背景:

大型语言模型(LLMs)在各个领域展示了卓越的性能,但在特定领域如药物开发中的有效性仍然是一个挑战。为了解决这些挑战,研究者们引入了Y-Mol,形成了一个成熟的LLM范式,用于药物开发的流程。

算法模型:

Y-Mol基于LLaMA2实现,通过不同的文本语料库和从各种生物医学知识中派生的指令进行微调。具体来说,研究者们构建了一个大规模的生物医学文本语料库,涵盖了与药物开发相关的多个领域。他们还构建了基于大规模知识图谱的生物医学交互指令,并从小型模型中提取专家知识,以统一不同药物开发应用中的表示。

核心创新点:
  • 提出了Y-Mol,一个多尺度生物医学知识引导的LLM,用于增强药物开发的潜力。
  • 通过整合数百万的多尺度生物医学知识和使用LLaMA2作为基础LLM,Y-Mol增强了生物医学领域的推理能力。
  • Y-Mol提供了一组LLM范式,可以自动执行整个药物开发过程中的下游任务。
实验效果:

实验结果表明,Y-Mol在发现先导化合物、预测分子属性和识别药物相互作用事件方面显著优于通用LLM。

后续潜在研究方向:

未来的工作可能包括将Y-Mol推广到细胞表达水平。

推荐阅读指数:★★★★★

后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
16 2
|
1天前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
7 0
|
14天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
1天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。
|
9天前
|
算法
基于粒子群算法的分布式电源配电网重构优化matlab仿真
本研究利用粒子群算法(PSO)优化分布式电源配电网重构,通过Matlab仿真验证优化效果,对比重构前后的节点电压、网损、负荷均衡度、电压偏离及线路传输功率,并记录开关状态变化。PSO算法通过迭代更新粒子位置寻找最优解,旨在最小化网络损耗并提升供电可靠性。仿真结果显示优化后各项指标均有显著改善。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
5天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了一种基于WOA优化的GroupCNN分组卷积网络时间序列预测算法。使用Matlab2022a开发,提供无水印运行效果预览及核心代码(含中文注释)。算法通过WOA优化网络结构与超参数,结合分组卷积技术,有效提升预测精度与效率。分组卷积减少了计算成本,而WOA则模拟鲸鱼捕食行为进行优化,适用于多种连续优化问题。
|
7天前
|
机器学习/深度学习 算法 5G
基于BP神经网络的CoSaMP信道估计算法matlab性能仿真,对比LS,OMP,MOMP,CoSaMP
本文介绍了基于Matlab 2022a的几种信道估计算法仿真,包括LS、OMP、NOMP、CoSaMP及改进的BP神经网络CoSaMP算法。各算法针对毫米波MIMO信道进行了性能评估,通过对比不同信噪比下的均方误差(MSE),展示了各自的优势与局限性。其中,BP神经网络改进的CoSaMP算法在低信噪比条件下表现尤为突出,能够有效提高信道估计精度。
20 2
|
16天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
该算法结合了遗传算法(GA)与分组卷积神经网络(GroupCNN),利用GA优化GroupCNN的网络结构和超参数,提升时间序列预测精度与效率。遗传算法通过模拟自然选择过程中的选择、交叉和变异操作寻找最优解;分组卷积则有效减少了计算成本和参数数量。本项目使用MATLAB2022A实现,并提供完整代码及视频教程。注意:展示图含水印,完整程序运行无水印。
|
15天前
|
算法 决策智能
基于禁忌搜索算法的VRP问题求解matlab仿真,带GUI界面,可设置参数
该程序基于禁忌搜索算法求解车辆路径问题(VRP),使用MATLAB2022a版本实现,并带有GUI界面。用户可通过界面设置参数并查看结果。禁忌搜索算法通过迭代改进当前解,并利用记忆机制避免陷入局部最优。程序包含初始化、定义邻域结构、设置禁忌列表等步骤,最终输出最优路径和相关数据图表。