计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27(上)

1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

Authors: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Yuxiao Dong, Jie Tang

https://arxiv.org/abs/2409.13730

VisScience: 评估 K12 教育多模态科学推理能力的一个广泛的基准

摘要

多模态大型语言模型(MLLMs)通过整合文本和视觉信息,在多种任务中展现了有前景的能力,以实现复杂场景下的视觉理解。尽管已有多个基准旨在评估MLLMs在从视觉问题回答到复杂问题解决等任务的表现,但大多数主要集中在数学或一般视觉理解任务上。这揭示了当前基准的一个关键缺口,即常常忽略了物理和化学等其他关键科学学科的包含。为了解决这一差距,我们精心构建了一个全面的基准,名为VisScience,用于评估数学、物理和化学三个学科的多模态科学推理。此基准包括来自K12教育的3000个问题——从小学到高中——每个学科1000个问题,涵盖21个不同主题,并分为五个难度级别,为每个学科提供广泛的主题范围。利用VisScience,我们详细评估了25个代表性MLLMs在科学推理方面的表现。实验结果表明,封闭源MLLMs通常优于开源模型。最佳表现包括Claude3.5-Sonnet在数学上的53.4%准确率,GPT-4o在物理上的38.2%准确率,以及Gemini-1.5-Pro在化学上的47.0%准确率。这些结果强调了MLLMs的优势和局限性,为未来的改进提供了方向,并突出了开发能够有效处理多模态科学推理多样化需求的模型的重要性。

研究背景

近年来,大型语言模型(LLMs)在包括自然语言理解、文本生成和复杂问题解决在内的广泛任务中展现了卓越的能力。LLMs的成功促进了多模态大型语言模型(MLLMs)的发展,这些模型通过整合处理和分析文本和视觉信息的能力,扩展了这些能力。评估是评估这些MLLMs在各种任务中能力的一个重要组成部分,近年来得到了广泛的关注和快速发展。

问题与挑战

尽管在多模态推理任务中评估MLLMs的能力变得越来越重要,但现有的基准通常集中在数学上,忽略了物理和化学等其他关键科学学科。此外,现有的基准通常从有限的来源收集,导致缺乏自然难度级别,从而无法完整评估模型的能力。此外,当前的基准主要以单一语言提供,限制了对MLLMs多语言能力的评估。

创新点

  • 提出了一个全面的基准VisScience,用于评估数学、物理和化学三个学科的多模态科学推理。
  • 该基准包括来自K12教育的3000个问题,涵盖21个不同主题,并分为五个难度级别。
  • 对25个代表性MLLMs进行了详细评估,包括封闭源和开源模型。

算法模型

  • 封闭源模型:Claude3.5-Sonnet, GPT-4o, Gemini-1.5-Pro等。
  • 开源模型:InternVL-1.2-Plus, InternVL-Chat-V1.5等。

实验效果

  • 数学:Claude3.5-Sonnet达到53.4%的准确率。
  • 物理:GPT-4o达到38.2%的准确率。
  • 化学:Gemini-1.5-Pro达到47.0%的准确率。
  • 开源模型通常低于封闭源模型,但InternVL-1.2-Plus表现出竞争力。

推荐阅读指数:

★★★★☆

推荐理由

  • 对于研究人员和开发人员来说,VisScience提供了一个全面的基准,用于评估和改进MLLMs在科学推理任务中的表现。
  • 该基准的多语言和多学科特性使其成为希望在这些领域工作的研究人员的宝贵资源。

2. CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data

Authors: Zhao Cheng, Diane Wan, Matthew Abueg, Sahra Ghalebikesabi, Ren Yi, Eugene Bagdasarian, Borja Balle, Stefan Mellem, Shawn O’Banion

https://arxiv.org/abs/2409.13903

CI-Bench: 在合成数据上对AI助手的情境完整性进行基准测试

摘要

生成式AI的进步预示着一个新的个性化应用时代,这些应用代表用户执行多样化任务。尽管通用AI助手尚未完全出现,但它们潜在地共享个人数据的能力引发了重大的隐私挑战。本文介绍了CI-Bench,这是一个全面的合成基准,用于评估AI助手在模型推理期间保护个人信息的能力。利用情境完整性框架,我们的基准测试能够系统地评估跨重要情境维度的信息流,包括角色、信息类型和传输原则。我们提出了一个新的、可扩展的多步合成数据管道,用于生成自然通信,包括对话和电子邮件。与之前规模较小、范围较窄的评估工作不同,我们提出了一个新颖的、可扩展的多步数据管道,该管道合成地生成自然通信,包括对话和电子邮件,我们用它来生成涵盖八个领域的44,000个测试样本。此外,我们制定了并评估了一个简单的AI助手,以证明进一步研究和精心培训对个人助理任务的必要性。我们设想CI-Bench作为一个有价值的工具,用于指导未来的语言模型开发、部署、系统设计和数据集构建,最终有助于开发与用户隐私期望一致的AI助手。

研究背景

基于语言的模型的自主AI助手,由于最近在外部记忆、更大的上下文窗口、调用外部记忆或API等方面的进展,越来越能够利用用户数据。AI助手访问用户数据(无论是通过模型参数、上下文窗口内的输入,还是工具调用)使得各种个性化应用成为可能,如电子邮件撰写、表格填写、日历管理和会话参与。然而,这些应用也可能引入隐私风险,并无意中暴露用户信息。

问题与挑战

评估AI助手访问用户信息时的隐私风险,我们采用了情境完整性(CI)框架,该框架将隐私定义为根据特定相关情境的规范进行适当的信息流。现有的评估通常缺乏对AI助手在保护用户信息方面能力的系统性评估,特别是在多样化的领域和情境参数中。

创新点

  • 提出了一个全面的基准CI-Bench,用于细粒度地理解AI助手评估信息流适当性的能力。
  • 包括一个新的数据集,涵盖结构化信息流场景和非结构化任务场景,以及相应的上下文理解、规范识别和适当性判断任务。
  • 展示了一个可扩展的数据生成管道,利用真实世界的结构化数据来生成合成的、非结构化的对话数据。

算法模型

  • AI助手原型:使用大型语言模型(如Gemini模型)进行原型设计。
  • 合成数据管道:多步骤合成数据生成过程,包括从公共领域的真实对话中提取关键特征,使用LLM合成生成现实任务场景。

实验效果

  • 上下文理解:模型在理解信息属性和用户意图方面表现良好,但在识别接收者方面表现不佳。
  • 规范识别:模型在识别相关规范方面存在挑战,尤其是在较小的模型中。
  • 适当性判断:模型在判断信息共享适当性方面存在困难,尤其是在没有明确规范的情况下。
  • 响应生成:模型在生成响应方面的能力有限,尤其是在需要综合多种技能的情况下。

推荐阅读指数:

★★★★☆

推荐理由

  • 对于对AI助手隐私保护能力感兴趣的研究人员,CI-Bench提供了一个全面的基准和评估框架。
  • 对于希望了解AI助手在处理敏感信息时的挑战和限制的开发者,本文提供了深入的分析和实验结果。
  • 对于关注AI伦理和隐私的学者,CI-Bench可以作为未来研究和讨论的基础。

3. Drift to Remember

Authors: Jin Du, Xinhe Zhang, Hao Shen, Xun Xian, Ganghua Wang, Jiawei Zhang, Yuhong Yang, Na Li, Jia Liu, Jie Ding

https://arxiv.org/abs/2409.13997

铭记漂移:在持续学习中通过表示漂移减轻灾难性遗忘

摘要

在人工智能(AI)中,持续学习的目标是模仿生物大脑持续学习和保留知识的能力,但面临灾难性遗忘等挑战。最近的神经科学研究表明,在生物系统中,即使输入和任务保持一致,神经活动也会随时间发生表示漂移。我们假设表示漂移可以减轻AI在获取新任务时的灾难性遗忘。为了验证这一点,我们介绍了DriftNet,这是一个设计用来在损失景观中不断探索各种局部最小值,同时动态检索相关任务的网络。这种方法确保了新信息的有效整合,并保留了现有知识。在图像分类和自然语言处理的实验研究表明,DriftNet在持续学习方面的表现超过了现有模型。重要的是,DriftNet可以扩展到处理如情感分析和问答等序列任务,并且能够在单个Nvidia A100 GPU上处理数十亿参数的大型语言模型(LLMs)。DriftNet使用新数据高效更新LLMs,避免了重新训练整个数据集的需要。在GPT-2和RoBERTa上测试表明,DriftNet是LLMs持续学习中的一个鲁棒且具有成本效益的解决方案。本研究不仅推进了AI系统模仿生物学习的能力,还为生物神经系统的适应性机制提供了见解,加深了我们对自然中持续学习的理解。

研究背景

生物大脑展现出了显著的持续学习能力,能够在一生中获取新能力的同时保留先前学习的信息。相比之下,在AI中,这种被称为持续学习的能力,即一个系统能够顺序地学习新任务而不遗忘以前的任务,仍然是一个巨大的挑战。主要问题是灾难性遗忘,即在学习新任务时,先前学习任务的性能显著下降。

问题与挑战

现有的持续学习方法主要包括正则化、重放和架构方法,但这些方法在学习新任务时面临着保持对先前任务性能的挑战。

创新点

  • 提出DriftNet,一个受生物系统表示漂移启发的持续学习框架。
  • 引入外部噪声,使网络在损失景观中不断探索新的局部最小值。
  • 利用知识库组织这些局部最小值,形成特定于任务的群体,即使在训练期间不需要明确知道任务身份。
  • 使用输出不确定性来检索学习任务的相关知识。

算法模型

DriftNet由两部分组成:一个用于探索的进化网络和一个用于编码和检索分组任务特定信息的知识库。DriftNet通过探索、编码和检索三个主要步骤进行操作。

实验效果

  • 在模拟数据上,DriftNet的平均测试损失为(1.01±0.07)×10^-2,显著低于稳定基线4.22±0.15。
  • 在图像分类任务中,DriftNet在CIFAR-10和CIFAR-100上的平均测试准确率分别为80.19±0.67%和41.83±0.75%,而稳定基线分别为19.18±0.02%和12.84±0.07%。
  • 在NLP任务中,DriftNet的平均测试准确率达到70.37±1.22%,显著优于稳定基线18.29±0.06%。

推荐阅读指数:

★★★★☆

推荐理由

  • 对于希望了解如何通过模仿生物学习机制来改善AI系统性能的工程师和研究者,DriftNet提供了一种有效的方法。
  • 对于关注AI在处理灾难性遗忘问题上最新进展的学者,本文的实验结果和分析具有重要价值。


计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27(下)+https://developer.aliyun.com/article/1628903

目录
相关文章
|
7天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
123 55
|
17天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
100 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
1月前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
103 50
|
25天前
|
人工智能 并行计算 算法
量子计算算法:超越经典计算机的边界
量子计算基于量子力学原理,利用量子位、量子叠加和量子纠缠等特性,实现并行计算和高效处理复杂问题。核心算法如Shor算法和Grover算法展示了量子计算在大数分解和搜索问题上的优势。尽管面临量子位稳定性和规模化等挑战,量子计算在化学模拟、优化问题和人工智能等领域展现出巨大潜力,预示着未来的广泛应用前景。
|
24天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
1月前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
1月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
79 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
85 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
89 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.