1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
Authors: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Yuxiao Dong, Jie Tang
https://arxiv.org/abs/2409.13730
VisScience: 评估 K12 教育多模态科学推理能力的一个广泛的基准
摘要
多模态大型语言模型(MLLMs)通过整合文本和视觉信息,在多种任务中展现了有前景的能力,以实现复杂场景下的视觉理解。尽管已有多个基准旨在评估MLLMs在从视觉问题回答到复杂问题解决等任务的表现,但大多数主要集中在数学或一般视觉理解任务上。这揭示了当前基准的一个关键缺口,即常常忽略了物理和化学等其他关键科学学科的包含。为了解决这一差距,我们精心构建了一个全面的基准,名为VisScience,用于评估数学、物理和化学三个学科的多模态科学推理。此基准包括来自K12教育的3000个问题——从小学到高中——每个学科1000个问题,涵盖21个不同主题,并分为五个难度级别,为每个学科提供广泛的主题范围。利用VisScience,我们详细评估了25个代表性MLLMs在科学推理方面的表现。实验结果表明,封闭源MLLMs通常优于开源模型。最佳表现包括Claude3.5-Sonnet在数学上的53.4%准确率,GPT-4o在物理上的38.2%准确率,以及Gemini-1.5-Pro在化学上的47.0%准确率。这些结果强调了MLLMs的优势和局限性,为未来的改进提供了方向,并突出了开发能够有效处理多模态科学推理多样化需求的模型的重要性。
研究背景
近年来,大型语言模型(LLMs)在包括自然语言理解、文本生成和复杂问题解决在内的广泛任务中展现了卓越的能力。LLMs的成功促进了多模态大型语言模型(MLLMs)的发展,这些模型通过整合处理和分析文本和视觉信息的能力,扩展了这些能力。评估是评估这些MLLMs在各种任务中能力的一个重要组成部分,近年来得到了广泛的关注和快速发展。
问题与挑战
尽管在多模态推理任务中评估MLLMs的能力变得越来越重要,但现有的基准通常集中在数学上,忽略了物理和化学等其他关键科学学科。此外,现有的基准通常从有限的来源收集,导致缺乏自然难度级别,从而无法完整评估模型的能力。此外,当前的基准主要以单一语言提供,限制了对MLLMs多语言能力的评估。
创新点
- 提出了一个全面的基准VisScience,用于评估数学、物理和化学三个学科的多模态科学推理。
- 该基准包括来自K12教育的3000个问题,涵盖21个不同主题,并分为五个难度级别。
- 对25个代表性MLLMs进行了详细评估,包括封闭源和开源模型。
算法模型
- 封闭源模型:Claude3.5-Sonnet, GPT-4o, Gemini-1.5-Pro等。
- 开源模型:InternVL-1.2-Plus, InternVL-Chat-V1.5等。
实验效果
- 数学:Claude3.5-Sonnet达到53.4%的准确率。
- 物理:GPT-4o达到38.2%的准确率。
- 化学:Gemini-1.5-Pro达到47.0%的准确率。
- 开源模型通常低于封闭源模型,但InternVL-1.2-Plus表现出竞争力。
推荐阅读指数:
★★★★☆
推荐理由
- 对于研究人员和开发人员来说,VisScience提供了一个全面的基准,用于评估和改进MLLMs在科学推理任务中的表现。
- 该基准的多语言和多学科特性使其成为希望在这些领域工作的研究人员的宝贵资源。
2. CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data
Authors: Zhao Cheng, Diane Wan, Matthew Abueg, Sahra Ghalebikesabi, Ren Yi, Eugene Bagdasarian, Borja Balle, Stefan Mellem, Shawn O’Banion
https://arxiv.org/abs/2409.13903
CI-Bench: 在合成数据上对AI助手的情境完整性进行基准测试
摘要
生成式AI的进步预示着一个新的个性化应用时代,这些应用代表用户执行多样化任务。尽管通用AI助手尚未完全出现,但它们潜在地共享个人数据的能力引发了重大的隐私挑战。本文介绍了CI-Bench,这是一个全面的合成基准,用于评估AI助手在模型推理期间保护个人信息的能力。利用情境完整性框架,我们的基准测试能够系统地评估跨重要情境维度的信息流,包括角色、信息类型和传输原则。我们提出了一个新的、可扩展的多步合成数据管道,用于生成自然通信,包括对话和电子邮件。与之前规模较小、范围较窄的评估工作不同,我们提出了一个新颖的、可扩展的多步数据管道,该管道合成地生成自然通信,包括对话和电子邮件,我们用它来生成涵盖八个领域的44,000个测试样本。此外,我们制定了并评估了一个简单的AI助手,以证明进一步研究和精心培训对个人助理任务的必要性。我们设想CI-Bench作为一个有价值的工具,用于指导未来的语言模型开发、部署、系统设计和数据集构建,最终有助于开发与用户隐私期望一致的AI助手。
研究背景
基于语言的模型的自主AI助手,由于最近在外部记忆、更大的上下文窗口、调用外部记忆或API等方面的进展,越来越能够利用用户数据。AI助手访问用户数据(无论是通过模型参数、上下文窗口内的输入,还是工具调用)使得各种个性化应用成为可能,如电子邮件撰写、表格填写、日历管理和会话参与。然而,这些应用也可能引入隐私风险,并无意中暴露用户信息。
问题与挑战
评估AI助手访问用户信息时的隐私风险,我们采用了情境完整性(CI)框架,该框架将隐私定义为根据特定相关情境的规范进行适当的信息流。现有的评估通常缺乏对AI助手在保护用户信息方面能力的系统性评估,特别是在多样化的领域和情境参数中。
创新点
- 提出了一个全面的基准CI-Bench,用于细粒度地理解AI助手评估信息流适当性的能力。
- 包括一个新的数据集,涵盖结构化信息流场景和非结构化任务场景,以及相应的上下文理解、规范识别和适当性判断任务。
- 展示了一个可扩展的数据生成管道,利用真实世界的结构化数据来生成合成的、非结构化的对话数据。
算法模型
- AI助手原型:使用大型语言模型(如Gemini模型)进行原型设计。
- 合成数据管道:多步骤合成数据生成过程,包括从公共领域的真实对话中提取关键特征,使用LLM合成生成现实任务场景。
实验效果
- 上下文理解:模型在理解信息属性和用户意图方面表现良好,但在识别接收者方面表现不佳。
- 规范识别:模型在识别相关规范方面存在挑战,尤其是在较小的模型中。
- 适当性判断:模型在判断信息共享适当性方面存在困难,尤其是在没有明确规范的情况下。
- 响应生成:模型在生成响应方面的能力有限,尤其是在需要综合多种技能的情况下。
推荐阅读指数:
★★★★☆
推荐理由
- 对于对AI助手隐私保护能力感兴趣的研究人员,CI-Bench提供了一个全面的基准和评估框架。
- 对于希望了解AI助手在处理敏感信息时的挑战和限制的开发者,本文提供了深入的分析和实验结果。
- 对于关注AI伦理和隐私的学者,CI-Bench可以作为未来研究和讨论的基础。
3. Drift to Remember
Authors: Jin Du, Xinhe Zhang, Hao Shen, Xun Xian, Ganghua Wang, Jiawei Zhang, Yuhong Yang, Na Li, Jia Liu, Jie Ding
https://arxiv.org/abs/2409.13997
铭记漂移:在持续学习中通过表示漂移减轻灾难性遗忘
摘要
在人工智能(AI)中,持续学习的目标是模仿生物大脑持续学习和保留知识的能力,但面临灾难性遗忘等挑战。最近的神经科学研究表明,在生物系统中,即使输入和任务保持一致,神经活动也会随时间发生表示漂移。我们假设表示漂移可以减轻AI在获取新任务时的灾难性遗忘。为了验证这一点,我们介绍了DriftNet,这是一个设计用来在损失景观中不断探索各种局部最小值,同时动态检索相关任务的网络。这种方法确保了新信息的有效整合,并保留了现有知识。在图像分类和自然语言处理的实验研究表明,DriftNet在持续学习方面的表现超过了现有模型。重要的是,DriftNet可以扩展到处理如情感分析和问答等序列任务,并且能够在单个Nvidia A100 GPU上处理数十亿参数的大型语言模型(LLMs)。DriftNet使用新数据高效更新LLMs,避免了重新训练整个数据集的需要。在GPT-2和RoBERTa上测试表明,DriftNet是LLMs持续学习中的一个鲁棒且具有成本效益的解决方案。本研究不仅推进了AI系统模仿生物学习的能力,还为生物神经系统的适应性机制提供了见解,加深了我们对自然中持续学习的理解。
研究背景
生物大脑展现出了显著的持续学习能力,能够在一生中获取新能力的同时保留先前学习的信息。相比之下,在AI中,这种被称为持续学习的能力,即一个系统能够顺序地学习新任务而不遗忘以前的任务,仍然是一个巨大的挑战。主要问题是灾难性遗忘,即在学习新任务时,先前学习任务的性能显著下降。
问题与挑战
现有的持续学习方法主要包括正则化、重放和架构方法,但这些方法在学习新任务时面临着保持对先前任务性能的挑战。
创新点
- 提出DriftNet,一个受生物系统表示漂移启发的持续学习框架。
- 引入外部噪声,使网络在损失景观中不断探索新的局部最小值。
- 利用知识库组织这些局部最小值,形成特定于任务的群体,即使在训练期间不需要明确知道任务身份。
- 使用输出不确定性来检索学习任务的相关知识。
算法模型
DriftNet由两部分组成:一个用于探索的进化网络和一个用于编码和检索分组任务特定信息的知识库。DriftNet通过探索、编码和检索三个主要步骤进行操作。
实验效果
- 在模拟数据上,DriftNet的平均测试损失为(1.01±0.07)×10^-2,显著低于稳定基线4.22±0.15。
- 在图像分类任务中,DriftNet在CIFAR-10和CIFAR-100上的平均测试准确率分别为80.19±0.67%和41.83±0.75%,而稳定基线分别为19.18±0.02%和12.84±0.07%。
- 在NLP任务中,DriftNet的平均测试准确率达到70.37±1.22%,显著优于稳定基线18.29±0.06%。
推荐阅读指数:
★★★★☆
推荐理由
- 对于希望了解如何通过模仿生物学习机制来改善AI系统性能的工程师和研究者,DriftNet提供了一种有效的方法。
- 对于关注AI在处理灾难性遗忘问题上最新进展的学者,本文的实验结果和分析具有重要价值。
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27(下)+https://developer.aliyun.com/article/1628903