前言
这期内容中,我们对近期大模型+多模态,大模型 + 教育,大模型+医疗几个方向的研究工作做简要介绍。
1. Cognitive phantoms in LLMs through the lens of latent variables
Authors: Sanne Peereboom, Inga Schwabe, Bennett Kleinberg
https://arxiv.org/abs/2409.15324
从潜在变量视角看大型语言模型中的认知幻影
摘要
本研究探讨了大型语言模型(LLMs)的行为,特别是它们在心理测量问卷中表现出的人类特质。研究者通过比较人类与三种LLMs的潜在人格结构,发现为人类设计的问卷可能无法有效测量LLMs中的相似结构,甚至这些结构可能根本不存在于LLMs中。研究结果强调了避免在LLMs中追逐认知幻影的必要性。
研究背景
随着LLMs在现实世界中应用的增加,理解其行为变得尤为重要。它们的规模和复杂性使得传统评估方法变得复杂,因此需要采用心理学领域的新方法。近期的研究表明LLMs在心理测试中表现出类似人类的特质,但这种方法的有效性存在问题。
问题与挑战
- 问题: 如何有效评估LLMs的心理特质?
- 挑战: 现有的心理测量工具是否适用于LLMs,以及这些工具测量的潜在特质是否真实存在于LLMs中。
创新点
- 使用两种经过验证的性格问卷对比人类与LLMs的潜在人格结构。
- 探讨了问卷设计对于人类是否也适用于LLMs,并评估了这些构建在LLMs中的存在性。
算法模型
- 模型: 使用了三种GPT模型(GPT-3.5-turbo-0125, GPT-4-0612, GPT-4-0125-preview)。
- 方法: 通过比较人类样本和LLMs样本的潜在结构来进行验证性因子分析(CFA)和探索性因子分析(EFA)。
实验效果
- 数据: 人类样本n=365,GPT-3.5-T样本n=399,GPT-4样本n=387。
- 结论: LLMs的问卷响应显示出随意性,与人类样本的潜在结构大不相同。这表明我们不能有效地使用现有的问卷测量LLMs中的人格特质,或者这些特质根本不存在于LLMs中。
推荐阅读指数:
★★★☆☆
- 推荐理由: 这篇文章为理解LLMs的行为提供了新的视角,并对现有的心理测量方法在LLMs中的应用提出了质疑。
2. Steward: Natural Language Web Automation
Authors: Brian Tang, Kang G. Shin
https://arxiv.org/abs/2409.15441
Steward: 自然语言网页自动化
摘要
本文介绍了Steward,这是一款新型的大型语言模型(LLM)驱动的网络自动化工具,旨在为网站交互提供一种经济、可扩展的端到端解决方案。Steward通过接收自然语言指令,反应性地规划和执行一系列网站操作,直到任务完成,使其成为开发人员和研究人员实用的工具。Steward在执行动作时表现出高效率,并且通过缓存机制进一步提高了性能。
研究背景
大型语言模型(LLMs)在AI助手领域展现出了卓越的能力,但它们在不同网站和网页环境中的交互能力尚未充分探索。现有的浏览器自动化框架如Selenium、Puppeteer和Playwright在执行大规模或动态网站交互任务时存在局限性。
问题与挑战
- 问题: 如何让LLMs有效地与各种网站和网页元素进行交互?
- 挑战: 如何设计一个能够理解自然语言指令并自动执行网页任务的系统。
创新点
- 提出了一种结合LLMs和浏览器自动化的工具,允许自然语言驱动的网站交互。
- 设计了一种高效的缓存机制,显著提高了任务执行的速度和成本效率。
- 实现了一个端到端的系统,可以自动检测任务完成状态并终止操作。
算法模型
- 模型: 使用了OpenAI的GPT-3.5 Turbo、GPT-4 Turbo和GPT-4 Vision模型。
- 方法: Steward通过接收自然语言指令,利用LLMs生成网页的高级描述,然后通过筛选和清理HTML元素,选择与用户指令最匹配的UI元素进行交互。
实验效果
- 数据: 使用Mind2Web数据集进行评估,包含2,350个自然语言任务和超过10,000个记录的动作。
- 结论: Steward在执行任务时表现出了40%的成功率,平均完成56%的步骤,在检测到任务完成状态时正确终止的比率为71%。在成本方面,Steward平均每次任务的成本为0.18美元,中位数为8.52秒/动作。
推荐阅读指数:
★★★★☆
- 推荐理由: Steward的研究为LLMs在网页自动化领域的应用提供了新的思路和方法。它不仅展示了LLMs在理解自然语言指令和执行网页任务方面的潜力,还通过缓存机制提高了性能。
3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration
Authors: Haoyu Huang, Tong Niu, Rui Yang, Luping Shi
https://arxiv.org/abs/2409.15461
RAM2C:一种基于检索增强的多角色多专家协作的文科教育聊天机器人
摘要
本研究聚焦于如何利用大型语言模型(LLMs)改进文科教育对话,尤其是在中文阅读教学中。研究者们提出了一个名为RAM2C(Retrieval-augmented Multi-role Multi-expert Collaboration)的框架,以自动生成符合人文教育要求(Humanized communication, Teaching expertise, Safety-ethics,简称HTS)的对话数据集。该框架通过多角色多专家协作,使用改进的检索增强生成技术,显著提升了LLMs在教育对话中的表现。
研究背景
在文科教育对话中,除了专业知识,人性化沟通、教学技巧和安全伦理同样重要。然而,收集符合HTS标准的教学对话数据成本高昂,现有的LLMs在教学对话中的表现还未达到人类标准。
问题与挑战
- 如何生成符合HTS要求的高质量教育对话数据。
- 如何提升LLMs在文科教育对话中的个性化、教学专长和伦理安全表现。
创新点
- 提出RAM2C框架,通过多角色多专家协作自动生成高质量教育对话数据。
- 设计了基于多源知识库的检索增强专家系统,通过群体反思实现多维度参考价值检索增强。
- 在文科教育对话中,通过人偏好对齐实现LLMs的HTS偏好对齐。
算法模型
- 模型: RAM2C框架整合了多个LLMs,包括教师、教育心理学家和伦理安全专家。
- 方法: 使用检索增强技术,通过不同知识库增强LLMs,形成多专家组,生成符合HTS标准的教育对话数据集,并对LLMs进行微调。
实验效果
- 数据: 使用RAM2C生成的3,500个对话样本进行微调。
- 结论: 微调后的模型在HTS三个维度上的表现均优于原始模型,尤其是在人性化沟通和教学专长方面。与主流中文商业模型GLM-4相比,RAM2C赋能的GLM-4展现了最高水平的表现。
推荐阅读指数:
★★★★☆
- 推荐理由: 通过创新的多角色多专家协作和检索增强技术,显著提升了LLMs在教育对话中的个性化和教学质量,对于教育领域的研究者和实践者来说,这篇文章值得一读。
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(中)+https://developer.aliyun.com/article/1628909