计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(上)

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(上)

前言

这期内容中,我们对近期大模型+多模态,大模型 + 教育,大模型+医疗几个方向的研究工作做简要介绍。

1. Cognitive phantoms in LLMs through the lens of latent variables

Authors: Sanne Peereboom, Inga Schwabe, Bennett Kleinberg

https://arxiv.org/abs/2409.15324

从潜在变量视角看大型语言模型中的认知幻影

摘要

本研究探讨了大型语言模型(LLMs)的行为,特别是它们在心理测量问卷中表现出的人类特质。研究者通过比较人类与三种LLMs的潜在人格结构,发现为人类设计的问卷可能无法有效测量LLMs中的相似结构,甚至这些结构可能根本不存在于LLMs中。研究结果强调了避免在LLMs中追逐认知幻影的必要性。

研究背景

随着LLMs在现实世界中应用的增加,理解其行为变得尤为重要。它们的规模和复杂性使得传统评估方法变得复杂,因此需要采用心理学领域的新方法。近期的研究表明LLMs在心理测试中表现出类似人类的特质,但这种方法的有效性存在问题。

问题与挑战

  • 问题: 如何有效评估LLMs的心理特质?
  • 挑战: 现有的心理测量工具是否适用于LLMs,以及这些工具测量的潜在特质是否真实存在于LLMs中。

创新点

  • 使用两种经过验证的性格问卷对比人类与LLMs的潜在人格结构。
  • 探讨了问卷设计对于人类是否也适用于LLMs,并评估了这些构建在LLMs中的存在性。

算法模型

  • 模型: 使用了三种GPT模型(GPT-3.5-turbo-0125, GPT-4-0612, GPT-4-0125-preview)。
  • 方法: 通过比较人类样本和LLMs样本的潜在结构来进行验证性因子分析(CFA)和探索性因子分析(EFA)。

实验效果

  • 数据: 人类样本n=365,GPT-3.5-T样本n=399,GPT-4样本n=387。
  • 结论: LLMs的问卷响应显示出随意性,与人类样本的潜在结构大不相同。这表明我们不能有效地使用现有的问卷测量LLMs中的人格特质,或者这些特质根本不存在于LLMs中。

推荐阅读指数:

★★★☆☆

  • 推荐理由: 这篇文章为理解LLMs的行为提供了新的视角,并对现有的心理测量方法在LLMs中的应用提出了质疑。

2. Steward: Natural Language Web Automation

Authors: Brian Tang, Kang G. Shin

https://arxiv.org/abs/2409.15441

Steward: 自然语言网页自动化

摘要

本文介绍了Steward,这是一款新型的大型语言模型(LLM)驱动的网络自动化工具,旨在为网站交互提供一种经济、可扩展的端到端解决方案。Steward通过接收自然语言指令,反应性地规划和执行一系列网站操作,直到任务完成,使其成为开发人员和研究人员实用的工具。Steward在执行动作时表现出高效率,并且通过缓存机制进一步提高了性能。

研究背景

大型语言模型(LLMs)在AI助手领域展现出了卓越的能力,但它们在不同网站和网页环境中的交互能力尚未充分探索。现有的浏览器自动化框架如Selenium、Puppeteer和Playwright在执行大规模或动态网站交互任务时存在局限性。

问题与挑战

  • 问题: 如何让LLMs有效地与各种网站和网页元素进行交互?
  • 挑战: 如何设计一个能够理解自然语言指令并自动执行网页任务的系统。

创新点

  • 提出了一种结合LLMs和浏览器自动化的工具,允许自然语言驱动的网站交互。
  • 设计了一种高效的缓存机制,显著提高了任务执行的速度和成本效率。
  • 实现了一个端到端的系统,可以自动检测任务完成状态并终止操作。

算法模型

  • 模型: 使用了OpenAI的GPT-3.5 Turbo、GPT-4 Turbo和GPT-4 Vision模型。
  • 方法: Steward通过接收自然语言指令,利用LLMs生成网页的高级描述,然后通过筛选和清理HTML元素,选择与用户指令最匹配的UI元素进行交互。

实验效果

  • 数据: 使用Mind2Web数据集进行评估,包含2,350个自然语言任务和超过10,000个记录的动作。
  • 结论: Steward在执行任务时表现出了40%的成功率,平均完成56%的步骤,在检测到任务完成状态时正确终止的比率为71%。在成本方面,Steward平均每次任务的成本为0.18美元,中位数为8.52秒/动作。

推荐阅读指数:

★★★★☆

  • 推荐理由: Steward的研究为LLMs在网页自动化领域的应用提供了新的思路和方法。它不仅展示了LLMs在理解自然语言指令和执行网页任务方面的潜力,还通过缓存机制提高了性能。

3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration

Authors: Haoyu Huang, Tong Niu, Rui Yang, Luping Shi

https://arxiv.org/abs/2409.15461

RAM2C:一种基于检索增强的多角色多专家协作的文科教育聊天机器人

摘要

本研究聚焦于如何利用大型语言模型(LLMs)改进文科教育对话,尤其是在中文阅读教学中。研究者们提出了一个名为RAM2C(Retrieval-augmented Multi-role Multi-expert Collaboration)的框架,以自动生成符合人文教育要求(Humanized communication, Teaching expertise, Safety-ethics,简称HTS)的对话数据集。该框架通过多角色多专家协作,使用改进的检索增强生成技术,显著提升了LLMs在教育对话中的表现。

研究背景

在文科教育对话中,除了专业知识,人性化沟通、教学技巧和安全伦理同样重要。然而,收集符合HTS标准的教学对话数据成本高昂,现有的LLMs在教学对话中的表现还未达到人类标准。

问题与挑战

  • 如何生成符合HTS要求的高质量教育对话数据。
  • 如何提升LLMs在文科教育对话中的个性化、教学专长和伦理安全表现。

创新点

  • 提出RAM2C框架,通过多角色多专家协作自动生成高质量教育对话数据。
  • 设计了基于多源知识库的检索增强专家系统,通过群体反思实现多维度参考价值检索增强。
  • 在文科教育对话中,通过人偏好对齐实现LLMs的HTS偏好对齐。

算法模型

  • 模型: RAM2C框架整合了多个LLMs,包括教师、教育心理学家和伦理安全专家。
  • 方法: 使用检索增强技术,通过不同知识库增强LLMs,形成多专家组,生成符合HTS标准的教育对话数据集,并对LLMs进行微调。

实验效果

  • 数据: 使用RAM2C生成的3,500个对话样本进行微调。
  • 结论: 微调后的模型在HTS三个维度上的表现均优于原始模型,尤其是在人性化沟通和教学专长方面。与主流中文商业模型GLM-4相比,RAM2C赋能的GLM-4展现了最高水平的表现。

推荐阅读指数:

★★★★☆

  • 推荐理由: 通过创新的多角色多专家协作和检索增强技术,显著提升了LLMs在教育对话中的个性化和教学质量,对于教育领域的研究者和实践者来说,这篇文章值得一读。


计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(中)+https://developer.aliyun.com/article/1628909

目录
相关文章
|
7天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
118 55
|
17天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
99 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
24天前
|
人工智能 并行计算 算法
量子计算算法:超越经典计算机的边界
量子计算基于量子力学原理,利用量子位、量子叠加和量子纠缠等特性,实现并行计算和高效处理复杂问题。核心算法如Shor算法和Grover算法展示了量子计算在大数分解和搜索问题上的优势。尽管面临量子位稳定性和规模化等挑战,量子计算在化学模拟、优化问题和人工智能等领域展现出巨大潜力,预示着未来的广泛应用前景。
|
23天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
1月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
79 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
85 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
89 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
23天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
|
1月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
85 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 算法
量子计算算法:超越经典计算机的边界
【10月更文挑战第30天】量子计算基于量子力学原理,通过量子比特和量子门实现超越经典计算机的计算能力。本文探讨量子计算的基本原理、核心算法及其在密码学、化学、优化问题和机器学习等领域的应用前景,并讨论当前面临的挑战与未来发展方向。
下一篇
DataWorks