计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23

本期,我们对大语言模型在表情推荐, 软件安全和 自动化软件漏洞检测等方面如何应用,提供几篇最新的参考文章。

1 Semantics Preserving Emoji Recommendation with Large Language Models

Z Qiu, K Qiu, H Lyu, W Xiong, J Luo - arXiv preprint arXiv:2409.10760, 2024

使用大型语言模型进行语义保持的 Emoji 推荐

摘要

Emoji 已经成为数字通信中不可或缺的一部分,通过传达情感、语气和意图来丰富文本。现有的 Emoji 推荐方法主要基于它们与用户原始文本中选择的确切 Emoji 匹配的能力进行评估。然而,它们忽略了社交媒体上用户行为的本质,即每段文本都可以对应多个合理的 Emoji。为了更好地评估模型与现实世界 Emoji 使用的一致性,我们提出了一个新的语义保持评估框架,用于 Emoji 推荐,该框架衡量模型推荐与用户文本保持语义一致性的 Emoji 的能力。为了评估模型保持语义的能力,我们评估预测的情感状态、人口统计特征和态度立场是否保持不变。如果这些属性得以保留,我们认为推荐的 Emoji 保持了原始语义。大型语言模型(LLMs)在理解和生成细微、相关上下文输出方面的高级能力使它们非常适合处理语义保持 Emoji 推荐的复杂性。为此,我们构建了一个全面的基准测试,系统地评估了六种专有和开源 LLMs 使用不同提示技术在我们的任务上的性能。我们的实验表明,GPT-4o 在其他 LLMs 中表现最佳,达到了 79.23% 的语义保持分数。此外,我们进行了案例研究,分析了模型在下游分类任务中的偏见,并评估了推荐的 Emoji 的多样性。

创新点

  1. 提出了一个新的语义保持评估框架,用于评估 Emoji 推荐模型。
  2. 利用大型语言模型(LLMs)进行 Emoji 推荐,考虑了模型在理解和生成相关上下文输出方面的能力。
  3. 开发了一套全面的基准测试,评估了多种 LLMs 在 Emoji 推荐任务上的性能。

算法模型

  • 使用了六种不同的专有和开源大型语言模型(LLMs),包括 GPT-4o。
  • 构建了基于不同提示技术(zero-shot, few-shot, conditional generation)的评估方法。
  • 利用五个下游分类任务(情感分析、情绪分类、立场检测、年龄预测、性别预测)来评估语义保持能力。

实验效果

  • GPT-4o 在所有模型中表现最佳,达到了 79.23% 的语义保持分数。
  • 通过条件推荐方法(考虑用户画像信息),所有模型的推荐性能都有显著提升。
  • 案例研究显示,模型在特定类别(如性别分类中的“女性”类别)中存在偏差。


推荐阅读指数

★★★★☆

推荐理由

这篇论文在自然语言处理和用户交互领域具有创新性,特别是在利用大型语言模型进行 Emoji 推荐方面。它提出的语义保持评估框架对于评估和改进未来的 Emoji 推荐系统具有重要意义。此外,论文中关于模型偏见的分析也为理解和改进 AI 模型的公平性和无偏见性提供了有价值的见解。对于研究 Emoji 使用、推荐系统或大型语言模型的学者和从业者来说,这是一篇值得一读的论文。

2. Detection Made Easy: Potentials of Large Language Models for Solidity Vulnerabilities

MT Alam, R Halder, A Maiti - arXiv preprint arXiv:2409.10574, 2024

简化检测:大型语言模型在 Solidity 漏洞检测中的潜力

摘要

随着以太坊主网上 Solidity 智能合约的大规模部署,近年来吸引了越来越多出于财务动机的攻击者。本文介绍了如何使用大型语言模型(LLMs)检测 Solidity 中的 OWASP 十大漏洞。作者提出了一个新颖的、类别平衡的、结构化且标记的数据集 VulSmart,用于基准测试和比较多个开源和闭源 LLMs 的性能。通过自动化和手动评估,使用 BLEU 和 ROUGE 指标评估漏洞检测的有效性。研究发现,经过微调的闭源模型 GPT-3.5 Turbo 和 GPT-4o Mini 在漏洞检测、确定漏洞类型和严重性的准确性上达到了 99%、94% 和 98%。SmartVD 框架在“思维链”提示技术下表现最佳,而微调后的闭源模型在“零样本”提示方法下表现优异。

创新点

  1. 提出了一个新的数据集 VulSmart,用于智能合约漏洞检测。
  2. 开发了 SmartVD 框架,利用 LLMs 进行漏洞类型和严重性的多类分类及生成。
  3. 对比了多种开源和闭源 LLMs 在漏洞检测任务上的性能。
  4. 探索了不同的提示策略(零样本、少样本、思维链)对 LLMs 漏洞检测能力的影响。

算法模型

  • 使用了包括 CodeLlama、Llama2、CodeT5、Falcon 等开源 LLMs,以及 GPT-3.5 Turbo 和 GPT-4o Mini 等闭源模型。
  • SmartVD 框架通过微调预训练的 Codelama 模型构建,包括输入层、标记化层、嵌入层、注意力层、LoRA 单元、归一化层和输出层。
  • 采用了二元分类和多类分类及生成的方法来评估模型。

实验效果

  • GPT-3.5 在漏洞分类任务中表现最佳,准确率达到 78%,经过微调后准确率提升至 99%。
  • SmartVD 框架在“思维链”提示技术下表现最佳,而微调后的闭源模型在“零样本”提示方法下表现优异。
  • 在对抗性攻击测试中,闭源 LLMs 显示出完全的抵抗力,而开源 LLMs 的表现有所下降。

推荐阅读指数

★★★★☆

推荐理由

这篇论文针对智能合约安全领域,特别是 Solidity 语言的漏洞检测问题,提出了创新的数据集和基于 LLMs 的检测框架。研究不仅提供了深入的分析和实验验证,还探讨了不同的提示策略对模型性能的影响,这对于理解 LLMs 在代码分析任务中的应用具有重要意义。此外,论文还考虑了对抗性攻击对模型鲁棒性的影响,为未来在这一领域的研究提供了有价值的见解和方向。对于对智能合约安全、漏洞检测和 LLMs 应用感兴趣的研究人员和从业者来说,这是一篇值得阅读的论文。


计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)+https://developer.aliyun.com/article/1628869

目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
54 7
|
21天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
19天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
69 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
19天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
60 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
19天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
63 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
67 1
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
深入探讨人工智能中的深度学习技术##
在本文中,我们将深入探讨深度学习技术的原理、应用以及未来的发展趋势。通过分析神经网络的基本结构和工作原理,揭示深度学习如何在图像识别、自然语言处理等领域取得突破性进展。同时,我们还将讨论当前面临的挑战和未来的研究方向,为读者提供全面的技术洞察。 ##
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
65 6
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的无限可能:技术前沿与应用实践
【10月更文挑战第23天】探索人工智能的无限可能:技术前沿与应用实践
|
1月前
|
人工智能 算法 自动驾驶
人工智能的伦理困境:技术发展与社会责任的平衡
在人工智能(AI)技术飞速发展的今天,我们面临着一个前所未有的伦理困境。本文将探讨AI技术带来的挑战,以及如何在技术创新与社会责任之间找到平衡点。我们将从隐私保护、就业影响、算法偏见等方面进行分析,并提出相应的解决方案。