计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23

本期,我们对大语言模型在表情推荐, 软件安全和 自动化软件漏洞检测等方面如何应用,提供几篇最新的参考文章。

1 Semantics Preserving Emoji Recommendation with Large Language Models

Z Qiu, K Qiu, H Lyu, W Xiong, J Luo - arXiv preprint arXiv:2409.10760, 2024

使用大型语言模型进行语义保持的 Emoji 推荐

摘要

Emoji 已经成为数字通信中不可或缺的一部分,通过传达情感、语气和意图来丰富文本。现有的 Emoji 推荐方法主要基于它们与用户原始文本中选择的确切 Emoji 匹配的能力进行评估。然而,它们忽略了社交媒体上用户行为的本质,即每段文本都可以对应多个合理的 Emoji。为了更好地评估模型与现实世界 Emoji 使用的一致性,我们提出了一个新的语义保持评估框架,用于 Emoji 推荐,该框架衡量模型推荐与用户文本保持语义一致性的 Emoji 的能力。为了评估模型保持语义的能力,我们评估预测的情感状态、人口统计特征和态度立场是否保持不变。如果这些属性得以保留,我们认为推荐的 Emoji 保持了原始语义。大型语言模型(LLMs)在理解和生成细微、相关上下文输出方面的高级能力使它们非常适合处理语义保持 Emoji 推荐的复杂性。为此,我们构建了一个全面的基准测试,系统地评估了六种专有和开源 LLMs 使用不同提示技术在我们的任务上的性能。我们的实验表明,GPT-4o 在其他 LLMs 中表现最佳,达到了 79.23% 的语义保持分数。此外,我们进行了案例研究,分析了模型在下游分类任务中的偏见,并评估了推荐的 Emoji 的多样性。

创新点

  1. 提出了一个新的语义保持评估框架,用于评估 Emoji 推荐模型。
  2. 利用大型语言模型(LLMs)进行 Emoji 推荐,考虑了模型在理解和生成相关上下文输出方面的能力。
  3. 开发了一套全面的基准测试,评估了多种 LLMs 在 Emoji 推荐任务上的性能。

算法模型

  • 使用了六种不同的专有和开源大型语言模型(LLMs),包括 GPT-4o。
  • 构建了基于不同提示技术(zero-shot, few-shot, conditional generation)的评估方法。
  • 利用五个下游分类任务(情感分析、情绪分类、立场检测、年龄预测、性别预测)来评估语义保持能力。

实验效果

  • GPT-4o 在所有模型中表现最佳,达到了 79.23% 的语义保持分数。
  • 通过条件推荐方法(考虑用户画像信息),所有模型的推荐性能都有显著提升。
  • 案例研究显示,模型在特定类别(如性别分类中的“女性”类别)中存在偏差。


推荐阅读指数

★★★★☆

推荐理由

这篇论文在自然语言处理和用户交互领域具有创新性,特别是在利用大型语言模型进行 Emoji 推荐方面。它提出的语义保持评估框架对于评估和改进未来的 Emoji 推荐系统具有重要意义。此外,论文中关于模型偏见的分析也为理解和改进 AI 模型的公平性和无偏见性提供了有价值的见解。对于研究 Emoji 使用、推荐系统或大型语言模型的学者和从业者来说,这是一篇值得一读的论文。

2. Detection Made Easy: Potentials of Large Language Models for Solidity Vulnerabilities

MT Alam, R Halder, A Maiti - arXiv preprint arXiv:2409.10574, 2024

简化检测:大型语言模型在 Solidity 漏洞检测中的潜力

摘要

随着以太坊主网上 Solidity 智能合约的大规模部署,近年来吸引了越来越多出于财务动机的攻击者。本文介绍了如何使用大型语言模型(LLMs)检测 Solidity 中的 OWASP 十大漏洞。作者提出了一个新颖的、类别平衡的、结构化且标记的数据集 VulSmart,用于基准测试和比较多个开源和闭源 LLMs 的性能。通过自动化和手动评估,使用 BLEU 和 ROUGE 指标评估漏洞检测的有效性。研究发现,经过微调的闭源模型 GPT-3.5 Turbo 和 GPT-4o Mini 在漏洞检测、确定漏洞类型和严重性的准确性上达到了 99%、94% 和 98%。SmartVD 框架在“思维链”提示技术下表现最佳,而微调后的闭源模型在“零样本”提示方法下表现优异。

创新点

  1. 提出了一个新的数据集 VulSmart,用于智能合约漏洞检测。
  2. 开发了 SmartVD 框架,利用 LLMs 进行漏洞类型和严重性的多类分类及生成。
  3. 对比了多种开源和闭源 LLMs 在漏洞检测任务上的性能。
  4. 探索了不同的提示策略(零样本、少样本、思维链)对 LLMs 漏洞检测能力的影响。

算法模型

  • 使用了包括 CodeLlama、Llama2、CodeT5、Falcon 等开源 LLMs,以及 GPT-3.5 Turbo 和 GPT-4o Mini 等闭源模型。
  • SmartVD 框架通过微调预训练的 Codelama 模型构建,包括输入层、标记化层、嵌入层、注意力层、LoRA 单元、归一化层和输出层。
  • 采用了二元分类和多类分类及生成的方法来评估模型。

实验效果

  • GPT-3.5 在漏洞分类任务中表现最佳,准确率达到 78%,经过微调后准确率提升至 99%。
  • SmartVD 框架在“思维链”提示技术下表现最佳,而微调后的闭源模型在“零样本”提示方法下表现优异。
  • 在对抗性攻击测试中,闭源 LLMs 显示出完全的抵抗力,而开源 LLMs 的表现有所下降。

推荐阅读指数

★★★★☆

推荐理由

这篇论文针对智能合约安全领域,特别是 Solidity 语言的漏洞检测问题,提出了创新的数据集和基于 LLMs 的检测框架。研究不仅提供了深入的分析和实验验证,还探讨了不同的提示策略对模型性能的影响,这对于理解 LLMs 在代码分析任务中的应用具有重要意义。此外,论文还考虑了对抗性攻击对模型鲁棒性的影响,为未来在这一领域的研究提供了有价值的见解和方向。对于对智能合约安全、漏洞检测和 LLMs 应用感兴趣的研究人员和从业者来说,这是一篇值得阅读的论文。


计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)+https://developer.aliyun.com/article/1628869

目录
相关文章
|
1月前
|
机器学习/深度学习 算法 数据挖掘
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能技术的探讨
人工智能的概念,人工智能的发展,人工智能的各种学派,人工智能的应用领域
239 4
|
1月前
|
人工智能 算法 安全
【博士论文】基于局部中心量度的聚类算法研究(Matlab代码实现)
【博士论文】基于局部中心量度的聚类算法研究(Matlab代码实现)
|
5月前
|
人工智能 自然语言处理 API
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
845 62
|
5月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
659 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
4月前
|
监控 算法 JavaScript
基于 JavaScript 图算法的局域网网络访问控制模型构建及局域网禁止上网软件的技术实现路径研究
本文探讨局域网网络访问控制软件的技术框架,将其核心功能映射为图论模型,通过节点与边表示终端设备及访问关系。以JavaScript实现DFS算法,模拟访问权限判断,优化动态策略更新与多层级访问控制。结合流量监控数据,提升网络安全响应能力,为企业自主研发提供理论支持,推动智能化演进,助力数字化管理。
112 4
|
4月前
|
存储 监控 算法
内网监控桌面与 PHP 哈希算法:从数据追踪到行为审计的技术解析
本文探讨了内网监控桌面系统的技术需求与数据结构选型,重点分析了哈希算法在企业内网安全管理中的应用。通过PHP语言实现的SHA-256算法,可有效支持软件准入控制、数据传输审计及操作日志存证等功能。文章还介绍了性能优化策略(如分块哈希计算和并行处理)与安全增强措施(如盐值强化和动态更新),并展望了哈希算法在图像处理、网络流量分析等领域的扩展应用。最终强调了构建完整内网安全闭环的重要性,为企业数字资产保护提供技术支撑。
131 2
|
5月前
|
机器学习/深度学习 存储 算法
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。
803 10
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
|
5月前
|
存储 监控 算法
基于 Python 哈希表算法的局域网网络监控工具:实现高效数据管理的核心技术
在当下数字化办公的环境中,局域网网络监控工具已成为保障企业网络安全、确保其高效运行的核心手段。此类工具通过对网络数据的收集、分析与管理,赋予企业实时洞察网络活动的能力。而在其运行机制背后,数据结构与算法发挥着关键作用。本文聚焦于 PHP 语言中的哈希表算法,深入探究其在局域网网络监控工具中的应用方式及所具备的优势。
152 7
|
5月前
|
存储 算法 物联网
解析局域网内控制电脑机制:基于 Go 语言链表算法的隐秘通信技术探究
数字化办公与物联网蓬勃发展的时代背景下,局域网内计算机控制已成为提升工作效率、达成设备协同管理的重要途径。无论是企业远程办公时的设备统一调度,还是智能家居系统中多设备间的联动控制,高效的数据传输与管理机制均构成实现局域网内计算机控制功能的核心要素。本文将深入探究 Go 语言中的链表数据结构,剖析其在局域网内计算机控制过程中,如何达成数据的有序存储与高效传输,并通过完整的 Go 语言代码示例展示其应用流程。
102 0

热门文章

最新文章