计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23（上）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23（上）

2024-10-23 42

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23（上）

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23

本期，我们对大语言模型在表情推荐, 软件安全和自动化软件漏洞检测等方面如何应用，提供几篇最新的参考文章。

1 Semantics Preserving Emoji Recommendation with Large Language Models

Z Qiu, K Qiu, H Lyu, W Xiong, J Luo - arXiv preprint arXiv:2409.10760, 2024

使用大型语言模型进行语义保持的 Emoji 推荐

摘要

Emoji 已经成为数字通信中不可或缺的一部分，通过传达情感、语气和意图来丰富文本。现有的 Emoji 推荐方法主要基于它们与用户原始文本中选择的确切 Emoji 匹配的能力进行评估。然而，它们忽略了社交媒体上用户行为的本质，即每段文本都可以对应多个合理的 Emoji。为了更好地评估模型与现实世界 Emoji 使用的一致性，我们提出了一个新的语义保持评估框架，用于 Emoji 推荐，该框架衡量模型推荐与用户文本保持语义一致性的 Emoji 的能力。为了评估模型保持语义的能力，我们评估预测的情感状态、人口统计特征和态度立场是否保持不变。如果这些属性得以保留，我们认为推荐的 Emoji 保持了原始语义。大型语言模型（LLMs）在理解和生成细微、相关上下文输出方面的高级能力使它们非常适合处理语义保持 Emoji 推荐的复杂性。为此，我们构建了一个全面的基准测试，系统地评估了六种专有和开源 LLMs 使用不同提示技术在我们的任务上的性能。我们的实验表明，GPT-4o 在其他 LLMs 中表现最佳，达到了 79.23% 的语义保持分数。此外，我们进行了案例研究，分析了模型在下游分类任务中的偏见，并评估了推荐的 Emoji 的多样性。

创新点

提出了一个新的语义保持评估框架，用于评估 Emoji 推荐模型。
利用大型语言模型（LLMs）进行 Emoji 推荐，考虑了模型在理解和生成相关上下文输出方面的能力。
开发了一套全面的基准测试，评估了多种 LLMs 在 Emoji 推荐任务上的性能。

算法模型

使用了六种不同的专有和开源大型语言模型（LLMs），包括 GPT-4o。
构建了基于不同提示技术（zero-shot, few-shot, conditional generation）的评估方法。
利用五个下游分类任务（情感分析、情绪分类、立场检测、年龄预测、性别预测）来评估语义保持能力。

实验效果

GPT-4o 在所有模型中表现最佳，达到了 79.23% 的语义保持分数。
通过条件推荐方法（考虑用户画像信息），所有模型的推荐性能都有显著提升。
案例研究显示，模型在特定类别（如性别分类中的“女性”类别）中存在偏差。

推荐阅读指数

★★★★☆

推荐理由

这篇论文在自然语言处理和用户交互领域具有创新性，特别是在利用大型语言模型进行 Emoji 推荐方面。它提出的语义保持评估框架对于评估和改进未来的 Emoji 推荐系统具有重要意义。此外，论文中关于模型偏见的分析也为理解和改进 AI 模型的公平性和无偏见性提供了有价值的见解。对于研究 Emoji 使用、推荐系统或大型语言模型的学者和从业者来说，这是一篇值得一读的论文。

2. Detection Made Easy: Potentials of Large Language Models for Solidity Vulnerabilities

MT Alam, R Halder, A Maiti - arXiv preprint arXiv:2409.10574, 2024

简化检测：大型语言模型在 Solidity 漏洞检测中的潜力

摘要

随着以太坊主网上 Solidity 智能合约的大规模部署，近年来吸引了越来越多出于财务动机的攻击者。本文介绍了如何使用大型语言模型（LLMs）检测 Solidity 中的 OWASP 十大漏洞。作者提出了一个新颖的、类别平衡的、结构化且标记的数据集 VulSmart，用于基准测试和比较多个开源和闭源 LLMs 的性能。通过自动化和手动评估，使用 BLEU 和 ROUGE 指标评估漏洞检测的有效性。研究发现，经过微调的闭源模型 GPT-3.5 Turbo 和 GPT-4o Mini 在漏洞检测、确定漏洞类型和严重性的准确性上达到了 99%、94% 和 98%。SmartVD 框架在“思维链”提示技术下表现最佳，而微调后的闭源模型在“零样本”提示方法下表现优异。

创新点

提出了一个新的数据集 VulSmart，用于智能合约漏洞检测。
开发了 SmartVD 框架，利用 LLMs 进行漏洞类型和严重性的多类分类及生成。
对比了多种开源和闭源 LLMs 在漏洞检测任务上的性能。
探索了不同的提示策略（零样本、少样本、思维链）对 LLMs 漏洞检测能力的影响。

算法模型

使用了包括 CodeLlama、Llama2、CodeT5、Falcon 等开源 LLMs，以及 GPT-3.5 Turbo 和 GPT-4o Mini 等闭源模型。
SmartVD 框架通过微调预训练的 Codelama 模型构建，包括输入层、标记化层、嵌入层、注意力层、LoRA 单元、归一化层和输出层。
采用了二元分类和多类分类及生成的方法来评估模型。

实验效果

GPT-3.5 在漏洞分类任务中表现最佳，准确率达到 78%，经过微调后准确率提升至 99%。
SmartVD 框架在“思维链”提示技术下表现最佳，而微调后的闭源模型在“零样本”提示方法下表现优异。
在对抗性攻击测试中，闭源 LLMs 显示出完全的抵抗力，而开源 LLMs 的表现有所下降。

推荐阅读指数

★★★★☆

推荐理由

这篇论文针对智能合约安全领域，特别是 Solidity 语言的漏洞检测问题，提出了创新的数据集和基于 LLMs 的检测框架。研究不仅提供了深入的分析和实验验证，还探讨了不同的提示策略对模型性能的影响，这对于理解 LLMs 在代码分析任务中的应用具有重要意义。此外，论文还考虑了对抗性攻击对模型鲁棒性的影响，为未来在这一领域的研究提供了有价值的见解和方向。对于对智能合约安全、漏洞检测和 LLMs 应用感兴趣的研究人员和从业者来说，这是一篇值得阅读的论文。

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23（下）+https://developer.aliyun.com/article/1628869

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23（上）

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23

1 Semantics Preserving Emoji Recommendation with Large Language Models

2. Detection Made Easy: Potentials of Large Language Models for Solidity Vulnerabilities

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23（上）

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23

1 Semantics Preserving Emoji Recommendation with Large Language Models

2. Detection Made Easy: Potentials of Large Language Models for Solidity Vulnerabilities

热门文章

最新文章

相关课程

相关电子书

相关实验场景