计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21
1. AIvril: AI-Driven RTL Generation With Verification In-The-Loop
Authors: Mubashir ul Islam, Humza Sami, Pierre-Emmanuel Gaillardon, and Valerio Tenace
AIVRIL: 人工智能驱动的RTL生成与验证内循环
摘要
本文介绍了AIVRIL,这是一个先进的框架,旨在提高对RTL(寄存器传输级)代码生成的大型语言模型(LLMs)的准确性和可靠性。AIVRIL采用多代理、LLM不可知的系统,自动进行语法纠正和功能验证,显著减少了错误代码生成的实例。在VerilogEval-Human数据集上的实验结果显示,与以往的工作相比,我们的框架在代码质量上提高了近2倍,同时在满足验证目标方面达到了88.46%的成功率。这代表了向自动化和优化硬件设计工作流程迈出了关键一步,为人工智能驱动的RTL设计提供了更可靠的方法。
创新点
- 提出了AIVRIL框架,该框架集成了自动语法纠正和功能验证阶段,作为RTL语言模型的下游任务。
- 采用了多代理方法,通过智能代理的协作来精炼和调试生成的代码,利用来自电子设计自动化(EDA)工具的反馈。
- 将验证过程与生成过程相结合,提高了生成的RTL代码的可靠性和功能性。
- 设计为工具和LLM不可知,可以与各种EDA工具和第三方LLMs集成。
算法模型
AIVRIL框架包含两个核心组件:AutoReview和AutoDV(自动设计验证)。AutoReview负责实施语法检查并为LLMs生成的RTL代码提供自动纠正。AutoDV则封装了AutoReview过程,从语法正确的RTL描述开始,进行仿真和覆盖率分析。两个组件通过迭代细化和代理间的协作交互来提高输出质量。
实验效果
- 在VerilogEval-Human数据集上,AIVRIL在代码质量上比CodeV和RTLFixer分别提高了1.32倍和2倍。
- 在满足验证目标方面,平均成功率为88.46%,显示出更强的鲁棒性和合规性。
- 实验使用了Icarus Verilog进行语法检查和功能仿真,Covered工具用于覆盖率分析。
推荐阅读指数:
★★★★☆
推荐理由
- 本文提出了一个创新的框架,将人工智能技术应用于硬件设计的自动化,这对于电子设计自动化领域是一个重要的进步。
- AIVRIL框架的多代理系统和LLM不可知的设计使其具有很高的适应性和实用性,能够与现有的EDA工具和LLMs无缝集成。
- 实验结果表明,该框架在提高RTL代码的准确性和可靠性方面具有显著的效果,这对于硬件设计工程师和研究人员来说是非常有价值的。
2. Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent
Authors: Fatemeh Haji, Mazal Bethany, Maryam Tabar, Jason Chiang, Anthony Rios, Peyman Najafirad
通过多代理思维树验证器代理提高大型语言模型的推理能力
摘要
多代理策略已成为提高大型语言模型(LLMs)推理能力的一种有前途的方法,通过在问题解决过程中分配特殊角色来实现。同时,思维树(ToT)方法在通过探索多样化的推理路径来改善复杂问答任务的推理方面显示出潜力。多代理推理的一个关键限制是“推理者”代理对推理路径的浅层探索。虽然ToT策略可以帮助缓解这个问题,但它们可能会生成有缺陷的推理分支,这可能会损害最终答案的可信度。为了利用多代理推理和ToT策略的优势,我们引入了一种新的方法,结合了基于ToT的推理者代理和思维验证器代理。多个推理者代理并行操作,采用ToT探索多样化的推理路径。然后思维验证器代理审查这些路径,只有在推理有效时才考虑推理者的结论。这种方法通过丢弃有缺陷的推理路径,增强了系统处理需要系统和可信推理的任务的能力。我们的方法在GSM8K数据集上的评估结果显示,与现有技术相比,我们的方法在四个LLMs上平均提高了5.6%的性能。
创新点
- 将ToT集成到多代理推理框架中。
- 引入了一种新颖的思维验证器代理,用于评估和过滤推理者代理产生的推理分支。
- 在GSM8K数据集上的实验结果表明,与现有技术相比,该方法在复杂算术推理任务中的准确性和性能有所提高。
算法模型
文章提出了一个多代理推理框架,该框架结合了ToT策略和强大的验证机制来增强复杂问题解决。该方法采用多个并行的推理者代理,每个代理使用ToT探索不同的推理路径。这些推理者代理由思维验证器代理支持,后者评估推理者产生的推理分支。验证器丢弃错误的推理分支,确保只有逻辑上合理的路径有助于最终决策。然后使用基于共识的投票机制,只有经过验证的推理路径才参与投票,无效的则被弃权。如果未达成共识,则启动新的推理轮次,将思维验证器对推理分支的反馈纳入下一轮推理。
实验效果
- 在GSM8K数据集上,与标准ToT策略相比,所提出的方法在四个LLMs上平均提高了5.6%的性能。
- 实验使用了OpenAI的GPT模型和Meta的Llama 3.1模型的不同版本。
- 实验结果显示,提出的方法在解决复杂推理问题时,尤其是在模型基线能力受限的任务中,表现出更高的准确性和可信度。
推荐阅读指数:
★★★★☆
推荐理由
- 本文提出了一种创新的方法,通过结合多代理系统和ToT策略,提高了LLMs在复杂推理任务中的表现。
- 引入的思维验证器代理为多代理系统中的推理路径提供了重要的验证机制,增强了最终答案的可信度。
- 在GSM8K数据集上的实验结果表明,该方法在提高LLMs的推理准确性方面具有显著效果,这对于自然语言处理和人工智能领域的研究者和实践者来说是非常有价值的。
3. LifeGPT: Topology-Agnostic Generative Pretrained Transformer Model for Cellular Automata
Authors: Jaime A. Berkovich and Markus J. Buehler
LIFEGPT:拓扑不敏感的生成预训练变换器模型用于元胞自动机
摘要
文章介绍了LIFEGPT,这是一个拓扑不敏感的生成预训练变换器模型,用于模拟康威的“生命游戏”(Conway’s Game of Life,简称Life)这一元胞自动机(CA)算法。Life因其对初始条件极其敏感的复杂动态行为而闻名。LIFEGPT能够在不知道网格大小或其周期性边界条件的情况下,在环面上模拟Life。研究表明,给定足够多样化的训练数据,GPT模型能够以近乎完美的准确性捕捉图灵完备系统的确定性规则。此外,文章还引入了“自回归自回归器”的概念,以递归方式使用LIFEGPT实现Life。研究结果为在大型语言模型(LLM)框架内实现真正的通用计算铺平了道路,将数学分析与自然语言处理相结合,并探索AI系统在无需显式计算的情况下对此类算法演化的情境感知。类似的GPT可能通过从现实世界生物系统中提取与CA兼容的规则集来解决多细胞自组装中的逆问题,从而为生物启发材料、组织工程和结构材料设计领域带来重大影响。
创新点
- 提出了LIFEGPT,一个拓扑不敏感的模型,能够模拟在环面上的Life游戏。
- 展示了GPT模型能够捕捉图灵完备系统的确定性规则,即使在没有显式拓扑知识的情况下。
- 引入了“自回归自回归器”的概念,用于递归实现Life游戏的动态。
- 提出了将AI系统用于情境感知和预测算法演化的可能性,而无需实际运行算法。
算法模型
LIFEGPT是一个解码器仅(decoder-only)的生成预训练变换器模型,使用因果掩蔽多头自注意力机制,训练时实施了遗忘因果掩蔽(Forgetful Causal Masking, FCM)。模型使用旋转位置嵌入(Rotary Positional Embedding, RPE)来保持空间感知,通过Adam优化器和交叉熵损失函数进行训练。模型在32×32的环面上模拟Life游戏,通过训练数据对ICs和NGSs(Next-Game-States)的对进行学习。
实验效果
- 在训练数据集上,LIFEGPT显示出快速收敛性,跨熵损失值从约0.4降至0.2。
- 在测试集上,模型在不同的采样温度下显示出至少99.9%的准确率,且随着训练周期的增加,准确率趋于完美。
- 在零/少次学习能力测试中,LIFEGPT能够以接近完美的准确度模拟Life的规则,即使在训练数据只占所有可能初始配置的极小比例的情况下。
推荐阅读指数:
★★★★☆
推荐理由
- 本文提出了一个创新的模型,能够在没有拓扑知识的情况下模拟复杂的元胞自动机系统,这对于理解和预测复杂动态系统具有重要意义。
- LIFEGPT的拓扑不敏感特性为研究不同网格配置和边界条件的CA提供了新的视角。
- 通过引入自回归自回归器的概念,文章展示了GPT模型在递归实现算法动态方面的潜力。
- 研究结果不仅对计算机科学和数学领域有价值,也可能对生物启发材料和组织工程等领域产生深远影响。
4. Egalitarian Language Representation in Language Models: It All Begins with Tokenizers
Authors: Menan Velayuthan and Kengatharaiyer Sarveswaran
语言模型中的平等语言表示:一切从分词器开始
摘要
分词器作为人类语言与语言模型潜在空间之间的桥梁,影响着语言在这些模型中的表示方式。由于以英语为中心的大型语言模型(LLMs)的广泛流行,人们正在努力将它们适应于其他语言。然而,我们展示了从分词的角度来看,并非所有分词器都能为如泰米尔语、僧伽罗语和印地语等复杂脚本语言提供公平的表示,这主要是由于预分词方法的选择。我们进一步展示了预分词在实现这些复杂脚本语言的平等表示中比分词算法本身起着更关键的作用。为了解决这个问题,我们通过引入图素对,改进了字节对编码(BPE)算法,称之为图素对编码(GPE)。我们的实验表明,基于图素的字符提取在复杂脚本上优于字节级分词器。我们通过对泰米尔语、僧伽罗语和印地语的实验验证了这种方法。
创新点
- 指出了预分词在复杂脚本语言(如泰米尔语、僧伽罗语和印地语)的分词中的重要性,以及它比分词算法本身对语言表示的影响更大。
- 提出了图素对编码(GPE)算法,通过将图素作为最小单位,改进了传统的字节对编码(BPE)算法,以更好地处理复杂脚本语言。
算法模型
- 图素对编码(GPE):在BPE算法的基础上,使用图素作为原子单位,通过预处理步骤将文本分解为图素,并在分词器训练数据中更新初始词汇表。
- 预分词:在实际分词之前,将输入文本分解为更小的、可管理的块,称为预令牌。
实验效果
- 在泰米尔语、僧伽罗语和印地语的实验中,GPE算法在压缩比(CR)和分词平等性(TP)方面均优于传统的字节级分词器。
- GPE算法在泰米尔语数据集上训练并测试,显示出比BPE、Unigram和WordPiece算法更好的性能。
算法效果对比:
推荐阅读指数:
★★★★☆
推荐理由
- 本文针对复杂脚本语言在语言模型中的表示问题提供了深入的分析和解决方案,对于自然语言处理领域的研究人员和开发者具有重要的参考价值。
- 提出的GPE算法为处理复杂脚本语言提供了一种新的视角,可能会对未来的语言模型设计产生积极影响。
5. Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
Authors: Guillermo Marco, Luz Rello, Julio Gonzalo
小型语言模型在短篇创意写作中可以超越人类:比较SLM、人类和LLM的研究
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21(下)+https://developer.aliyun.com/article/1628859