《Hammer: Robust Function-Calling for On-Device Language Models via Function Masking》提出了一种新型基础模型Hammer,通过函数掩码技术显著提升了大型语言模型在工具调用方面的性能,减少了对特定命名约定的依赖,展现了强大的泛化能力和超越现有模型的表现。该研究已开源,旨在促进智能设备的本地AI功能发展。
研究团队提出了一种名为“minimal LSTMs and GRUs”的新型RNN模型,通过简化传统LSTM和GRU结构,去除了隐藏状态对输入、遗忘和更新门的依赖,实现了无需BPTT的高效并行训练。该模型不仅保持了RNN处理序列数据的优势,还大幅提升了训练速度,在多个任务上的表现与Transformer相当,同时减少了参数量。研究结果发表于论文《minimal LSTMs and GRUs》。