Mamba: Linear-Time Sequence Modeling with Selective State Spaces
该研究介绍了Mamba,一种硬件感知并行算法,克服了Transformers 在语言处理任务中长序列的低效率。通过实现选择性状态空间,Mamba实现了快速推理、线性可伸缩性以及与大型transformer模型相比具有竞争力的性能。
https://arxiv.org/abs/2312.00752
Text Embeddings Reveal (Almost) As Much As Text
研究了“嵌入反转”的概念,从密集文本嵌入中重构完整文本。研究人员使用多步骤方法在生成受控文本方面取得了很高的成功率。该研究还揭示了从文本嵌入中提取敏感个人数据的潜力,强调了在机器学习中改进隐私措施的必要性。
https://arxiv.org/abs/2310.06816
Diffusion Models Without Attention
DiffuSSM是一个新的模型,可以加速扩散模型生成高分辨率图像,而不牺牲细节质量。它用一个可伸缩的状态空间模型主干取代了注意力机制,从而在节省计算资源的同时提高了ImageNet和LSUN数据集的性能。
https://arxiv.org/abs/2311.18257
SparQ Attention: Bandwidth-Efficient LLM Inference
SparQ Attention是一种通过减少内存带宽需求来提高大型语言模型效率的技术。它不需要改变预训练或微调,可以显著降低注意力记忆要求而不影响准确性。
https://arxiv.org/abs/2312.04985
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
代码链(CoC),一种集成了代码仿真的方法来提高语言模型的推理能力。CoC比以前的技术性能提高了12%,解决了lm复杂逻辑和语言任务的挑战。
https://arxiv.org/abs/2312.04474
文章推荐
最后再推荐两篇文章
The GenAI Frontier: 10 Transformative LLM Research Papers of 2023 from LLaMA to GPT-4
https://www.topbots.com/top-llm-research-papers-2023/
2023年是大模型快速发展的一年。这些llm以其巨大的参数大小和能力给人们留下了深刻的印象。这篇文章介绍了在该领域展开的变革性研究,其中语言模型已经被改进、缩小,甚至与外部工具集成以处理各种各样的任务。主要介绍了一下的一些主要的模型和研究:
- LLaMA by Meta AI
- LLaMA 2 by Meta AI
- GPT-4 by OpenAI
- Sparks of AGI by Microsoft
- BLIP-2 by Salesforce
- InstructBLIP by Salesforce
- PALM-E by Google
- PALM-2 by Google
- Toolformer by Meta AI
RAG vs. Context-Window in GPT-4: accuracy, cost, & latency
https://ai88.substack.com/p/rag-vs-context-window-in-gpt4-accuracy-cost
这个文章对于应用来说非常有帮助,它对GPT-4中上下文窗口填充和检索增强生成(RAG)的比较表明,RAG仅以4%的成本获得了更好的性能。与上下文窗口填充相比,具有128k上下文窗口的RAG在成本、延迟和准确性方面都优于上下文窗口填充。所以如果需要在实际应用中使用RAG或者Context-Window做选择的话,推荐看看这篇文章。
https://avoid.overfit.cn/post/4a878fde9a3f4cf3a29de4e742580d6b