【ACL2024】基于长尾检索知识增强的大语言模型
近日,阿里云人工智能平台PAI与阿里集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models》,论文主题为长尾知识检索增强的大语言模型。通过将问题识别为普通可回答和长尾两种性质,让大模型针对性的对长尾问题进行检索文档增强。对于普通可回答的用户提问可以直接通过大模型回答,而不需要进行文档检索增强,从而能增强大模型处理不同类型用户提问的效率。
RAG 2.0架构详解:构建端到端检索增强生成系统
RAG(检索增强生成)旨在通过提供额外上下文帮助大型语言模型(LLM)生成更精准的回答。现有的RAG系统由独立组件构成,效率不高。RAG 2.0提出了一种预训练、微调和对齐所有组件的集成方法,通过双重反向传播最大化性能。文章探讨了不同的检索策略,如TF-IDF、BM25和密集检索,并介绍了如SPLADE、DRAGON等先进算法。目前的挑战包括创建可训练的检索器和优化检索-生成流程。研究表明,端到端训练的RAG可能提供最佳性能,但资源需求高。未来研究需关注检索器的上下文化和与LLM的协同优化。
昇腾NPU上基于MindIE服务的AIME和MATH500测评方案
本文介绍了基于MindIE服务和lighteval工具对DeepSeek-R1类模型进行能力测评的方法。针对AIME 2024、AIME 2025、MATH-500和GPQA等数据集,通过在Atlas 800I A2硬件上部署MindIE服务,结合开源项目Open R1的评测方法完成测评。主要内容包括模型权重下载、MindIE服务化部署、lighteval安装与配置,以及使用openai模式进行测评的具体步骤。最终展示了AIME 2024和MATH-500的测评结果,并对比了DeepSeek官方数据。该方案适合需要准确评估带推理思维链模型性能的场景。