使用 MongoDB 构建 AI:Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 若需了解更多MongoDB Atlas相关内容,可前往:https://www.mongodb.com/zh-cn/atlas

大语言模型可能不可靠,这几乎算不上头条新闻。对于某些用例,这可能会带来不便。而对于其他行业,尤其是受监管行业,后果则要严重得多。于是,业内首个大语言模型自动评估平台 Patronus AI 应运而生。

Patronus AI 由 Meta AI 和 Meta Reality Labs 的机器学习专家创立,旨在增强企业对生成式 AI 应用程序的信心,在塑造值得信赖的 AI 生态方面处于领先地位。

Patronus 联合创始人兼首席技术官 Rebecca Qian 解释道:“我们的平台支持工程师在真实场景中对 LLM 性能进行评分和基准测试,生成对抗性测试用例,监控幻觉并检测 PII 及其他意外和不安全的行为。客户使用 Patronus AI 大规模检测 LLM 错误,从而安全、自信地部署 AI 产品。”

image.png

在最近发表并被广泛引用的基于 FinanceBench 问答 (QA) 评估套件研究中,Patronus 有了一个惊人的发现。研究人员发现,许多广泛使用的先进 LLM 经常出现幻觉,错误回答或拒绝回答金融分析师问题的比例高达 81%!尽管模型的上下文窗口已通过从外部向量存储中检索到的上下文得到了增强,但错误率仍然如此之高。

检索增强生成 (RAG)是为模型提供最新的、特定于领域上下文的一种常见方式,但应用程序所有者面临的一个关键问题是如何以可扩展的方式测试模型输出的可靠性。这时候,Patronus 的作用就凸显出来了。该公司采用生成式 AI 生态系统(包括模型提供商和框架以及向量存储和 RAG 解决方案)中的领先技术,提供托管评估服务、测试套件和对抗数据集。

“当我们评估形势以确定最佳合作伙伴时,我们看到了客户对 MongoDB Atlas[2] 的巨大需求,”Qian 说道。“通过我们的 Patronus RAG 评估 API,我们可以帮助客户验证他们基于 MongoDB Atlas 构建的 RAG 系统是否能持续提供优质、可靠的信息。”

若需了解更多检索增强生成(RAG)相关内容,可前往:
https://www.mongodb.com/zh-cn/resources/basics/artificial-intelligence/retrieval-augmented-generation
若需了解更多MongoDB Atlas相关内容,可前往:
https://www.mongodb.com/zh-cn/atlas
若需了解更多Atlas Vector Search相关内容,可前往:
https://www.mongodb.com/zh-cn/products/platform/atlas-vector-search

在其新发布的十分钟指南中,Patronus 向开发者演示了一个工作流,展示了如何评估基于 MongoDB Atlas 的检索系统。该指南的重点是对照 SEC 10-K 文件评估幻觉和回答的相关性,模拟金融分析师查询文件,以获得分析和见解的过程。该工作流由以下工具构建:

● LlamaIndex 数据框架,用于导入和切分源 PDF 文档
● Atlas Vector Search,用于存储、索引和查询切分后的元数据和嵌入
● Patronus,用于对模型响应进行评分

工作流如下图所示。

image.png

根据分析结果,开发者可以采取一些措施来提高 RAG 系统的性能,包括探索不同的索引、修改文档切分大小、重新设计提示,以及对嵌入模型本身进行微调(针对大多数特定领域的应用程序)。

正如 Qian 所说:“无论您采用哪种方法来调试和修复幻觉,一定要对 RAG 系统进行持续测试,以确保长期实施性能改进。当然,您可以反复使用 Patronus API 进行确认。”

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
6天前
|
人工智能 Linux iOS开发
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
219 100
|
12天前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
182 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
|
10天前
|
人工智能 自然语言处理 API
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。
146 18
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
|
6天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
120 27
|
7天前
|
人工智能 资源调度 API
AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程
AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。
2243 13
|
23天前
|
人工智能 Cloud Native 安全
|
20天前
|
人工智能 开发者 Python
Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用
Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。
122 9
|
25天前
|
人工智能
解决方案 | 主动式智能导购AI助手构建获奖名单公布!
解决方案 | 主动式智能导购AI助手构建获奖名单公布!
|
28天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
189 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
14天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
89 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人