使用 MongoDB 构建 AI：Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心-阿里云开发者社区

使用 MongoDB 构建 AI：Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心

2024-10-23 554

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS AI 助手，专业版

RDS MySQL DuckDB 分析主实例，集群系列 4核8GB

PolarDB Agent Express，2核4GB

简介： 若需了解更多MongoDB Atlas相关内容，可前往：https://www.mongodb.com/zh-cn/atlas

大语言模型可能不可靠，这几乎算不上头条新闻。对于某些用例，这可能会带来不便。而对于其他行业，尤其是受监管行业，后果则要严重得多。于是，业内首个大语言模型自动评估平台 Patronus AI 应运而生。

Patronus AI 由 Meta AI 和 Meta Reality Labs 的机器学习专家创立，旨在增强企业对生成式 AI 应用程序的信心，在塑造值得信赖的 AI 生态方面处于领先地位。

Patronus 联合创始人兼首席技术官 Rebecca Qian 解释道：“我们的平台支持工程师在真实场景中对 LLM 性能进行评分和基准测试，生成对抗性测试用例，监控幻觉并检测 PII 及其他意外和不安全的行为。客户使用 Patronus AI 大规模检测 LLM 错误，从而安全、自信地部署 AI 产品。”

在最近发表并被广泛引用的基于 FinanceBench 问答 (QA) 评估套件研究中，Patronus 有了一个惊人的发现。研究人员发现，许多广泛使用的先进 LLM 经常出现幻觉，错误回答或拒绝回答金融分析师问题的比例高达 81%！尽管模型的上下文窗口已通过从外部向量存储中检索到的上下文得到了增强，但错误率仍然如此之高。

检索增强生成 (RAG)是为模型提供最新的、特定于领域上下文的一种常见方式，但应用程序所有者面临的一个关键问题是如何以可扩展的方式测试模型输出的可靠性。这时候，Patronus 的作用就凸显出来了。该公司采用生成式 AI 生态系统（包括模型提供商和框架以及向量存储和 RAG 解决方案）中的领先技术，提供托管评估服务、测试套件和对抗数据集。

“当我们评估形势以确定最佳合作伙伴时，我们看到了客户对 MongoDB Atlas[2] 的巨大需求，”Qian 说道。“通过我们的 Patronus RAG 评估 API，我们可以帮助客户验证他们基于 MongoDB Atlas 构建的 RAG 系统是否能持续提供优质、可靠的信息。”

若需了解更多检索增强生成（RAG）相关内容，可前往：
https://www.mongodb.com/zh-cn/resources/basics/artificial-intelligence/retrieval-augmented-generation
若需了解更多MongoDB Atlas相关内容，可前往：
https://www.mongodb.com/zh-cn/atlas
若需了解更多Atlas Vector Search相关内容，可前往：
https://www.mongodb.com/zh-cn/products/platform/atlas-vector-search

在其新发布的十分钟指南中，Patronus 向开发者演示了一个工作流，展示了如何评估基于 MongoDB Atlas 的检索系统。该指南的重点是对照 SEC 10-K 文件评估幻觉和回答的相关性，模拟金融分析师查询文件，以获得分析和见解的过程。该工作流由以下工具构建：

● LlamaIndex 数据框架，用于导入和切分源 PDF 文档
● Atlas Vector Search，用于存储、索引和查询切分后的元数据和嵌入
● Patronus，用于对模型响应进行评分

工作流如下图所示。

根据分析结果，开发者可以采取一些措施来提高 RAG 系统的性能，包括探索不同的索引、修改文档切分大小、重新设计提示，以及对嵌入模型本身进行微调（针对大多数特定领域的应用程序）。

正如 Qian 所说：“无论您采用哪种方法来调试和修复幻觉，一定要对 RAG 系统进行持续测试，以确保长期实施性能改进。当然，您可以反复使用 Patronus API 进行确认。”

使用 MongoDB 构建 AI：Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心

数据库

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像