关于Vellum
Vellum是一个开发者平台,用于构建高质量的大型语言模型(LLM)应用程序。该平台提供了一系列一流的工具,用于:
- Prompt Engineering(提示词工程):设计和优化与LLM交互的提示词。
- 单元测试:在生产环境之前对提示词进行测试。
- 回归测试:在生产环境中监控和测试提示词变更。
- 监控:监控生产环境中的模型表现。
- 版本控制:管理提示词的不同版本。
- 模型微调:根据需要对模型进行微调。
文章详细介绍了Vellum和LlamaIndex集成的各个方面,以下是每个细节的介绍:
Vellum平台介绍
Vellum是一个为构建高质量大型语言模型(LLM)应用而设计的开发者平台。它提供了一系列工具,帮助公司节省构建内部工具的工程时间,专注于开发面向最终用户的应用。Vellum平台的主要功能包括:
- Prompt Engineering:Vellum提供了一流的工具来设计和优化与LLM交互的提示词。
- 单元测试和回归测试:在生产前进行单元测试,确保提示词的可靠性;在生产后进行回归测试,监控提示词变更的影响。
- 监控与版本控制:监控生产环境中的模型表现,并管理提示词的不同版本。
- 模型微调:根据应用需求对模型进行微调。
集成动机
LlamaIndex用户之前缺乏在生产前进行提示词工程和单元测试的能力,以及在生产后进行版本控制和监控的能力。这些能力对于确保LLM特性在生产中产生可靠结果至关重要。
单元测试
单元测试是确保提示词可靠性的积极方法。最佳实践是在将提示词投入生产前运行50-100个测试用例。测试库应包括预期在生产中遇到的各种场景和边缘情况。Vellum Test Suites允许通过CSV上传批量测试用例。
回归测试
即使在生产前进行了彻底的测试,生产中仍可能出现边缘情况。Vellum集成允许LlamaIndex用户更改提示词并进行版本控制,而无需进行任何代码更改。同时,建议使用历史输入对新提示词进行测试,以确保没有破坏现有行为。
集成的最佳实践
- 使用Vellum Test Suites上传测试用例。
- 利用Vellum的“沙盒”环境迭代提示词,进行模型、提供商、参数等的修改。
- 使用Vellum的“部署”作为API代理,提供提示词版本控制、请求监控等功能。
提示词工程技巧
如果默认的提示词模板没有产生良好的结果,可以按照以下步骤进行提示词工程:
- 在提示词中添加特定用例的详细信息,以指导模型的焦点。
- 创建5-10个输入场景来测试性能。
- 迭代几次:调整提示词,为结果不佳的场景添加更具体的指令或示例;针对每个场景的目标响应进行评估。
- 同时,在Vellum的沙盒中测试不同的基础模型和模型提供商。
- 如果需要额外的推理或解释,使用更规范的方法:在提示词末尾添加详细的逐步指令,并要求LLM在创建答案时经过这些步骤。
衡量提示词质量
在生产前后衡量提示词质量的方法包括:
- 在Vellum沙盒和测试套件中使用精确匹配、正则表达式匹配、语义相似性匹配和Webhook作为评估标准。
- 根据用例类型确定评估方法:分类、数据提取、SQL/代码生成、创意输出等。
如何访问集成
- 注册Vellum账户并生成API密钥。
- 使用VellumPredictor类自动在Vellum中注册提示词以进行预测。
- 使用VellumPromptRegistry检索有关注册提示词的信息,并获取链接以在Vellum的UI中打开相应的沙盒和部署。