Vellum 构建高质量的大型语言模型(LLM)

简介: 【8月更文挑战第7天】

image.png

关于Vellum

Vellum是一个开发者平台,用于构建高质量的大型语言模型(LLM)应用程序。该平台提供了一系列一流的工具,用于:

  • Prompt Engineering(提示词工程):设计和优化与LLM交互的提示词。
  • 单元测试:在生产环境之前对提示词进行测试。
  • 回归测试:在生产环境中监控和测试提示词变更。
  • 监控:监控生产环境中的模型表现。
  • 版本控制:管理提示词的不同版本。
  • 模型微调:根据需要对模型进行微调。

文章详细介绍了Vellum和LlamaIndex集成的各个方面,以下是每个细节的介绍:

Vellum平台介绍

Vellum是一个为构建高质量大型语言模型(LLM)应用而设计的开发者平台。它提供了一系列工具,帮助公司节省构建内部工具的工程时间,专注于开发面向最终用户的应用。Vellum平台的主要功能包括:

  • Prompt Engineering:Vellum提供了一流的工具来设计和优化与LLM交互的提示词。
  • 单元测试和回归测试:在生产前进行单元测试,确保提示词的可靠性;在生产后进行回归测试,监控提示词变更的影响。
  • 监控与版本控制:监控生产环境中的模型表现,并管理提示词的不同版本。
  • 模型微调:根据应用需求对模型进行微调。

集成动机

LlamaIndex用户之前缺乏在生产前进行提示词工程和单元测试的能力,以及在生产后进行版本控制和监控的能力。这些能力对于确保LLM特性在生产中产生可靠结果至关重要。

单元测试

单元测试是确保提示词可靠性的积极方法。最佳实践是在将提示词投入生产前运行50-100个测试用例。测试库应包括预期在生产中遇到的各种场景和边缘情况。Vellum Test Suites允许通过CSV上传批量测试用例。

回归测试

即使在生产前进行了彻底的测试,生产中仍可能出现边缘情况。Vellum集成允许LlamaIndex用户更改提示词并进行版本控制,而无需进行任何代码更改。同时,建议使用历史输入对新提示词进行测试,以确保没有破坏现有行为。

集成的最佳实践

  • 使用Vellum Test Suites上传测试用例。
  • 利用Vellum的“沙盒”环境迭代提示词,进行模型、提供商、参数等的修改。
  • 使用Vellum的“部署”作为API代理,提供提示词版本控制、请求监控等功能。

提示词工程技巧

如果默认的提示词模板没有产生良好的结果,可以按照以下步骤进行提示词工程:

  1. 在提示词中添加特定用例的详细信息,以指导模型的焦点。
  2. 创建5-10个输入场景来测试性能。
  3. 迭代几次:调整提示词,为结果不佳的场景添加更具体的指令或示例;针对每个场景的目标响应进行评估。
  4. 同时,在Vellum的沙盒中测试不同的基础模型和模型提供商。
  5. 如果需要额外的推理或解释,使用更规范的方法:在提示词末尾添加详细的逐步指令,并要求LLM在创建答案时经过这些步骤。

衡量提示词质量

在生产前后衡量提示词质量的方法包括:

  • 在Vellum沙盒和测试套件中使用精确匹配、正则表达式匹配、语义相似性匹配和Webhook作为评估标准。
  • 根据用例类型确定评估方法:分类、数据提取、SQL/代码生成、创意输出等。

如何访问集成

  • 注册Vellum账户并生成API密钥。
  • 使用VellumPredictor类自动在Vellum中注册提示词以进行预测。
  • 使用VellumPromptRegistry检索有关注册提示词的信息,并获取链接以在Vellum的UI中打开相应的沙盒和部署。
目录
相关文章
|
7月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
1886 93
|
7月前
|
人工智能 监控 测试技术
告别只会写提示词:构建生产级LLM系统的完整架构图​
本文系统梳理了从提示词到生产级LLM产品的八大核心能力:提示词工程、上下文工程、微调、RAG、智能体开发、部署、优化与可观测性,助你构建可落地、可迭代的AI产品体系。
916 52
|
6月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
1523 2
|
6月前
|
Web App开发 人工智能 自然语言处理
利用Playwright MCP与LLM构建复杂的工作流与AI智能体
本文介绍如何通过Playwright MCP与大语言模型(LLM)结合,构建智能AI代理与自动化工作流。Playwright MCP基于Model Context Protocol,打通LLM与浏览器自动化的能力,实现自然语言驱动的网页操作。涵盖环境配置、核心组件、智能任务规划、自适应执行及电商采集、自动化测试等实战应用,助力高效构建鲁棒性强、可扩展的AI自动化系统。
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
841 8
|
6月前
|
数据采集 存储 自然语言处理
113_数据收集:Common Crawl过滤与高质量LLM训练数据构建
在大型语言模型(LLM)的训练过程中,数据质量直接决定了模型的性能上限。即使拥有最先进的模型架构和训练算法,如果没有高质量的训练数据,也难以训练出优秀的语言模型。Common Crawl作为目前互联网上最大的公开网络爬虫数据集之一,为LLM训练提供了宝贵的资源。然而,从原始的Common Crawl数据中提取高质量的训练素材并非易事,需要经过严格的过滤和清洗。本文将全面探讨Common Crawl数据集的特性、过滤策略的设计原则、以及2025年最新的过滤技术,为构建高质量的LLM训练语料提供系统指导。
816 0
|
6月前
|
Prometheus 监控 Cloud Native
72_监控仪表盘:构建LLM开发环境的实时观测系统
在2025年的大模型(LLM)开发实践中,实时监控已成为确保模型训练效率和生产部署稳定性的关键环节。与传统软件开发不同,LLM项目面临着独特的监控挑战
423 0
|
6月前
|
监控 数据可视化 测试技术
16_LLM交互式调试:用Streamlit构建可视化工具
在大语言模型(LLM)的应用开发过程中,调试一直是一个复杂且具有挑战性的任务。传统的调试方法往往依赖于静态日志、断点调试和反复的命令行交互,这种方式在处理LLM这类黑盒模型时显得尤为低效。随着2025年LLM技术的普及和应用场景的多样化,开发人员迫切需要一种更加直观、高效的调试方式。
621 0
|
8月前
|
人工智能 缓存 监控
MCP零基础学习(6)|与大型语言模型(LLM)的深度融合
本文是MCP系列教程的进阶篇,重点讲解如何将MCP与各类大语言模型深度集成,覆盖本地模型(Ollama、vLLM)和在线服务(OpenAI、DeepSeek)的接入方法,并详解提示词模板设计与上下文管理技巧。通过具体代码示例和架构解析,帮助开发者构建灵活、高效的AI应用系统,实现更智能的模型调度与资源利用。

热门文章

最新文章