SLS 大模型可观测&安全推理审计标准解决方案

简介: 本文介绍大模型可观测&安全推理审计解决方案和Demo演示,SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能,自定义仪表盘;SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据,建设完整统一的大模型可观测方案,为用户的大模型安全推理审计提供全面合规支持。

本文对 Prompt Trace 场景 Demo 的创作者悟冥以及网关明细日志 Demo 的创作者载云表示诚挚感谢。


随着大模型在各个领域的广泛应用,尤其是涉及到用户隐私和数据安全的场景,大模型安全变得不可或缺。大模型安全是构建可信人工智能生态体系的关键一环,它们共同推动了 AI 技术在透明度、可控性和安全性上的不断提升。这包括但不限于确保用户数据(例如输入提示、输出结果和微调模型)不会用于服务改进,任何内容都不会用于训练原始基本模型,数据绝不会与第三方模型提供商共享,满足大模型安全合规和隐私性要求。

1.客户场景:

大模型开放可信部署场景

  • 客户专属 VPC,在 VPC 内部署模型和上层推理平台。
  • 请求通过私有链接进入网关。
  • 使用 SLS 提供全面的 LLM 监控和日志记录功能,为用户的治理和审计提供支持;实现云产品日志、会话日志、自建网关明细日志、云产品访问审计日志以及 Prompt Trace 和推理实时调用明细等。
  • 使用 Actiontrail 对接客户管控请求(如部署模型、扩缩容操作等)调用 API 审计记录。SLS 集成 Actiontrail 管控事件,实时投递至 SLS 查询分析。

2.解决方案组合:

2.1 VPC 配置(在 PrivateLink 上构建),实现安全和私密的数据通信连接

在用户的基础模型和本地网络之间建立私有连接,可以将自己的阿里云账户里的 VPC,配置为使用 VPC endpoint(在PrivateLink 上构建)。这种方式可以在 VPC 中运行的应用程序大模型安全推理审计实现安全和私密的数据通信连接,不通过公共互联网传输。

用户需求特定 SLS Project 限定特定的 VPC 才能够访问数据,可选接入 VPC Flowlog,监控是否有未预期的 VPC 访问资源,查看流量来源和目标 IP、端口、流量大小等。

2.2 SLS 提供主流云产品日志类型可观测能力

云上大模型部署依赖于各类主流云产品的构建,如 VPC、Redis、RDS 等。SLS 提供阿里云 50+ 主流云产品日志类型的可观测能力,详情可点击SLS支持阿里云云产品日志可观测列表

基于 SLS 实现 VPC Flowlog 安全审计 Demo:

VPC 流日志的流量审计,如每隔一段时间有多少流量进出,流量来源和目标 IP 和端口、流量大小等。

基于 SLS 实现 Redis 安全审计 Demo:

Redis 审计,如每十分钟有多少 Redis 操作,操作来源 IP 等。

基于 SLS 实现 RDS 安全审计 Demo:

RDS 审计,如每十分钟有多少 RDS 操作,操作来源 IP 等。

2.3 SLS 提供全面的 LLM 监控和日志记录功能,为治理和审计提供支持

2.3.1 SLS 监控大模型使用情况和性能,提供自定义仪表盘。

用户可以使用 SLS 帮助用户跟踪使用情况和成本(输入和输出 Token 数量),并解决性能问题(调用延迟和调用次数),构建审计场景的自定义仪表盘。

使用 SLS 监控大模型使用情况 Demo:

查看输入和输出的 Token 数量、耗时

查看 getTaskResult tokens、请求次数、耗时等

其他常见指标包括:

  • 模型使用情况、用量开销、资源、性能和成本的全面可观测:
  • Usage Overview:如 Qps、Latency、Tokens per request、API Response Time等
  • Usage Trends:如 Request Limit and Request Completed、Token Limit and Tokens Used、Trends of Reques by model
  • Cost:模型 Estimated Cost
  • Performance: API 性能分析
  • 跟踪 API 错误率、响应时间、Token 使用情况。提供响应时间和 prompt tokens volume 的比率,帮助用户区分哪些是因为请求突增导致的延迟响应时间、还是真正异常的延迟。
  • 支持 API 单个请求的 Trace,帮助用户获得上下文信息,比如查询具体模型和完成的时间。
  • 分析模型性能指标,模型数据潜在问题,使用 RCA 精确定位模型性能问题的来源,并将其追溯回导致问题的数据
  • 模型异常检测
  • 支持异常开销、性能下降、模型漂移等问题监控和发现支持异常开销、性能下降、模型漂移等问题监控和发现,侦测有问题的集群、模型漂移,以及可能影响模型性能的特殊提示词和回应特征

2.3.2 SLS 提供网关明细日志、详细的对话明细日志、Prompt Trace 和推理实时调用明细。

场景 1:网关明细日志

网关去向明细日志审计是指每一次推理请求,网关需要给出流量确实流到用户 VPC 日志记录用于审计。

网关明细日志审计 Demo:

查看请求错误日志详情

generation 同步/异步请求详情:生成文本 的API,有异步请求和同步请求

getTaskResult 请求详情 查询任务状态(针对异步请求)

备注:网关明细日志 Demo 作者:载云 阿里云技术专家

场景 2: 详细的对话明细 log

LLM 对话明细日志 Demo

获取 LLM 对话明细日志,可用于以下场景:

  • 文本质量指标 :例如可读性、复杂性、文本质量指标,确保 LLM 的输出清晰、简洁且适合目标受众。评估文本复杂性和文本分级,有助于根据目标受众定制生产的内容。
  • 文本相关性指标 :例如文本相关性指标,评估文本输出质量,确保 LLM 输出与预期的上下文对齐,有助于识别可能存在的问题如不相关或偏离主题的回复,减少生成不适当或有害内容的风险,增强 LLM 在各种应用中的安全性和可靠性。
  • 安全和隐私监控:例如安全和隐私监控指标,有助于确保用户数据的保护和防止恶意活动,可以采用多种方法来加强 LLM 系统中的安全和隐私措施。如识别潜在的安全漏洞和未经授权的访问尝试;通过检测和防止提示注入攻击,即将恶意代码或意外指令注入提示中,并防止未经授权的操作或数据泄漏;使用正则表达式模式检查提示和回复,以检测敏感信息,可以帮助识别和标记信用卡号码、电话号码或其他类型的个人身份信息(PII)。
  • 情感分析 :使用情感分析检测 LLM 输出中的潜在有害或不适当内容。
  • 用户行为分析:例如了解用户的行为模式、需求和偏好。这些信息可以用于改进LLM系统的用户体验、个性化推荐以及优化营销策略。

场景 3: Prompt Trace

Prompt Trace Demo:

通过对 AI 原生应用 的 Trace 分析,了解其工作原理以及如何改进。

在大型预训练模型等应用场景中,分布式链路追踪(Trace)对于AI原生应用的执行过程的可观测以及进行性能和效果的调试过程至关重要。在这种情况下,分布式链路追踪系统可以帮助我们跟踪从接收到用户请求、意图识别、RAG、参数提取、LLM结果生成并返回结果为止的整个过程。

以下根据一个具体的场景:《在OSS的观测日志中进行问答》为例来具体看一下 Trace 能力在这里的具体应用。

  • 用户问题意图识别
  • RAG:召回不同的语料,通过Prompt工程生成对应的Prompt
  • Extractor:根据用户的问题,提取对应的信息(实体对象抽取、时间提取)
  • LLM:Query 生成
  • Checker:对生成结果的校验

通过分析这些追踪数据,我们可以清楚地了解到检索过程中各个工作流程间的依赖关系、性能瓶颈所在以及潜在问题的发生位置,进而针对性地进行场景重现、系统优化、故障排查。

① 对话入口 ChatModelProxy.doRequest:查看用户的 Prompt 输入

② 用户问题的意图识别:getUserAttentionType

③ 请求阶段:queryOneLLMResult 查看详细请求地址和参数查看对应的答案

④RAG 阶段:经过若干调用:getSemanticSearchResult ,查看 RAG 的 topN,category 等

⑤完成 Query 的生成,getUserQueryGenerate SQL用户参数提取举例:“ Prompt:提取 Region 信息时间窗口”

备注:Promt Trace Demo 作者:悟冥 阿里云技术专家

场景 4: 推理实时调用明细情况,多维时序图表

监控 LLM 推理实时调用的情况,包括调用数量、响应时间、错误率和成本等关键指标。多维时序图表有助于监控和优化 LLM 应用的性能。

2.3.3 SLS 集成 Actiontrail 管控事件,记录 LLM API 管控信息

用户每次管控请求调用(如部署模型、扩缩容操作等)都会进行审计记录。用户开通 Actiontrail 可查看事件记录。

Actiontrail 的事件投递可以实时投递至 SLS LogStore,可用于日志查询分析。

SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志等数据汇总 Hub,建设完整统一的可观测方案。

管控操作审计-灵积大模型服务事件查询 Demo:

Actiontrail 的事件实时投递至 SLS 查询分析 Demo:

2.4 大模型可观测 & SLS 集成提供后续能力

SLS 是面向云原生场景下可观测数据的存储分析方案,以面向运维大数据为支撑,兼容开源标准,可实现多场景适配 AI 算法,进行可观测数据的存储分析。SLS 为 log、metric、trace 等数据提供大规模、低成本、实时的平台化服务,提供一站式数据采集、加工、查询分析、可视化、消费与投递等功能,实现对业务系统的云原生可观测能力。

SLS 在阿里巴巴规模化运行与被集成,日数十 PB 接入数据量,日调用分析十亿次,千亿行数据秒级查询。

SLS 提供自动化全栈采集数据、开箱即用的报表&告警诊断规则 以及 开放兼容的数据生态能力。

大模型可观测解决方案借助 SLS,提供了全方位的 LLM 监控和日志记录功能,SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据汇总,建设完整统一的可观测方案,为用户的大模型安全推理审计提供全面合规支持。


作者介绍
目录

相关产品

  • 日志服务