人工智能,应该如何测试?(四)模型全生命周期流程与测试图

简介: 本文补充了完整的业务和测试流程,包括生命周期流程图,强调测试人员在模型测试中的角色。主要测试活动有:1) 离线模型测试,使用训练集、验证集和测试集评估模型;2) 线上线下一致性测试,确保特征工程的一致性;3) A/B Test,逐步替换新旧模型以观察效果;4) 线上模型监控,实时跟踪用户行为变化;5) 数据质量测试,验证新数据质量以防影响模型效果。

这些日子讲了很多东西,但比较乱,我这里补充一下完整的业务和测试流程。

生命周期流程图

image.png

根据数据闭环,我画出了上面的图,并标记了其中测试人员要参与的活动(浅蓝色)。下面我一一分析一下这些测试活动的含义。

  • 离线模型测试阶段:在模型的生命周期中,会涉及到 3 种数据。 训练集,验证集和测试集,其中训练集用来训练模型,验证集用来算法自测。 而测试人员需要自行采集/挖掘(要根据用户画像每种类别的数据都要采集到)符合场景的测试的数据。 根据测试数据对模型进行完整的评估(AUC,召回,精准等等)
  • 线上线下一致性测试: 模型的离线和在线是采取完全不同的代码进行的特征工程(模型不接受原始数据,数据需要经过特征工程后输入到模型),要保证两边的特征工程完全一致是很难的。 所以要进行一致性的测试。
  • A/B Test: 模型即便在离线进行了充分的测试,但线上的情况瞬息万变,模型上线是一个严谨的过程。 我们希望模型更新的过程更加严谨。 所以往往会让新旧模型共存一段时间。比如我们先把 10% 的流量切给新模型, 90% 的流量依然发送到老模型中。 然后待观察效果没有问题后,再切 20% 的流量到新模型上,以此类推, 直到最后新模型完全替代老模型。
  • 线上模型监控:因为用户行为瞬息万变,可能随便一个社会性时间用户的行为就发生了重大的改变。 所以我们需要实时的监控线上效果。
  • 数据质量测试:新采集的数据要加入到自学习之前,需要验证数据本身的质量。以免犹豫数据本身出现了问题导致模型效果的偏差。
相关文章
|
5月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
5月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
688 120
|
6月前
|
人工智能 数据挖掘 大数据
人工智能模型决策过程:机器与人类协作成效
决策智能(DI)融合AI与人类判断,提升商业决策质量。通过数据驱动的预测与建议,结合人机协作,实现更高效、精准的业务成果,推动企业迈向数据文化新阶段。(238字)
|
8月前
|
数据采集 人工智能 监控
人工智能驱动的软件工程:测试左移的崛起价值
本文探讨了人工智能驱动下测试左移理念在软件工程中的重要性,分析测试工程师在需求评估、AI代码生成及遗留系统优化中的关键作用,揭示AI带来的挑战与机遇,并指出测试工程师需提升技能、关注合规与可维护性,以在AI时代保障软件质量。
444 89
|
6月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
559 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
|
10月前
|
存储 人工智能 测试技术
HarmonyOS Next~HarmonyOS应用测试全流程解析:从一级类目上架到二级类目专项测试
本文深入解析HarmonyOS应用测试全流程,涵盖从一级类目通用测试到二级类目专项测试的技术方案。针对兼容性、性能、安全测试及分布式能力验证等关键环节,提供详细实践指导与代码示例。同时,结合典型案例分析常见问题及优化策略,帮助开发者满足华为严苛的质量标准,顺利上架应用。文章强调测试在开发中的核心地位,助力打造高品质HarmonyOS应用。
519 2
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
1789 8
|
存储 人工智能 测试技术
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
141881 29
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
|
7月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。

热门文章

最新文章