测试技术

首页 标签 测试技术
# 测试技术 #
关注
74784内容
自进化≠自我刷题,Agent 真正的突破口是「自己造环境」?——6 位领域学者 · 7 大议题 · 2 万字圆桌观点实录
AI AMA首期聚焦“Agent自进化”,由魔搭等联合发起,邀请翟云鹏主持及5位顶会作者深度对谈。围绕定义、泛化能力、反馈信号、评估体系等7大议题,探讨Agent如何突破“从零开始”瓶颈,实现类人经验积累与策略优化。(239字)
|
1小时前
| |
Boss直聘开源Nanbeige4.1-3B:小模型全能新标杆
Boss直聘南北阁实验室发布Nanbeige4.1-3B:一款仅3B参数的“小而全”统一模型,首次在同规模中系统整合强推理、人类偏好对齐与深度搜索Agent能力,性能超越Qwen3-32B等大模型,已开源权重、技术报告及合成数据。
|
1小时前
| |
小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测
2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。
|
3小时前
|
深入理解三种PEFT方法:LoRA的低秩更新、QLoRA的4位量化与DoRA的幅度-方向分解
大模型全量微调显存开销巨大(65B模型需130GB),参数高效微调(PEFT)应运而生。LoRA通过低秩矩阵增量更新,节省99%+参数;QLoRA结合4-bit量化(NF4)与LoRA,单卡48GB即可微调65B模型;DoRA进一步解耦权重的幅度与方向,精度显著超越LoRA。三者协同构建高效、低成本、高性能的微调新范式。
|
1天前
|
OFD 在线预览全是乱码?我差点被“字体问题”带沟里了
OFD预览乱码?别急着装字体!本文复盘一次典型排坑经历:表面是Windows缺字体,实则因ofdrw 1.x版本老旧导致渲染异常;升级至2.3.7后乱码消失,跨平台一致,零配置解决。教训:优先检查依赖版本,莫被经验带偏。
|
1天前
|
并行多智能体系统的协调测试实战:从轨迹捕获到CI/CD的六个步骤
本文探讨并行多智能体系统的协调测试难题:当多个LLM驱动的智能体协同决策时,单个正确≠集体安全。传统单元测试失效,需构建以轨迹捕获、行为不变量、回放回归、黄金数据集和CI/CD集成为核心的新型测试框架,专治容量超限、状态陈旧、 reducer 冲突等典型协调故障。
|
1天前
|
HP LoadRunner 12.53 Community Edition 安装步骤详解(附压测脚本与场景设置教程)
HP LoadRunner 12.53社区版是免费性能测试工具,可模拟海量用户并发访问,进行压力/负载测试。本指南详解安装步骤(需管理员运行、典型安装)、首次使用及脚本录制、场景设计、结果分析全流程,适合个人学习。(239字)
OpenClaw出事后开发者怒了,48小时造出省99%成本的AI技能共享系统-EvoMap
上周五(2月14号),OpenClaw创始人 Peter Steinberger 宣布加入OpenAI。 这个拥有20万+GitHub星的开源项目,创始人被OpenAI收编了。 但真正让开发者社区炸锅的,不是这件事本身。 而是同一天,ClawHub上大量中文开发者被集体封号。 封号理由极其荒谬——ClawHavoc恶意Skill事件后平台启动自动审核,大量中文开发者被误伤。 据反馈,系统把中文编码
大模型应用:向量数据库智能化索引优化:基于数据特征的最优算法自适应选择.32
本文介绍向量数据库的智能化索引优化方案:通过自动分析向量数据的维度、规模、分布与稀疏性四大特征,结合专家规则与轻量模型,动态匹配最优索引算法(如HNSW、IVF-PQ等),并经基准测试验证召回率、QPS与延迟,实现“分析—匹配—验证—部署”闭环,显著降低人工调参成本。
免费试用