ModelScope模型即服务-最新-第16页-阿里云开发者社区

modelscope

|

5月前

|

文字识别测试技术开发者

|

博文

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

Qwen3-VL家族重磅推出2B与32B双版本，轻量高效与超强推理兼备，一模型通吃多模态与纯文本任务！

5128 12 17

游客4obkw77emrslo

|

5月前

|

安全 fastjson

|

问答

fastjson <= 1.2.80 反序列化任意代码执行漏洞

115 0 0

游客umldh5c6n2vvg

|

5月前

|

问答

【AI绘画】你有多久没有打开SD了？

曾几何时，Stable Diffusion的复杂参数令人崩溃，如今即梦、可灵等AI工具已让生成图片变得轻而易举。哩布哩布发布2.0升级公告，看似迈向更易用的未来，却也悄然为那个钻研模型、拼接工作流的“拓荒时代”奏响终章。技术迭代飞快，但那份对创造的热爱与探索精神，永不褪色。

850 9 9

游客fd4e6dyhbdhyy

|

5月前

|

人工智能

|

博文

新手小白一枚，想训练一个专属的题库AI模型，求大佬带

想训练一个专属的题库AI模型

428 8 8

modelscope

|

5月前

|

人工智能物联网

|

博文

Face-to-Photo 模型开源！联名麦橘MERJIC，遇见另一个你！

魔搭 DiffSynth-Studio 团队携手知名创作者麦橘MERJIC，正式开源全新 AI 图像生成模型——Face-to-Photo！该模型基于 Qwen-Image-Edit，采用 LoRA 的模型结构，专为人脸图像生成而优化，将一张普通的人脸照片转化…

788 13 13

modelscope

|

5月前

|

存储人工智能算法

|

博文

ModelScope魔搭社区发布月报 -- 25年10月

2025年10月，ModelScope密集发布多模态与大模型更新，并上线国际站、科学智能专区及AIGC工具FlowBench，加速开源生态发展。

653 9 9

h5cei4nf5lz3y

|

5月前

|

问答

如何做一款高准确率去判断中文语音是否为同一人说的软件

159 0 0

来自：语音版块

啦啦啦191

|

5月前

|

存储 Java 关系型数据库

|

博文

Spring Boot中Spring Data JPA的常用注解

Spring Data JPA通过注解简化数据库操作，实现实体与表的映射。常用注解包括：`@Entity`、`@Table`定义表结构；`@Id`、`@GeneratedValue`配置主键策略；`@Column`、`@Transient`控制字段映射；`@OneToOne`、`@OneToMany`等处理关联关系；`@Enumerated`、`@NamedQuery`支持枚举与命名查询。合理使用可提升开发效率与代码可维护性。（238字）

511 1 1

tb_4588552

|

5月前

|

Docker 容器

|

博文

创空间什么时候支持docker？

创空间目前尚未正式支持Docker，尽管界面已显示Beta选项，但暂不可用。具体上线时间请关注官方更新公告。

133 1 1

tb_4588552

|

5月前

|

容器 Docker

|

问答

创空间什么时候支持docker？

85 0 0

modelscope

|

5月前

|

机器学习/深度学习人工智能 API

|

博文

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

本文介绍如何在MacBook上使用苹果MLX框架高效微调Qwen3大模型。借助MLX的高性能计算与统一内存架构，仅需2分钟即可完成训练，内存占用低至2GB，推理速度达400 Token/s，并支持快速部署为本地API服务，展现Mac轻薄本的强大AI生产力潜力。

1771 16 16

modelscope

|

5月前

|

自然语言处理物联网 vr&ar

|

博文

图像理解与生成统一模型——前沿模型架构理解

前言生成式多模态模型近年来一直是业界的研究热点。视觉语言模型（VLM）一直是多模态文本生成领域的核心路线，能够完成图像理解任务；扩散模型（Diffusion Model）则一直是图像和视频生成领域的核心方法。

956 9 9

1071377055802292

|

5月前

|

自然语言处理

|

问答

参考‘环境安装’本地搭建环境的时候老是有兼容性冲突怎么解决

141 1 0

modelscope

|

5月前

|

机器学习/深度学习自然语言处理前端开发

|

博文

Ling-1T，智渊、思简

今天，我们正式发布Ling 2.0系列的第一款旗舰非思考模型 - 拥有万亿参数的Ling-1T。推理，是智能的核心表达，更是通用智能体的认知基石。因此，我们持续扩展Ling 2.0 系列模型的自然语言推理能力。Ling-1T沿用 Li…

786 9 9

modelscope

|

5月前

|

人工智能测试技术 API

|

博文

智谱旗舰模型GLM-4.6开源发布，代码能力对齐Claude Sonnet 4

作为GLM系列的最新版本，GLM-4.6是系列最强的代码Coding模型（较GLM-4.5提升27%）

1822 14 14

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习存储人工智能

|

博文

106_模型合并：Task Arithmetic

在大语言模型（LLM）时代，模型合并技术正在成为高效整合不同模型能力的关键方法。随着开源模型的爆发式增长，如何在不进行昂贵的重新训练的情况下，将多个专用模型的知识整合到一个统一模型中，成为了研究和工业界的重要课题。Task Arithmetic作为一种新兴的模型合并方法，通过向量操作实现权重融合，为这一挑战提供了创新解决方案。

381 24 24

aliyun9170107523-43660

|

5月前

|

运维监控异构计算

|

博文

142_故障容错：冗余与回滚机制 - 配置多副本的独特健康检查

在大语言模型（LLM）的生产环境部署中，系统的可靠性和稳定性至关重要。随着LLM应用场景的不断扩展，从简单的文本生成到复杂的多模态交互，用户对服务可用性和响应质量的要求也日益提高。据2025年最新的AI服务可用性报告显示，顶级AI服务提供商的SLA（服务级别协议）承诺已达到99.99%，这意味着每年的计划外停机时间不得超过52.56分钟。

596 11 11

aliyun9170107523-43660

|

5月前

|

存储机器学习/深度学习 PyTorch

|

博文

119_LLM训练的高效内存管理与优化技术：从ZeRO到Flash Attention

大型语言模型（LLM）的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数，高效的内存管理成为训练成功的关键因素之一。2025年，LLM训练的内存优化技术已经取得了显著进展，从ZeRO优化器到Flash Attention等创新技术，为训练超大规模模型提供了可能。

625 159 159

aliyun9170107523-43660

|

5月前

|

监控安全算法

|

博文

137_安全强化：输入过滤与水印 - 实现输出水印的检测算法与LLM安全防护最佳实践

随着大语言模型（LLM）在各行业的广泛应用，安全问题日益凸显。从提示注入攻击到恶意输出生成，从知识产权保护到内容溯源，LLM安全已成为部署和应用过程中不可忽视的关键环节。在2025年的LLM技术生态中，输入过滤和输出水印已成为两大核心安全技术，它们共同构建了LLM服务的安全防护体系。

582 148 148

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习 PyTorch 算法框架/工具

|

博文

118_LLM模型量化与压缩：从理论到2025年实践技术详解

大型语言模型（LLM）在自然语言处理领域取得了前所未有的成功，但模型规模的快速增长带来了巨大的计算和存储挑战。一个典型的大型语言模型（如GPT-4或LLaMA 3）可能包含数千亿甚至万亿参数，需要数百GB甚至TB级的存储空间，并且在推理时需要大量的计算资源。这种规模使得这些模型难以在边缘设备、移动设备甚至资源有限的云服务器上部署和使用。

916 3 3

aliyun9170107523-43660

|

5月前

|

存储自然语言处理算法

|

博文

109_噪声鲁棒微调：对抗训练

在当今大语言模型（LLM）的广泛应用中，模型的鲁棒性问题日益凸显。对抗性攻击通过在输入中添加微小但精心设计的扰动，能够误导模型产生错误输出，这对依赖LLM的关键系统构成了严重威胁。噪声鲁棒微调作为提升模型抵抗对抗攻击能力的重要技术，正成为大模型安全性研究的核心方向之一。

656 2 2

aliyun9170107523-43660

|

5月前

|

存储数据采集数据管理

|

博文

116_大规模预训练数据管理与质量控制机制

在2025年的大语言模型（LLM）训练领域，数据管理和质量控制已成为决定模型性能上限的关键因素。随着模型规模的不断扩大（从早期的数十亿参数到如今的数千亿参数），对训练数据的数量、多样性和质量要求也呈指数级增长。一个高效的数据管理系统和严格的质量控制机制，不仅能够确保训练过程的稳定性，还能显著提升最终模型的性能和安全性。

473 2 4

aliyun9170107523-43660

|

5月前

|

存储人工智能数据中心

|

博文

138_绿色计算：碳排放优化 - 估算部署的碳足迹与LLM环境友好型部署最佳实践

随着大语言模型(LLM)在各个行业的广泛应用，其计算需求和环境影响正日益受到关注。根据最新研究，训练一个大型LLM模型可能产生数百吨二氧化碳当量的排放，这相当于普通家庭几十年的碳足迹。在全球气候变化和可持续发展的背景下，如何优化LLM部署的碳足迹，实现环境友好型AI应用，已成为行业面临的重要挑战。

353 2 2

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习缓存监控

|

博文

139_剪枝优化：稀疏模型压缩 - 分析结构化剪枝的独特速度提升与LLM部署加速实践

随着大语言模型(LLM)规模的不断增长，模型参数量已从最初的数亿扩展到数千亿甚至万亿级别。这种规模的模型在推理过程中面临着巨大的计算和内存挑战，即使在最先进的硬件上也难以高效部署。剪枝优化作为一种有效的模型压缩技术，通过移除冗余或不重要的参数，在保持模型性能的同时显著减少计算资源需求。

1032 139 139

aliyun9170107523-43660

|

5月前

|

数据采集存储自然语言处理

|

博文

113_数据收集：Common Crawl过滤与高质量LLM训练数据构建

在大型语言模型（LLM）的训练过程中，数据质量直接决定了模型的性能上限。即使拥有最先进的模型架构和训练算法，如果没有高质量的训练数据，也难以训练出优秀的语言模型。Common Crawl作为目前互联网上最大的公开网络爬虫数据集之一，为LLM训练提供了宝贵的资源。然而，从原始的Common Crawl数据中提取高质量的训练素材并非易事，需要经过严格的过滤和清洗。本文将全面探讨Common Crawl数据集的特性、过滤策略的设计原则、以及2025年最新的过滤技术，为构建高质量的LLM训练语料提供系统指导。

706 0 0

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习数据采集人工智能

|

博文

112_跨模态微调：文本与图像联合优化

跨模态微调是指在预训练的多模态模型（如CLIP）基础上，针对特定任务进行的参数调整过程。与单一模态微调不同，跨模态微调需要同时考虑文本和图像两种模态之间的交互与对齐，这使得整个优化过程更加复杂但也更具潜力。

500 0 0

aliyun9170107523-43660

|

5月前

|

存储监控 NoSQL

|

博文

140_异步推理：队列管理框架 - 使用Celery处理高并发请求的独特设计

在大型语言模型(LLM)部署的实际场景中，推理服务的并发处理能力直接影响用户体验和系统稳定性。随着LLM应用的普及，如何高效处理大量并发请求成为部署优化中的关键挑战。传统的同步请求处理方式在面对突发流量时容易导致系统过载，响应延迟增加，甚至服务崩溃。异步推理通过引入队列管理机制，能够有效缓冲请求峰值，平滑系统负载，提高资源利用率，从而为LLM服务提供更稳定、更高效的并发处理能力。

504 7 8

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习存储缓存

|

博文

115_LLM基础模型架构设计：从Transformer到稀疏注意力

大型语言模型（LLM）的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出，到如今的稀疏注意力和混合专家模型，LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理，深入分析Transformer的核心机制，详细介绍稀疏注意力、MoE等创新架构，并展望未来架构发展方向。通过数学推导和实践案例，为构建高效、强大的LLM提供全面指导。

826 0 0

aliyun9170107523-43660

|

5月前

|

存储监控算法

|

博文

117_LLM训练的高效分布式策略：从数据并行到ZeRO优化

在2025年，大型语言模型（LLM）的规模已经达到了数千亿甚至数万亿参数，训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略，从基础的数据并行到最先进的ZeRO优化技术，为读者提供全面且实用的技术指南。

605 2 2

aliyun9170107523-43660

|

5月前

|

数据采集存储人工智能

|

博文

141_模型更新：在线学习策略 - 焦点在增量微调的独特无中断部署

在大语言模型（LLM）的实际生产环境中，模型更新是维持服务质量和持续改进的关键环节。随着业务需求的演变、数据分布的变化以及模型能力的提升，如何高效、安全地更新已部署的LLM成为技术团队面临的重要挑战。传统的全量模型替换方法往往伴随着服务中断风险、资源消耗大以及可能的性能波动等问题。为此，增量微调技术作为一种轻量级的模型更新策略，正逐渐成为2025年LLM部署领域的主流选择。

491 9 9

aliyun9170107523-43660

|

5月前

|

缓存自然语言处理 PyTorch

|

博文

114_预训练：Masked LM优化与动态掩码效率深度解析

在大型语言模型（LLM）的预训练阶段，训练目标函数的设计直接影响模型的学习效率和最终性能。Masked Language Modeling（MLM）作为BERT等模型采用的核心预训练任务，通过随机掩盖文本中的部分token并让模型预测这些被掩盖的token，有效地训练了模型的双向表示能力。然而，传统的静态掩码策略存在重复率高、训练效率低等问题。动态掩码技术的引入显著提升了预训练效率和模型性能。本文将全面探讨MLM优化策略，深入推导动态掩码的效率提升原理，并介绍2025年最新的MLM优化技术，为高效预训练LLM提供理论和实践指导。

614 0 1

aliyun9170107523-43660

|

5月前

|

存储机器学习/深度学习数据采集

|

博文

101_参数高效微调_QLoRA技术深度解析与实践

在大型语言模型（LLM）时代，高效微调成为降低大模型应用门槛的关键技术。随着模型规模的不断扩大，传统的全参数微调方法面临着巨大的计算资源消耗和内存需求挑战。QLoRA（Quantized Low-Rank Adaptation）作为一种创新的参数高效微调技术，以其独特的量化+低秩适应双重策略，成功地在大幅降低资源消耗的同时保持了接近全精度微调的性能。本文将深入剖析QLoRA的技术原理、实现细节、性能特点，并提供丰富的实践案例，帮助读者全面掌握这一2025年仍然广泛应用的高效微调方法。

655 1 1

aliyun9170107523-43660

|

5月前

|

存储机器学习/深度学习自然语言处理

|

博文

108_连续微调：链式任务适应

在大模型时代，如何让预训练模型高效地适应多个相关任务，同时保持知识的连贯性和完整性，成为了一个重要的研究方向。连续微调（Continual Fine-tuning）作为一种新兴的微调范式，通过链式任务适应（Sequential Task Adaptation）机制，实现了模型在顺序学习多个任务时的知识保留和迁移。本文将深入探讨连续微调的核心原理、实现方法、关键技术挑战以及2025年的最新研究进展，为读者提供全面的技术指导和实践指南。

208 1 1

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习监控安全

|

博文

102_灾难性遗忘：微调过程中的稳定性挑战

在大型语言模型（LLM）的微调过程中，我们常常面临一个关键挑战：当模型学习新领域或任务的知识时，它往往会忘记之前已经掌握的信息和能力。这种现象被称为"灾难性遗忘"（Catastrophic Forgetting），是神经网络学习中的经典问题，在LLM微调场景中尤为突出。

446 1 1

aliyun9170107523-43660

|

5月前

|

人工智能自然语言处理监控

|

博文

110_微调数据集标注：众包与自动化

在大语言模型（LLM）的微调过程中，高质量的标注数据是模型性能提升的关键因素。随着模型规模的不断扩大和应用场景的日益多样化，如何高效、准确地创建大规模标注数据集成为了研究者和工程师面临的重要挑战。众包与自动化标注技术的结合，为解决这一挑战提供了可行的方案。

617 2 2

aliyun9170107523-43660

|

5月前

|

存储数据采集机器学习/深度学习

|

博文

104_持续预训练与领域适应：大模型专业能力提升指南

在人工智能领域快速发展的今天，大语言模型（LLM）已经成为自然语言处理的核心驱动力。随着GPT系列、PaLM、LLaMA等模型的涌现，大模型的通用能力得到了显著提升。然而，在实际应用中，我们经常面临一个关键挑战：如何使通用大模型更好地适应特定领域的专业知识和任务需求？持续预训练（Continual Pre-training）与领域适应（Domain Adaptation）技术正是解决这一问题的关键路径。

851 0 0

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习数据采集监控

|

博文

107_DPO：直接偏好优化

在大型语言模型（LLM）的发展历程中，如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调（SFT）到基于人类反馈的强化学习（RLHF），再到如今的直接偏好优化（DPO），对齐技术经历了显著的迭代与创新。

854 1 1

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习人工智能监控

|

博文

143_成本优化：Spot实例与预留实例云资源节省计算详解与最佳实践

在云原生时代，成本优化已成为企业IT基础设施管理的核心挑战之一。随着AI和机器学习工作负载的激增，云资源成本占企业IT预算的比例持续上升，如何在保证服务质量的同时实现显著的成本节约，成为技术团队面临的紧迫问题。根据最新的Datadog云成本报告显示，截至2025年，平均有83%的容器支出被闲置资源浪费，而GPU实例支出在过去一年中增长了40%，已占计算成本的14%。在这样的背景下，深入理解和应用Spot实例和预留实例等成本优化策略，对于任何使用云服务的组织都具有重大的经济意义。

546 9 9

aliyun9170107523-43660

|

5月前

|

存储 Prometheus 监控

|

博文

136_生产监控：Prometheus集成 - 设置警报与指标选择与LLM部署监控最佳实践

在大语言模型（LLM）部署的生产环境中，有效的监控系统是确保服务稳定性、可靠性和性能的关键。随着LLM模型规模的不断扩大和应用场景的日益复杂，传统的监控手段已难以满足需求。Prometheus作为当前最流行的开源监控系统之一，凭借其强大的时序数据收集、查询和告警能力，已成为LLM部署监控的首选工具。

672 6 6

aliyun9170107523-43660

|

5月前

|

Kubernetes Cloud Native 异构计算

|

博文

133_云端扩展：Kubernetes scaling - 设置自动缩放的阈值与LLM部署最佳实践

在大语言模型（LLM）部署的时代，如何高效地管理计算资源、应对动态负载并优化成本，成为了每个AI工程师必须面对的挑战。随着LLM应用的普及，用户请求模式变得日益复杂且难以预测，传统的静态资源配置方式已无法满足需求。Kubernetes作为云原生时代的容器编排平台，其强大的自动扩展能力为LLM部署提供了理想的解决方案。

397 2 2

aliyun9170107523-43660

|

5月前

|

存储监控安全

|

博文

132_API部署：FastAPI与现代安全架构深度解析与LLM服务化最佳实践

在大语言模型(LLM)部署的最后一公里，API接口的设计与安全性直接决定了模型服务的可用性、稳定性与用户信任度。随着2025年LLM应用的爆炸式增长，如何构建高性能、高安全性的REST API成为开发者面临的核心挑战。FastAPI作为Python生态中最受青睐的Web框架之一，凭借其卓越的性能、强大的类型安全支持和完善的文档生成能力，已成为LLM服务化部署的首选方案。

983 3 3

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习缓存 PyTorch

|

博文

131_推理加速：ONNX与TensorRT深度技术解析与LLM模型转换优化实践

在大语言模型（LLM）时代，高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大（从BERT的数亿参数到GPT-4的数千亿参数），推理过程的计算成本和延迟问题日益突出。ONNX（开放神经网络交换格式）和TensorRT作为业界领先的推理优化框架，为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理，详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程，并结合2025年最新优化技术，提供可落地的代码实现与性能调优方案。

1293 4 4

aliyun9170107523-43660

|

5月前

|

数据采集人工智能自然语言处理

|

博文

121_训练评估：困惑度分析 - 分析指标与下游任务关系

在大规模语言模型（LLM）的训练过程中，评估模型性能是一个至关重要但常被简化处理的环节。2025年的研究表明，仅依赖单一指标（如困惑度）来判断模型质量已经无法满足复杂应用场景的需求。困惑度作为语言模型训练中最核心的评估指标，其与下游任务表现之间的关系远比直觉更复杂。本文将深入剖析困惑度的数学原理、计算方法、优化策略，以及其与各类下游任务表现的相关性分析，为大规模语言模型的训练优化提供全面的技术指导。

620 1 1

aliyun9170107523-43660

|

5月前

|

人工智能自然语言处理 TensorFlow

|

博文

134_边缘推理：TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南

在人工智能与移动计算深度融合的今天，将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架，为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展，2025年的移动端LLM部署已不再是遥远的愿景，而是正在成为现实的技术实践。

1124 39 40

aliyun9170107523-43660

|

5月前

|

缓存负载均衡监控

|

博文

135_负载均衡：Redis缓存 - 提高缓存命中率的配置与最佳实践

在现代大型语言模型（LLM）部署架构中，缓存系统扮演着至关重要的角色。随着LLM应用规模的不断扩大和用户需求的持续增长，如何构建高效、可靠的缓存架构成为系统性能优化的核心挑战。Redis作为业界领先的内存数据库，因其高性能、丰富的数据结构和灵活的配置选项，已成为LLM部署中首选的缓存解决方案。

582 25 25

aliyun9170107523-43660

|

5月前

|

监控 Cloud Native 网络性能优化

|

博文

122_集群管理：Slurm配置 - 优化大规模训练调度

在2025年，大规模语言模型（LLM）的训练已经进入到超大规模时代，模型参数量达到数千亿甚至万亿级别，训练过程需要动用数百甚至数千个GPU/TPU。在这种情况下，高效的集群管理系统成为训练成功的关键基础设施。Slurm（Simple Linux Utility for Resource Management）作为目前最流行的开源作业调度系统，广泛应用于科研机构和大型科技公司的超级计算集群中。

963 3 5

aliyun9170107523-43660

|

5月前

|

存储运维监控

|

博文

120_检查点管理：故障恢复 - 实现分布式保存机制

在大型语言模型（LLM）的训练过程中，检查点管理是确保训练稳定性和可靠性的关键环节。2025年，随着模型规模的不断扩大，从百亿参数到千亿参数，训练时间通常长达数周甚至数月，硬件故障、软件错误或网络中断等问题随时可能发生。有效的检查点管理机制不仅能够在故障发生时快速恢复训练，还能优化存储使用、提高训练效率，并支持实验管理和模型版本控制。

436 5 5

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

123_自监督任务变体：Causal LM详解 - GPT-style下一词预测机制与训练优化

2025年，自监督学习已成为大型语言模型（LLM）训练的核心范式，其中因果语言建模（Causal Language Modeling, CLM）作为GPT系列模型的基础训练目标，展现出了卓越的生成能力和下游任务迁移性能。与掩码语言建模（Masked Language Modeling, MLM）不同，因果语言建模专注于预测序列中的下一个词元，这种训练方式自然地适应了自回归生成的需求，为文本生成、对话系统等任务奠定了坚实基础。

494 1 1

aliyun9170107523-43660

|

5月前

|

机器学习/深度学习监控数据可视化

|

博文

127_训练可视化：曲线分析工具 - 使用Matplotlib诊断过拟合的独特信号与深度训练状态解析

在2025年的LLM训练环境中，随着模型规模和复杂度的指数级增长，训练过程的可视化已经从简单的性能监控工具演变为模型健康状态的诊断系统。训练可视化不仅仅是绘制几条曲线，而是构建一个完整的训练神经系统，能够实时捕捉训练动态、预测潜在问题、优化训练策略，并最终确保模型达到最佳性能。

311 4 4

最新

文章

视频

问答

推荐

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

fastjson <= 1.2.80 反序列化任意代码执行漏洞

AIGC的训练器无法上传素材

【AI绘画】你有多久没有打开SD了？

新手小白一枚，想训练一个专属的题库AI模型，求大佬带

Face-to-Photo 模型开源！联名麦橘MERJIC，遇见另一个你！

ModelScope魔搭社区发布月报 -- 25年10月

如何做一款高准确率去判断中文语音是否为同一人说的软件

Spring Boot中Spring Data JPA的常用注解

创空间什么时候支持docker？

创空间什么时候支持docker？

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

图像理解与生成统一模型——前沿模型架构理解

参考‘环境安装’本地搭建环境的时候老是有兼容性冲突怎么解决

Ling-1T，智渊、思简

智谱旗舰模型GLM-4.6开源发布，代码能力对齐Claude Sonnet 4

106_模型合并：Task Arithmetic

142_故障容错：冗余与回滚机制 - 配置多副本的独特健康检查

119_LLM训练的高效内存管理与优化技术：从ZeRO到Flash Attention

137_安全强化：输入过滤与水印 - 实现输出水印的检测算法与LLM安全防护最佳实践

118_LLM模型量化与压缩：从理论到2025年实践技术详解

109_噪声鲁棒微调：对抗训练

116_大规模预训练数据管理与质量控制机制

138_绿色计算：碳排放优化 - 估算部署的碳足迹与LLM环境友好型部署最佳实践

139_剪枝优化：稀疏模型压缩 - 分析结构化剪枝的独特速度提升与LLM部署加速实践

113_数据收集：Common Crawl过滤与高质量LLM训练数据构建

112_跨模态微调：文本与图像联合优化

140_异步推理：队列管理框架 - 使用Celery处理高并发请求的独特设计

115_LLM基础模型架构设计：从Transformer到稀疏注意力

117_LLM训练的高效分布式策略：从数据并行到ZeRO优化

141_模型更新：在线学习策略 - 焦点在增量微调的独特无中断部署

114_预训练：Masked LM优化与动态掩码效率深度解析

101_参数高效微调_QLoRA技术深度解析与实践

108_连续微调：链式任务适应

102_灾难性遗忘：微调过程中的稳定性挑战

110_微调数据集标注：众包与自动化

104_持续预训练与领域适应：大模型专业能力提升指南

107_DPO：直接偏好优化

143_成本优化：Spot实例与预留实例云资源节省计算详解与最佳实践

136_生产监控：Prometheus集成 - 设置警报与指标选择与LLM部署监控最佳实践

133_云端扩展：Kubernetes scaling - 设置自动缩放的阈值与LLM部署最佳实践

132_API部署：FastAPI与现代安全架构深度解析与LLM服务化最佳实践

131_推理加速：ONNX与TensorRT深度技术解析与LLM模型转换优化实践

121_训练评估：困惑度分析 - 分析指标与下游任务关系

134_边缘推理：TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南

135_负载均衡：Redis缓存 - 提高缓存命中率的配置与最佳实践

122_集群管理：Slurm配置 - 优化大规模训练调度

120_检查点管理：故障恢复 - 实现分布式保存机制

123_自监督任务变体：Causal LM详解 - GPT-style下一词预测机制与训练优化

127_训练可视化：曲线分析工具 - 使用Matplotlib诊断过拟合的独特信号与深度训练状态解析

ModelScope模型即服务

活跃用户

相关产品