算法框架/工具的搜索结果_第4页-阿里云开发者社区

八进智

|

2月前

|

博文

|

来自：通义大模型

vLLM 架构学习指南

本指南深入解析vLLM高性能推理引擎架构，涵盖核心创新PagedAttention与连续批处理技术，结合代码结构、学习路径与实践建议，系统指导用户从入门到贡献源码的全过程。

# 大模型服务平台百炼 # 并行计算 # PyTorch # 算法框架/工具 # 异构计算 # Python

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

118_LLM模型量化与压缩：从理论到2025年实践技术详解

大型语言模型（LLM）在自然语言处理领域取得了前所未有的成功，但模型规模的快速增长带来了巨大的计算和存储挑战。一个典型的大型语言模型（如GPT-4或LLaMA 3）可能包含数千亿甚至万亿参数，需要数百GB甚至TB级的存储空间，并且在推理时需要大量的计算资源。这种规模使得这些模型难以在边缘设备、移动设备甚至资源有限的云服务器上部署和使用。

# 机器学习/深度学习 # PyTorch # 算法框架/工具 # 异构计算 # AI芯片

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

114_预训练：Masked LM优化与动态掩码效率深度解析

在大型语言模型（LLM）的预训练阶段，训练目标函数的设计直接影响模型的学习效率和最终性能。Masked Language Modeling（MLM）作为BERT等模型采用的核心预训练任务，通过随机掩盖文本中的部分token并让模型预测这些被掩盖的token，有效地训练了模型的双向表示能力。然而，传统的静态掩码策略存在重复率高、训练效率低等问题。动态掩码技术的引入显著提升了预训练效率和模型性能。本文将全面探讨MLM优化策略，深入推导动态掩码的效率提升原理，并介绍2025年最新的MLM优化技术，为高效预训练LLM提供理论和实践指导。

# 云解析DNS # 缓存 # 自然语言处理 # PyTorch # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

131_推理加速：ONNX与TensorRT深度技术解析与LLM模型转换优化实践

在大语言模型（LLM）时代，高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大（从BERT的数亿参数到GPT-4的数千亿参数），推理过程的计算成本和延迟问题日益突出。ONNX（开放神经网络交换格式）和TensorRT作为业界领先的推理优化框架，为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理，详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程，并结合2025年最新优化技术，提供可落地的代码实现与性能调优方案。

# 云解析DNS # 机器学习/深度学习 # 缓存 # PyTorch # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

134_边缘推理：TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南

在人工智能与移动计算深度融合的今天，将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架，为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展，2025年的移动端LLM部署已不再是遥远的愿景，而是正在成为现实的技术实践。

# 人工智能 # 自然语言处理 # TensorFlow # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

127_训练可视化：曲线分析工具 - 使用Matplotlib诊断过拟合的独特信号与深度训练状态解析

在2025年的LLM训练环境中，随着模型规模和复杂度的指数级增长，训练过程的可视化已经从简单的性能监控工具演变为模型健康状态的诊断系统。训练可视化不仅仅是绘制几条曲线，而是构建一个完整的训练神经系统，能够实时捕捉训练动态、预测潜在问题、优化训练策略，并最终确保模型达到最佳性能。

# 云解析DNS # 机器学习/深度学习 # 监控 # 数据可视化 # 算法框架/工具 # Python

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

125_训练加速：FlashAttention集成 - 推导注意力优化的独特内存节省

2025年，大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加，传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法，通过创新的内存访问模式和计算优化，显著提升了训练效率和内存利用。

# 机器学习/深度学习 # 算法 # PyTorch # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

126_自定义损失：多目标训练 - 设计加权损失的独特平衡策略

在2025年的大型语言模型（LLM）训练领域，多目标学习已成为提升模型综合性能的关键技术之一。传统的单一损失函数训练方法逐渐显现出局限性，尤其在处理复杂的语言理解、生成和推理任务时。多目标训练通过同时优化多个互补的学习目标，能够显著提升模型的泛化能力、知识保留和任务适应性。

# 机器学习/深度学习 # 监控 # PyTorch # API # 算法框架/工具

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

130_知识蒸馏技术：温度参数与损失函数设计 - 教师-学生模型的优化策略与PyTorch实现

随着大型语言模型（LLM）的规模不断增长，部署这些模型面临着巨大的计算和资源挑战。以DeepSeek-R1为例，其671B参数的规模即使经过INT4量化后，仍需要至少6张高端GPU才能运行，这对于大多数中小型企业和研究机构来说成本过高。知识蒸馏作为一种有效的模型压缩技术，通过将大型教师模型的知识迁移到小型学生模型中，在显著降低模型复杂度的同时保留核心性能，成为解决这一问题的关键技术之一。

# 边缘计算 # 人工智能 # PyTorch # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

129_量化技术：INT8与动态量化 - 推导压缩的精度损失公式

在2025年的大语言模型(LLM)时代，随着模型规模的指数级增长，部署这些庞然大物变得越来越具有挑战性。GPT-5和Claude 3等最新模型的参数量已经达到数千亿甚至上万亿，这给计算资源和内存带来了巨大压力。模型量化作为一种有效的压缩技术，正在成为解决这一挑战的关键方案。本文将深入探讨LLM量化技术，特别是INT8和动态量化方法，推导其精度损失公式，并提供2025年最新的优化策略和实现代码。

# 机器学习/深度学习 # 存储 # 缓存 # PyTorch # 算法框架/工具

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

算法框架/工具