算法框架/工具的搜索结果_文章_第4页-阿里云开发者社区

aliyun9170107523-43660

|

2月前

|

博文

|

131_推理加速：ONNX与TensorRT深度技术解析与LLM模型转换优化实践

在大语言模型（LLM）时代，高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大（从BERT的数亿参数到GPT-4的数千亿参数），推理过程的计算成本和延迟问题日益突出。ONNX（开放神经网络交换格式）和TensorRT作为业界领先的推理优化框架，为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理，详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程，并结合2025年最新优化技术，提供可落地的代码实现与性能调优方案。

# 云解析DNS # 机器学习/深度学习 # 缓存 # PyTorch # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

134_边缘推理：TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南

在人工智能与移动计算深度融合的今天，将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架，为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展，2025年的移动端LLM部署已不再是遥远的愿景，而是正在成为现实的技术实践。

# 人工智能 # 自然语言处理 # TensorFlow # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

127_训练可视化：曲线分析工具 - 使用Matplotlib诊断过拟合的独特信号与深度训练状态解析

在2025年的LLM训练环境中，随着模型规模和复杂度的指数级增长，训练过程的可视化已经从简单的性能监控工具演变为模型健康状态的诊断系统。训练可视化不仅仅是绘制几条曲线，而是构建一个完整的训练神经系统，能够实时捕捉训练动态、预测潜在问题、优化训练策略，并最终确保模型达到最佳性能。

# 云解析DNS # 机器学习/深度学习 # 监控 # 数据可视化 # 算法框架/工具 # Python

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

125_训练加速：FlashAttention集成 - 推导注意力优化的独特内存节省

2025年，大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加，传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法，通过创新的内存访问模式和计算优化，显著提升了训练效率和内存利用。

# 机器学习/深度学习 # 算法 # PyTorch # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

126_自定义损失：多目标训练 - 设计加权损失的独特平衡策略

在2025年的大型语言模型（LLM）训练领域，多目标学习已成为提升模型综合性能的关键技术之一。传统的单一损失函数训练方法逐渐显现出局限性，尤其在处理复杂的语言理解、生成和推理任务时。多目标训练通过同时优化多个互补的学习目标，能够显著提升模型的泛化能力、知识保留和任务适应性。

# 机器学习/深度学习 # 监控 # PyTorch # API # 算法框架/工具

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

130_知识蒸馏技术：温度参数与损失函数设计 - 教师-学生模型的优化策略与PyTorch实现

随着大型语言模型（LLM）的规模不断增长，部署这些模型面临着巨大的计算和资源挑战。以DeepSeek-R1为例，其671B参数的规模即使经过INT4量化后，仍需要至少6张高端GPU才能运行，这对于大多数中小型企业和研究机构来说成本过高。知识蒸馏作为一种有效的模型压缩技术，通过将大型教师模型的知识迁移到小型学生模型中，在显著降低模型复杂度的同时保留核心性能，成为解决这一问题的关键技术之一。

# 边缘计算 # 人工智能 # PyTorch # 算法框架/工具 # 异构计算

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

129_量化技术：INT8与动态量化 - 推导压缩的精度损失公式

在2025年的大语言模型(LLM)时代，随着模型规模的指数级增长，部署这些庞然大物变得越来越具有挑战性。GPT-5和Claude 3等最新模型的参数量已经达到数千亿甚至上万亿，这给计算资源和内存带来了巨大压力。模型量化作为一种有效的压缩技术，正在成为解决这一挑战的关键方案。本文将深入探讨LLM量化技术，特别是INT8和动态量化方法，推导其精度损失公式，并提供2025年最新的优化策略和实现代码。

# 机器学习/深度学习 # 存储 # 缓存 # PyTorch # 算法框架/工具

aliyun9170107523-43660

|

2月前

|

博文

19_Word2Vec详解：训练你的词嵌入

在自然语言处理（NLP）领域，如何将词语转换为计算机可理解的数值表示一直是核心挑战之一。从早期的one-hot编码到如今的预训练语言模型嵌入，词表示技术经历了革命性的演变。其中，Word2Vec作为2013年由Google提出的开创性模型，为现代词嵌入技术奠定了基础。尽管在2025年，我们已经拥有了更多先进的词嵌入方法，但Word2Vec依然是理解词向量本质和深度学习文本表示的重要基石。

# 自然语言处理 # 数据可视化 # PyTorch # TensorFlow # 算法框架/工具

aliyun9170107523-43660

|

2月前

|

博文

21_RNN与LSTM：序列建模的经典方法

在自然语言处理领域，处理序列数据是一个核心挑战。传统的机器学习方法难以捕捉序列中的时序依赖关系，而循环神经网络（Recurrent Neural Network，RNN）及其变种长短期记忆网络（Long Short-Term Memory，LSTM）通过其独特的循环结构，为序列建模提供了强大的解决方案。本教程将深入探讨RNN和LSTM的原理、实现方法和最新应用，帮助读者全面掌握这一NLP核心技术。

# 机器学习/深度学习 # 自然语言处理 # PyTorch # TensorFlow # 算法框架/工具

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

75_TPU集成：Google Cloud加速

在大型语言模型(LLM)训练和推理的竞赛中，计算硬件的选择直接决定了研发效率和成本。Google的Tensor Processing Unit(TPU)作为专为AI计算设计的专用芯片，正逐渐成为大规模LLM开发的首选平台之一。随着2025年第七代TPU架构Ironwood的发布，Google在AI计算领域再次确立了技术领先地位。

# PyTorch # 算法框架/工具 # 异构计算 # AI芯片 # Perl

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

算法框架/工具