工作原理
PAI-Blade以Wheel包的形式安装到用户环境,无需申请资源、上传模型和数据的繁琐步骤。您可以在代码中调用PAI-Blade的Python接口,使模型优化集成在工作流中,且能够在本地对优化完成的模型进行性能验证。此外,您还可以便捷地尝试不同的优化策略、探索更多的优化参数组合。
同时,PAI-Blade提供C++ SDK供您部署服务。虽然优化完成的模型在运行时需要依赖SDK,但是无需修改模型代码,您只需要链接PAI-Blade的库文件即可。
使用流程
您可以参考如下流程使用PAI-Blade:
安装Blade。
优化模型,详情请参见优化TensorFlow模型和优化PyTorch模型。
如果您需要对模型进行量化优化,请参见量化优化。如果需要指定编译优化的模式,请参见AI编译器优化。
解读优化报告,详情请参见优化报告。
部署模型推理,详情请参见使用SDK部署TensorFlow模型推理、使用SDK部署PyTorch模型推理和使用Blade EAS Plugin优化并部署模型。
推理加速实现的原理是类似的,可以看看阿里云的推理加速(Blade)的概述。
PAI-Blade结合了多种优化技术,对训练完成的模型进行优化,从而达到最优的推理性能。同时,PAI-Blade提供的C++ SDK可以部署优化后的模型推理,帮助您快速的将模型应用于生产。本文介绍PAI-Blade的工作原理和使用流程。
工作原理
PAI-Blade以Wheel包的形式安装到用户环境,无需申请资源、上传模型和数据的繁琐步骤。您可以在代码中调用PAI-Blade的Python接口,使模型优化集成在工作流中,且能够在本地对优化完成的模型进行性能验证。此外,您还可以便捷地尝试不同的优化策略、探索更多的优化参数组合。
同时,PAI-Blade提供C++ SDK供您部署服务。虽然优化完成的模型在运行时需要依赖SDK,但是无需修改模型代码,您只需要链接PAI-Blade的库文件即可。
FunASR软件包中的语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC)模型均通过onnx量化导出实现推理加速。ASR模型基于Paraformer的非自回归模型,具有明显的推理效率优势,支持多线并发,能准确、高效地对音频进行转写。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。