游客7dgyrbdm3doqi_个人页

个人头像照片 游客7dgyrbdm3doqi
个人头像照片
23
0
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2025年01月

  • 01.20 11:42:46
    发表了文章 2025-01-20 11:42:46

    MindIE推理采样后处理参数temperature和top_k的引发的精度问题

    在MindIE跑Qwen系列模型推理时,发现当后处理参数top_k较大且temperature=2时,Ascend npu和gpu上均出现模型输出精度问题。原因在于temperature增大导致logits值差距缩小,softmax后概率接近,难以选到正确token。通过减小top_k或top_p可避免此问题。总结:后处理顺序为temperature > top_k > softmax > top_p,temperature越大,logits差距越小,易引发精度问题。
  • 01.20 10:13:07
    发表了文章 2025-01-20 10:13:07

    Ascend+FastAPI+ Uvicorn 实现推理

    FastAPI 是一个高性能的 Python Web 框架,专为构建 RESTful API 设计,支持异步编程和数据验证。Uvicorn 是基于 ASGI 的轻量级异步服务器,与 FastAPI 结合使用可提供高效、高并发的服务。在生产环境中,二者配合 Nginx 可实现稳定安全的部署。示例代码展示了如何通过 FastAPI 和 Uvicorn 启动服务,并在 Ascend 平台上运行推理模型,处理自然语言任务。 简介字数:239
  • 01.06 15:13:07
    发表了文章 2025-01-06 15:13:07

    解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]

    在使用vllm模型时,运行示例代码下载模型文件时遇到了SSL安全校验问题。临时解决方案是修改`requests/sessions.py`文件中`request`函数的`verify`参数默认值为`False`。

2024年12月

  • 12.24 09:56:02
    发表了文章 2024-12-24 09:56:02

    AscendC编程中的double buffer是什么?

    在AI Core上,指令队列分为Vector(V)、Matrix(M)和存储移动指令队列(MTE2、MTE3)。这些队列的独立性和可并行性是double buffer优化的基础。通过将数据搬运与Vector计算并行执行,double buffer机制有效减少了Vector单元的等待时间,提高了其利用率。例如,Tensor1进行Compute时,Tensor2可同时执行CopyIn;当切换到Tensor2计算时,Tensor1执行CopyOut。此机制适用于大多数场景,但在数据搬运时间短或数据量小的情况下,性能提升可能有限。
  • 12.05 10:46:22
    发表了文章 2024-12-05 10:46:22

    AscendC从入门到精通系列(五)调用基于工程开发AscendC算子

    单算子API调用方式是通过C语言API直接调用已编译的自定义算子。首先,需基于AscendC算子工程完成算子的定义与实现,并通过编译脚本部署。编译后,生成的头文件和动态库支持在应用程序中直接调用算子,包括初始化AscendCL、申请资源、数据传输、计算workspace、执行算子、同步等待及资源释放等步骤。编译算子调用程序时,需正确配置CMakeLists.txt,确保头文件和动态库的路径正确。
  • 12.05 10:45:09
    发表了文章 2024-12-05 10:45:09

    AscendC从入门到精通系列(四)使用Pybind调用AscendC算子

    本文介绍了如何通过Pybind11在PyTorch框架中调用自定义的Ascend C算子。首先,通过编写算子的C++实现和pybind11封装,将算子功能暴露给Python。接着,构建Python调用脚本,利用torch接口生成数据并调用封装好的算子模块。最后,通过CMake配置文件编译整个项目,实现从算子开发到测试的完整流程。
  • 12.05 10:43:15
    发表了文章 2024-12-05 10:43:15

    AscendC从入门到精通系列(三)基于自定义算子工程开发AscendC算子

    本文介绍了基于Ascend C的自定义算子开发流程,涵盖从工程创建、代码编写、编译部署到运行验证的全过程。以动态shape的AddCustom算子为例,详细描述了如何利用CANN提供的工具msOpGen生成开发工程,实现算子核函数与host侧代码,以及如何编译、部署和测试自定义算子。
  • 12.05 10:41:58
    发表了文章 2024-12-05 10:41:58

    AscendC从入门到精通系列(二)基于Kernel直调开发AscendC算子

    本文介绍了AscendC算子的开发流程,包括核函数开发、算子类定义及其实现、核函数的CPU和NPU侧运行验证。通过具体示例`add_custom.cpp`,详细展示了如何使用Ascend C完成算子核函数的定义、初始化、数据搬运和计算过程,并提供了完整的CPU和NPU侧调用程序代码,帮助开发者理解和实践AscendC算子的开发。
  • 12.05 10:39:49
    发表了文章 2024-12-05 10:39:49

    AscendC从入门到精通系列(一)初步感知AscendC

    Ascend C是CANN推出的一种编程语言,专为算子开发设计,支持C/C++标准,旨在提高开发效率与运行性能。通过Ascend C,开发者能在昇腾AI处理器上高效实现自定义算法。本文档介绍了如何使用Ascend C编写和运行一个简单的“Hello World”程序,包括核函数的编写、主程序调用及CMake配置,展示了Ascend C的基本使用流程。
  • 12.05 10:38:32
    发表了文章 2024-12-05 10:38:32

    如何在c++侧编译运行一个aclnn(AOL)算子?

    CANN的AOL库提供了一系列高性能算子API,优化了昇腾AI处理器的调用流程。通过两段式接口设计,开发者可以高效地调用算子库API,实现模型创新与应用,提升开发效率和模型性能。示例中展示了如何使用`aclnnAdd`算子,包括环境初始化、算子调用及结果处理等步骤。
  • 12.05 10:37:10
    发表了文章 2024-12-05 10:37:10

    Ascend推理组件MindIE LLM

    MindIE LLM是基于昇腾硬件的大语言模型推理组件,提供高性能的多并发请求调度与优化技术,如Continuous Batching、PageAttention等,支持Python和C++ API,适用于高效能推理需求。其架构包括深度定制优化的模型模块、文本生成器和任务调度管理器,支持多种模型框架和量化方式,旨在提升大规模语言模型的推理效率和性能。
  • 12.05 10:35:47
    发表了文章 2024-12-05 10:35:47

    ATB概念之:算子tiling

    算子 tiling 是一种优化技术,用于提高大规模张量运算的计算效率。它通过将大任务分解为小块,优化内存使用、支持并行计算,并防止内存溢出。在ATB中,tiling data指kernel的分片参数,用于指导计算。ATB提供了三种 tiling data 搬移策略:整体搬移、多stream搬移及随kernel下发搬移,旨在优化内存拷贝任务,提高计算效率。
  • 12.05 10:34:42
    发表了文章 2024-12-05 10:34:42

    如何使用Ascend的ATB加速库?

    ATB加速库专为Transformer模型优化设计,基于华为Ascend AI处理器,提升训练和推理效率。本文档详细介绍了如何实现一个ATB算子,涵盖基础Operation、插件机制和Graph Frame三种方式,从环境准备、算子创建、资源管理到最终执行,提供了完整的代码示例和步骤指南,帮助开发者快速掌握ATB算子的开发流程。
  • 12.05 10:30:30
    发表了文章 2024-12-05 10:30:30

    ATB算子实现原理解读

    本文详细介绍了Ascend Transformer Boost(ATB)加速库中三种类型算子的执行流程及其与CANN中其他算子的区别。文章首先概述了ATB算子的实现步骤,接着深入解析了单算子和图算子的执行流程,包括kernel图构建、输入准备、内存计算、tiling数据处理及任务下发等环节。此外,还探讨了ATB在host侧性能优化上的几种机制,如Tiling Cache、Setup与InferShape复用、Runner Pool等,以及ATB中的内存优化与管理策略。最后,介绍了Context类的功能和作用,包括它如何管理ATB内部的各种公共资源。
  • 12.05 10:27:39
    发表了文章 2024-12-05 10:27:39

    ATB是什么?

    ATB加速库专为华为Ascend AI处理器设计,针对Transformer模型的训练和推理进行了深度优化。它通过算法、硬件和软件层面的优化,大幅提升模型性能,降低能耗与成本。ATB支持PyTorch、MindSpore等多种框架,提供高效的基础算子及图算子技术,适用于各种应用场景。其软件架构主要包括基础Operation、Plugin机制和Graph Frame三部分,通过优化算子计算和数据传输,实现性能的显著提升。
  • 12.05 10:25:53
    发表了文章 2024-12-05 10:25:53

    Ascend上的PageAttention

    PageAttention旨在解决大型语言模型(LLM)服务中的内存管理低效问题,如内存碎片化、利用率低及缺乏灵活的内存共享机制。通过借鉴操作系统中的虚拟内存和分页技术,PageAttention实现了块级别的内存管理和灵活的KV cache共享机制,显著提高内存利用率,降低延迟,提升模型处理速度和性能。相比传统注意力机制,PageAttention通过分段处理序列,有效解决了长序列处理时的计算效率低下和内存过度使用问题。
  • 12.05 09:55:12
    发表了文章 2024-12-05 09:55:12

    SelfAttention在Ascend上的实现

    Self-Attention(自注意力)机制是深度学习中用于自然语言处理的关键技术,由 Vaswani 等人在 2017 年提出。它通过让模型关注输入序列的不同部分,增强了对上下文的理解,是 Transformer 架构的核心。Self-Attention 包括 Query、Key 和 Value 三个组件,通过计算这些组件间的相似度,模型可以有效地捕捉长距离依赖关系,提高处理效率和模型表现。此外,多头注意力机制进一步提升了模型的表达能力。
  • 12.05 09:46:23
    发表了文章 2024-12-05 09:46:23

    Ascend上的FlashAttention实现

    FlashAttention是优化Transformer模型计算效率和内存使用的技术,通过减少存储访问开销提升性能。它采用Tiling、Recomputation、分块SoftMax等策略,减少HBM访问,加速计算,并在昇腾AI处理器上实现了显著的性能提升。
  • 12.05 09:44:01
    发表了文章 2024-12-05 09:44:01

    Ascend Extension for PyTorch是个what?

    Ascend Extension for PyTorch 是针对华为昇腾处理器的PyTorch框架适配插件,旨在让PyTorch开发者能充分利用昇腾AI处理器的强大计算能力。此扩展通过最小化对原生PyTorch的改动,实现了对昇腾NPU的支持,包括动态图特性、自动微分等功能的完整继承,并提供了与原生PyTorch一致的使用体验。项目详情及源码可在昇腾社区获取。
  • 12.05 09:42:23
    发表了文章 2024-12-05 09:42:23

    Ascend Extension for PyTorch的源码解析

    本文介绍了Ascend对PyTorch代码的适配过程,包括源码下载、编译步骤及常见问题,详细解析了torch-npu编译后的文件结构和三种实现昇腾NPU算子调用的方式:通过torch的register方式、定义算子方式和API重定向映射方式。这对于开发者理解和使用Ascend平台上的PyTorch具有重要指导意义。
  • 12.05 09:40:37
    发表了文章 2024-12-05 09:40:37

    msprofiler前置知识:如何看懂tracing profile文件?

    Tracing是一种技术,用于收集程序执行过程中的事件,如函数调用、I/O操作等,特别适用于Web开发中的性能分析。Wall Duration指操作从开始到结束的实际时间,反映用户感知的性能。Self Time则专注于函数自身执行的时间,不包括调用其他函数的时间,有助于定位性能瓶颈。通过这些工具,开发者可以优化代码、减少延迟、管理资源,提升应用性能。
  • 12.05 09:38:51
    发表了文章 2024-12-05 09:38:51

    Ascend C的编程模型

    Ascend C采用SPMD编程模型,实现多核并行计算。通过将数据切分为多个分片,分配给不同的计算核心(或称为block)并行处理,每个核心根据自身的block_idx执行相同代码但处理不同的数据分片,从而提高计算效率。此模型支持高效的数据并行处理,适用于大规模数据计算任务。
  • 12.04 17:21:46
    发表了文章 2024-12-04 17:21:46

    什么是CANN和Ascend C

    CANN(Compute Architecture for Neural Networks)是华为推出的AI异构计算架构,支持多种AI框架如MindSpore、PyTorch等,适用于AI处理器与编程,旨在提升昇腾AI处理器的计算效率。CANN提供强大的图引擎、算子开发语言Ascend C、算子加速库AOL、集合通信库HCCL、毕昇编译器及Runtime运行时,支持快速构建AI应用,涵盖推理应用开发、模型训练和算子开发等关键功能。
  • 发表了文章 2025-01-20

    MindIE推理采样后处理参数temperature和top_k的引发的精度问题

  • 发表了文章 2025-01-20

    Ascend+FastAPI+ Uvicorn 实现推理

  • 发表了文章 2025-01-06

    解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]

  • 发表了文章 2024-12-24

    AscendC编程中的double buffer是什么?

  • 发表了文章 2024-12-05

    AscendC从入门到精通系列(五)调用基于工程开发AscendC算子

  • 发表了文章 2024-12-05

    AscendC从入门到精通系列(四)使用Pybind调用AscendC算子

  • 发表了文章 2024-12-05

    AscendC从入门到精通系列(三)基于自定义算子工程开发AscendC算子

  • 发表了文章 2024-12-05

    AscendC从入门到精通系列(二)基于Kernel直调开发AscendC算子

  • 发表了文章 2024-12-05

    AscendC从入门到精通系列(一)初步感知AscendC

  • 发表了文章 2024-12-05

    如何在c++侧编译运行一个aclnn(AOL)算子?

  • 发表了文章 2024-12-05

    Ascend推理组件MindIE LLM

  • 发表了文章 2024-12-05

    ATB算子实现原理解读

  • 发表了文章 2024-12-05

    ATB概念之:算子tiling

  • 发表了文章 2024-12-05

    如何使用Ascend的ATB加速库?

  • 发表了文章 2024-12-05

    ATB是什么?

  • 发表了文章 2024-12-05

    Ascend上的PageAttention

  • 发表了文章 2024-12-05

    SelfAttention在Ascend上的实现

  • 发表了文章 2024-12-05

    Ascend上的FlashAttention实现

  • 发表了文章 2024-12-05

    Ascend Extension for PyTorch是个what?

  • 发表了文章 2024-12-05

    Ascend Extension for PyTorch的源码解析

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等