并行计算的搜索结果_文章_第19页-阿里云开发者社区

技术员阿伟

|

7月前

|

博文

《算力觉醒！ONNX Runtime + DirectML如何点燃Windows ARM设备的AI引擎》

ONNX Runtime 是一个跨平台高性能推理引擎，可运行不同框架转为 ONNX 格式的模型，通过深度分析与优化计算图提升效率。在 Windows ARM 设备上，它针对硬件特性优化，结合微软 DirectML API，充分利用 GPU 并行计算能力加速 AI 推理。两者深度融合，灵活调整参数以满足实时性或高精度需求，在文本分类、图像识别、智能安防等领域显著提升性能，为多样化应用场景提供高效支持。

# 机器学习/深度学习 # 人工智能 # 并行计算 # 异构计算 # Windows

技术员阿伟

|

7月前

|

博文

《 PyTorch 2.3革新：torch.compile自动生成CUDA优化内核全解》

torch.compile是PyTorch 2.3推出的革命性功能，通过即时编译（JIT）技术优化模型运行速度。它借助TorchDynamo提取计算图，并通过TorchInductor生成高度优化的CUDA内核，充分发挥GPU并行计算能力。支持默认、reduce-overhead和max-autotune三种模式，分别适用于不同性能需求场景。尽管在复杂模型或动态计算图中可能面临挑战，但通过调整参数或结合其他优化技术，仍可显著提升性能。这一工具极大简化了CUDA代码优化流程，为深度学习开发提供了强大支持。

# 并行计算 # PyTorch # 算法框架/工具 # 开发者 # 异构计算

技术员阿伟

|

7月前

|

博文

《突破极限：用Python量化技术将700B参数MoE模型塞进消费级显卡》

通过量化技术，700B参数的混合专家模型（MoE）可从2.8TB显存压缩至18GB，适配单张RTX 4090显卡运行。这一突破基于三重策略：移除无效参数、分层量化与显存优化。测试显示，量化后模型在Llama 3 MoE架构上保持高性能，显存占用显著降低，推理速度媲美云端A100集群，精度仅下降1.2%。未来方向包括1-bit量化、光追加速及生物启发压缩，推动消费级硬件运行万亿参数模型的可能性。

# 缓存 # 并行计算 # 算法 # 固态存储 # Python

Deephub

|

7月前

|

博文

|

来自：大数据与机器学习

CUDA重大更新：原生Python可直接编写高性能GPU程序

NVIDIA在2025年GTC大会上宣布CUDA并行计算平台正式支持原生Python编程，消除了Python开发者进入GPU加速领域的技术壁垒。这一突破通过重新设计CUDA开发模型，引入CUDA Core、cuPyNumeric、NVMath Python等核心组件，实现了Python与GPU加速的深度集成。开发者可直接用Python语法进行高性能并行计算，显著降低门槛，扩展CUDA生态，推动人工智能、科学计算等领域创新。此更新标志着CUDA向更包容的语言生态系统转型，未来还将支持Rust、Julia等语言。

# GPU云服务器 # 人工智能 # 并行计算 # 开发者 # 异构计算 # Python

技术员阿伟

|

7月前

|

博文

《打破枷锁：Python多线程GIL困境突围指南》

全局解释器锁（GIL）是CPython解释器中的一项机制，旨在简化内存管理，但同时也限制了多线程并行性能，尤其是在多核处理器上。本文深入剖析GIL的本质及其对CPU密集型任务的局限性，同时探讨突破GIL限制的有效策略，包括多进程编程、C扩展模块、异步编程以及第三方库的应用。通过合理选择这些方法，开发者可以在不同场景下优化Python程序性能，充分发挥硬件潜力，实现高效并发编程。

# 并行计算 # 数据处理 # 调度 # C语言 # Python

dasein58

|

7月前

|

博文

从多维度解构 Lead Time：定义、应用与优化策略

当我们谈论lead time时，往往会发现这个词在不同领域的定义存在细微差异。这种现象并非偶然，而是源于其本质的抽象性与适用场景的多样性。为了深入理解这一概念，我们需要从底层逻辑出发，通过跨领域的对比分析和实际案例验证，逐步揭示其核心内涵。

# 机器学习/深度学习 # 敏捷开发 # 供应链 # 并行计算 # 量子技术

阿里云新鲜事

|

7月前

|

博文

|

来自：通义大模型

NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署

阿里巴巴近期开源了通义千问Qwen3大语言模型（LLM），包含两款混合专家模型（MoE）235B-A22B与30B-A3B，以及六款稠密模型（Dense）从0.6B到32B不等。开发者可基于NVIDIA GPU使用TensorRT-LLM、Ollama、SGLang、vLLM等框架高效部署Qwen3系列模型，实现快速词元生成和生产级应用开发。

# 大模型服务平台百炼 # JSON # 缓存 # 并行计算 # 开发者 # 异构计算

Deephub

|

7月前

|

博文

|

来自：大数据与机器学习

在AMD GPU上部署AI大模型：从ROCm环境搭建到Ollama本地推理实战指南

本文详细介绍了在AMD硬件上构建大型语言模型（LLM）推理环境的全流程。以RX 7900XT为例，通过配置ROCm平台、部署Ollama及Open WebUI，实现高效本地化AI推理。尽管面临技术挑战，但凭借高性价比（如700欧元的RX 7900XT性能接近2200欧元的RTX 5090），AMD方案成为经济实用的选择。测试显示，不同规模模型的推理速度从9到74 tokens/秒不等，满足交互需求。随着ROCm不断完善，AMD生态将推动AI硬件多元化发展，为个人与小型组织提供低成本、低依赖的AI实践路径。

# GPU云服务器 # 人工智能 # 并行计算 # 监控 # Linux # 异构计算

aliyun4381607004

|

7月前

|

博文

|

来自：大数据与机器学习

阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试

# 人工智能平台 PAI # 缓存 # 并行计算 # 测试技术 # 对象存储 # Python

TsingtaoAI

|

7月前

|

博文

企业内训｜智能驾驶与智能座舱技术——某汽车厂商

本课程系统讲解智能汽车两大核心领域技术架构与实现路径。课程涵盖智能驾驶感知层（激光雷达/毫米波雷达/视觉融合）、决策规划（A*/RRT算法与端到端模型）及高精地图定位（SLAM与无图方案），解析智能座舱系统演化（IVI/AR-HUD多屏交互）及硬件软件架构（高通芯片选型/QNX/鸿蒙车机）。

# 人工智能 # 并行计算 # 算法 # 定位技术 # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

并行计算