异构计算

首页 标签 异构计算
# 异构计算 #
关注
20055内容
|
5天前
|
视频智能分析算法稳定性实践:技术选型与工程化思路
本文聚焦视频智能分析算法的工程化稳定性,涵盖环境鲁棒性、7×24小时可靠运行、告警一致性、多协议兼容及弱网/离线能力五大核心指标;对比YOLO、轻量CNN、Transformer等架构特性,提出轻量化、前后处理增强、服务守护、场景自适应等实用优化方案,助力安防、工业、电力等场景长期稳定落地。
|
5天前
| |
大模型应用:多模态图文精准识别:基于本地化OCR模型应用实践.78
Qwen2-VL-OCR-2B是仅2B参数的轻量多模态OCR智能体,深度融合视觉感知与语言理解,可精准识别倾斜文字、复杂排版及多语言混合内容。支持CPU/GPU自动适配、指令式调用与全格式图片,本地部署安全高效,适用于文档、合同、海报等场景。
|
6天前
| |
来自: 云原生
替换一个节点,让 ComfyUI 瞬间起飞
FunArt是阿里云函数计算推出的ComfyUI一键托管平台,现集成全新DiT推理引擎VisionPlaid。该引擎序列并行加速,支持Int4/NVFP4量化与SageAttention,单卡最高提速2倍、双卡达2.5倍,兼顾极致性能与原生兼容性,真正实现开箱即用的高效AI生成体验。
|
6天前
|
本地跑 Gemma 4 替代 Claude Code?M4 Max 实测告诉你为什么行不通
谷歌 Gemma 4 本地部署对接 Claude Code 的完整踩坑实录���性能分析,M4 Max 128GB 实测数据揭示云端大模型与本地推理的真实差距。
直播预告: AI 服务器 GPU RAS 增强关键技术 | 龙蜥大讲堂
本周三,介绍如何从操作系统着手增强 AI 服务器 GPU RAS 能力。
|
6天前
| |
大模型应用:大模型多线程推理:并发请求的处理与资源隔离实践.77
本文详解大模型多线程推理与资源隔离技术:通过共享模型、隔离缓存、限制线程数/生成长度/超时时间,实现高并发、低延迟、稳服务。单线程串行耗时85.7秒,多线程(3线程)降至66.5秒,显著提升吞吐量与资源利用率,是大模型规模化落地的核心工程实践。
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
阿里云AI产品免费试用:超7000万大模型tokens免费体验,零成本构建AI应用
阿里云推出AI产品免费试用活动,提供30余款AI产品及7000万大模型tokens免费体验,涵盖百炼平台、PAI人工智能平台、GPU云服务器、自然语言处理、视觉智能等产品,用户可零成本构建AI应用。活动支持全能力AI Agent开发、一键部署大模型、灵活配置GPU卡型、智能构建文本应用及视觉AI应用,满足企业及开发者在模型开发、训练、推理及多场景适配中的需求,助力AI技术高效落地与业务创新。
为什么使用 TorchRec 训练和推理更快
本文结合TorchEasyRec实践,从四大维度解析推荐系统加速:1)KeyedJaggedTensor统一变长特征,实现Embedding批量融合查找;2)自动分布式分片突破单卡显存瓶颈;3)TrainPipelineSparseDist流水线并行,重叠通信与计算;4)fbgemm-gpu融合优化器,减少显存访问。端到端提升训练效率与扩展性。
免费试用