异构计算

首页 标签 异构计算
# 异构计算 #
关注
20328内容
苹果第三代基础模型解读:WWDC 2026 之后,开发者真正要看的几件事
2026 年 6 月 8 日,苹果发布了第三代基础模型,同步重新命名了 “Siri AI”。五个模型。最亮眼的是 200 亿参数稀疏端侧模型(AFM 3 Core Advanced),每个 prompt 只激活 1–4B 参数,背后用的是苹果研究院称为 Instruction-Following Pruning 的技术。另一条更安静、但对开发者更重要的消息:苹果最强的云端模型 AFM 3 Cloud Pro 跑在 Google Cloud 中的 NVIDIA GPU 上,并使用 Google Gemini 前沿模型的输出做精调。苹果坚持这模型是自家的;苹果高管也很小心地区分”使用 Gemini
|
22天前
| |
来自: 弹性计算
2026年阿里云618年中大促活动详细解读
本文将详细解读2026年阿里云618年中大促活动,包括活动时间、活动入口以及优惠活动,助力大家低成本上云!
|
22天前
|
手写 Triton Softmax Kernel:程序实例、块大小、mask 与指针算术
本文以Softmax为切入点,用通俗图解与手写Triton内核,揭开GPU编程黑箱:从块并行模型、片上计算融合,到内存带宽瓶颈与性能悬崖现象,带你真正理解AI算子在GPU上如何高效运行。
|
22天前
|
在 AMD ROCm DSW 上部署 Qwen3.6-27B-FP8:vLLM、MTP 解码加速与小并发压测
本文记录一次在 ModelScope DSW AMD GPU 实例上完成的 Qwen3.6-27B-FP8 推理实践。实验重点不是单纯证明模型可以启动,而是围绕 vLLM ROCm 服务、Qwen MTP 投机解码、near-8K 长上下文正确性验证、FP8 KV cache 和小并发 serving 压测,整理一套可复现、可复查、可继续扩展的 AMD GPU 大模型推理 baseline。
|
22天前
| |
来自: 弹性计算
2026年阿里云618活动攻略:时间、入口及优惠详解
本文将详细解读阿里云618活动攻略,包括活动时间、活动入口以及优惠活动,助力大家低成本上云!
|
22天前
| |
来自: 云原生
传统远程桌面协议的技术特征与性能瓶颈
传统远程桌面协议源于2D时代,侧重带宽节省,难以应对高负载图形场景。主要瓶颈包括:交互延迟高(80-150ms以上)、画质编码效率低(易模糊、块效应)、算力调度僵化(GPU资源分配粗放),无法满足云游戏、VR等实时交互需求。
图解入门Pytorch
什么是PyTorch?PyTorch 就像是深度学习的“工具箱”: 就像你做饭需要锅、铲子、刀和菜一样,做深度学习就需要工具。而 PyTorch 就是那个专门为做深度学习准备的“工具箱”。它提供了很多现成的工具和操作,让你做人工智能的研究或开发变得更简单、快捷。优点:能跑在 GPU 上,速度超级快: 训练深度学习模型很耗计算力,PyTorch 能自动使用你的显卡(GPU)来加速计算。如果你有 GPU,PyTorch 可以帮你大大提高训练速度,不需要你去做特别复杂的设置。自动求导帮你“自己学”
|
22天前
|
本地模型为什么能跑起来?从 llama.cpp 量化说起
大模型不再只存在于云端,也开始进入普通电脑。你打开 Ollama、LM Studio,或者直接用 llama.cpp,下载一个量化版本,就有机会在本地跑起一个还不错的大模型。
免费试用