异构计算

首页 标签 异构计算
# 异构计算 #
关注
19114内容
开发者视角​ 深度解析 ​AppTrace​ 核心优势的技术报告
本文介绍了 AppTrace 的五大核心功能:性能监控、崩溃分析、网络优化、自动化兼容性测试及开发者体验增强。通过多维度性能监控架构,可实现代码级热点定位与线程竞争分析;崩溃分析支持 NDK 逆向符号化和跨语言堆栈融合;网络优化提供协议层可观测性,如弱网模拟与 HTTP/2 诊断;自动化测试能生成 Monkey 脚本并检测 GPU 渲染差异。这些功能使 AppTrace 成为开发者解决线上问题的全能工具。
|
3月前
|
基于FPGA的BPSK+帧同步系统verilog开发,包含testbench,高斯信道,误码统计,可设置SNR
本项目基于Vivado2019.2实现了一个完整的BPSK通信系统仿真,包括调制、解调、AWGN信道、误码统计及帧同步等功能模块。通过设置SNR(如15dB和7dB),展示了不同信噪比下的系统性能,并提供局部放大效果分析。理论部分详细介绍了BPSK信号的功率谱特性及其与2ASK的区别,同时阐述了帧同步的工作原理。Verilog核心程序实现了调制端、解调端以及误码计算等功能,为数字通信系统的理解和实践提供了全面参考。
|
3月前
|
【硬件测试】基于FPGA的2FSK+帧同步系统开发与硬件片内测试,包含高斯信道,误码统计,可设置SNR
本文基于FPGA实现2FSK+帧同步系统,采用Verilog开发,包含Testbench、高斯信道、误码统计及可设置SNR功能。硬件版本新增ILA在线数据采集与VIO在线SNR设置模块,验证调制解调过程。理论部分介绍FSK调制解调原理、功率谱特性及帧同步机制,代码实现FSK信号生成与处理,适合数字通信学习与实践。
|
3月前
|
《大模型背后的隐形战场:异构计算调度全解析》
在大模型训练中,CPU、GPU和AI芯片各司其职:CPU擅长逻辑控制,GPU专攻并行计算,AI芯片则针对特定AI任务优化。然而,实现三者的高效协同面临诸多挑战,如任务分配、通信延迟及资源管理等问题。通过动态任务分配、通信优化与资源调整等策略,可提升训练效率。未来,随着硬件进步和算法智能化,异构计算协同调度将更加高效,并结合云计算、边缘计算等技术拓展应用范围,推动人工智能技术发展。
|
4月前
|
《重新定义高效微调:QLoRA 4位量化的颠覆式创新解析》
QLoRA是一种高效的量化微调技术,通过4位NormalFloat量化、双重量化及分页优化器等创新手段,大幅降低大模型微调的内存与计算需求,同时保持甚至超越传统方法的性能。它能在单个48GB GPU上微调65B参数模型,并在多项基准测试中表现优异,如Guanaco模型在Vicuna测试中达到99.3%的ChatGPT水平。QLoRA为资源有限条件下的大模型应用与个性化定制开辟了新路径,推动AI技术在多领域的发展。
|
4月前
|
《算力觉醒!ONNX Runtime + DirectML如何点燃Windows ARM设备的AI引擎》
ONNX Runtime 是一个跨平台高性能推理引擎,可运行不同框架转为 ONNX 格式的模型,通过深度分析与优化计算图提升效率。在 Windows ARM 设备上,它针对硬件特性优化,结合微软 DirectML API,充分利用 GPU 并行计算能力加速 AI 推理。两者深度融合,灵活调整参数以满足实时性或高精度需求,在文本分类、图像识别、智能安防等领域显著提升性能,为多样化应用场景提供高效支持。
|
4月前
|
《 PyTorch 2.3革新:torch.compile自动生成CUDA优化内核全解》
torch.compile是PyTorch 2.3推出的革命性功能,通过即时编译(JIT)技术优化模型运行速度。它借助TorchDynamo提取计算图,并通过TorchInductor生成高度优化的CUDA内核,充分发挥GPU并行计算能力。支持默认、reduce-overhead和max-autotune三种模式,分别适用于不同性能需求场景。尽管在复杂模型或动态计算图中可能面临挑战,但通过调整参数或结合其他优化技术,仍可显著提升性能。这一工具极大简化了CUDA代码优化流程,为深度学习开发提供了强大支持。
论文分类打榜赛Baseline:ms-swift微调InternLM实践
书生大模型实战营第5期已正式启动,本期实战营新增「论文分类打榜赛」,以帮助学员更好地掌握大模型技能。
|
4月前
|
《记忆革命:Gemini 1.5如何让Transformer突破百万级上下文枷锁》
Gemini 1.5突破传统Transformer上下文限制,实现百万级token处理能力。通过“工作记忆”与“长期记忆”双层结构,结合语义压缩、记忆路由及解耦计算存储,大幅提升效率。它模拟人脑记忆机制,强化长文档理解、代码推理和跨模态关联能力,为AI认知范式带来革命性转变,开启结构化记忆与动态调控新方向。
MCP Server 之旅第 4 站: 长连接闲置计费最高降低87%成本的技术内幕
阿里云函数计算(FC)提供事件驱动的全托管计算服务,支持 MCP Server 场景优化。通过 [MCP Runtime](https://mp.weixin.qq.com/s/_DSMRovpr12kkiQUYDtAPA),实现 Stdio MCP Server 一键托管,并借助亲和性调度解决 Session 保持问题。针对 MCP Server 的稀疏调用特性,函数计算引入长连接闲置计费机制,在毫秒级计费基础上,显著降低资源闲置成本(最高可达87%)。用户可通过控制台或 API 开启该功能,Websocket 长请求场景亦默认支持。此方案有效提升资源利用率,为用户提供灵活、经济的计算服务。
免费试用