机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71284内容
|
21天前
|
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
|
22天前
|
批量发货处理接口技术解析
批量发货接口通过聚合订单提升效率,降低系统负载。支持千级订单并发处理,采用事务控制、异步校验与分页内存优化,保障高性能与数据一致性。结合207状态码返回明细结果,实现部分成功场景下的可靠交付。
|
22天前
| |
来自: 云原生
活动邀请丨2025 全球机器学习技术大会
阿里云高级技术专家周礼受邀于 10 月 17 日下午分享议题《Apache RocketMQ x AI:面向异步化 Agent 的事件驱动架构》。
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字
本文介绍如何在MacBook上使用苹果MLX框架高效微调Qwen3大模型。借助MLX的高性能计算与统一内存架构,仅需2分钟即可完成训练,内存占用低至2GB,推理速度达400 Token/s,并支持快速部署为本地API服务,展现Mac轻薄本的强大AI生产力潜力。
|
23天前
|
数字孪生赋能园区能源数字化:MyEMS 的孪生体建模逻辑与全周期管理实践​
MyEMS融合数字孪生技术,构建园区能源全周期管理闭环,实现能耗可视、故障预警、智能仿真与优化决策,助力智慧园区绿色低碳转型。
|
23天前
|
商品价格动态调整接口技术详解
本文详解电商商品价格动态调整接口设计,涵盖RESTful API规范、成本加成与需求弹性算法、Python代码实现及优化策略,结合真实场景,助力构建高效、可扩展的智能定价系统。
|
23天前
|
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
|
23天前
|
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
|
24天前
| |
来自: 云原生
【Azure APIM】自建网关(self-host gateway)收集请求的Header和Body内容到日志中的办法
在Azure API Management中,通过配置trace策略可完整记录API请求的Header和Body信息。在Inbound和Outbound策略中分别使用context.Request/Response.Headers和Body.As<string>方法捕获数据,并写入Trace日志,便于排查与审计。
免费试用