异构计算

首页 标签 异构计算
# 异构计算 #
关注
20328内容
|
8小时前
|
白得 2 到 3 倍加速的投机采样机制解析:草稿模型和目标模型是怎么配合的
LLM自回归解码因内存带宽瓶颈而缓慢:每生成1个token均需重载全部权重(如70B模型达140GB)。投机采样通过小模型快速“猜”多token,大模型一次并行验证,接受率高时可获2–3倍无损加速。
|
8小时前
|
基于YOLO11的下水管道缺陷检测:从数据集准备到云上训练实践
本文介绍基于YOLO11的下水管道六类缺陷(变形、沉积、脱节、错口、障碍物、破裂)检测全流程:涵盖Label Studio标注、OSS云存储管理、数据集构建、云上GPU训练及模型评估。聚焦小样本(100图)、复杂背景下的工程实践,助力城市排水管网智能巡检。(239字)
|
15小时前
| |
来自: 云原生
场景驱动的技术选型—实时云渲染与远程桌面的对比结论
实时云渲染与远程桌面无绝对优劣,核心差异源于设计初衷、传输协议和资源调度逻辑。远程桌面适配二维办公,实时云渲染则满足三维交互、低延迟与高并发需求。技术选型应完全由具体场景驱动,不可混用。
|
15小时前
|
理解 Prefill Decode:AI 回答慢,慢在输入还是输出?
讲解大模型推理中的 Prefill 与 Decode 两个阶段,分析 AI 回答变慢的根源
|
15小时前
| |
来自: 物联网
指纹浏览器是怎么做到防浏览器指纹关联的:从Chromium源码到风控对抗的完整拆解
在关键基础设施的选择上,省钱往往是最贵的。一个不靠谱的指纹浏览器可能让你在不知不觉中损失几十上百个精心运营的账号。账号本身不值钱,值钱的是你花在上面的时间和积累的数据资产。选一款底层架构扎实、团队持续投入、社区反馈积极的产品,比计较每个月那几块钱的差价划算得多。至于是哪一款,每个人根据自己的业务场景和预算去判断就好。
|
16小时前
| |
阿里云AI产品和大模型最新活动参考:Qwen3.7-Max 5折起、Qwen3.7-Plus 8折起等活动内容简介
阿里云近期推出多项AI大模型限时优惠活动。通义千问旗舰模型Qwen3.7-Max限时5折,赠100万免费Tokens,配套全模型通用抵扣计划低至4.5折;文生视频模型HappyHorse限时6折,720P低至0.54元/秒。同时推出OPC创新助力计划,个人开发者使用达标后最高可获100万元Token补贴。百炼平台提供标准版(198元/月)、高级版(698元/月)、尊享版(1398元/月)三档Token订阅套餐,弹性GPU算力低至1折,覆盖电商营销、AI编程、短剧创作等场景,全方位降低AI应用成本。
|
18小时前
| |
来自: 云存储
指纹浏览器性能横评:100个窗口同时跑,谁的内存和延迟表现最好?
能不能开100个窗口不卡,跟浏览器进程管理架构、内核定制深度、内存回收策略直接相关。市面上能跑100个窗口的产品有好几款,但"开了不卡"和"开了能用"是两回事。
|
19小时前
|
MCP协议正在重塑AI应用的接入方式,但有一个场景被严重低估了
本文探讨MCP协议与多模态语音能力的深度结合,聚焦企业真实场景(如工厂、营业厅)中非结构化语音数据的工程落地难题:从嘈杂环境拾音、方言ASR识别,到语义理解与MCP接入闭环。
|
21小时前
| |
KV Cache优化实战:分层量化、动态淘汰、全局共享,攻克长上下文显存难题.157
KV Cache是大模型推理中缓存Transformer注意力机制K/V向量的关键技术,避免逐词生成时重复计算,提速10–100倍。但其显存随长度线性增长,制约长上下文应用。四大优化技术——量化压缩、动态淘汰、分层缓存、全局共享——协同解决显存爆炸问题,支撑10万+ Token高效推理。
免费试用