【DVCon-US-2020】加速图像IP功耗分析的方法

简介: 【DVCon-US-2020】加速图像IP功耗分析的方法

论文题目


 Efficient Methods for Display Power Estimation and Visualization


 这是Intel工程师发表在DVCon2020上的论文,讨论了图形IP功耗分析的加速问题。

研究目的


 功耗在图形领域变得越来越重要,在硅前完成准确的平均功耗和峰值功耗尤为重要。在Intel内部,常用的功耗估计办法是跑仿真、根据RTL toggle计算功耗。


 常规的图像IP功耗估算流程如下:


   根据产品性能要求确认IP的工作负载,比如图像分辨率、视频帧率;


   用第1步的参数配置RTL,然后跑仿真,dump fsdb波形及saif文件;(👈这里卡脖子了)


   跑完后,功耗分析工具(PrimeTime PX等)吃fsdb/saif,吐出功耗分析报告。


 对于单帧图像而言,仿真时间几十个小时,采用这种功耗计算方法尚可接受。但对于UHD超高清或8K视频而言及多帧图像的情况,这种估算方法所需的仿真时间动辄十几天甚至几个月,工程师们分析完功耗后做些优化,重新分析又需要重新来一遍,这对项目schedule是很不友好的,是难以接受的。


得想办法加速仿真。




新方法


方法1 Emulation 跑仿真


 找个palladium或zebu等emulation平台来加速仿真,这个方法似乎并不新奇,大多公司都这么干的吧。下图是simulation和emulation跑仿真的flow。


baf8e13efc0e412cba825d7ea2108edc.png



图1 Power Estimation Flow in Simulation

7cc1b97c67df4caca931e36407344a14.png

图2 Power Estimation Flow in Emulation



方法2 SPLIT方法


 这个方法说来也简单,拿server资源换速度。原来跑一次仿真dump一个波形,现在是并行跑多个仿真,dump多个更小的波形,每个小波形开始dump的起始时间前后衔接,最后把多个波形合并到一块。图3、图4是本文提到的SPLIT方法及仿真过程。这个例子中以16ms分4份为例,每个波形dump 4ms,具体操作过程中可以拆分为更多更小的波形。


db924d8a557d4eff814509f5053508c9.png

图3 Split Run method

bfa182d6ea2f474c8f10a8eafe08c868.png


图4 Split Run Simulations


讨论


 emulation加速仿真的方法没得说,挺好。


 这个SPLIT的方法,不能用于随机仿真。非要随机的话,这些并行跑的case必须用相同的seed,生成完全一样的随机配置参数,跑相同的图。问题是,我以为的随机相同,真的相同吗?如非必要,不推荐采用这种方法。




目录
相关文章
|
3月前
|
运维 Linux API
OpenClaw免费多模型接入实战|阿里云/本地部署+统一推理服务配置+免费API方案+常见问题排查
2026年,OpenClaw(Clawdbot)作为主流AI智能体框架,其核心价值在于灵活对接各类大模型实现复杂任务执行。但在实际使用中,多模型接入面临接口分散、密钥管理繁琐、切换流程复杂、运维成本高的痛点。而统一推理服务的出现,通过聚合主流大模型接口、提供标准化调用方式,将多模型接入简化为“单密钥+改配置”的轻量操作,完美解决了这一难题。
658 1
|
12月前
|
人工智能 JSON 文字识别
AI新宠DocExt:纯本地文档抽取,开源免费还无依赖!你还在为OCR头疼吗?
DocExt 是一款开源、免费的本地文档结构化提取工具,无需依赖 OCR 或云端服务,通过视觉语言模型(VLM)实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署,提供直观的 Gradio Web 界面和灵活的 API 调用方式,适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测,具备零模板限制和多模型支持等优势,是处理敏感文件的理想选择。
3261 0
|
5月前
|
机器学习/深度学习 人工智能 缓存
构建AI智能体:九十二、智能协作的艺术:大模型上下文与Token优化指南
本文深入解析大模型上下文窗口与Token优化机制,阐明其作为协作“白板”的核心作用。通过精简提示、结构化输入、控制输出等策略,开发者可有效降低Token消耗,提升AI应用的效率与经济性。
1232 7
|
机器学习/深度学习 人工智能 自然语言处理
AI人工智能大模型的架构演进
随着深度学习的发展,AI大模型(Large Language Models, LLMs)在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进,包括从Transformer的提出到GPT、BERT、T5等模型的历史演变,并探讨这些模型的技术细节及其在现代人工智能中的核心作用。
1237 8
|
人工智能 机器人 开发工具
快速部署 Flowise 社区版
FlowiseAI 是一个开源的低代码开发工具,专为开发者构建定制的语言学习模型(LLM)应用而设计。 通过其拖放式界面,用户可以轻松创建和管理AI驱动的交互式应用,如聊天机器人和数据分析工具。 它基于LangChain框架,支持与多种AI模型和数据库集成,实现高度可定制化的流程自动化​。本文介绍通过计算巢快速部署Flowise社区版服务。
快速部署 Flowise 社区版
|
机器人 开发工具 计算机视觉
基于 docker 环境的 LET-VINS 复现
该文介绍了在Docker环境下实践LET-NET的步骤。从GitHub克隆LET-NET代码,使用Docker运行vins-mono环境。安装ncnn,配置代理,更新源,安装依赖并验证安装成功。在运行LET-NET时遇到opencv版本不兼容,指出怎么安装指定版本的 opencv。解决Docker容器中的显示问题,通过`xhost +`命令运行LET-NET。在ROS中构建VINS-Mono时,cv_bridge找不到的问题,通过安装cv_bridge,设置ROS环境和工作空间,以及解决ncnn的配置问题,最终成功运行VINS-Mono。还需要下载UMA-VI数据集并修改相关路径以运行演示。
|
数据可视化 API 调度
Pandas 2.2 中文官方教程和指南(十一·一)(1)
Pandas 2.2 中文官方教程和指南(十一·一)
293 1
|
机器学习/深度学习 数据采集 人工智能
探索软件测试中的AI辅助技术:未来趋势与挑战
【5月更文挑战第27天】 随着人工智能(AI)的迅速发展,其在软件测试领域的应用正逐步改变传统测试方法,提升测试效率和质量。本文将深入分析AI在软件测试中的应用现状,探讨其如何通过智能化的模式识别、预测分析和自适应学习机制优化测试流程。同时,文章还将讨论引入AI所面临的挑战,包括数据质量、模型泛化能力和解释性问题。最后,对未来AI辅助软件测试的潜在发展趋势进行展望。
|
Web App开发 JavaScript 前端开发
iframe调用父页面javascript函数的方法
1、iframe子页面调用 父页面js方法 子页面调用父页面函数只需要写上window.parent就可以了。比如调用a()函数,就写成: window.parent.a();   2、父页面调用iframe 子页面js方法 这个就稍微复杂一些,下面的方法支持ie和firefox浏览器: document.
4402 0
如何将Doris的COLLECT_LIST结果用在另一个查询的条件语句里
【4月更文挑战第21天】如何将Doris的COLLECT_LIST结果用在另一个查询的条件语句里
570 0