《高性能科学与工程计算》——1.7 习题

简介:

本节书摘来自华章计算机《高性能科学与工程计算》一书中的第1章,第1.7节,作者:(德)Georg Hager Gerhard Wellein 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.7 习题

1.1 除法的速度。写一段代码对下列函数积分:


ee2e0c98829bb94b7476be0c1c44bb2f77b5b6ac

x从0~1,结果应该是π的近似值。用一个简单的矩形积分就可以实现,即矩形宽为xi,步长Δx,高为f(xi),对面积累加:

<a href=https://yqfile.alicdn.com/11ffab67a981a59cd14a151369a5f6e148d4e87a.png" >

完成程序段,选择合适的Δx,判断结果是不是π的近似值,并计算性能,结果单位为MFlop/s。假设浮点除法不能被流水线运行,试估计延迟为多少时间周期。
1.2 数据依赖。在1.2.3节我们讨论了流水线,请看以下代码:

cf18f880067e10089a39551779cae7dde8ec23d9

s是一个非零的双精度浮点标量,ofs是一个正整数,A是一个长度为N的双精度数组。如果N足够小,能使数组A的元素在L1 cache中都能命中,对于不同的ofs,请预计循环的性能。
1.3 硬件预取。预取是一个有效利用内存接口的重要操作。x86设计的硬件预取通常一次取满整内存页数据。试说明这可能对程序性能产生的负面效应。
1.4 点积和预取。考虑双精度浮点数的点积操作:

<a href=https://yqfile.alicdn.com/25e3361b8572c5b691ce0f1ddcb946c54b36d54d.png" >

N非常大。CPU(时间周期为1ns)能在一个周期内做一次读取(或者存储),一次乘法和一次加法(假设循环计数和分支不产生时间消耗)。存储总线的传输速率为3.2GB/s。假设从存储读取一个cache行的延迟为100个CPU周期,一个cache行的长度为4个双精度浮点数。在以下情况下:
(a)如果没有指令预取,循环的性能怎样?
(b)假设CPU有预取的能力,为了使代码有效利用带宽(隐藏延迟),需要CPU能容忍预取多少条指令?
(c)如果cache行的长度变为以前的2倍、4倍,(b)中算出的数值会怎样变化?
(d)如果我们假设指令预取能隐藏所有的延迟,循环的性能怎样?
相关文章
|
11月前
|
人工智能 索引
Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒
Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。
601 19
Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒
|
人工智能 算法 安全
探索量子计算:从基础原理到未来应用
探索量子计算:从基础原理到未来应用
|
安全 网络安全 网络虚拟化
OCSP
OCSP
590 5
|
机器学习/深度学习 人工智能 自然语言处理
【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,涵盖AI系统的初步设计原则,并深入探讨了AI在计算机视觉、自然语言处理和音频处理三个领域的具体应用。同时,文中还介绍了AI在金融、医疗、教育、互联网及自动驾驶等行业中的广泛应用,强调了AI基础设施的重要性及其对企业竞争力的影响。通过阅读本文,读者不仅可以获得系统的AI知识,还能激发对AI系统研究的兴趣,掌握相关的设计原则与方法。
768 1
|
并行计算 算法 量子技术
量子计算进展:中国“九章三号”的里程碑意义
【9月更文挑战第26天】近年来,量子计算作为前沿科技的代表,正以前所未有的速度推进信息技术革命。中国科学技术大学团队成功构建了包含255个光子的量子计算原型机“九章三号”,标志着中国在量子计算领域取得重大进展,也为全球量子科技树立了新的里程碑。“九章三号”在光子数量、光子探测技术和处理速度等方面实现了重大突破,处理速度比上一代提升了100万倍。这一成果不仅巩固了中国在量子计算领域的国际领先地位,还为量子计算的实用化迈出了重要一步,进一步拓展了人类对量子世界的认知边界,提升了国家竞争力。这一成功标志着中国量子计算进入了一个崭新时代。
|
机器学习/深度学习 安全 算法
利用机器学习优化网络安全防御策略
【6月更文挑战第3天】随着网络攻击的日益猖獗,传统的安全防御机制已难以满足企业对数据保护的需求。本文探讨如何应用机器学习技术来预测和防御潜在的网络安全威胁,通过分析历史数据模式,自动调整安全策略,从而在不断变化的威胁环境中保持企业的网络安全。
|
人工智能
月之暗面获得中国AI公司最大单轮融资
【2月更文挑战第11天】月之暗面获得中国AI公司最大单轮融资
421 1
月之暗面获得中国AI公司最大单轮融资
|
机器学习/深度学习 自然语言处理 NoSQL
智能制造领域智能问答系统
中国积极推动智能制造发展,推出政策支持数字化、网络化和智能化转型。智能问答系统在这一领域扮演关键角色,协助解决复杂问题,提升生产效率。然而,系统需应对跨领域知识融合、精准问题理解和用户隐私保护等挑战。悦数图数据库为智能问答系统提供数据支撑,助力企业优化生产与管理。未来,随着技术进步,两者将在智能制造中发挥更大作用。
DC电源模块的引脚定义可以根据不同的模块而有所不同
DC电源模块的引脚定义可以根据不同的模块而有所不同
|
存储 编解码 容器
什么是 MKV 视频格式及其工作原理
对于希望创建、共享和享受多媒体内容的视频爱好者来说,MKV 视频格式是一种可靠且多功能的选择。 其兼容性、功能和质量使其成为休闲用户和行业专业人士的宝贵选择。
1490 0