性能第二讲:性能优化-每个程序员都应该知道的数字

简介: 性能第二讲:性能优化-每个程序员都应该知道的数字

1、性能优化的重要性

  • 1)性能优化非常通用,几乎对于所有线上项目都可以适用,大家掌握了之后,立马可以到项目中实践起来。,应该不存在不需要性能优化的项目。
  • 2)性能优化大部分内容非常简单,几乎没有门槛,经验较浅的同学也很容易上手,同时性能优化也适用二八原则:掌握20%的内容,足以解决80%的问题。
  • 3)性能优化很容易拿到结果,稍微有经验点的同学应该知道,做需求最怕拿不到结果,性能优化就不一样了,都是很直白的数字。1小时的任务,优化成5分钟,性能提升就是十来倍,简单粗暴。

2、性能指标

来源于 Jeff Dean 在谷歌的内部一次分布式系统的演讲,英文标题为:Numbers Everyone Should Know。

这些数字与我们后续做性能优化息息相关,因此我将这部分内容放在第一篇,帮助大家建立基本的性能概念。

先来看 Jeff Dean 所说的数字是哪些:

注:1μs = 1000ns、1ms = 1000μs

操作 耗时/延迟 耗时*10亿
一级缓存读取(L1) 0.5ns 0.5s
分支错误预测 5ns 5s
二级缓存读取(L2) 7ns 7s
互斥锁的加锁解锁 25ns 25s
内存寻址 100ns 100s
Zippy压缩1KB数据 3000ns(3μs) 50min
在1Gbps网络上发送1KB数据 10,000ns(10μs) 2.8h
从SSD(1GB/s)随机读取4KB数据 150,000ns(150μs) 1.7days
从内存顺序读取1MB数据 250,000ns(250μs) 2.9days
数据包在同数据中心一个往返 500,000ns(500μs) 5.8days
从SSD(1GB/s)顺序读取1MB数据 1,000,000ns(1ms) 11.6days
磁盘寻道 10,000,000ns(10ms) 3.8months
从磁盘顺序读取1MB数据 20,000,000ns(20ms) 7.9months
数据包从美国到荷兰一个往返 150,000,000ns(150ms) 4.75years

这份数据的最初来源为 Peter Norvig 的文章:Teach Yourself Programming in Ten Years,地址:http://norvig.com/21-days.html

伯克利的 Colin Scott 根据这份数据,通过一定的算法,制作了一个可以根据时间的推移而变化的网站,地址为:https://colin-scott.github.io/personal_website/research/interactive_latency.html,源码中注释有详细解释计算逻辑,例如网络带宽是按每2年增加1倍,DRAM带宽按每3年增加一倍。

根据 Colin Scott 的图表来看,到2021年,网络带宽、内存、SSD、磁盘,都有数量级的提升,而 CPU 相关的一二级缓存变化不大,有兴趣的可以自己点进去看一看。

3、看这些数据的目的

首先,这些数据肯定不是完全准确的,受限于众多环境因素的影响,其实很难有所谓的准确数字。

我们看这些数据更多是了解每个操作的耗时量级,各个操作之间的数量级比率,从而对于我们工作中接触到的一些相关知识有初步的概念。

而我将这个数据放在性能优化系列文章的开篇,主要想先传达几个概念:

1)CPU非常非常快

  • CPU执行大部分简单指令只需要1个时钟周期,我用个人电脑测试时,CPU可以睿频到4.40GHz(见第2点的测试图),也就是说此时执行一个简单指令需要的时间大约是1/4.4ns,也就是0.23ns(纳秒)。
  • 这是什么概念了,举个简单的例子,即使是真空中传播的光,在0.23ns内也只能走不到7厘米。

2)内存很快了,但是相比CPU来说还是太慢了

  • CPU和内存之间的瓶颈通常称为冯·诺伊曼瓶颈。具体差别有多大了,我用自己的电脑做了个简单的测试。
  • CPU配置是 11th Gen Intel Core i5-11400F@2.60GHz,睿频4.40GHz,测试结果看也确实跑到了4.40GHz了,内存配置是 DDR4 3200MHz。
  • 测试结果如下图所示:

从上图看,内存的读取速度为41GB/s,感觉还是挺快的,但是L1 Cache为3TB/s,一比较,相差还是很大。

如果CPU按4.40GHz来算,执行一个简单指令需要的时间大约是0.23ns(纳秒),而内存的延迟是88.7ns,相当于CPU去内存里取一个字节,需要等待386个周期,可以看出,内存相较于CPU来说,确实太慢了。

这也是为什么引入了L1、L2、L3缓存的原因,不过这边我们不深入去研究这些东西,只是对CPU和内存的性能差距有个大概概念。

3)磁盘性能非常非常慢

  • 这个大家估计大家都知道,具体有多慢了,我这边在用自己的电脑做了个简单的测试。
  • 我电脑刚好有两块硬盘,一块256GB的SSD(固态硬盘),一块1T的HDD(机械硬盘)。
  • SSD测试结果如下图所示:

忽略队列(Q)和线程(T)的影响,顺序读(SEQ)的性能为1535.67MB/s,随机读(RND)的性能为49.61MB/s。

对比下上面内存的性能41GB/s,尽管是SSD,性能还是存在数量级的差距,另一个就是随机读的性能相比顺序读也是存在数量级的差距。

HDD测试结果如下图所示:

忽略队列(Q)和线程(T)的影响,顺序读(SEQ)的性能为183.49MB/s,随机读(RND)的性能为0.6MB/s。

对比下上面SSD的性能:顺序读1535.67比183.49,存在一个数量级的差距,随机读49.61比0.6,存在两个数量级的差距

而HDD顺序读和随机读的性能差距相比SSD就比较严重了,大概有300倍。简直惨不忍睹,不过相信现在的服务器应该基本都是SSD了。如果发现自己公司服务器的磁盘还是HDD,那就赶紧溜吧。

4)磁盘顺序I/O比随机读I/O快很多

  • 这个在上面的测试也看出来了,都是数量级上的差距,特别是在以前的HDD上。有不少技术就是利用了顺序I/O性能好的特点来提升性能,典型的有:kafka顺序写消息、Leveldb和RocksDB底层使用的LSM-Tree等。

5)网络传输也是比较耗时的,基本都是毫秒级别

  • 在开始的表格中可以看到,在同数据中心一个往返,需要0.5ms。
  • 如果是跨城市就更久了,这个相信也不难理解,毕竟信号要顺着网线爬,距离越远,当然所需时间就越久了。
  • 下图是上海到一些城市进行PING操作所需的时间,可以看到张家口已经需要30ms左右了,这也差不多就是北上的延迟。

这也是为什么我们在服务器的路由策略上通常会优先使用同机房优先、同中心优先的策略

这让我想到我之前碰到的一个问题,当时是一个新服务在测试,数据库基本没数据,测试场景也是很简单的增删改查,但是接口的性能就是很差,动不动就上百毫秒。

仔细看了调用链后,发现每次DB操作都需要30ms左右,看了下机房分布后,发现是应用服务器和数据库服务器跨城市了,一个在北京一个在上海,导致会有固定30ms左右的延迟。将两者换到同机房后,基本就是1ms了

4、总结

  • 本文着重介绍了业务开发在做性能优化需要掌握的一些核心概念,之所以放在最先介绍,是因为在做性能优化的过程中,发现绝大多数性能问题都是由于网络I/O和磁盘I/O引起的。对这些概念心中有数后,有利于我们更快的定位出性能瓶颈,从而更快的解决问题。

Action1:商品中心核心接口QPS数据如下

1、商品详情页(batchFindFullDetail):2000QPS

相关文章
|
5月前
|
消息中间件 缓存 NoSQL
如何做性能优化?
如何做性能优化?
|
3月前
|
存储 缓存 编译器
编程语言性能优化:黑盒法和数字处理的支持
【7月更文挑战第7天】该文主要讨论了编程中的性能优化技术,特别是针对哈希表查找中模运算的优化。性能优化在不同场合方式不一样,文章强调了分析器在定位性能问题中的重要性,并指出优化应基于对底层架构的理解。
53 3
编程语言性能优化:黑盒法和数字处理的支持
|
5月前
|
缓存 编译器 数据处理
【C/C++ 性能优化】循环展开在C++中的艺术:提升性能的策略与实践
【C/C++ 性能优化】循环展开在C++中的艺术:提升性能的策略与实践
539 0
|
4月前
|
存储 JSON 数据格式
如何提升写入效率?Schemaless 写入性能优化实践分享
TDengine 是一款时序数据库,其Schemaless模式适应物联网数据动态变化。通过分析火焰图,发现parser和insert操作是性能瓶颈。优化措施包括减少标签解析、排序和子表生成的重复执行,提前判断schema变更,改进数据插入方法,减少内存分配和拷贝。通过这些优化,如在3.0版本中,line协议性能提升了2.5倍,telnet提升2倍,json提升近5倍。使用工具如火焰图和perf进行性能分析,以识别和解决瓶颈,实现性能提升。
31 0
|
5月前
|
存储 算法 编译器
C++性能调优:从代码层面提升程序效率
本文探讨了C++程序性能调优的关键点:选择合适的数据结构和算法,例如用哈希表(如`std::unordered_map`)替换低效的数组或链表;减少不必要的内存分配和释放,利用智能指针和容器如`std::vector`自动管理内存;优化循环和条件语句,例如在循环外存储数组大小;利用编译器优化如`-O2`或`-O3`;以及使用性能分析工具如`gprof`、`callgrind`和`perf`识别并解决性能瓶颈。通过这些方法,可以有效提升C++程序的运行效率。
|
5月前
|
缓存 小程序 前端开发
小程序 如何做性能优化?
小程序 如何做性能优化?
|
前端开发
一次性能优化思考过程
最近业务上空闲了下来,也是把之前在开发时自身感受比较大的白屏时间放在了主线上去排查优化,这里记录一下笔者对于移动端vConsole脚本的引入问题全过程。
161 0
一次性能优化思考过程
|
Web App开发 存储 缓存
我工作中用到的性能优化全面指南(2)
使用WebGL进行3D渲染 WebGL是一种用于进行3D渲染的Web标准,它提供了底层的图形API,并且能够利用GPU进行加速,非常适合于进行复杂的3D渲染。
100 0
|
存储 缓存 JavaScript
我工作中用到的性能优化全面指南(1)
在Web开发中,Web的性能优化是一个重要的话题。无论是页面加载速度,用户体验,或者是程序运行效率,都与Web的性能优化息息相关。 最小化和压缩代码 在构建过程中,为了减少文件的大小和加载时间,通常会对JavaScript代码进行最小化和压缩处理。这包括移除不必要的空格、换行、注释,以及缩短变量和函数名。工具如UglifyJS和Terser等可以帮助我们完成这个任务。
64 0
|
缓存 网络协议 NoSQL
性能 - 浅谈性能优化办法
性能优化,反复被提起,想要做到性能优化,先要理解性能优化,知其然才知其所以然,所谓的高性能就是合理的运用服务器的硬件资源,主要是Cpu和内存,硬盘,用大量的测试和计算,合理的计算使用服务器的资源,提升响应速度,提高吞吐率,就是性能优化的知识点。
121 0