redis是不是单线程,单线程是指什么?
通过redis-server redis-conf启动redis服务,启动后的redis-server是主线程,bio_close_file线程用来关闭大文件,redis是内存数据库,当我们需要将内存数据刷新到磁盘中,redis中有种方式是fork一个进程并在子进程中进行持久化,持久化工程中会产生rdb的文件,rdb文件中存储着内存中的数据,如果rdb是个大文件,就会涉及关闭大文件的问题;bio_aof_fsync也是刷盘线程,write把文件数据写到缓冲区,fsync把缓冲区的数据刷新到磁盘中,第一种aof也是一种持久化的方式,它是在进程当中直接进行刷盘,第二种aof是fork产生一个进程并在子进程中进行持久化;io_thd_*是开启的多个线程帮我们处理读写io的操作;jemalloc_bg_thd线程分配和管理内存及内存池;可以看到redis并不是单线程,我们说的单线程是指命令处理是单线程,所有数据结构的操作都是在单线程redis-server中处理的;
为什么redis要单线程处理命令?
单线程的局限是,不能有耗时操作,对于redis而言会影响响应性能;
io密集型,有磁盘io和网络io,磁盘io在fork的子进程中进行持久化,或aof异步刷盘;
网络io,有多个和redis建立的连接并且连接中发送了大量的数据,需要往redis中读大量数据,redis中记录日志,如果只有一个线程去处理就会有很大的负担成为耗时的操作;
cpu密集型,如果kv中的v数据结构非常大,处理不高效,就可能带来cpu密集;
不采用多线程的原因,一个是kv中的v数据结构较多,加锁复杂,锁的粒度不好控制,一个是频繁的上下文切换会抵消多线程的优势;
redis源码实现
在redis中通过宏定义区分字符串的编码方式;
散列表中会有很多的kv,不同的value可能是不同的类型,redisDB中dict是用于存储db中所有数据;expires说明key过期情况;blocking_keys说明阻塞连接;ready_keys说明key的变动情况;重点是dict数据结构;
所有的数据存储的ht[2]中,就是散列表的意思;
table是指针数组,size是数组的长度,因为数组长度必须是2^n,sizemask是数组长度减一,通过hash(key)&sizemaskZ优化,used说明实际存储的元素个数;
rehash的规律,经过rehash后,ht[0]中0位置的数据要么在ht[1]中0位置,要么在ht[1]中4位置;
redis中有个scan去遍历所有的kv确保不重复不遗漏,上面rehash可能因为正在进行扩容而出现重复;如果size是4的话,那么先遍历0,然后遍历2,再遍历1,最后遍历3;size等于8的时候则是树中第二层遍历规则;采用高位进位加法的遍历顺序,rehash后的槽位在遍历顺序上是相邻的;遍历目标是不重复,不遗漏;会出现一种重复的情况,在scan过程当中,发生两次缩容的时候,会发生数据重复;如果项目中用到scan命令,在server端自己去重;
redis中rehash源码
redis中的跳表
redis中io多线程相关函数与实现
redis中io多线程,redis.conf中说明了线程数为4,其中有一个为主线程;io thread本质上只开了三个线程;io多线程的总前提是要有多个并发连接,一条连接不会使用io多线程;
如果只有一条连接的情况下,stopThreadedIOIfNeeded会把多线程关闭掉;