2017-11-14 08:59:48
了解過(guò)兩者的同學(xué)有那么個(gè)大致的印象:
1、redis與memcached相比,比僅支持簡(jiǎn)單的key-value數(shù)據(jù)類(lèi)型,同時(shí)還提供list,set,zset,hash等數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ);
2、redis支持?jǐn)?shù)據(jù)的備份,即master-slave模式的數(shù)據(jù)備份;
3、redis支持?jǐn)?shù)據(jù)的持久化,可以將內(nèi)存中的數(shù)據(jù)保持在磁盤(pán)中,重啟的時(shí)候可以再次加載進(jìn)行使用等等。
這似乎看起來(lái)redis比memcached更加牛逼一些,那么事實(shí)上是不是這樣的呢?存在即合理,我們來(lái)根據(jù)幾個(gè)不同點(diǎn)來(lái)一一比較一下。
網(wǎng)絡(luò)IO模型
memcached是多線(xiàn)程,非阻塞IO復(fù)用的網(wǎng)絡(luò)模型,分為監(jiān)聽(tīng)主線(xiàn)程和worker子線(xiàn)程,監(jiān)聽(tīng)線(xiàn)程監(jiān)聽(tīng)網(wǎng)絡(luò)連接,接受請(qǐng)求后,將連接描述字pipe傳遞給worker線(xiàn)程,進(jìn)行讀寫(xiě)IO,網(wǎng)絡(luò)層使用libevent封裝的事件庫(kù),多線(xiàn)程模型可以發(fā)揮多核作用,但是引入了cache coherency和鎖的問(wèn)題,比如:memcached常用的stats命令,實(shí)際memcached所有操作都要對(duì)這個(gè)全局變量加鎖,進(jìn)行技術(shù)等工作,帶來(lái)了性能損耗。
redis使用單線(xiàn)程的IO復(fù)用模型,自己封裝了一個(gè)簡(jiǎn)單的AeEvent事件處理框架,主要實(shí)現(xiàn)了epoll, kqueue和select,對(duì)于單存只有IO操作來(lái)說(shuō),單線(xiàn)程可以將速度優(yōu)勢(shì)發(fā)揮到大,但是redis也提供了一些簡(jiǎn)單的計(jì)算功能,比如排序、聚合等,對(duì)于這些操作,單線(xiàn)程模型施加會(huì)嚴(yán)重影響整體吞吐量,CPU計(jì)算過(guò)程中,整個(gè)IO調(diào)度都是被阻塞的。
數(shù)據(jù)支持類(lèi)型
memcached使用key-value形式存儲(chǔ)和訪(fǎng)問(wèn)數(shù)據(jù),在內(nèi)存中維護(hù)一張巨大的HashTable,使得對(duì)數(shù)據(jù)查詢(xún)的時(shí)間復(fù)雜度降低到O(1),保證了對(duì)數(shù)據(jù)的高性能訪(fǎng)問(wèn)。
正如開(kāi)篇所說(shuō):redis與memcached相比,比僅支持簡(jiǎn)單的key-value數(shù)據(jù)類(lèi)型,同時(shí)還提供list,set,zset,hash等數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ);詳細(xì)可以翻閱《Redis內(nèi)存使用優(yōu)化與存儲(chǔ)》
內(nèi)存管理機(jī)制
對(duì)于像Redis和Memcached這種基于內(nèi)存的數(shù)據(jù)庫(kù)系統(tǒng)來(lái)說(shuō),內(nèi)存管理的效率高低是影響系統(tǒng)性能的關(guān)鍵因素。傳統(tǒng)C語(yǔ)言中的malloc/free函數(shù)是常用的分配和釋放內(nèi)存的方法,但是這種方法存在著很大的缺陷:首先,對(duì)于開(kāi)發(fā)人員來(lái)說(shuō)不匹配的malloc和free容易造成內(nèi)存泄露;其次頻繁調(diào)用會(huì)造成大量?jī)?nèi)存碎片無(wú)法回收重新利用,降低內(nèi)存利用率;后作為系統(tǒng)調(diào)用,其系統(tǒng)開(kāi)銷(xiāo)遠(yuǎn)遠(yuǎn)大于一般函數(shù)調(diào)用。所以,為了提高內(nèi)存的管理效率,高效的內(nèi)存管理方案都不會(huì)直接使用malloc/free調(diào)用。Redis和Memcached均使用了自身設(shè)計(jì)的內(nèi)存管理機(jī)制,但是實(shí)現(xiàn)方法存在很大的差異,下面將會(huì)對(duì)兩者的內(nèi)存管理機(jī)制分別進(jìn)行介紹。
Memcached默認(rèn)使用Slab Allocation機(jī)制管理內(nèi)存,其主要思想是按照預(yù)先規(guī)定的大小,將分配的內(nèi)存分割成特定長(zhǎng)度的塊以存儲(chǔ)相應(yīng)長(zhǎng)度的key-value數(shù)據(jù)記錄,以完全解決內(nèi)存碎片問(wèn)題。Slab Allocation機(jī)制只為存儲(chǔ)外部數(shù)據(jù)而設(shè)計(jì),也就是說(shuō)所有的key-value數(shù)據(jù)都存儲(chǔ)在Slab Allocation系統(tǒng)里,而Memcached的其它內(nèi)存請(qǐng)求則通過(guò)普通的malloc/free來(lái)申請(qǐng),因?yàn)檫@些請(qǐng)求的數(shù)量和頻率決定了它們不會(huì)對(duì)整個(gè)系統(tǒng)的性能造成影響Slab Allocation的原理相當(dāng)簡(jiǎn)單。 如圖所示,它首先從操作系統(tǒng)申請(qǐng)一大塊內(nèi)存,并將其分割成各種尺寸的塊Chunk,并把尺寸相同的塊分成組Slab Class。其中,Chunk就是用來(lái)存儲(chǔ)key-value數(shù)據(jù)的小單位。每個(gè)Slab Class的大小,可以在Memcached啟動(dòng)的時(shí)候通過(guò)制定Growth Factor來(lái)控制。假定圖中Growth Factor的取值為1.25,如果先進(jìn)組Chunk的大小為88個(gè)字節(jié),第二組Chunk的大小就為112個(gè)字節(jié),依此類(lèi)推。
當(dāng)Memcached接收到客戶(hù)端發(fā)送過(guò)來(lái)的數(shù)據(jù)時(shí)首先會(huì)根據(jù)收到數(shù)據(jù)的大小選擇一個(gè)合適的Slab Class,然后通過(guò)查詢(xún)Memcached保存著的該Slab Class內(nèi)空閑Chunk的列表就可以找到一個(gè)可用于存儲(chǔ)數(shù)據(jù)的Chunk。當(dāng)一條數(shù)據(jù)庫(kù)過(guò)期或者丟棄時(shí),該記錄所占用的Chunk就可以回收,重新添加到空閑列表中。從以上過(guò)程我們可以看出Memcached的內(nèi)存管理制效率高,而且不會(huì)造成內(nèi)存碎片,但是它大的缺點(diǎn)就是會(huì)導(dǎo)致空間浪費(fèi)。因?yàn)槊總€(gè)Chunk都分配了特定長(zhǎng)度的內(nèi)存空間,所以變長(zhǎng)數(shù)據(jù)無(wú)法充分利用這些空間。如圖 所示,將100個(gè)字節(jié)的數(shù)據(jù)緩存到128個(gè)字節(jié)的Chunk中,剩余的28個(gè)字節(jié)就浪費(fèi)掉了。
Redis的內(nèi)存管理主要通過(guò)源碼中zmalloc.h和zmalloc.c兩個(gè)文件來(lái)實(shí)現(xiàn)的。Redis為了方便內(nèi)存的管理,在分配一塊內(nèi)存之后,會(huì)將這塊內(nèi)存的大小存入內(nèi)存塊的頭部。如圖所示,real_ptr是redis調(diào)用malloc后返回的指針。redis將內(nèi)存塊的大小size存入頭部,size所占據(jù)的內(nèi)存大小是已知的,為size_t類(lèi)型的長(zhǎng)度,然后返回ret_ptr。當(dāng)需要釋放內(nèi)存的時(shí)候,ret_ptr被傳給內(nèi)存管理程序。通過(guò)ret_ptr,程序可以很容易的算出real_ptr的值,然后將real_ptr傳給free釋放內(nèi)存。
Redis通過(guò)定義一個(gè)數(shù)組來(lái)記錄所有的內(nèi)存分配情況,這個(gè)數(shù)組的長(zhǎng)度為ZMALLOC_MAX_ALLOC_STAT。數(shù)組的每一個(gè)元素代表當(dāng)前程序所分配的內(nèi)存塊的個(gè)數(shù),且內(nèi)存塊的大小為該元素的下標(biāo)。在源碼中,這個(gè)數(shù)組為zmalloc_allocations。zmalloc_allocations[16]代表已經(jīng)分配的長(zhǎng)度為16bytes的內(nèi)存塊的個(gè)數(shù)。zmalloc.c中有一個(gè)靜態(tài)變量used_memory用來(lái)記錄當(dāng)前分配的內(nèi)存總大小。所以,總的來(lái)看,Redis采用的是包裝的mallc/free,相較于Memcached的內(nèi)存管理方法來(lái)說(shuō),要簡(jiǎn)單很多。
在Redis中,并不是所有的數(shù)據(jù)都一直存儲(chǔ)在內(nèi)存中的。這是和Memcached相比一個(gè)大的區(qū)別。當(dāng)物理內(nèi)存用完時(shí),Redis可以將一些很久沒(méi)用到的value交換到磁盤(pán)。Redis只會(huì)緩存所有的key的信息,如果Redis發(fā)現(xiàn)內(nèi)存的使用量超過(guò)了某一個(gè)閥值,將觸發(fā)swap的操作,Redis根據(jù)“swappability = age*log(size_in_memory)”計(jì)算出哪些key對(duì)應(yīng)的value需要swap到磁盤(pán)。然后再將這些key對(duì)應(yīng)的value持久化到磁盤(pán)中,同時(shí)在內(nèi)存中清除。這種特性使得Redis可以保持超過(guò)其機(jī)器本身內(nèi)存大小的數(shù)據(jù)。當(dāng)然,機(jī)器本身的內(nèi)存必須要能夠保持所有的key,畢竟這些數(shù)據(jù)是不會(huì)進(jìn)行swap操作的。同時(shí)由于Redis將內(nèi)存中的數(shù)據(jù)swap到磁盤(pán)中的時(shí)候,提供服務(wù)的主線(xiàn)程和進(jìn)行swap操作的子線(xiàn)程會(huì)共享這部分內(nèi)存,所以如果更新需要swap的數(shù)據(jù),Redis將阻塞這個(gè)操作,直到子線(xiàn)程完成swap操作后才可以進(jìn)行修改。當(dāng)從Redis中讀取數(shù)據(jù)的時(shí)候,如果讀取的key對(duì)應(yīng)的value不在內(nèi)存中,那么Redis就需要從swap文件中加載相應(yīng)數(shù)據(jù),然后再返回給請(qǐng)求方。 這里就存在一個(gè)I/O線(xiàn)程池的問(wèn)題。在默認(rèn)的情況下,Redis會(huì)出現(xiàn)阻塞,即完成所有的swap文件加載后才會(huì)相應(yīng)。這種策略在客戶(hù)端的數(shù)量較小,進(jìn)行批量操作的時(shí)候比較合適。但是如果將Redis應(yīng)用在一個(gè)大型的網(wǎng)站應(yīng)用程序中,這顯然是無(wú)法滿(mǎn)足大并發(fā)的情況的。所以Redis運(yùn)行我們?cè)O(shè)置I/O線(xiàn)程池的大小,對(duì)需要從swap文件中加載相應(yīng)數(shù)據(jù)的讀取請(qǐng)求進(jìn)行并發(fā)操作,減少阻塞的時(shí)間。
Memcached使用預(yù)分配的內(nèi)存池的方式,使用slab和大小不同的chunk來(lái)管理內(nèi)存,Item根據(jù)大小選擇合適的chunk存儲(chǔ),內(nèi)存池的方式可以省去申請(qǐng)/釋放內(nèi)存的開(kāi)銷(xiāo),并且能減小內(nèi)存碎片產(chǎn)生,但這種方式也會(huì)帶來(lái)一定程度上的空間浪費(fèi),并且在內(nèi)存仍然有很大空間時(shí),新的數(shù)據(jù)也可能會(huì)被剔除。
Redis使用現(xiàn)場(chǎng)申請(qǐng)內(nèi)存的方式來(lái)存儲(chǔ)數(shù)據(jù),并且很少使用free-list等方式來(lái)優(yōu)化內(nèi)存分配,會(huì)在一定程度上存在內(nèi)存碎片,Redis跟據(jù)存儲(chǔ)命令參數(shù),會(huì)把帶過(guò)期時(shí)間的數(shù)據(jù)單獨(dú)存放在一起,并把它們稱(chēng)為臨時(shí)數(shù)據(jù),非臨時(shí)數(shù)據(jù)是永遠(yuǎn)不會(huì)被剔除的,即便物理內(nèi)存不夠,導(dǎo)致swap也不會(huì)剔除任何非臨時(shí)數(shù)據(jù)(但會(huì)嘗試剔除部分臨時(shí)數(shù)據(jù)),這點(diǎn)上Redis更適合作為存儲(chǔ)而不是cache。
數(shù)據(jù)存儲(chǔ)及持久化
memcached不支持內(nèi)存數(shù)據(jù)的持久化操作,所有的數(shù)據(jù)都以in-memory的形式存儲(chǔ)。
redis支持持久化操作。redis提供了兩種不同的持久化方法來(lái)講數(shù)據(jù)存儲(chǔ)到硬盤(pán)里面,一種是快照(snapshotting),它可以將存在于某一時(shí)刻的所有數(shù)據(jù)都寫(xiě)入硬盤(pán)里面。另一種方法叫只追加文件(append-only file, AOF),它會(huì)在執(zhí)行寫(xiě)命令時(shí),將被執(zhí)行的寫(xiě)命令復(fù)制到硬盤(pán)里面。
數(shù)據(jù)一致性問(wèn)題
Memcached提供了cas命令,可以保證多個(gè)并發(fā)訪(fǎng)問(wèn)操作同一份數(shù)據(jù)的一致性問(wèn)題。 Redis沒(méi)有提供cas 命令,并不能保證這點(diǎn),不過(guò)Redis提供了事務(wù)的功能,可以保證一串 命令的原子性,中間不會(huì)被任何操作打斷。
集群管理不同
Memcached是全內(nèi)存的數(shù)據(jù)緩沖系統(tǒng),Redis雖然支持?jǐn)?shù)據(jù)的持久化,但是全內(nèi)存畢竟才是其高性能的本質(zhì)。作為基于內(nèi)存的存儲(chǔ)系統(tǒng)來(lái)說(shuō),機(jī)器物理內(nèi)存的大小就是系統(tǒng)能夠容納的大數(shù)據(jù)量。如果需要處理的數(shù)據(jù)量超過(guò)了單臺(tái)機(jī)器的物理內(nèi)存大小,就需要構(gòu)建分布式集群來(lái)擴(kuò)展存儲(chǔ)能力。
Memcached本身并不支持分布式,因此只能在客戶(hù)端通過(guò)像一致性哈希這樣的分布式算法來(lái)實(shí)現(xiàn)Memcached的分布式存儲(chǔ)。下圖給出了Memcached的分布式存儲(chǔ)實(shí)現(xiàn)架構(gòu)。當(dāng)客戶(hù)端向Memcached集群發(fā)送數(shù)據(jù)之前,首先會(huì)通過(guò)內(nèi)置的分布式算法計(jì)算出該條數(shù)據(jù)的目標(biāo)節(jié)點(diǎn),然后數(shù)據(jù)會(huì)直接發(fā)送到該節(jié)點(diǎn)上存儲(chǔ)。但客戶(hù)端查詢(xún)數(shù)據(jù)時(shí),同樣要計(jì)算出查詢(xún)數(shù)據(jù)所在的節(jié)點(diǎn),然后直接向該節(jié)點(diǎn)發(fā)送查詢(xún)請(qǐng)求以獲取數(shù)據(jù)。
相較于Memcached只能采用客戶(hù)端實(shí)現(xiàn)分布式存儲(chǔ),Redis更偏向于在服務(wù)器端構(gòu)建分布式存儲(chǔ)。新版本的Redis已經(jīng)支持了分布式存儲(chǔ)功能。Redis Cluster是一個(gè)實(shí)現(xiàn)了分布式且允許單點(diǎn)故障的Redis高級(jí)版本,它沒(méi)有中心節(jié)點(diǎn),具有線(xiàn)性可伸縮的功能。Redis Cluster的分布式存儲(chǔ)架構(gòu),節(jié)點(diǎn)與節(jié)點(diǎn)之間通過(guò)二進(jìn)制協(xié)議進(jìn)行通信,節(jié)點(diǎn)與客戶(hù)端之間通過(guò)ascii協(xié)議進(jìn)行通信。在數(shù)據(jù)的放置策略上,Redis Cluster將整個(gè)key的數(shù)值域分成4096個(gè)哈希槽,每個(gè)節(jié)點(diǎn)上可以存儲(chǔ)一個(gè)或多個(gè)哈希槽,也就是說(shuō)當(dāng)前Redis Cluster支持的大節(jié)點(diǎn)數(shù)就是4096。Redis Cluster使用的分布式算法也很簡(jiǎn)單:crc16( key ) % HASH_SLOTS_NUMBER。
為了保證單點(diǎn)故障下的數(shù)據(jù)可用性,Redis Cluster引入了Master節(jié)點(diǎn)和Slave節(jié)點(diǎn)。在Redis Cluster中,每個(gè)Master節(jié)點(diǎn)都會(huì)有對(duì)應(yīng)的兩個(gè)用于冗余的Slave節(jié)點(diǎn)。這樣在整個(gè)集群中,任意兩個(gè)節(jié)點(diǎn)的宕機(jī)都不會(huì)導(dǎo)致數(shù)據(jù)的不可用。當(dāng)Master節(jié)點(diǎn)退出后,集群會(huì)自動(dòng)選擇一個(gè)Slave節(jié)點(diǎn)成為新的Master節(jié)點(diǎn)。