基于單Redis節(jié)點(diǎn)的分布式鎖
組件依賴
首先我們要通過(guò)Maven引入Jedis開(kāi)源組件,在pom.xml文件加入下面的代碼:
<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
<version>2.9.0</version>
</dependency>
加鎖代碼
正確姿勢(shì)
Talk is cheap, show me the code。先展示代碼,再帶大家慢慢解釋為什么這樣實(shí)現(xiàn):
public class RedisTool {
private static final String LOCK_SUCCESS = "OK";
private static final String SET_IF_NOT_EXIST = "NX";
private static final String SET_WITH_EXPIRE_TIME = "PX";
/**
* 嘗試獲取分布式鎖
* @param jedis Redis客戶端
* @param lockKey 鎖
* @param requestId 請(qǐng)求標(biāo)識(shí)
* @param expireTime 超期時(shí)間
* @return 是否獲取成功
*/
public static boolean tryGetDistributedLock(Jedis jedis, String lockKey, String requestId, int expireTime) {
String result = jedis.set(lockKey, requestId, SET_IF_NOT_EXIST, SET_WITH_EXPIRE_TIME, expireTime);
if (LOCK_SUCCESS.equals(result)) {
return true;
}
return false;
}
}
可以看到,我們加鎖就一行代碼:jedis.set(String key, String value, String nxxx, String expx, int time),這個(gè)set()方法一共有五個(gè)形參:
- 第一個(gè)為key,我們使用key來(lái)當(dāng)鎖,因?yàn)閗ey是唯一的。
- 第二個(gè)為value,我們傳的是requestId,很多童鞋可能不明白,有key作為鎖不就夠了嗎,為什么還要用到value?原因就是我們?cè)谏厦嬷v到可靠性時(shí),分布式鎖要滿足第四個(gè)條件解鈴還須系鈴人,通過(guò)給value賦值為requestId,我們就知道這把鎖是哪個(gè)請(qǐng)求加的了,在解鎖的時(shí)候就可以有依據(jù)。requestId可以使用UUID.randomUUID().toString()方法生成。
- 第三個(gè)為nxxx,這個(gè)參數(shù)我們填的是NX,意思是SET IF NOT EXIST,即當(dāng)key不存在時(shí),我們進(jìn)行set操作;若key已經(jīng)存在,則不做任何操作;
- 第四個(gè)為expx,這個(gè)參數(shù)我們傳的是PX,意思是我們要給這個(gè)key加一個(gè)過(guò)期的設(shè)置,具體時(shí)間由第五個(gè)參數(shù)決定。
- 第五個(gè)為time,與第四個(gè)參數(shù)相呼應(yīng),代表key的過(guò)期時(shí)間。
總的來(lái)說(shuō),執(zhí)行上面的set()方法就只會(huì)導(dǎo)致兩種結(jié)果:1. 當(dāng)前沒(méi)有鎖(key不存在),那么就進(jìn)行加鎖操作,并對(duì)鎖設(shè)置個(gè)有效期,同時(shí)value表示加鎖的客戶端。2. 已有鎖存在,不做任何操作。
心細(xì)的童鞋就會(huì)發(fā)現(xiàn)了,我們的加鎖代碼滿足我們可靠性里描述的三個(gè)條件。首先,set()加入了NX參數(shù),可以保證如果已有key存在,則函數(shù)不會(huì)調(diào)用成功,也就是只有一個(gè)客戶端能持有鎖,滿足互斥性。其次,由于我們對(duì)鎖設(shè)置了過(guò)期時(shí)間,即使鎖的持有者后續(xù)發(fā)生崩潰而沒(méi)有解鎖,鎖也會(huì)因?yàn)榈搅诉^(guò)期時(shí)間而自動(dòng)解鎖(即key被刪除),不會(huì)發(fā)生死鎖。最后,因?yàn)槲覀儗alue賦值為requestId,代表加鎖的客戶端請(qǐng)求標(biāo)識(shí),那么在客戶端在解鎖的時(shí)候就可以進(jìn)行校驗(yàn)是否是同一個(gè)客戶端。由于我們只考慮Redis單機(jī)部署的場(chǎng)景,所以容錯(cuò)性我們暫不考慮。
錯(cuò)誤示例1
比較常見(jiàn)的錯(cuò)誤示例就是使用jedis.setnx()和jedis.expire()組合實(shí)現(xiàn)加鎖,代碼如下:
public static void wrongGetLock1(Jedis jedis, String lockKey, String requestId, int expireTime) {
Long result = jedis.setnx(lockKey, requestId);
if (result == 1) {
// 若在這里程序突然崩潰,則無(wú)法設(shè)置過(guò)期時(shí)間,將發(fā)生死鎖
jedis.expire(lockKey, expireTime);
}
}
setnx()方法作用就是SET IF NOT EXIST,expire()方法就是給鎖加一個(gè)過(guò)期時(shí)間。乍一看好像和前面的set()方法結(jié)果一樣,然而由于這是兩條Redis命令,不具有原子性,如果程序在執(zhí)行完setnx()之后突然崩潰,導(dǎo)致鎖沒(méi)有設(shè)置過(guò)期時(shí)間。那么將會(huì)發(fā)生死鎖。網(wǎng)上之所以有人這樣實(shí)現(xiàn),是因?yàn)榈桶姹镜膉edis并不支持多參數(shù)的set()方法。
錯(cuò)誤示例2
public static boolean wrongGetLock2(Jedis jedis, String lockKey, int expireTime) {
long expires = System.currentTimeMillis() + expireTime;
String expiresStr = String.valueOf(expires);
// 如果當(dāng)前鎖不存在,返回加鎖成功
if (jedis.setnx(lockKey, expiresStr) == 1) {
return true;
}
// 如果鎖存在,獲取鎖的過(guò)期時(shí)間
String currentValueStr = jedis.get(lockKey);
if (currentValueStr != null && Long.parseLong(currentValueStr) < System.currentTimeMillis()) {
// 鎖已過(guò)期,獲取上一個(gè)鎖的過(guò)期時(shí)間,并設(shè)置現(xiàn)在鎖的過(guò)期時(shí)間
String oldValueStr = jedis.getSet(lockKey, expiresStr);
if (oldValueStr != null && oldValueStr.equals(currentValueStr)) {
// 考慮多線程并發(fā)的情況,只有一個(gè)線程的設(shè)置值和當(dāng)前值相同,它才有權(quán)利加鎖
return true;
}
}
// 其他情況,一律返回加鎖失敗
return false;
}
這一種錯(cuò)誤示例就比較難以發(fā)現(xiàn)問(wèn)題,而且實(shí)現(xiàn)也比較復(fù)雜。實(shí)現(xiàn)思路:使用jedis.setnx()命令實(shí)現(xiàn)加鎖,其中key是鎖,value是鎖的過(guò)期時(shí)間。執(zhí)行過(guò)程:1. 通過(guò)setnx()方法嘗試加鎖,如果當(dāng)前鎖不存在,返回加鎖成功。2. 如果鎖已經(jīng)存在則獲取鎖的過(guò)期時(shí)間,和當(dāng)前時(shí)間比較,如果鎖已經(jīng)過(guò)期,則設(shè)置新的過(guò)期時(shí)間,返回加鎖成功。代碼如下:
那么這段代碼問(wèn)題在哪里?1. 由于是客戶端自己生成過(guò)期時(shí)間,所以需要強(qiáng)制要求分布式下每個(gè)客戶端的時(shí)間必須同步。 2. 當(dāng)鎖過(guò)期的時(shí)候,如果多個(gè)客戶端同時(shí)執(zhí)行jedis.getSet()方法,那么雖然最終只有一個(gè)客戶端可以加鎖,但是這個(gè)客戶端的鎖的過(guò)期時(shí)間可能被其他客戶端覆蓋。3. 鎖不具備擁有者標(biāo)識(shí),即任何客戶端都可以解鎖。
解鎖代碼
正確姿勢(shì)
還是先展示代碼,再帶大家慢慢解釋為什么這樣實(shí)現(xiàn):
public class RedisTool {
private static final Long RELEASE_SUCCESS = 1L;
/**
* 釋放分布式鎖
* @param jedis Redis客戶端
* @param lockKey 鎖
* @param requestId 請(qǐng)求標(biāo)識(shí)
* @return 是否釋放成功
*/
public static boolean releaseDistributedLock(Jedis jedis, String lockKey, String requestId) {
String script = "if redis.call('get', KEYS[1]) == ARGV[1] then return redis.call('del', KEYS[1]) else return 0 end";
Object result = jedis.eval(script, Collections.singletonList(lockKey), Collections.singletonList(requestId));
if (RELEASE_SUCCESS.equals(result)) {
return true;
}
return false;
}
}
可以看到,我們解鎖只需要兩行代碼就搞定了!第一行代碼,我們寫(xiě)了一個(gè)簡(jiǎn)單的Lua腳本代碼,上一次見(jiàn)到這個(gè)編程語(yǔ)言還是在《黑客與畫(huà)家》里,沒(méi)想到這次居然用上了。第二行代碼,我們將Lua代碼傳到j(luò)edis.eval()方法里,并使參數(shù)KEYS[1]賦值為lockKey,ARGV[1]賦值為requestId。eval()方法是將Lua代碼交給Redis服務(wù)端執(zhí)行。
那么這段Lua代碼的功能是什么呢?其實(shí)很簡(jiǎn)單,首先獲取鎖對(duì)應(yīng)的value值,檢查是否與requestId相等,如果相等則刪除鎖(解鎖)。那么為什么要使用Lua語(yǔ)言來(lái)實(shí)現(xiàn)呢?因?yàn)橐_保上述操作是原子性的。關(guān)于非原子性會(huì)帶來(lái)什么問(wèn)題,可以閱讀【解鎖代碼-錯(cuò)誤示例2】 。那么為什么執(zhí)行eval()方法可以確保原子性,源于Redis的特性,下面是官網(wǎng)對(duì)eval命令的部分解釋:
簡(jiǎn)單來(lái)說(shuō),就是在eval命令執(zhí)行Lua代碼的時(shí)候,Lua代碼將被當(dāng)成一個(gè)命令去執(zhí)行,并且直到eval命令執(zhí)行完成,Redis才會(huì)執(zhí)行其他命令。
錯(cuò)誤示例1
最常見(jiàn)的解鎖代碼就是直接使用jedis.del()方法刪除鎖,這種不先判斷鎖的擁有者而直接解鎖的方式,會(huì)導(dǎo)致任何客戶端都可以隨時(shí)進(jìn)行解鎖,即使這把鎖不是它的。
public static void wrongReleaseLock1(Jedis jedis, String lockKey) {
jedis.del(lockKey);
}
錯(cuò)誤示例2
這種解鎖代碼乍一看也是沒(méi)問(wèn)題,甚至我之前也差點(diǎn)這樣實(shí)現(xiàn),與正確姿勢(shì)差不多,唯一區(qū)別的是分成兩條命令去執(zhí)行,代碼如下:
public static void wrongReleaseLock2(Jedis jedis, String lockKey, String requestId) {
// 判斷加鎖與解鎖是不是同一個(gè)客戶端
if (requestId.equals(jedis.get(lockKey))) {
// 若在此時(shí),這把鎖突然不是這個(gè)客戶端的,則會(huì)誤解鎖
jedis.del(lockKey);
}
}
如代碼注釋,問(wèn)題在于如果調(diào)用jedis.del()方法的時(shí)候,這把鎖已經(jīng)不屬于當(dāng)前客戶端的時(shí)候會(huì)解除他人加的鎖。那么是否真的有這種場(chǎng)景?答案是肯定的,比如客戶端A加鎖,一段時(shí)間之后客戶端A解鎖,在執(zhí)行jedis.del()之前,鎖突然過(guò)期了,此時(shí)客戶端B嘗試加鎖成功,然后客戶端A再執(zhí)行del()方法,則將客戶端B的鎖給解除了。
鎖續(xù)期問(wèn)題
因?yàn)闃I(yè)務(wù)代碼耗時(shí)過(guò)長(zhǎng),超過(guò)了鎖的超時(shí)時(shí)間,造成鎖自動(dòng)失效,然后另外一個(gè)線程意外的持有了鎖。于是就出現(xiàn)了多個(gè)線程共同持有鎖的現(xiàn)象。
是否可以通過(guò)合理地設(shè)置LockTime(鎖超時(shí)時(shí)間)來(lái)解決這個(gè)問(wèn)題?
但LockTime的設(shè)置原本就很不容易。LockTime設(shè)置過(guò)小,鎖自動(dòng)超時(shí)的概率就會(huì)增加,鎖異常失效的概率也就會(huì)增加,而LockTime設(shè)置過(guò)大,萬(wàn)一服務(wù)出現(xiàn)異常無(wú)法正常釋放鎖,那么出現(xiàn)這種異常鎖的時(shí)間也就越長(zhǎng)。我們只能通過(guò)經(jīng)驗(yàn)去配置,一個(gè)可以接受的值,基本上是這個(gè)服務(wù)歷史上的平均耗時(shí)再增加一定的buff。
具體實(shí)現(xiàn)原理可以參考參考資料3,實(shí)際使用推薦使用Redission中的watchdog機(jī)制即可。
基于Redis集群的分布式鎖
Redlock的出現(xiàn)原因:由failover(失敗切換重試)引起的問(wèn)題,卻是基于單Redis節(jié)點(diǎn)的分布式鎖無(wú)法解決的。
當(dāng)單Redis節(jié)點(diǎn)宕機(jī)了,那么所有客戶端就都無(wú)法獲得鎖了,服務(wù)變得不可用。為了提高可用性,我們可以給這個(gè)Redis節(jié)點(diǎn)掛一個(gè)Slave,當(dāng)Master節(jié)點(diǎn)不可用的時(shí)候,系統(tǒng)自動(dòng)切到Slave上(failover)。但由于Redis的主從復(fù)制(replication)是異步的,這可能導(dǎo)致在failover過(guò)程中喪失鎖的安全性??紤]下面的執(zhí)行序列:
- 客戶端1從Master獲取了鎖。
- Master宕機(jī)了,存儲(chǔ)鎖的key還沒(méi)有來(lái)得及同步到Slave上。
- Slave升級(jí)為Master。
- 客戶端2從新的Master獲取到了對(duì)應(yīng)同一個(gè)資源的鎖。
于是,客戶端1和客戶端2同時(shí)持有了同一個(gè)資源的鎖。鎖的安全性被打破。針對(duì)Redis主從復(fù)制過(guò)程中可能存在喪失鎖的安全性問(wèn)題,Redis作者設(shè)計(jì)了Redlock算法。
Redlock是為了規(guī)范各家對(duì)基于Redis的分布式鎖的實(shí)現(xiàn),而由Redis的作者提出的一個(gè)更安全的實(shí)現(xiàn)。下面是該算法的說(shuō)明:
實(shí)現(xiàn)思路
- 獲取當(dāng)前時(shí)間(時(shí)間戳)
- 按順序依次向N個(gè)節(jié)點(diǎn)執(zhí)行獲取鎖的操作。這個(gè)獲取操作跟前面基于單Redis節(jié)點(diǎn)獲取鎖的過(guò)程相同。為了保證在某個(gè)Redis節(jié)點(diǎn)不可用時(shí)該算法能夠繼續(xù)運(yùn)行,這個(gè)獲取鎖的操作需要一個(gè)超時(shí)時(shí)間,它遠(yuǎn)小于鎖的有效時(shí)間,通常在幾十毫秒的量級(jí)??蛻舳嗽谙蚰硞€(gè)Redis節(jié)點(diǎn)獲取鎖失敗之后,應(yīng)該立即嘗試下一個(gè)Redis節(jié)點(diǎn)。這里的失敗包含Redis節(jié)點(diǎn)不可用,或者該Redis節(jié)點(diǎn)上對(duì)應(yīng)的鎖已經(jīng)被其他客戶端持有。
- 整個(gè)獲取鎖的過(guò)程總共耗時(shí)。計(jì)算方法為當(dāng)前時(shí)間-第1步記錄的時(shí)間。如果客戶端從大多數(shù)Redis節(jié)點(diǎn)(>=N/2+1)成功獲取到了鎖,并且獲取鎖的總耗時(shí)沒(méi)有超過(guò)鎖的有效時(shí)間,那么此時(shí)客戶端才認(rèn)為最終獲取鎖成功;否則,則認(rèn)為獲取鎖失敗。
- 如果成功獲取到了鎖,那么這個(gè)鎖的有效時(shí)間應(yīng)該重新計(jì)算,它等于這個(gè)鎖的有效時(shí)間減去第3步計(jì)算出來(lái)的獲取鎖消耗的時(shí)間。
- 如果最終獲取鎖失敗了(可能有云獲取到的鎖的Redis節(jié)點(diǎn)個(gè)數(shù)小于N/2+1,或者總耗時(shí)大于鎖的有效時(shí)間),name客戶端應(yīng)該立即向所有的Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作。(與前面介紹的使用lua腳本釋放鎖的方式一致)
- 釋放鎖:對(duì)所有的Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作。
釋放鎖的過(guò)程比較簡(jiǎn)單:客戶端向所有Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作,不管這些節(jié)點(diǎn)當(dāng)時(shí)在獲取鎖的時(shí)候成功與否。也就是說(shuō),即使當(dāng)時(shí)向某個(gè)節(jié)點(diǎn)獲取鎖沒(méi)有成功,在釋放鎖的時(shí)候也不應(yīng)該漏掉這個(gè)節(jié)點(diǎn)。這是因?yàn)榇嬖谶@樣一種情況,客戶端發(fā)給某個(gè)Redis節(jié)點(diǎn)的獲取鎖的請(qǐng)求成功到達(dá)了該Redis節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)也成功執(zhí)行了SET操作,但是它返回給客戶端的響應(yīng)包卻丟失了。這在客戶端看來(lái),獲取鎖的請(qǐng)求由于超時(shí)而失敗了,但在Redis這邊看來(lái),加鎖已經(jīng)成功了。因此,釋放鎖的時(shí)候,客戶端也應(yīng)該對(duì)當(dāng)時(shí)獲取鎖失敗的那些Redis節(jié)點(diǎn)同樣發(fā)起請(qǐng)求
存在問(wèn)題
- Redlock是基于timeing的分布式鎖,而實(shí)際場(chǎng)景下存在時(shí)鐘不一致和問(wèn)題。
- Redlock是基于自動(dòng)過(guò)期機(jī)制,依然沒(méi)有解決長(zhǎng)時(shí)間的gc pause等問(wèn)題帶來(lái)的鎖自動(dòng)失效,從而帶來(lái)的安全性問(wèn)題。
Redis鎖是通過(guò)以下命令對(duì)資源進(jìn)行加鎖:
set key_id key_value NX PX expireTime
其中,set nx命令只會(huì)在key不存在時(shí)給key進(jìn)行賦值,px用來(lái)設(shè)置key過(guò)期時(shí)間,key_value一般是隨機(jī)值,用來(lái)保證釋放鎖的安全性(釋放時(shí)會(huì)判斷是否是之前設(shè)置過(guò)的隨機(jī)值,只有是才釋放鎖)。由于資源設(shè)置了過(guò)期時(shí)間,一定時(shí)間后鎖會(huì)自動(dòng)釋放。
set nx保證并發(fā)加鎖時(shí)只有一個(gè)client能設(shè)置成功(Redis內(nèi)部是單線程,并且數(shù)據(jù)存在內(nèi)存中,也就是說(shuō)redis內(nèi)部執(zhí)行命令是不會(huì)有多線程同步問(wèn)題的),此時(shí)的lock/unlock偽代碼如下:
def lock:
分布式鎖服務(wù)中的一個(gè)問(wèn)題
如果一個(gè)獲取到鎖的client因?yàn)槟撤N原因?qū)е聸](méi)能及時(shí)釋放鎖,并且redis因?yàn)槌瑫r(shí)釋放了鎖,另外一個(gè)client獲取到了鎖,此時(shí)情況如下圖所示:
那么如何解決這個(gè)問(wèn)題呢,一種方案是引入鎖續(xù)約機(jī)制,也就是獲取鎖之后,釋放鎖之前,會(huì)定時(shí)進(jìn)行鎖續(xù)約,比如以鎖超時(shí)時(shí)間的1/3為間隔周期進(jìn)行鎖續(xù)約。
關(guān)于開(kāi)源的redis的分布式鎖實(shí)現(xiàn)有很多,比較出名的有redisson[1]、百度的dlock[2],關(guān)于分布式鎖,筆者也寫(xiě)了一個(gè)簡(jiǎn)易版的分布式鎖redis-lock,主要是增加了鎖續(xù)約和可同時(shí)針對(duì)多個(gè)key加鎖的機(jī)制。
對(duì)于高可用性,一般可以通過(guò)集群或者master-slave來(lái)解決,redis鎖優(yōu)勢(shì)是性能出色,劣勢(shì)就是由于數(shù)據(jù)在內(nèi)存中,一旦緩存服務(wù)宕機(jī),鎖數(shù)據(jù)就丟失了。像redis自帶復(fù)制功能,可以對(duì)數(shù)據(jù)可靠性有一定的保證,但是由于復(fù)制也是異步完成的,因此依然可能出現(xiàn)master節(jié)點(diǎn)寫(xiě)入鎖數(shù)據(jù)而未同步到slave節(jié)點(diǎn)的時(shí)候宕機(jī),鎖數(shù)據(jù)丟失問(wèn)題。