概述
分布式的集群很容易有“選舉”的需求,所謂的選舉可以先簡單的理解為選出集群多個節(jié)點的“老大”(leader)
例子1 —— 主從節(jié)點選舉
舉個不是很恰當?shù)睦樱╩ysql不是使用zk來做選舉的),我們使用mysql時候,為了做到高可用,可能會同時布兩個mysql,一主多備。這個時候,如果master節(jié)點掛了,多個slave節(jié)點哪一個會被選為主節(jié)點?這里就涉及到“選舉”,從多個slave節(jié)點里選出一個新的master。

例子2 —— 定時任務
又比如,我們經(jīng)常有定時任務的需求,為了保證高可用。可能跑定時任務的服務會部署多臺。
假設有這樣一個任務,它會掃表A,然后將這個表A的數(shù)據(jù)插入到另一個表B里。當只有一臺機器跑這個任務,沒有問題。但是如果同一時刻,有多臺機器在跑,數(shù)據(jù)就會重復插入到表B里。
所以理想的情況可能是,同一時刻只有一臺機器在跑定時任務。當這臺機器掛掉了,立刻在其他機器里面選舉出一臺機器跑定時任務。

使用zookeeper來做集群的選舉
總的來說,選舉這種需求還是不少的。zookeeper是一個成熟的分布式協(xié)調(diào)服務,通過使用zookeeper我們可以較為方便的實現(xiàn)集群的選舉。
leader選舉 —— 非公平模式
Zookeeper節(jié)點類型
要想了解如何使用zookeeper實現(xiàn)選舉,首先需要了解zookeeper節(jié)點的類型

當我們創(chuàng)建zookeeper節(jié)點時候,可以填一個CreateMode參數(shù),通過這個參數(shù)可以指定創(chuàng)建的節(jié)點的類型。
1)PERSISTENT 該值會永久存在,哪怕創(chuàng)建該節(jié)點的機器掛了,節(jié)點數(shù)據(jù)依然會存在。注意,如果有兩臺機器創(chuàng)建了重復的key,比如/data,第二次創(chuàng)建會失敗。
2)PERSISTENT_SEQUENTIAL 比如我們創(chuàng)建一個/test節(jié)點,zk會在后面加一串數(shù)字比如 /test/test0000000001。如果重復創(chuàng)建,會創(chuàng)建一個/test/test0000000002節(jié)點(一直往后加1,可以多次創(chuàng)建)
3)EPHEMERAL 臨時節(jié)點,當創(chuàng)建該節(jié)點的機器失連了,創(chuàng)建的這個節(jié)點會被刪除
4)EPHEMERAL_SEQUENTIAL 和 PERSISTENT_SEQUENTIAL差不多的,只是節(jié)點是臨時的。
使用zookeeper實現(xiàn)非公平模式選舉
了解了zookeeper節(jié)點的類型,我們就可以通過zk來實現(xiàn)選舉。
什么是非公平模式選舉
所謂的非公平模式的選舉是相對的,假設有10臺機器進行選舉,最后會選到哪一個機器,是完全隨機的(看誰搶的快)。比如選到了A機器。某一時刻,A機器掛掉了,這時候會再次進行選舉,這一次的選舉依然是隨機的。與某個節(jié)點是不是先來的,是不是等了很久無關(guān)。這種選舉算法,就是非公平的算法。

非公平選舉算法
1)首先通過zk創(chuàng)建一個 /server 的PERSISTENT節(jié)點
2)多臺機器同時創(chuàng)建 /server/leader EPHEMERAL子節(jié)點
3)子節(jié)點只能創(chuàng)建一個,后創(chuàng)建的會失敗。創(chuàng)建成功的節(jié)點被選為leader節(jié)點
4)所有機器監(jiān)聽 /server/leader 的變化,一旦節(jié)點被刪除,就重新進行選舉,搶占式地創(chuàng)建 /server/leader節(jié)點,誰創(chuàng)建成功誰就是leader。
非公平選舉算法實現(xiàn)示例
public static void main(String[] args) throws Exception {
zk = new ZooKeeper("127.0.0.1:2181", FairSelectDemo.SESSION_TIMEOUT, new Watcher() {
@Override
public void process(WatchedEvent event) {
System.out.println(event.getType() + "---" + event.getPath() + "---" + event.getState());
}
});
//zk啟動后試著進行選舉
selection();
TimeUnit.HOURS.sleep(1); //阻塞住
zk.close();
}
private static void selection() throws Exception {
try {
//1、創(chuàng)建/server(這個通過zkCli創(chuàng)建好了),參數(shù)3表示公有節(jié)點,誰都可以改
zk.create("/server/leader", "node1".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL);
//2、沒有拋異常,表示創(chuàng)建節(jié)點成功了
System.out.println("選舉成功");
} catch (KeeperException.NodeExistsException e) {
System.out.println("選舉失敗");
} finally {
//3、監(jiān)聽節(jié)點刪除事件,如果刪除了,重新進行選舉
zk.getData("/server/leader", new Watcher() {
@Override
public void process(WatchedEvent event) {
System.out.println(event.getType() + "---" + event.getPath() + "---" + event.getState());
try {
if (Objects.equals(event.getType(), Event.EventType.NodeDeleted)) {
selection();
}
} catch (Exception e) {
}
}
}, null);
}
}
測試結(jié)果:


被選舉的客戶端被close掉后

公平選舉
非公平選舉的區(qū)別是,增加了先來的優(yōu)先被選為leader的保證。

公平選舉算法
1)首先通過zk創(chuàng)建一個 /server 的PERSISTENT節(jié)點
2)多臺機器同時創(chuàng)建 /server/leader EPHEMERAL_SEQUENTIAL子節(jié)點
3)/server/leader000000xxx 后面數(shù)字最小的那個節(jié)點被選為leader節(jié)點
4)所有機器監(jiān)聽 前一個 /server/leader 的變化,比如 (leader00001監(jiān)聽 leader00002) 一旦節(jié)點被刪除,就獲取/server下所有l(wèi)eader,如果自己的數(shù)字最小那么自己就被選為leader
公平選舉算法的實現(xiàn)
public static void main(String[] args) throws Exception {
zk = new ZooKeeper("127.0.0.1:2181", UnFairSelectDemo.SESSION_TIMEOUT, new Watcher() {
@Override
public void process(WatchedEvent event) {
System.out.println(event.getType() + "---" + event.getPath() + "---" + event.getState());
}
});
String leaderPath = "/server/leader";
//1、創(chuàng)建/server(這個通過zkCli創(chuàng)建好了),注意這里是EPHEMERAL_SEQUENTIAL的
//2、和非公平模式不一樣,只需要創(chuàng)建一次節(jié)點就可以了
nodeVal = zk.create(leaderPath, "node1".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);
//System.out.println(nodeVal);
//啟動后試著進行選舉
selection();
TimeUnit.HOURS.sleep(1); //阻塞住
zk.close();
}
private static void selection() throws Exception {
//2、遍歷/server下的子節(jié)點,看看自己的序號是不是最小的
List<String> children = zk.getChildren("/server", null);
Collections.sort(children);
String formerNode = ""; //前一個節(jié)點,用于監(jiān)聽
for (int i = 0; i < children.size(); i++) {
String node = children.get(i);
if (nodeVal.equals("/server/" + node)) {
if (i == 0) {
//第一個
System.out.println("我被選為leader節(jié)點了");
} else {
formerNode = children.get(i - 1);
}
}
}
if (!"".equals(formerNode)) {
//自己不是第一個,如果是第一個formerNode應該沒有值
System.out.println("我競選失敗了");
//3、監(jiān)聽前一個節(jié)點的刪除事件,如果刪除了,重新進行選舉
zk.getData("/server/" + formerNode, new Watcher() {
@Override
public void process(WatchedEvent event) {
System.out.println(event.getType() + "---" + event.getPath() + "---" + event.getState());
try {
if (Objects.equals(event.getType(), Event.EventType.NodeDeleted)) {
selection();
}
} catch (Exception e) {
}
}
}, null);
}
//System.out.println("children:" + children);
}
測試結(jié)果


關(guān)閉被選為的leader節(jié)點后

總結(jié)
通過zookeeper的api,我們可以很容易實現(xiàn)集群的選舉。當然此處介紹的zookeeper的選舉比較適合于機器平權(quán)的情況,比如三臺被選舉的機器是一模一樣的。如果有優(yōu)先級,有調(diào)度,需要增加其他算法。這種方式就不適合了。
但是其實上述的寫法不是很嚴謹,比如公平選舉算法,如果中間一個節(jié)點掛掉了,假設有01,02,03,04節(jié)點 比如02掛掉了,03一直監(jiān)聽著02,那么這個時候03應該改為監(jiān)聽01,否則,當01掛了,沒有任何節(jié)點能被選為leader。 除此之外,各種異常狀態(tài)都需要我們自己處理。
為了更加方便的使用選舉,我們可以使用Curator。Curator為我們封裝了操作zookeeper底層的各種細節(jié),比使用原生的zookeeper更為方便。下一篇博客會介紹下Curator的使用。