Hadoop 源碼學(xué)習(xí)筆記(1)--前言和目錄

Hadoop

前言

說到分布式軟件,就一定繞不過Hadoop

Hadoop 是 Google 著名的 MapReduceGFS 論文的開源實(shí)現(xiàn),它為我們提供了一個(gè)分布式的數(shù)據(jù)存儲(chǔ)和計(jì)算框架,能夠讓我們?cè)诘统杀镜腜C設(shè)備上搭建一個(gè)大規(guī)模的分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)。

由于Hadoop的出現(xiàn)直接降低了大數(shù)據(jù)的存儲(chǔ)和計(jì)算成本,可以說Hadoop以及他的整個(gè)生態(tài)環(huán)境拉開了大數(shù)據(jù)時(shí)代的大幕。

Hadoop主要由 Hdfs, MapReduceYarn 三個(gè)大模塊組成,我會(huì)基于 Hadoop 3.0.0 alpha2 的源碼,分別解析一下這三個(gè)模塊的代碼邏輯。

具體章節(jié)劃分如下,先從Hdfs開始,每周更新一兩篇源碼走讀筆記。

Hdfs

Hdfs(Hadoop Distributed File System)是Hadoop框架中的分布式存儲(chǔ)系統(tǒng),

主要關(guān)注點(diǎn):

  1. Hdfs內(nèi)部通信機(jī)制
  2. Hdfs的DFS實(shí)現(xiàn)機(jī)制
  3. Hdfs的數(shù)據(jù)冗余備份
  4. Hdfs的secondarynamenode和HA解析

主要章節(jié)劃分有:

  1. Hdfs的啟動(dòng)流程分析
  2. Hdfs的RPC通信框架
  3. Hdfs 數(shù)據(jù)讀寫流程分析
  4. Hdfs BlockManager 解析
  5. Hdfs 的備份,高可用和橫向擴(kuò)展

MapReduce

Hadoop中的MapReduce框架負(fù)責(zé)在分布式系統(tǒng)中進(jìn)行數(shù)據(jù)計(jì)算,通過將jar文件傳輸?shù)礁鱾€(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行分布式計(jì)算的形式,減少不必要的數(shù)據(jù)傳輸。

主要關(guān)注點(diǎn):

  1. 提交MapReduce任務(wù)的解析過程
  2. Map、Shuffle、Reduce三個(gè)步驟之間的臨時(shí)數(shù)據(jù)存儲(chǔ)邏輯
  3. Shuffle步驟觸發(fā)策略

時(shí)間待定,章節(jié)待定

Yarn

Yarn(Yet Another Resource Manager)是Hadoop框架中的資源管理者。

主要關(guān)注點(diǎn):

  1. Yarn 對(duì)計(jì)算節(jié)點(diǎn)的抽象邏輯
  2. Yarn 的任務(wù)調(diào)度策略
  3. Yarn 對(duì)Map Reduce任務(wù)的切割分發(fā)

主要章節(jié)劃分有:

  1. Yarn 簡(jiǎn)介
  2. YarnApplication 的生命周期
  3. Scheduler
  4. ContainerExecutor
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容