前言:
文章主要介紹的是這次更新的日志,可能會(huì)覺(jué)得枯燥,快速看看黑色加粗的標(biāo)題了解下就行,如果想獲得官方的說(shuō)明,在文章評(píng)論里可以直接查看到鏈接,不用在去搜索(文章中不讓發(fā)鏈接)
最低要求Java版本從Java 7增加到Java 8
所有Hadoop罐子現(xiàn)在編譯目標(biāo)運(yùn)行時(shí)版本的Java 8。 用戶仍然使用Java 7或低于必須升級(jí)到Java 8。
支持在HDFS中擦除編碼
- 擦除編碼是一個(gè)持久地存儲(chǔ)數(shù)據(jù)的方法,節(jié)省空間與復(fù)制相比。 標(biāo)準(zhǔn)編碼Reed-Solomon(10,4)有一個(gè)1.4倍空間開(kāi)銷,3 x的開(kāi)銷相比標(biāo)準(zhǔn)HDFS復(fù)制。
- 自擦除編碼征收額外的開(kāi)銷在重建和執(zhí)行主要遠(yuǎn)程讀取,它一直被用來(lái)儲(chǔ)存冷,經(jīng)常被訪問(wèn)的數(shù)據(jù)。 用戶應(yīng)該考慮網(wǎng)絡(luò)和CPU開(kāi)銷的擦除編碼時(shí)部署這個(gè)特性。
時(shí)間軸服務(wù)
- 提高時(shí)間軸服務(wù)的可伸縮性和可靠性和可用性通過(guò)引入流和聚合。
- 便用戶和開(kāi)發(fā)人員提供測(cè)試和提供反饋建議使其成為替代時(shí)間軸服務(wù)做好了準(zhǔn)備。 它應(yīng)該只用于測(cè)試能力。
Shell腳本重寫(xiě)
Hadoop shell腳本重寫(xiě)許多長(zhǎng)期存在的bug修復(fù)和包括一些新特性。 而眼睛一直保持兼容性,一些變化可能破壞現(xiàn)有設(shè)施。
陰影客戶機(jī)
- jar的hadoop-clientMaven工件可在2. x版本將Hadoop的傳遞依賴到Hadoop應(yīng)用程序的類路徑中。 這可能是有問(wèn)題的,如果這些傳遞的版本依賴與應(yīng)用程序所使用的版本沖突。
- hadoop - 11804添加新hadoop-client-api和hadoop-client-runtime工件陰影Hadoop的依賴變成一個(gè)單獨(dú)的jar。 這避免了漏Hadoop的依賴關(guān)系到應(yīng)用程序的類路徑中。
對(duì)投機(jī)取巧的容器和分布式調(diào)度的支持。
- 投機(jī)取巧的概念ExecutionType介紹了,應(yīng)用程序現(xiàn)在可以申請(qǐng)和執(zhí)行類型的容器嗎機(jī)會(huì)主義的。 這種類型的容器可以派遣執(zhí)行在一個(gè)海里即使沒(méi)有可用資源目前的調(diào)度。 在這種情況下,這些容器將在海里,排隊(duì)等待資源開(kāi)始。 投機(jī)取巧的優(yōu)先級(jí)低于默認(rèn)的容器保證容器,因此搶占,如果需要,為保證容器騰出空間。 這應(yīng)該提高集群利用率。
- 投機(jī)取巧的容器在默認(rèn)情況下分配由中央RM,但支持也被添加到允許機(jī)會(huì)分配容器的分布式調(diào)度程序是作為AMRMProtocol攔截器實(shí)現(xiàn)的。
MapReduce任務(wù)級(jí)別的本地優(yōu)化
MapReduce增加了支持的本地實(shí)現(xiàn)地圖輸出收集器。 shuffle-intensive的工作,這可能會(huì)導(dǎo)致性能提高30%或更多。
支持超過(guò)2 namenode。
- HDFS NameNode的初始實(shí)現(xiàn)高可用性提供了一個(gè)活躍的NameNode和一個(gè)備用NameNode。 通過(guò)復(fù)制編輯三JournalNodes法定人數(shù),這個(gè)架構(gòu)能夠容忍系統(tǒng)中的任何一個(gè)節(jié)點(diǎn)的失敗。
然而,一些部署要求更高的容錯(cuò)度。 這是通過(guò)這個(gè)新功能,允許用戶運(yùn)行多個(gè)備用namenode。 例如,通過(guò)配置三namenode和五JournalNodes,集群能夠容忍失敗的兩個(gè)節(jié)點(diǎn),而不是只有一個(gè)的HDFS高可用性的文檔已經(jīng)更新,說(shuō)明如何配置兩個(gè)以上的namenode。- 默認(rèn)端口的多個(gè)服務(wù)已經(jīng)改變了。
以前,多個(gè)Hadoop服務(wù)的默認(rèn)端口是在Linux臨時(shí)端口范圍(32768 - 61000)。 這意味著在啟動(dòng)、服務(wù)有時(shí)會(huì)無(wú)法綁定到端口由于與另一個(gè)應(yīng)用程序沖突。
這些沖突的港口已經(jīng)搬出去的短暫的范圍,影響NameNode,二級(jí)NameNode,DataNode,公里。
支持微軟Azure湖和王堅(jiān)對(duì)象存儲(chǔ)系統(tǒng)的數(shù)據(jù)文件系統(tǒng)連接器
Hadoop現(xiàn)在支持?jǐn)?shù)據(jù)集成與微軟Azure湖和王堅(jiān)對(duì)象存儲(chǔ)系統(tǒng)作為替代Hadoop-compatible文件系統(tǒng)。
Intra-datanode均衡器
一個(gè)DataNode管理多個(gè)磁盤。 在正常的寫(xiě)操作,磁盤會(huì)填滿均勻。 然而,添加或替換磁盤可能導(dǎo)致重大DataNode內(nèi)斜。 這種情況并不是由現(xiàn)有的HDFS均衡器,關(guān)注國(guó)際米蘭-,不是內(nèi)部,DN傾斜。這種情況是由新intra-DataNode平衡功能,這是通過(guò)調(diào)用hdfs diskbalancerCLI。 看中的磁盤均衡器部分HDFS命令指導(dǎo)為更多的信息。
堆的守護(hù)進(jìn)程和任務(wù)管理
一系列的變化使得Hadoop守護(hù)進(jìn)程堆管理以及MapReduce任務(wù)。
hadoop - 10950介紹了配置守護(hù)進(jìn)程堆大小的新方法。 值得注意的是,自動(dòng)現(xiàn)在可能的基于主機(jī)的內(nèi)存大小,和HADOOP_HEAPSIZE變量被棄用。
mapreduce - 5785簡(jiǎn)化的配置map和reduce任務(wù)堆大小,所以所需的堆大小不再需要指定任務(wù)配置和作為Java選項(xiàng)。 現(xiàn)有的配置,已經(jīng)指定都不受此更改影響。
S3Guard:為S3A文件系統(tǒng)客戶端緩存一致性和元數(shù)據(jù)
hadoop - 13345添加一個(gè)可選特性的S3A端Amazon S3存儲(chǔ):能夠使用DynamoDB表作為一個(gè)快速、一致的存儲(chǔ)文件和目錄的元數(shù)據(jù)。
HDFS Router-Based聯(lián)合會(huì)
HDFS Router-Based聯(lián)合添加一個(gè)RPC路由層,它提供了一種聯(lián)合多個(gè)HDFS的名稱空間。 這是類似于現(xiàn)有的ViewFs),HDFS聯(lián)合會(huì)功能,除了山表管理在服務(wù)器端通過(guò)路由層,而不是在客戶端。 這簡(jiǎn)化了訪問(wèn)聯(lián)邦現(xiàn)有HDFS集群客戶。
基于api的配置容量調(diào)度隊(duì)列配置
調(diào)度器OrgQueue擴(kuò)展能力提供了一種編程方式來(lái)改變配置提供了一個(gè)REST API,用戶可以調(diào)用修改隊(duì)列配置。 這使得自動(dòng)化配置管理管理員在隊(duì)列的隊(duì)列administer_queueACL。
資源類型
資源模型廣義支持用戶定義的可數(shù)之外的資源類型的CPU和內(nèi)存。 例如,像gpu集群管理員可以定義資源,軟件許可證,或本地連接的存儲(chǔ)。 紗任務(wù)可以將基于這些資源的可用性。