Apache Hadoop 3.0.0 GA版本發(fā)布,Java版本最低要求增加到Java8

前言:

文章主要介紹的是這次更新的日志,可能會(huì)覺(jué)得枯燥,快速看看黑色加粗的標(biāo)題了解下就行,如果想獲得官方的說(shuō)明,在文章評(píng)論里可以直接查看到鏈接,不用在去搜索(文章中不讓發(fā)鏈接)

最低要求Java版本從Java 7增加到Java 8

所有Hadoop罐子現(xiàn)在編譯目標(biāo)運(yùn)行時(shí)版本的Java 8。 用戶仍然使用Java 7或低于必須升級(jí)到Java 8。

支持在HDFS中擦除編碼

  • 擦除編碼是一個(gè)持久地存儲(chǔ)數(shù)據(jù)的方法,節(jié)省空間與復(fù)制相比。 標(biāo)準(zhǔn)編碼Reed-Solomon(10,4)有一個(gè)1.4倍空間開(kāi)銷,3 x的開(kāi)銷相比標(biāo)準(zhǔn)HDFS復(fù)制。
  • 自擦除編碼征收額外的開(kāi)銷在重建和執(zhí)行主要遠(yuǎn)程讀取,它一直被用來(lái)儲(chǔ)存冷,經(jīng)常被訪問(wèn)的數(shù)據(jù)。 用戶應(yīng)該考慮網(wǎng)絡(luò)和CPU開(kāi)銷的擦除編碼時(shí)部署這個(gè)特性。

時(shí)間軸服務(wù)

  • 提高時(shí)間軸服務(wù)的可伸縮性和可靠性和可用性通過(guò)引入流和聚合。
  • 便用戶和開(kāi)發(fā)人員提供測(cè)試和提供反饋建議使其成為替代時(shí)間軸服務(wù)做好了準(zhǔn)備。 它應(yīng)該只用于測(cè)試能力。

Shell腳本重寫(xiě)

Hadoop shell腳本重寫(xiě)許多長(zhǎng)期存在的bug修復(fù)和包括一些新特性。 而眼睛一直保持兼容性,一些變化可能破壞現(xiàn)有設(shè)施。

陰影客戶機(jī)

  • jar的hadoop-clientMaven工件可在2. x版本將Hadoop的傳遞依賴到Hadoop應(yīng)用程序的類路徑中。 這可能是有問(wèn)題的,如果這些傳遞的版本依賴與應(yīng)用程序所使用的版本沖突。
  • hadoop - 11804添加新hadoop-client-api和hadoop-client-runtime工件陰影Hadoop的依賴變成一個(gè)單獨(dú)的jar。 這避免了漏Hadoop的依賴關(guān)系到應(yīng)用程序的類路徑中。

對(duì)投機(jī)取巧的容器和分布式調(diào)度的支持。

  • 投機(jī)取巧的概念ExecutionType介紹了,應(yīng)用程序現(xiàn)在可以申請(qǐng)和執(zhí)行類型的容器嗎機(jī)會(huì)主義的。 這種類型的容器可以派遣執(zhí)行在一個(gè)海里即使沒(méi)有可用資源目前的調(diào)度。 在這種情況下,這些容器將在海里,排隊(duì)等待資源開(kāi)始。 投機(jī)取巧的優(yōu)先級(jí)低于默認(rèn)的容器保證容器,因此搶占,如果需要,為保證容器騰出空間。 這應(yīng)該提高集群利用率。
  • 投機(jī)取巧的容器在默認(rèn)情況下分配由中央RM,但支持也被添加到允許機(jī)會(huì)分配容器的分布式調(diào)度程序是作為AMRMProtocol攔截器實(shí)現(xiàn)的。

MapReduce任務(wù)級(jí)別的本地優(yōu)化

MapReduce增加了支持的本地實(shí)現(xiàn)地圖輸出收集器。 shuffle-intensive的工作,這可能會(huì)導(dǎo)致性能提高30%或更多。

支持超過(guò)2 namenode。

  • HDFS NameNode的初始實(shí)現(xiàn)高可用性提供了一個(gè)活躍的NameNode和一個(gè)備用NameNode。 通過(guò)復(fù)制編輯三JournalNodes法定人數(shù),這個(gè)架構(gòu)能夠容忍系統(tǒng)中的任何一個(gè)節(jié)點(diǎn)的失敗。
    然而,一些部署要求更高的容錯(cuò)度。 這是通過(guò)這個(gè)新功能,允許用戶運(yùn)行多個(gè)備用namenode。 例如,通過(guò)配置三namenode和五JournalNodes,集群能夠容忍失敗的兩個(gè)節(jié)點(diǎn),而不是只有一個(gè)的HDFS高可用性的文檔已經(jīng)更新,說(shuō)明如何配置兩個(gè)以上的namenode。
  • 默認(rèn)端口的多個(gè)服務(wù)已經(jīng)改變了。
    以前,多個(gè)Hadoop服務(wù)的默認(rèn)端口是在Linux臨時(shí)端口范圍(32768 - 61000)。 這意味著在啟動(dòng)、服務(wù)有時(shí)會(huì)無(wú)法綁定到端口由于與另一個(gè)應(yīng)用程序沖突。
    這些沖突的港口已經(jīng)搬出去的短暫的范圍,影響NameNode,二級(jí)NameNode,DataNode,公里。

支持微軟Azure湖和王堅(jiān)對(duì)象存儲(chǔ)系統(tǒng)的數(shù)據(jù)文件系統(tǒng)連接器

Hadoop現(xiàn)在支持?jǐn)?shù)據(jù)集成與微軟Azure湖和王堅(jiān)對(duì)象存儲(chǔ)系統(tǒng)作為替代Hadoop-compatible文件系統(tǒng)。

Intra-datanode均衡器

一個(gè)DataNode管理多個(gè)磁盤。 在正常的寫(xiě)操作,磁盤會(huì)填滿均勻。 然而,添加或替換磁盤可能導(dǎo)致重大DataNode內(nèi)斜。 這種情況并不是由現(xiàn)有的HDFS均衡器,關(guān)注國(guó)際米蘭-,不是內(nèi)部,DN傾斜。這種情況是由新intra-DataNode平衡功能,這是通過(guò)調(diào)用hdfs diskbalancerCLI。 看中的磁盤均衡器部分HDFS命令指導(dǎo)為更多的信息。

堆的守護(hù)進(jìn)程和任務(wù)管理

一系列的變化使得Hadoop守護(hù)進(jìn)程堆管理以及MapReduce任務(wù)。

hadoop - 10950介紹了配置守護(hù)進(jìn)程堆大小的新方法。 值得注意的是,自動(dòng)現(xiàn)在可能的基于主機(jī)的內(nèi)存大小,和HADOOP_HEAPSIZE變量被棄用。

mapreduce - 5785簡(jiǎn)化的配置map和reduce任務(wù)堆大小,所以所需的堆大小不再需要指定任務(wù)配置和作為Java選項(xiàng)。 現(xiàn)有的配置,已經(jīng)指定都不受此更改影響。

S3Guard:為S3A文件系統(tǒng)客戶端緩存一致性和元數(shù)據(jù)

hadoop - 13345添加一個(gè)可選特性的S3A端Amazon S3存儲(chǔ):能夠使用DynamoDB表作為一個(gè)快速、一致的存儲(chǔ)文件和目錄的元數(shù)據(jù)。

HDFS Router-Based聯(lián)合會(huì)

HDFS Router-Based聯(lián)合添加一個(gè)RPC路由層,它提供了一種聯(lián)合多個(gè)HDFS的名稱空間。 這是類似于現(xiàn)有的ViewFs),HDFS聯(lián)合會(huì)功能,除了山表管理在服務(wù)器端通過(guò)路由層,而不是在客戶端。 這簡(jiǎn)化了訪問(wèn)聯(lián)邦現(xiàn)有HDFS集群客戶。

基于api的配置容量調(diào)度隊(duì)列配置

調(diào)度器OrgQueue擴(kuò)展能力提供了一種編程方式來(lái)改變配置提供了一個(gè)REST API,用戶可以調(diào)用修改隊(duì)列配置。 這使得自動(dòng)化配置管理管理員在隊(duì)列的隊(duì)列administer_queueACL。

資源類型

資源模型廣義支持用戶定義的可數(shù)之外的資源類型的CPU和內(nèi)存。 例如,像gpu集群管理員可以定義資源,軟件許可證,或本地連接的存儲(chǔ)。 紗任務(wù)可以將基于這些資源的可用性。

如果覺(jué)得文章還行,可以關(guān)注我,你的支持會(huì)鼓勵(lì)我不斷分享更多更好的文章。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 首先,我們?cè)谑褂们跋瓤纯碒DFS是什麼?這將有助于我們是以后的運(yùn)維使用和故障排除思路的獲得。 HDFS采用mast...
    W_Bousquet閱讀 4,473評(píng)論 0 2
  • 先思考問(wèn)題 我們處在一個(gè)大數(shù)據(jù)的時(shí)代已經(jīng)是不爭(zhēng)的事實(shí),這主要表現(xiàn)在數(shù)據(jù)源多且大,如互聯(lián)網(wǎng)數(shù)據(jù),人們也認(rèn)識(shí)到數(shù)據(jù)里往...
    墻角兒的花閱讀 7,685評(píng)論 0 9
  • 簡(jiǎn)述 hadoop 集群一共有4種部署模式,詳見(jiàn)《hadoop 生態(tài)圈介紹》。HA聯(lián)邦模式解決了單純HA模式的性能...
    mtide閱讀 13,497評(píng)論 8 20
  • 睡了一宿早上8:30morningcall 9:00出發(fā)去大皇宮。 陽(yáng)光正好,也許你會(huì)覺(jué)得這次小清新之旅的飲食...
    瓦塔拉閱讀 164評(píng)論 0 1
  • 三月不減肥 四月徒傷悲 眼瞅著天氣越來(lái)越熱 衣服也越穿越少 一身的贅肉要是再不減 只怕就剩下兩行熱淚了 1、出門盡...
    上錦生活閱讀 342評(píng)論 1 0

友情鏈接更多精彩內(nèi)容