Spark基礎(chǔ)知識(shí)

Spark基本概念

  • RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing彈性分布式數(shù)據(jù)集。
  • Operation——作用于RDD的各種操作分為transformation和action。
  • Job——作業(yè),一個(gè)JOB包含多個(gè)RDD及作用于相應(yīng)RDD上的各種operation。
  • Stage——一個(gè)作業(yè)分為多個(gè)階段。
  • Partition——數(shù)據(jù)分區(qū), 一個(gè)RDD中的數(shù)據(jù)可以分成多個(gè)不同的區(qū)。
  • DAG——Directed Acycle graph,有向無(wú)環(huán)圖,反應(yīng)RDD之間的依賴關(guān)系。
  • Narrow dependency——窄依賴,子RDD依賴于父RDD中固定的data partition。
  • Wide Dependency——寬依賴,子RDD對(duì)父RDD中的所有data partition都有依賴。
  • Caching Managenment——緩存管理,對(duì)RDD的中間計(jì)算結(jié)果進(jìn)行緩存管理以加快整 體的處理速度。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容