Spark基本概念
- RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing彈性分布式數(shù)據(jù)集。
- Operation——作用于RDD的各種操作分為transformation和action。
- Job——作業(yè),一個(gè)JOB包含多個(gè)RDD及作用于相應(yīng)RDD上的各種operation。
- Stage——一個(gè)作業(yè)分為多個(gè)階段。
- Partition——數(shù)據(jù)分區(qū), 一個(gè)RDD中的數(shù)據(jù)可以分成多個(gè)不同的區(qū)。
- DAG——Directed Acycle graph,有向無(wú)環(huán)圖,反應(yīng)RDD之間的依賴關(guān)系。
- Narrow dependency——窄依賴,子RDD依賴于父RDD中固定的data partition。
- Wide Dependency——寬依賴,子RDD對(duì)父RDD中的所有data partition都有依賴。
- Caching Managenment——緩存管理,對(duì)RDD的中間計(jì)算結(jié)果進(jìn)行緩存管理以加快整 體的處理速度。