什么是Spark
Spark是一種基于內(nèi)存的快速的,通用的,可擴(kuò)展的大數(shù)據(jù)分析引擎
Spark內(nèi)存模塊

Spark特點(diǎn)
快:與Hadoop和MapReduce響度,Spark基于內(nèi)存運(yùn)算要快100倍以上,基于硬盤的運(yùn)算要快10倍以上,Spark實(shí)現(xiàn)了高效的DAG執(zhí)行引擎,可以通過基于內(nèi)存來高效處理數(shù)據(jù)流,計(jì)算的中間結(jié)果是存在內(nèi)存中的
易用: Spark支持Java,Python和Scala的API,還支持超過80中的高級(jí)算法,使用戶可以快速構(gòu)建不同的應(yīng)用,而且Spark支持交互式的Python和Scala的Shell,可以非常方便的再這些Shell中使用Spark集群來驗(yàn)證解決問題。
通用: Spark提供了同意的解決方案,Spark可以用于處理,交互式查詢,實(shí)時(shí)處理,機(jī)器學(xué)習(xí),圖計(jì)算,這些不同類型的處理都可以在同一個(gè)應(yīng)用中無縫使用,減少開發(fā)和維護(hù)的人力成本。
兼容: Spark可以非常方便的與其他開元產(chǎn)品進(jìn)行融合,比如,Spark可以使用Hadoop的yarn和Apache Mesos作為它的資源管理器和調(diào)度器,并且可以處理所有的Hadoop支持?jǐn)?shù)據(jù)。包括HDFS,Hbase等。
Spark的安裝地址
1.官網(wǎng)地址
2.文檔查看地址
https://spark.apache.org/docs/2.1.1/
3.下載地址
https://spark.apache.org/downloads.html
角色
Driver(驅(qū)動(dòng)器)
? Spark的驅(qū)動(dòng)器是執(zhí)行開發(fā)程序中的main方法的進(jìn)程。它負(fù)責(zé)開發(fā)人員編寫的用來創(chuàng)建SparkContext、創(chuàng)建RDD,以及進(jìn)行RDD的轉(zhuǎn)化操作和行動(dòng)操作代碼的執(zhí)行。如果你是用spark shell,那么當(dāng)你啟動(dòng)Spark shell的時(shí)候,系統(tǒng)后臺(tái)自啟了一個(gè)Spark驅(qū)動(dòng)器程序,就是在Spark shell中預(yù)加載的一個(gè)叫作 sc的SparkContext對(duì)象。如果驅(qū)動(dòng)器程序終止,那么Spark應(yīng)用也就結(jié)束了。主要負(fù)責(zé):
? 1)把用戶程序轉(zhuǎn)為作業(yè)(JOB)
? 2)跟蹤Executor的運(yùn)行狀況
? 3)為執(zhí)行器節(jié)點(diǎn)調(diào)度任務(wù)
? 4)UI展示應(yīng)用運(yùn)行狀況
Executor(執(zhí)行器)
? Spark Executor是一個(gè)工作進(jìn)程,負(fù)責(zé)在 Spark 作業(yè)中運(yùn)行任務(wù),任務(wù)間相互獨(dú)立。Spark 應(yīng)用啟動(dòng)時(shí),Executor節(jié)點(diǎn)被同時(shí)啟動(dòng),并且始終伴隨著整個(gè) Spark 應(yīng)用的生命周期而存在。如果有Executor節(jié)點(diǎn)發(fā)生了故障或崩潰,Spark 應(yīng)用也可以繼續(xù)執(zhí)行,會(huì)將出錯(cuò)節(jié)點(diǎn)上的任務(wù)調(diào)度到其他Executor節(jié)點(diǎn)上繼續(xù)運(yùn)行。主要負(fù)責(zé):
1)負(fù)責(zé)運(yùn)行組成 Spark 應(yīng)用的任務(wù),并將結(jié)果返回給驅(qū)動(dòng)器進(jìn)程;
2)通過自身的塊管理器(Block Manager)為用戶程序中要求緩存的RDD提供內(nèi)存式存儲(chǔ)。RDD是直接緩存在Executor進(jìn)程內(nèi)的,因此任務(wù)可以在運(yùn)行時(shí)充分利用緩存數(shù)據(jù)加速運(yùn)算。

Yarn模式
Spark客戶端直接連接Yarn,不需要額外構(gòu)建Spark集群。有yarn-client和yarn-cluster兩種模式,主要區(qū)別在于:Driver程序的運(yùn)行節(jié)點(diǎn)。
yarn-client:Driver程序運(yùn)行在客戶端,適用于交互、調(diào)試,希望立即看到app的輸出
yarn-cluster:Driver程序運(yùn)行在由RM(ResourceManager)啟動(dòng)的AP(APPMaster)適用于生產(chǎn)環(huán)境。

幾種模式的對(duì)比
| 模式 | Spark機(jī)器安裝數(shù) | 需要啟動(dòng)的進(jìn)程 | 所屬者 |
|---|---|---|---|
| local | 1 | 無 | Spark |
| Standlone | 3 | Master及Worker | Spark |
| Yarn | 1 | Yarn及Hdfs | Hadoop |
Java編寫一個(gè)本地的Spark應(yīng)用
創(chuàng)建一個(gè)Maven項(xiàng)目WordCount并導(dǎo)入依賴
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.1</version>
</dependency>
</dependencies>
<build>
<finalName>WordCount</finalName>
<plugins>
<plugin>
<groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
<version>3.2.2</version>
<executions>
<execution>
<goals>
<goal>compile</goal>
<goal>testCompile</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
用wordCount例子來舉證
package com.leon.bigdata.spark
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
val sparkConfig = new SparkConf().setMaster("local[*]").setAppName("WordCount")
val sc = new SparkContext(sparkConfig)
val lines: RDD[String] = sc.textFile("./SparkDemo/data")
val words = lines.flatMap(_.split(" "))
val wordsMap = words.map((_,1))
val wordsSum = wordsMap.reduceByKey((_+_))
val result: Array[(String, Int)] = wordsSum.collect()
result.foreach(println)
}
}