1.Spark基礎(chǔ)學(xué)習(xí)一(Spark概念)

什么是Spark

Spark是一種基于內(nèi)存的快速的,通用的,可擴(kuò)展的大數(shù)據(jù)分析引擎

Spark內(nèi)存模塊

Snipaste_2020-08-18_20-33-17

Spark特點(diǎn)

:與Hadoop和MapReduce響度,Spark基于內(nèi)存運(yùn)算要快100倍以上,基于硬盤的運(yùn)算要快10倍以上,Spark實(shí)現(xiàn)了高效的DAG執(zhí)行引擎,可以通過基于內(nèi)存來高效處理數(shù)據(jù)流,計(jì)算的中間結(jié)果是存在內(nèi)存中的

易用: Spark支持Java,Python和Scala的API,還支持超過80中的高級(jí)算法,使用戶可以快速構(gòu)建不同的應(yīng)用,而且Spark支持交互式的Python和Scala的Shell,可以非常方便的再這些Shell中使用Spark集群來驗(yàn)證解決問題。

通用: Spark提供了同意的解決方案,Spark可以用于處理,交互式查詢,實(shí)時(shí)處理,機(jī)器學(xué)習(xí),圖計(jì)算,這些不同類型的處理都可以在同一個(gè)應(yīng)用中無縫使用,減少開發(fā)和維護(hù)的人力成本。

兼容: Spark可以非常方便的與其他開元產(chǎn)品進(jìn)行融合,比如,Spark可以使用Hadoop的yarn和Apache Mesos作為它的資源管理器和調(diào)度器,并且可以處理所有的Hadoop支持?jǐn)?shù)據(jù)。包括HDFS,Hbase等。

Spark的安裝地址

1.官網(wǎng)地址

http://spark.apache.org/

2.文檔查看地址

https://spark.apache.org/docs/2.1.1/

3.下載地址

https://spark.apache.org/downloads.html

角色

Driver(驅(qū)動(dòng)器)

? Spark的驅(qū)動(dòng)器是執(zhí)行開發(fā)程序中的main方法的進(jìn)程。它負(fù)責(zé)開發(fā)人員編寫的用來創(chuàng)建SparkContext、創(chuàng)建RDD,以及進(jìn)行RDD的轉(zhuǎn)化操作和行動(dòng)操作代碼的執(zhí)行。如果你是用spark shell,那么當(dāng)你啟動(dòng)Spark shell的時(shí)候,系統(tǒng)后臺(tái)自啟了一個(gè)Spark驅(qū)動(dòng)器程序,就是在Spark shell中預(yù)加載的一個(gè)叫作 sc的SparkContext對(duì)象。如果驅(qū)動(dòng)器程序終止,那么Spark應(yīng)用也就結(jié)束了。主要負(fù)責(zé):

? 1)把用戶程序轉(zhuǎn)為作業(yè)(JOB)

? 2)跟蹤Executor的運(yùn)行狀況

? 3)為執(zhí)行器節(jié)點(diǎn)調(diào)度任務(wù)

? 4)UI展示應(yīng)用運(yùn)行狀況

Executor(執(zhí)行器)

? Spark Executor是一個(gè)工作進(jìn)程,負(fù)責(zé)在 Spark 作業(yè)中運(yùn)行任務(wù),任務(wù)間相互獨(dú)立。Spark 應(yīng)用啟動(dòng)時(shí),Executor節(jié)點(diǎn)被同時(shí)啟動(dòng),并且始終伴隨著整個(gè) Spark 應(yīng)用的生命周期而存在。如果有Executor節(jié)點(diǎn)發(fā)生了故障或崩潰,Spark 應(yīng)用也可以繼續(xù)執(zhí)行,會(huì)將出錯(cuò)節(jié)點(diǎn)上的任務(wù)調(diào)度到其他Executor節(jié)點(diǎn)上繼續(xù)運(yùn)行。主要負(fù)責(zé):

1)負(fù)責(zé)運(yùn)行組成 Spark 應(yīng)用的任務(wù),并將結(jié)果返回給驅(qū)動(dòng)器進(jìn)程;

2)通過自身的塊管理器(Block Manager)為用戶程序中要求緩存的RDD提供內(nèi)存式存儲(chǔ)。RDD是直接緩存在Executor進(jìn)程內(nèi)的,因此任務(wù)可以在運(yùn)行時(shí)充分利用緩存數(shù)據(jù)加速運(yùn)算。

Snipaste_2020-08-18_20-46-52

Yarn模式

Spark客戶端直接連接Yarn,不需要額外構(gòu)建Spark集群。有yarn-client和yarn-cluster兩種模式,主要區(qū)別在于:Driver程序的運(yùn)行節(jié)點(diǎn)。

yarn-client:Driver程序運(yùn)行在客戶端,適用于交互、調(diào)試,希望立即看到app的輸出

yarn-cluster:Driver程序運(yùn)行在由RM(ResourceManager)啟動(dòng)的AP(APPMaster)適用于生產(chǎn)環(huán)境。

Snipaste_2020-08-19_17-39-17

幾種模式的對(duì)比

模式 Spark機(jī)器安裝數(shù) 需要啟動(dòng)的進(jìn)程 所屬者
local 1 Spark
Standlone 3 Master及Worker Spark
Yarn 1 Yarn及Hdfs Hadoop

Java編寫一個(gè)本地的Spark應(yīng)用

創(chuàng)建一個(gè)Maven項(xiàng)目WordCount并導(dǎo)入依賴

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.1.1</version>
    </dependency>
</dependencies>
<build>
        <finalName>WordCount</finalName>
        <plugins>
<plugin>
                <groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                       <goals>
                          <goal>compile</goal>
                          <goal>testCompile</goal>
                       </goals>
                    </execution>
                 </executions>
            </plugin>
        </plugins>
</build>

用wordCount例子來舉證

package com.leon.bigdata.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {
    val sparkConfig = new SparkConf().setMaster("local[*]").setAppName("WordCount")
    
    val sc = new SparkContext(sparkConfig)

    val lines: RDD[String] = sc.textFile("./SparkDemo/data")

    val words = lines.flatMap(_.split(" "))

    val wordsMap = words.map((_,1))

    val wordsSum = wordsMap.reduceByKey((_+_))

    val result: Array[(String, Int)] = wordsSum.collect()

    result.foreach(println)
  }
}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容