国产精品丝袜香蕉视频,人妻靳A√

什么是Spark

Spark是一種基于內(nèi)存的快速的，通用的，可擴(kuò)展的大數(shù)據(jù)分析引擎

Spark內(nèi)存模塊

Snipaste_2020-08-18_20-33-17

Spark特點(diǎn)

快:與Hadoop和MapReduce響度，Spark基于內(nèi)存運(yùn)算要快100倍以上，基于硬盤的運(yùn)算要快10倍以上，Spark實(shí)現(xiàn)了高效的DAG執(zhí)行引擎，可以通過基于內(nèi)存來高效處理數(shù)據(jù)流，計(jì)算的中間結(jié)果是存在內(nèi)存中的

易用: Spark支持Java，Python和Scala的API，還支持超過80中的高級(jí)算法，使用戶可以快速構(gòu)建不同的應(yīng)用，而且Spark支持交互式的Python和Scala的Shell，可以非常方便的再這些Shell中使用Spark集群來驗(yàn)證解決問題。

通用: Spark提供了同意的解決方案，Spark可以用于處理，交互式查詢，實(shí)時(shí)處理，機(jī)器學(xué)習(xí)，圖計(jì)算，這些不同類型的處理都可以在同一個(gè)應(yīng)用中無縫使用，減少開發(fā)和維護(hù)的人力成本。

兼容: Spark可以非常方便的與其他開元產(chǎn)品進(jìn)行融合，比如，Spark可以使用Hadoop的yarn和Apache Mesos作為它的資源管理器和調(diào)度器，并且可以處理所有的Hadoop支持?jǐn)?shù)據(jù)。包括HDFS，Hbase等。

Spark的安裝地址

1．官網(wǎng)地址

http://spark.apache.org/

2．文檔查看地址

https://spark.apache.org/docs/2.1.1/

3．下載地址

https://spark.apache.org/downloads.html

角色

Driver（驅(qū)動(dòng)器）

? Spark的驅(qū)動(dòng)器是執(zhí)行開發(fā)程序中的main方法的進(jìn)程。它負(fù)責(zé)開發(fā)人員編寫的用來創(chuàng)建SparkContext、創(chuàng)建RDD，以及進(jìn)行RDD的轉(zhuǎn)化操作和行動(dòng)操作代碼的執(zhí)行。如果你是用spark shell，那么當(dāng)你啟動(dòng)Spark shell的時(shí)候，系統(tǒng)后臺(tái)自啟了一個(gè)Spark驅(qū)動(dòng)器程序，就是在Spark shell中預(yù)加載的一個(gè)叫作 sc的SparkContext對(duì)象。如果驅(qū)動(dòng)器程序終止，那么Spark應(yīng)用也就結(jié)束了。主要負(fù)責(zé)：

? 1）把用戶程序轉(zhuǎn)為作業(yè)（JOB）

? 2）跟蹤Executor的運(yùn)行狀況

? 3）為執(zhí)行器節(jié)點(diǎn)調(diào)度任務(wù)

? 4）UI展示應(yīng)用運(yùn)行狀況

Executor（執(zhí)行器）

? Spark Executor是一個(gè)工作進(jìn)程，負(fù)責(zé)在 Spark 作業(yè)中運(yùn)行任務(wù)，任務(wù)間相互獨(dú)立。Spark 應(yīng)用啟動(dòng)時(shí)，Executor節(jié)點(diǎn)被同時(shí)啟動(dòng)，并且始終伴隨著整個(gè) Spark 應(yīng)用的生命周期而存在。如果有Executor節(jié)點(diǎn)發(fā)生了故障或崩潰，Spark 應(yīng)用也可以繼續(xù)執(zhí)行，會(huì)將出錯(cuò)節(jié)點(diǎn)上的任務(wù)調(diào)度到其他Executor節(jié)點(diǎn)上繼續(xù)運(yùn)行。主要負(fù)責(zé)：

1）負(fù)責(zé)運(yùn)行組成 Spark 應(yīng)用的任務(wù)，并將結(jié)果返回給驅(qū)動(dòng)器進(jìn)程；

2）通過自身的塊管理器（Block Manager）為用戶程序中要求緩存的RDD提供內(nèi)存式存儲(chǔ)。RDD是直接緩存在Executor進(jìn)程內(nèi)的，因此任務(wù)可以在運(yùn)行時(shí)充分利用緩存數(shù)據(jù)加速運(yùn)算。

Snipaste_2020-08-18_20-46-52

Yarn模式

Spark客戶端直接連接Yarn，不需要額外構(gòu)建Spark集群。有yarn-client和yarn-cluster兩種模式，主要區(qū)別在于：Driver程序的運(yùn)行節(jié)點(diǎn)。

yarn-client：Driver程序運(yùn)行在客戶端，適用于交互、調(diào)試，希望立即看到app的輸出

yarn-cluster：Driver程序運(yùn)行在由RM（ResourceManager）啟動(dòng)的AP（APPMaster）適用于生產(chǎn)環(huán)境。

Snipaste_2020-08-19_17-39-17

幾種模式的對(duì)比

模式	Spark機(jī)器安裝數(shù)	需要啟動(dòng)的進(jìn)程	所屬者
local	1	無	Spark
Standlone	3	Master及Worker	Spark
Yarn	1	Yarn及Hdfs	Hadoop

Java編寫一個(gè)本地的Spark應(yīng)用

創(chuàng)建一個(gè)Maven項(xiàng)目WordCount并導(dǎo)入依賴

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.1.1</version>
    </dependency>
</dependencies>
<build>
        <finalName>WordCount</finalName>
        <plugins>
<plugin>
                <groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                       <goals>
                          <goal>compile</goal>
                          <goal>testCompile</goal>
                       </goals>
                    </execution>
                 </executions>
            </plugin>
        </plugins>
</build>

用wordCount例子來舉證

package com.leon.bigdata.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {
    val sparkConfig = new SparkConf().setMaster("local[*]").setAppName("WordCount")
    
    val sc = new SparkContext(sparkConfig)

    val lines: RDD[String] = sc.textFile("./SparkDemo/data")

    val words = lines.flatMap(_.split(" "))

    val wordsMap = words.map((_,1))

    val wordsSum = wordsMap.reduceByKey((_+_))

    val result: Array[(String, Int)] = wordsSum.collect()

    result.foreach(println)
  }
}

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1.Spark基礎(chǔ)學(xué)習(xí)一（Spark概念）

1.Spark基礎(chǔ)學(xué)習(xí)一（Spark概念）

什么是Spark

Spark內(nèi)存模塊

Spark特點(diǎn)

Spark的安裝地址

角色

Yarn模式

幾種模式的對(duì)比

Java編寫一個(gè)本地的Spark應(yīng)用

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

1.Spark基礎(chǔ)學(xué)習(xí)一（Spark概念）

什么是Spark

Spark內(nèi)存模塊

Spark特點(diǎn)

Spark的安裝地址

角色

Yarn模式

幾種模式的對(duì)比

Java編寫一個(gè)本地的Spark應(yīng)用

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av