Spark Core 性能調(diào)優(yōu)之配置內(nèi)存

操作場(chǎng)景

? ? ? ? Spark是內(nèi)存計(jì)算框架,計(jì)算過程中內(nèi)存不夠?qū)park的執(zhí)行效率影響很大。可以通過監(jiān)控GC(Garbage Collection),評(píng)估內(nèi)存中RDD的大小來判斷內(nèi)存是否變成性能瓶頸,并根據(jù)情況優(yōu)化。

? ? ? ? 監(jiān)控節(jié)點(diǎn)進(jìn)程的GC情況(在客戶端的conf/spark-default.conf配置文件中,在spark.driver.extraJavaOptions和spark.executor.extraJavaOptions配置項(xiàng)中添加參數(shù):

"-verbose:gc?-XX:+PrintGCDetails -XX:+PrintGCTimeStamps"),如果頻繁出現(xiàn)Full ?GC,需要優(yōu)化GC。把RDD做Cache操作,通過日志查看RDD在內(nèi)存中的大小,如果數(shù)據(jù)太大,需要改變RDD的存儲(chǔ)級(jí)別來優(yōu)化。

操作步驟

● 優(yōu)化GC,調(diào)整老年代和新生代的大小和比例。在客戶端的conf/spark-default.conf配置文件中,在spark.driver.extraJavaOptions和spark.executor.extraJavaOptions配置項(xiàng)中添加參數(shù):-XX:NewRatio。如,"

-XX:NewRatio=2",則新生代占整個(gè)堆空間的1/3,老年代占2/3。

● 開發(fā)Spark應(yīng)用程序時(shí),優(yōu)化RDD的數(shù)據(jù)結(jié)構(gòu)。

? ? ■ 使用原始類型數(shù)組替代集合類,如可使用fastutil庫。

? ? ■ 避免嵌套結(jié)構(gòu)。

? ? ■ Key盡量不要使用String。

● 開發(fā)Spark應(yīng)用程序時(shí),建議序列化RDD。

? ? RDD做cache時(shí)默認(rèn)是不序列化數(shù)據(jù)的,可以通過設(shè)置存儲(chǔ)級(jí)別來序列化RDD減小內(nèi)存。例如:

testRDD.persist(StorageLevel.MEMORY_ONLY_SER)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容