Spark DataSource API 的提出使得各個(gè)數(shù)據(jù)源按規(guī)范實(shí)現(xiàn)適配,那么就可以高效的利用Spark 的計(jì)算能力。典型如Parquet,CarbonData,Post...
Spark DataSource API 的提出使得各個(gè)數(shù)據(jù)源按規(guī)范實(shí)現(xiàn)適配,那么就可以高效的利用Spark 的計(jì)算能力。典型如Parquet,CarbonData,Post...
Hive從0.11版本開(kāi)始提供了ORC的文件格式,ORC文件不僅僅是一種列式文件存儲(chǔ)格式,最重要的是有著很高的壓縮比,并且對(duì)于MapReduce來(lái)說(shuō)是可切分(Split)的。...
深入分析Parquet列式存儲(chǔ)格式 Parquet是面向分析型業(yè)務(wù)的列式存儲(chǔ)格式,由Twitter和Cloudera合作開(kāi)發(fā),2015年5月從Apache的孵化器里畢業(yè)成為A...
雖然我的主業(yè)是實(shí)時(shí)計(jì)算和批量計(jì)算,并不是數(shù)倉(cāng),但是在日常工作中絕對(duì)少不了與數(shù)倉(cāng)打交道。并且我也算是參與過(guò)離線數(shù)倉(cāng)建設(shè)的,維度建模的基礎(chǔ)還是不能忘。本文就作為一篇抄書(shū)筆記吧。 ...
前言 所有電商企業(yè)在一年一度的雙11都要迎來(lái)大促與大考,我司也不例外(所以最近真是前所未有的忙亂)。前段時(shí)間在配合執(zhí)行全鏈路壓測(cè)的過(guò)程中,發(fā)現(xiàn)平時(shí)不太關(guān)注的Flume配置可能...
Presto 是Facebook 為了交互式查詢(xún)數(shù)據(jù)開(kāi)發(fā)的一個(gè)查詢(xún)引擎. 前些年開(kāi)源. 最近開(kāi)發(fā)了一些connector , 因此想記錄一下presto plugin 的開(kāi)發(fā)...
前一段時(shí)間自己開(kāi)發(fā)了一套基于Yarn的容器調(diào)度系統(tǒng),這篇文章就是分享其中的一些經(jīng)驗(yàn)。 前言 這篇文章不會(huì)具體教你如何使用Yarn的API,但是會(huì)教你我實(shí)踐過(guò)后的一些經(jīng)驗(yàn)。接下...
上次在做內(nèi)部培訓(xùn)的時(shí)候,我講了這么一句: 一個(gè)Job里的Stage都是串行的,前一個(gè)Stage完成后下一個(gè)Stage才會(huì)進(jìn)行。 顯然上面的話是不嚴(yán)謹(jǐn)?shù)摹?看如下的代碼: 這里...