Spark DataSource API 的提出使得各個數(shù)據(jù)源按規(guī)范實現(xiàn)適配,那么就可以高效的利用Spark 的計算能力。典型如Parquet,CarbonData,Post...
Hive從0.11版本開始提供了ORC的文件格式,ORC文件不僅僅是一種列式文件存儲格式,最重要的是有著很高的壓縮比,并且對于MapReduce來說是可切分(Split)的。...
深入分析Parquet列式存儲格式 Parquet是面向分析型業(yè)務的列式存儲格式,由Twitter和Cloudera合作開發(fā),2015年5月從Apache的孵化器里畢業(yè)成為A...
雖然我的主業(yè)是實時計算和批量計算,并不是數(shù)倉,但是在日常工作中絕對少不了與數(shù)倉打交道。并且我也算是參與過離線數(shù)倉建設的,維度建模的基礎(chǔ)還是不能忘。本文就作為一篇抄書筆記吧。 ...
前言 所有電商企業(yè)在一年一度的雙11都要迎來大促與大考,我司也不例外(所以最近真是前所未有的忙亂)。前段時間在配合執(zhí)行全鏈路壓測的過程中,發(fā)現(xiàn)平時不太關(guān)注的Flume配置可能...
Presto 是Facebook 為了交互式查詢數(shù)據(jù)開發(fā)的一個查詢引擎. 前些年開源. 最近開發(fā)了一些connector , 因此想記錄一下presto plugin 的開發(fā)...