Spark DataSource API 的提出使得各個(gè)數(shù)據(jù)源按規(guī)范實(shí)現(xiàn)適配,那么就可以高效的利用Spark 的計(jì)算能力。典型如Parquet,CarbonData,Post...
Hive從0.11版本開始提供了ORC的文件格式,ORC文件不僅僅是一種列式文件存儲(chǔ)格式,最重要的是有著很高的壓縮比,并且對于MapReduce來說是可切分(Split)的。...
深入分析Parquet列式存儲(chǔ)格式 Parquet是面向分析型業(yè)務(wù)的列式存儲(chǔ)格式,由Twitter和Cloudera合作開發(fā),2015年5月從Apache的孵化器里畢業(yè)成為A...
雖然我的主業(yè)是實(shí)時(shí)計(jì)算和批量計(jì)算,并不是數(shù)倉,但是在日常工作中絕對少不了與數(shù)倉打交道。并且我也算是參與過離線數(shù)倉建設(shè)的,維度建模的基礎(chǔ)還是不能忘。本文就作為一篇抄書筆記吧。 ...
前言 所有電商企業(yè)在一年一度的雙11都要迎來大促與大考,我司也不例外(所以最近真是前所未有的忙亂)。前段時(shí)間在配合執(zhí)行全鏈路壓測的過程中,發(fā)現(xiàn)平時(shí)不太關(guān)注的Flume配置可能...
Presto 是Facebook 為了交互式查詢數(shù)據(jù)開發(fā)的一個(gè)查詢引擎. 前些年開源. 最近開發(fā)了一些connector , 因此想記錄一下presto plugin 的開發(fā)...