2、維度、度量、事實表、維度表、立方體cube

維度通常是一個數(shù)據(jù)記錄的屬性,度量是某一個維度根據(jù)特定聚合函數(shù)生成的值;group by 的屬性通常就是維度,計算的值則是度量。

事實表:存儲有事實記錄的表,如系統(tǒng)日志、銷售記錄等,事實表的記錄會不斷增長。

維度表:也稱查找表,是與事實表相對應的一種表;保存了維度屬性值,跟事實表做關聯(lián)。是對事實表上重復出現(xiàn)的屬性抽取、規(guī)范出來用一張表進行管理。如地區(qū)、月度、年度等。

data cube:數(shù)據(jù)立方體,原始數(shù)據(jù)建立的多維度索引,可以大大加快數(shù)據(jù)的查詢效率。

cuboid:某一種維度組合下所計算的數(shù)據(jù)。

cubsegment:針對源數(shù)據(jù)中的某一個片段,計算出來的cube數(shù)據(jù),cube是按照時間順序來構建的。

? ? 大數(shù)據(jù)事實表按照時間梯度的增量計算生成的cube,就是cubesegment,過多的segment會影響后期查詢性能,需要進行合并。


維度表設計

1、數(shù)據(jù)一致性,主鍵唯一性,kylin會檢查,如果不唯一,會報錯。

2、維度表越小越好,因為kylin會放在內(nèi)存中,默認的閾值是300mb

3、改變頻率低,kylin會在每次構建中試圖重用維度表的快照,如果維度表經(jīng)常改變,重用會失效。

4、維度表最好不要是視圖,因為需要對視圖物化,從而增加時間開銷。

維度基數(shù):維度在數(shù)據(jù)集中出現(xiàn)的不通值,如國家這個維度,如果有200個不同的值,那么此維度的基數(shù)就是200。基數(shù)超過100w的維度通常被稱為超高基數(shù)維度,需要注意。

如果一個cube的超高基數(shù)維度多,那這個cube膨脹的概率會很高。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)倉庫概念匯總 目錄 一、術語............................................
    起個什么呢稱呢閱讀 4,492評論 2 23
  • kylin是用于DW/BI的一種OLAP工具,滿足多維環(huán)境下的特定查詢。 術語 維度(Dimension)一組屬性...
    hzrick閱讀 9,255評論 6 9
  • 1. Apache Kylin 是什么? Apache Kylin?是一個開源的分布式分析引擎,提供Hadoop之...
    ZanderXu閱讀 20,095評論 0 22
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,724評論 19 139
  • 項目初步規(guī)劃: 對頁面布局的鞏固 頁面設計 設計項目logo
    b66a0d292b52閱讀 148評論 0 1

友情鏈接更多精彩內(nèi)容