大數(shù)據(jù)常見術(shù)語,你了解多少?

db433bde9822e9f77fe8d8325eb2ee7e.png

用戶畫像

用戶畫像又稱用戶角色,作為一種勾畫目標(biāo)用戶、聯(lián)系用戶訴求與設(shè)計方向的有效工具,用戶畫像在各領(lǐng)域得到了廣泛的應(yīng)用。我們在實際操作的過程中往往會以最為淺顯和貼近生活的話語將用戶的屬性、行為與期待的數(shù)據(jù)轉(zhuǎn)化聯(lián)結(jié)起來。作為實際用戶的虛擬代表,用戶畫像所形成的用戶角色并不是脫離產(chǎn)品和市場之外所構(gòu)建出來的,形成的用戶角色需要有代表性能代表產(chǎn)品的主要受眾和目標(biāo)群體。

大數(shù)據(jù)殺熟

對大數(shù)據(jù)來說這是一個不好的概念。

不同消費者對價格敏感度不同,支付意愿有差異,相比起統(tǒng)一定價,差異化的定價行為更能提高商家利潤。因此互聯(lián)網(wǎng)入口出現(xiàn)壟斷,殺熟便會成為一種“自然反應(yīng)”。

大數(shù)據(jù)殺熟本身就是利用各種這個消費數(shù)據(jù),把消費數(shù)據(jù)形成標(biāo)簽,這種殺熟做法非常糟糕。其實在我們交易過程里面很容易識別,但在網(wǎng)絡(luò)商品交易里面可能比較難識別,而且會破壞交易的公平性,破壞了社會的公平。

即席查詢

即席查詢(Ad Hoc)是用戶根據(jù)自己的需求,靈活的選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成相應(yīng)的統(tǒng)計報表。即席查詢與普通應(yīng)用查詢最大的不同是普通的應(yīng)用查詢是定制開發(fā)的,而即席查詢是由用戶自定義查詢條件的。

查詢引擎怎么選?7000字解析所有開源引擎的秘密

數(shù)據(jù)湖

數(shù)據(jù)湖(Data Lake)是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。hudi 目前,Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),所以很多人會覺得數(shù)據(jù)湖就是Hadoop集群。數(shù)據(jù)湖是一個概念,而Hadoop是用于實現(xiàn)這個概念的技術(shù)。

數(shù)據(jù)湖能處理所有類型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)的類型依賴于數(shù)據(jù)源系統(tǒng)的原始數(shù)據(jù)格式。非結(jié)構(gòu)化數(shù)據(jù)(語音、圖片、視頻等) 根據(jù)海量的數(shù)據(jù),挖掘出規(guī)律,反應(yīng)給運營部門。擁有非常強的計算能力用于處理數(shù)據(jù)。

而不同與數(shù)據(jù)倉庫的是:

數(shù)據(jù)倉庫主要處理歷史的、結(jié)構(gòu)化的數(shù)據(jù),而且這些數(shù)據(jù)必須與數(shù)據(jù)倉庫事先定義的模型吻合。數(shù)據(jù)倉庫分析的指標(biāo)都是產(chǎn)品經(jīng)理提前規(guī)定好的。按需分析數(shù)據(jù)。(日活、新增、留存、轉(zhuǎn)化率等等)。

數(shù)據(jù)中臺

數(shù)據(jù)中臺是對既有/新建信息化系統(tǒng)業(yè)務(wù)與數(shù)據(jù)的沉淀,是實現(xiàn)數(shù)據(jù)賦能新業(yè)務(wù)、新應(yīng)用的中間、支撐性平臺。

在數(shù)據(jù)開發(fā)中,核心數(shù)據(jù)模型的變化是相對緩慢的,同時,對數(shù)據(jù)進行維護的工作量也非常大;但業(yè)務(wù)創(chuàng)新的速度、對數(shù)據(jù)提出的需求的變化,是非??焖俚摹?/p>

數(shù)據(jù)中臺的出現(xiàn),就是為了彌補數(shù)據(jù)開發(fā)和應(yīng)用開發(fā)之間,由于開發(fā)速度不匹配,出現(xiàn)的響應(yīng)力跟不上的問題。

數(shù)據(jù)集市

數(shù)據(jù)集市(Data Mart),也叫數(shù)據(jù)市場,數(shù)據(jù)集市就是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標(biāo)、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。

數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個子集,它主要面向部門級業(yè)務(wù),并且只面向某個特定的主題。為了解決靈活性與性能之間的矛盾,數(shù)據(jù)集市就是數(shù)據(jù)倉庫體系結(jié)構(gòu)中增加的一種小型的部門或工作組級別的數(shù)據(jù)倉庫。數(shù)據(jù)集市存儲為特定用戶預(yù)先計算好的數(shù)據(jù),從而滿足用戶對性能的需求。數(shù)據(jù)集市可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸。

特點:
1.數(shù)據(jù)集市的特征包括規(guī)模小。
2.有特定的應(yīng)用。
3.面向部門。
4.由業(yè)務(wù)部門定義、設(shè)計和開發(fā)。
5.業(yè)務(wù)部門管理和維護。
6.能快速實現(xiàn)。
7.購買較便宜。
8.投資快速回收。
9.工具集的緊密集成。
10.提供更詳細(xì)的、預(yù)先存在的、數(shù)據(jù)倉庫的摘要子集。
11.可升級到完整的數(shù)據(jù)倉庫。

ETL

ETL 代表提取、轉(zhuǎn)換和加載。它指的是這一個過程:「提取」原始數(shù)據(jù),通過清洗/豐富的手段,把數(shù)據(jù)「轉(zhuǎn)換」為「適合使用」的形式,并且將其「加載」到合適的庫中供系統(tǒng)使用。即使 ETL 源自數(shù)據(jù)倉庫,但是這個過程在獲取數(shù)據(jù)的時候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。

雪花模型、星型模型和星座模型

星型模型:是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。

image.png

雪花型模型:當(dāng)有一個或多個維表沒有直接連接到事實表上,而是通過其他維表連接到事實表上時,其圖解就像多個雪花連接在一起,故稱雪花模型。雪花模型是對星型模型的擴展。它對星型模型的維表進一步層次化,原有的各維表可能被擴展為小的事實表,形成一些局部的 "層次 " 區(qū)域,這些被分解的表都連接到主維度表而不是事實表。

image.png

星座模型:由多個事實表組合,維表是公共的,可以被多個事實表共享。

image.png

事實表

事實表中的每行數(shù)據(jù)代表一個業(yè)務(wù)事件?!笆聦崱边@個術(shù)語表示的是業(yè)務(wù)事件的度量值,例如,訂單事件中的下單金額。

(1)事務(wù)性事實表 以每個事務(wù)或事件為單位,例如一個銷售訂單記錄,一筆支付記錄等,作為事實表里的一行數(shù)據(jù)。
(2)周期性快照事實表 周期性快照事實表中不會保留所有數(shù)據(jù),只保留固定時間間隔的數(shù)據(jù),例如每天或者每月的銷售額,或每月的賬戶余額等。
(3)累積性快照事實表 累計快照事實表用于跟蹤業(yè)務(wù)事實的變化。例如,數(shù)據(jù)倉庫中可能需要累積或者存儲訂單從下訂單開始,到訂單商品被打包、運輸、和簽收的各個業(yè)務(wù)階段的時間點數(shù)據(jù)來跟蹤訂單聲明周期的進展情況。當(dāng)這個業(yè)務(wù)過程進行時,事實表的記錄也要不斷跟新。

維度表

維度表(Dimension Table)或維表,有時也稱查找表(Lookup Table),是與事實表相對應(yīng)的一種表;它保存了維度的屬性值,可以跟事實表做關(guān)聯(lián);相當(dāng)于將事實表上經(jīng)常重復(fù)出現(xiàn)的屬性抽取、規(guī)范出來用一張表進行管理。常見的維度表有:日期表(存儲與日期對應(yīng)的周、月、季度等的屬性)、地點表(包含國家、?。荨⒊鞘械葘傩裕┑?。維度是維度建模的基礎(chǔ)和靈魂,

使用維度表有諸多好處,具體如下:

(1). 縮小了事實表的大小。
(2). 便于維度的管理和維護,增加、刪除和修改維度的屬性,不必對事實表的大量記錄進行改動。
(3).維度表可以為多個事實表重用,以減少重復(fù)工作。

上鉆與下鉆

上鉆:自下而上,從當(dāng)前數(shù)據(jù)回歸到上層數(shù)據(jù)。
下鉆:自上而下, 從當(dāng)前數(shù)據(jù)繼續(xù)向下獲取下層數(shù)據(jù)。
鉆取是在數(shù)據(jù)分析中不可缺少的功能之一,通過改變展現(xiàn)數(shù)據(jù)維度的層次、變換分析的粒度從而關(guān)注數(shù)據(jù)中更詳盡的信息。它包括向上鉆?。?roll up )和向下鉆?。?drill down )。

上鉆是沿著維度的層次向上聚集匯總數(shù)據(jù),下鉆是在分析時加深維度,對數(shù)據(jù)進行層層深入的查看。通過逐層下鉆,數(shù)據(jù)更加一目了然,更能充分挖掘數(shù)據(jù)背后的價值,及時做出更加正確的決策。

維度退化

維度退化的維度表可以被剔除,從而簡化維度數(shù)據(jù)倉庫的模式。因為簡單的模式比復(fù)雜的更容易理解,也有更好的查詢性能。

當(dāng)一個維度沒有數(shù)據(jù)倉庫需要的任何數(shù)據(jù)時就可以退化此維度。需要把維度退化的相關(guān)數(shù)據(jù)遷移到事實表中,然后刪除退化的維度。

維度屬性也可以存儲到事實表中,這種存儲到事實表中的維度列被稱為“維度退化”。與其他存儲在維表中的維度一樣 , 維度退化也可以用來進行事實表的過濾查詢、實現(xiàn)聚合操作等。

UV與PV

PV(訪問量):即Page View, 具體是指網(wǎng)站的是頁面瀏覽量或者點擊量;

UV(獨立訪客):即Unique Visitor,訪問您網(wǎng)站的一臺電腦客戶端為一個訪客。根據(jù)IP地址來區(qū)分訪客數(shù),在一段時間內(nèi)重復(fù)訪問,也算是一個UV;

UV價值=銷售額/訪客數(shù)。意思是每位訪客帶來多少銷售額;UV價值越大,產(chǎn)品越迎合消費者需求,只有一定的推廣投入才會帶來相對應(yīng)的UV;比如這篇文章文末的瀏覽量這邊代表的就是UV,不管你今天打開過還是明天再打開,對你來說,程序后臺記錄的增加值是1。

SKU與SPU

SPU = Standard Product Unit (標(biāo)準(zhǔn)化產(chǎn)品單元)

SPU是商品信息聚合的最小單位,是一組可復(fù)用、易檢索的標(biāo)準(zhǔn)化信息的集合,該集合描述了一個產(chǎn)品的特性。通俗點講,屬性值、特性相同的商品就可以稱為一個SPU。

SKU=stock keeping unit(庫存量單位)

SKU即庫存進出計量的單位, 可以是以件、盒、托盤等為單位。

你想要一臺iPhone13, 店員也會再繼續(xù)問: 你想要什么iPhone 13? 64G 銀色?128G 白色?每一臺iPhone 13的毛重都是400.00g,產(chǎn)地也都是中國大陸,這兩個屬性就屬于spu屬性。

而容量和顏色,這種會影響價格和庫存的(比如64G與128G的價格不同,128G白色還有貨,綠色賣完了)屬性就是sku屬性。

spu屬性:
1、毛重420.00 g
2、產(chǎn)地中國大陸
sku屬性:
1、容量: 16G, 64G, 128G
2、顏色: 銀、白、玫瑰金

ODS,DWD,DWS,DWT與ADS

ODS層:保持?jǐn)?shù)據(jù)原貌不做任何修改,起到備份數(shù)據(jù)的作用。
DWD層:構(gòu)建維度模型,一般采用星型模型,呈現(xiàn)的狀態(tài)一般為星座模型。
DWS層:服務(wù)數(shù)據(jù)層,DWS層存放的所有主題對象當(dāng)天的匯總行為,例如每個地區(qū)當(dāng)天的下單次數(shù),下單金額等。
DWT層:DWT層存放的是所有主題對象的累計行為,例如一個地區(qū)最近(7天,15天,30天,60天)的下單次數(shù)、下單金額等。
DWS層是天表,DWT層是累計值。
ADS層:應(yīng)用數(shù)據(jù)層,指標(biāo)層。

T+0與T+1

概念最早來自于股市。T+0和T+1交易制度是中國股市的一種交易制度,T+0交易指的是當(dāng)天買入股票可當(dāng)天賣出,當(dāng)天賣出股票又可當(dāng)天買入。
在大數(shù)據(jù)中:T+0代表實時處理的數(shù)據(jù)。T+1代表處理昨天的數(shù)據(jù)。

機器學(xué)習(xí)

人工智能的一部分,指的是機器能夠從它們所完成的任務(wù)中進行自我學(xué)習(xí),通過長期的累積實現(xiàn)自我改進。

MapReduce

是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map: 映射,Reduce: 歸納)。

實時數(shù)據(jù)

指在幾毫秒內(nèi)被創(chuàng)建、處理、存儲、分析并顯示的數(shù)據(jù)。

本文轉(zhuǎn)載自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系刪除。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容