數(shù)據(jù)可視化指南

數(shù)據(jù)可視化的意義

1. 表達(dá)觀點(diǎn)

人類是視覺(jué)動(dòng)物,一張簡(jiǎn)單的數(shù)據(jù)可視化圖表在傳遞大量信息的同時(shí),能更加直觀地闡述觀點(diǎn),為瀏覽者帶來(lái)?更深刻的印象。比如最為經(jīng)典的就是1857年,南丁格爾設(shè)計(jì)的玫瑰圖。她講每月犧牲的戰(zhàn)士數(shù)量以及死亡原因,列成一張圖表,直觀的表達(dá)了戰(zhàn)爭(zhēng)的可怕以及軍隊(duì)醫(yī)療條件的重要性。

南丁格爾玫瑰圖

這張圖很簡(jiǎn)單,但是卻真正直接客觀的將各種數(shù)據(jù)展示在女王面前,從而為軍隊(duì)贏來(lái)更好的醫(yī)療條件。這是當(dāng)時(shí)的數(shù)據(jù)可視化,也是真正的一圖勝千言的代表。

2. 發(fā)現(xiàn)聯(lián)系

在錯(cuò)綜復(fù)雜的數(shù)據(jù)中,很難發(fā)現(xiàn)不同維度和指標(biāo)之間的關(guān)聯(lián)關(guān)系,通過(guò)數(shù)據(jù)可視化的方式則可以輕松驗(yàn)證。

日本有一家啤酒廠,收集了近 30 年的氣象資料,將其與當(dāng)月的啤酒銷售情況相聯(lián)系,繪出了“啤酒氣溫曲線”。通過(guò)這個(gè)?圖表可觀察出,在市場(chǎng)趨于飽和的情況下,氣溫成了決定啤酒銷量升降的主要因素。于是,這家啤酒廠根據(jù)天氣情況,合理安排生產(chǎn),收到了良好效果。

越來(lái)越多的企業(yè)開始重視公司自身數(shù)據(jù)的收集和處理,通過(guò)商業(yè) BI 系統(tǒng)的幫助,在可視化的圖表中,發(fā)現(xiàn)潛在的聯(lián)系,以此優(yōu)化、改進(jìn)公司策略。

具體的實(shí)施主要分為 獲取數(shù)據(jù)、數(shù)據(jù)處理和可視化三步。

1. 獲取數(shù)據(jù)

數(shù)據(jù)可視化的第一步,首先要擁有數(shù)據(jù),數(shù)據(jù)來(lái)源主要有以下幾種:

  1. 自有數(shù)據(jù)
    公司運(yùn)營(yíng)過(guò)程中最直接的數(shù)據(jù)。比如成本數(shù)據(jù),銷售數(shù)據(jù)。對(duì)于互聯(lián)網(wǎng)?公司來(lái)說(shuō),注冊(cè)用戶的用戶名、性別、年齡、消費(fèi)記錄等,這也是最關(guān)鍵、最核心的數(shù)據(jù)。
  2. 爬蟲采集
    互聯(lián)網(wǎng)上有大量的資源,比如豆瓣上有最全的書、電影的數(shù)據(jù),京東、淘寶上有?豐富的商品數(shù)據(jù),微博上有大家討論最多的話題和微博,而這些數(shù)據(jù)常常難以直接批量獲取,需要通過(guò)寫程度的方式爬取?數(shù)據(jù)。競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)常常也可以通過(guò)爬蟲抓取。
  3. ?購(gòu)買、合作、公共數(shù)據(jù)等
    通過(guò)購(gòu)買、合作的方式獲取數(shù)據(jù),統(tǒng)計(jì)局等機(jī)構(gòu)的網(wǎng)站上也會(huì)有?很多數(shù)據(jù)可供研究。

2. 數(shù)據(jù)處理

  1. 數(shù)據(jù)清洗
    ?這一步需要清洗掉不合法的數(shù)據(jù)。需要根據(jù)具體的業(yè)務(wù)情況來(lái)判斷哪些是不合法的數(shù)據(jù)。比如?收集到的調(diào)研問(wèn)卷中,回答自己是學(xué)生,同時(shí)是媽媽的群體;在實(shí)際的業(yè)務(wù)中,會(huì)有很多類似的邏輯矛盾的數(shù)據(jù)。

  2. 數(shù)據(jù)擴(kuò)充
    很多數(shù)據(jù)背后包含更加豐富的信息,比如可以通過(guò)用戶注冊(cè)的手機(jī)號(hào),擴(kuò)充到歸屬地、運(yùn)營(yíng)商,通過(guò) IP 可以定位的 IP 所在城市,通過(guò)用戶的 UserAgent,可以擴(kuò)充用戶使用瀏覽器、操作系統(tǒng)、手機(jī)機(jī)型等信息。通過(guò)數(shù)據(jù)擴(kuò)充,挖掘背后更多的聯(lián)系。

  3. ?數(shù)據(jù)的預(yù)處理
    采集到的數(shù)據(jù)可能是百萬(wàn)千萬(wàn)甚至上億的數(shù)量級(jí),常見的可視化工具無(wú)法處理如此龐大的數(shù)據(jù)量,這一步則需要進(jìn)行數(shù)據(jù)預(yù)處理,將數(shù)據(jù)聚合以及初步的統(tǒng)計(jì),處理成可視化工具容易識(shí)別和處理的格式。

3. 數(shù)據(jù)可視化

  1. 圖表的選擇
    我的建議是多看案例,看過(guò)別人是如何展示的,才會(huì)知道?圖表原來(lái)還可以這樣,對(duì)于相同的數(shù)據(jù),嘗試使用多種圖表進(jìn)行展示,對(duì)比查看效果。這里推薦 ECharts 的樣例展示頁(yè),仔細(xì)查看并牢記每種圖形會(huì)對(duì)后面圖表的選擇大有幫助。

    ECharts 的樣例展示

    關(guān)于圖表的選擇,這里提供一些建議和思維指南:

    圖表建議 - 思維指南(圖片來(lái)自網(wǎng)絡(luò))
  2. 工具
    我把工具分成三類:

    更多工具介紹可見文末擴(kuò)展閱讀。

  3. 細(xì)節(jié)處理往往很頭痛

    為了讓圖表美觀、易讀在處理圖表的時(shí)候會(huì)遇到很多優(yōu)化的細(xì)節(jié):如下圖, 當(dāng)你水平排列數(shù)據(jù)標(biāo)識(shí)時(shí), 數(shù)據(jù)標(biāo)識(shí)會(huì)看不清, 如果旋轉(zhuǎn)90度, 數(shù)據(jù)標(biāo)識(shí)是看清楚了, 不過(guò)又浪費(fèi)了很大一塊空間。 選擇一個(gè)合適的數(shù)據(jù)標(biāo)識(shí)格式對(duì)有些可視化來(lái)說(shuō)是個(gè)解決方案, 不過(guò)也不是對(duì)所有方案都適用。

    在有關(guān)地域的數(shù)據(jù)展示中,使用地圖是不錯(cuò)的選擇,但也會(huì)面臨很多問(wèn)題:香港、上海等地面積太小,新疆、西藏等地面積又太大;如果使用平局尺度的比例尺,會(huì)發(fā)現(xiàn)重點(diǎn)城市的顏色是最深刻度,其他省份都清一色一種刻度,難以察覺(jué)出分別,照顧到可讀性,需要考慮使用非平均的比例尺。


綜上,數(shù)據(jù)可視化流程示意

數(shù)據(jù)可視化流程

擴(kuò)展閱讀

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容