數(shù)據(jù)可視化的意義
1. 表達(dá)觀點(diǎn)
人類是視覺(jué)動(dòng)物,一張簡(jiǎn)單的數(shù)據(jù)可視化圖表在傳遞大量信息的同時(shí),能更加直觀地闡述觀點(diǎn),為瀏覽者帶來(lái)?更深刻的印象。比如最為經(jīng)典的就是1857年,南丁格爾設(shè)計(jì)的玫瑰圖。她講每月犧牲的戰(zhàn)士數(shù)量以及死亡原因,列成一張圖表,直觀的表達(dá)了戰(zhàn)爭(zhēng)的可怕以及軍隊(duì)醫(yī)療條件的重要性。

這張圖很簡(jiǎn)單,但是卻真正直接客觀的將各種數(shù)據(jù)展示在女王面前,從而為軍隊(duì)贏來(lái)更好的醫(yī)療條件。這是當(dāng)時(shí)的數(shù)據(jù)可視化,也是真正的一圖勝千言的代表。
2. 發(fā)現(xiàn)聯(lián)系
在錯(cuò)綜復(fù)雜的數(shù)據(jù)中,很難發(fā)現(xiàn)不同維度和指標(biāo)之間的關(guān)聯(lián)關(guān)系,通過(guò)數(shù)據(jù)可視化的方式則可以輕松驗(yàn)證。
日本有一家啤酒廠,收集了近 30 年的氣象資料,將其與當(dāng)月的啤酒銷售情況相聯(lián)系,繪出了“啤酒氣溫曲線”。通過(guò)這個(gè)?圖表可觀察出,在市場(chǎng)趨于飽和的情況下,氣溫成了決定啤酒銷量升降的主要因素。于是,這家啤酒廠根據(jù)天氣情況,合理安排生產(chǎn),收到了良好效果。
越來(lái)越多的企業(yè)開始重視公司自身數(shù)據(jù)的收集和處理,通過(guò)商業(yè) BI 系統(tǒng)的幫助,在可視化的圖表中,發(fā)現(xiàn)潛在的聯(lián)系,以此優(yōu)化、改進(jìn)公司策略。
具體的實(shí)施主要分為 獲取數(shù)據(jù)、數(shù)據(jù)處理和可視化三步。
1. 獲取數(shù)據(jù)
數(shù)據(jù)可視化的第一步,首先要擁有數(shù)據(jù),數(shù)據(jù)來(lái)源主要有以下幾種:
- 自有數(shù)據(jù)
公司運(yùn)營(yíng)過(guò)程中最直接的數(shù)據(jù)。比如成本數(shù)據(jù),銷售數(shù)據(jù)。對(duì)于互聯(lián)網(wǎng)?公司來(lái)說(shuō),注冊(cè)用戶的用戶名、性別、年齡、消費(fèi)記錄等,這也是最關(guān)鍵、最核心的數(shù)據(jù)。 - 爬蟲采集
互聯(lián)網(wǎng)上有大量的資源,比如豆瓣上有最全的書、電影的數(shù)據(jù),京東、淘寶上有?豐富的商品數(shù)據(jù),微博上有大家討論最多的話題和微博,而這些數(shù)據(jù)常常難以直接批量獲取,需要通過(guò)寫程度的方式爬取?數(shù)據(jù)。競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)常常也可以通過(guò)爬蟲抓取。 - ?購(gòu)買、合作、公共數(shù)據(jù)等
通過(guò)購(gòu)買、合作的方式獲取數(shù)據(jù),統(tǒng)計(jì)局等機(jī)構(gòu)的網(wǎng)站上也會(huì)有?很多數(shù)據(jù)可供研究。
2. 數(shù)據(jù)處理
數(shù)據(jù)清洗
?這一步需要清洗掉不合法的數(shù)據(jù)。需要根據(jù)具體的業(yè)務(wù)情況來(lái)判斷哪些是不合法的數(shù)據(jù)。比如?收集到的調(diào)研問(wèn)卷中,回答自己是學(xué)生,同時(shí)是媽媽的群體;在實(shí)際的業(yè)務(wù)中,會(huì)有很多類似的邏輯矛盾的數(shù)據(jù)。數(shù)據(jù)擴(kuò)充
很多數(shù)據(jù)背后包含更加豐富的信息,比如可以通過(guò)用戶注冊(cè)的手機(jī)號(hào),擴(kuò)充到歸屬地、運(yùn)營(yíng)商,通過(guò) IP 可以定位的 IP 所在城市,通過(guò)用戶的 UserAgent,可以擴(kuò)充用戶使用瀏覽器、操作系統(tǒng)、手機(jī)機(jī)型等信息。通過(guò)數(shù)據(jù)擴(kuò)充,挖掘背后更多的聯(lián)系。?數(shù)據(jù)的預(yù)處理
采集到的數(shù)據(jù)可能是百萬(wàn)千萬(wàn)甚至上億的數(shù)量級(jí),常見的可視化工具無(wú)法處理如此龐大的數(shù)據(jù)量,這一步則需要進(jìn)行數(shù)據(jù)預(yù)處理,將數(shù)據(jù)聚合以及初步的統(tǒng)計(jì),處理成可視化工具容易識(shí)別和處理的格式。
3. 數(shù)據(jù)可視化
-
圖表的選擇
我的建議是多看案例,看過(guò)別人是如何展示的,才會(huì)知道?圖表原來(lái)還可以這樣,對(duì)于相同的數(shù)據(jù),嘗試使用多種圖表進(jìn)行展示,對(duì)比查看效果。這里推薦 ECharts 的樣例展示頁(yè),仔細(xì)查看并牢記每種圖形會(huì)對(duì)后面圖表的選擇大有幫助。ECharts 的樣例展示關(guān)于圖表的選擇,這里提供一些建議和思維指南:
圖表建議 - 思維指南(圖片來(lái)自網(wǎng)絡(luò)) -
工具
我把工具分成三類:- 簡(jiǎn)單易操作的桌面軟件,主要代表有 EXCEL、Tableau
- 在線可視化網(wǎng)站,主要代表有 Visual.ly、Better World Flux
- ?需要編程的可視化框架:D3.js、ECharts、HighCharts
更多工具介紹可見文末擴(kuò)展閱讀。
-
細(xì)節(jié)處理往往很頭痛
為了讓圖表美觀、易讀在處理圖表的時(shí)候會(huì)遇到很多優(yōu)化的細(xì)節(jié):如下圖, 當(dāng)你水平排列數(shù)據(jù)標(biāo)識(shí)時(shí), 數(shù)據(jù)標(biāo)識(shí)會(huì)看不清, 如果旋轉(zhuǎn)90度, 數(shù)據(jù)標(biāo)識(shí)是看清楚了, 不過(guò)又浪費(fèi)了很大一塊空間。 選擇一個(gè)合適的數(shù)據(jù)標(biāo)識(shí)格式對(duì)有些可視化來(lái)說(shuō)是個(gè)解決方案, 不過(guò)也不是對(duì)所有方案都適用。
在有關(guān)地域的數(shù)據(jù)展示中,使用地圖是不錯(cuò)的選擇,但也會(huì)面臨很多問(wèn)題:香港、上海等地面積太小,新疆、西藏等地面積又太大;如果使用平局尺度的比例尺,會(huì)發(fā)現(xiàn)重點(diǎn)城市的顏色是最深刻度,其他省份都清一色一種刻度,難以察覺(jué)出分別,照顧到可讀性,需要考慮使用非平均的比例尺。
綜上,數(shù)據(jù)可視化流程示意




