福布斯每年都會發(fā)布福布斯全球上市企業(yè)2000強排行榜(Forbes Global 2000),這個排行榜每年發(fā)布的時候,國內外總有新聞會熱鬧的討論一番,但很少見到比較全面的分析。
因此才有了這樣一個想法,搜集近些年每年發(fā)布的排行榜,做一個進一步的分析。
在準備做這個小小的項目前,先理了一下整個思路,大概可以分為下面這幾個步驟:
- 數(shù)據采集
- 原始數(shù)據完整性檢查
- 數(shù)據清洗、整理
- 從不同角度對數(shù)據進行分析
- 數(shù)據可視化
- 總結
整個分析過程會涉及多篇文章,主要使用Python來進行分析。
數(shù)據采集 主要涉及的python庫包括 requests,BeautifulSoup,csv,以及一些其他常用工具。
數(shù)據完整性檢查,包括不同數(shù)據來源的對比,以及其他一些常識性的知識。需要對比數(shù)據量的多少是否完整,以及有些數(shù)據是否缺失。
當然,在拿到數(shù)據的初期,其實只能做一個初步的判斷,有些內容是在整個分析過程中發(fā)現(xiàn)的。
數(shù)據清洗與整理,主要用到Pandas、Numpy以及其他常用庫和函數(shù)。由于數(shù)據比較雜亂,數(shù)據清洗與整理涉及的內容比較多,可以說是整個福布斯系列的重點之一。
前文的初步整理2016年數(shù)據,也是整個數(shù)據清理與整理內容的一部分。
同時,這個也印證了通常我們所說的數(shù)據清洗與整理可能占整個分析的50~80%。
數(shù)據分析與可視化,經常是伴隨在一起的。主要根據不同分析目的進行分析與可視化。用到的工具包括Pandas、Numpy、Matplotlib、Seaborn以及其他一些相關庫。
希望能通過福布斯系列的實戰(zhàn)來對數(shù)據分析的知識點與工具作一個簡單的示例整理與分享。
敬請關注福布斯系列的后續(xù)文章。
如果您喜歡我的文章,歡迎關注我的微信公眾號“Python數(shù)據之道”(ID:PyDataRoad)。