福布斯系列之數(shù)據分析思路篇 | Python數(shù)據分析項目實戰(zhàn)

福布斯每年都會發(fā)布福布斯全球上市企業(yè)2000強排行榜(Forbes Global 2000),這個排行榜每年發(fā)布的時候,國內外總有新聞會熱鬧的討論一番,但很少見到比較全面的分析。

因此才有了這樣一個想法,搜集近些年每年發(fā)布的排行榜,做一個進一步的分析。

在準備做這個小小的項目前,先理了一下整個思路,大概可以分為下面這幾個步驟:

  1. 數(shù)據采集
  2. 原始數(shù)據完整性檢查
  3. 數(shù)據清洗、整理
  4. 從不同角度對數(shù)據進行分析
  5. 數(shù)據可視化
  6. 總結

整個分析過程會涉及多篇文章,主要使用Python來進行分析。

數(shù)據采集 主要涉及的python庫包括 requests,BeautifulSoup,csv,以及一些其他常用工具。

數(shù)據完整性檢查,包括不同數(shù)據來源的對比,以及其他一些常識性的知識。需要對比數(shù)據量的多少是否完整,以及有些數(shù)據是否缺失。

當然,在拿到數(shù)據的初期,其實只能做一個初步的判斷,有些內容是在整個分析過程中發(fā)現(xiàn)的。

數(shù)據清洗與整理,主要用到Pandas、Numpy以及其他常用庫和函數(shù)。由于數(shù)據比較雜亂,數(shù)據清洗與整理涉及的內容比較多,可以說是整個福布斯系列的重點之一。

前文的初步整理2016年數(shù)據,也是整個數(shù)據清理與整理內容的一部分。

同時,這個也印證了通常我們所說的數(shù)據清洗與整理可能占整個分析的50~80%。

數(shù)據分析與可視化,經常是伴隨在一起的。主要根據不同分析目的進行分析與可視化。用到的工具包括Pandas、Numpy、Matplotlib、Seaborn以及其他一些相關庫。

希望能通過福布斯系列的實戰(zhàn)來對數(shù)據分析的知識點與工具作一個簡單的示例整理與分享。

敬請關注福布斯系列的后續(xù)文章。

如果您喜歡我的文章,歡迎關注我的微信公眾號“Python數(shù)據之道”(ID:PyDataRoad)。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容