數(shù)據(jù)分析帶你回顧歷史上的百年奧運

2020東京奧運會已經(jīng)結(jié)束了,才想起來寫一篇關(guān)于奧運會的數(shù)據(jù)分析文章,真是前些天都太熱衷于追奧運了。

找了一下,網(wǎng)上果然有從1896第一屆現(xiàn)代奧運會開始至2016年里約奧運會的全部數(shù)據(jù),當然如果你感興趣,還可以把2020年的給加上,于是,我們就可以用這些數(shù)據(jù)來重新回顧一下這100多年來的奧運會歷史了!


image

01 提出問題

奧運會,全稱:奧林匹克運動會,發(fā)源于2000多年前的古希臘,因舉辦地在奧林匹亞而得名,每4年一屆,是世界上影響力最大的體育盛會。

1896年,停辦了1500年的奧運會終于得以重辦,這也是首屆現(xiàn)代奧運會,如今已舉辦了32界夏季奧運會,23界冬季奧運會。

我們可以帶著以下3個問題來分析這份數(shù)據(jù),了解歷史。

  1. 地域上,哪些國家/地區(qū)舉辦奧運會次數(shù)最多?參賽的運動員最多?獲獎最多?
  2. 個人上,歷年來男女參賽的運動員表現(xiàn)如何?
  3. 項目上,有沒有哪些項目是某些國家/地區(qū)的強項?

02 數(shù)據(jù)探查

數(shù)據(jù)來源:
https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154

共兩份數(shù)據(jù),一份athlete_events.csv,包含了參賽運動員基本生物數(shù)據(jù)和獎牌結(jié)果。

一份noc_regions.csv,是國家奧委會3個字母的代碼與對應國家信息。

分析工具:Power BI + Excel

1.1 字段介紹

運動員數(shù)據(jù)包含了從1896年至2016年,歷屆奧運會每位運動員參賽的數(shù)據(jù),共271116行15個字段,每行對應每位運動員參加奧運會項目的信息。

  • ID:每個運動員的唯一編號,共135571個編號
  • Name:運動員姓名
  • Sex:運動員性別,F(xiàn)是女性,M是男性
  • Age:運動員年齡
  • Height:運動員身高,單位cm
  • Weight:運動員體重,單位kg
  • Team:運動員代表隊,如中國
  • NOC:國家奧委會三字代碼
  • Games:運動員參加的哪一屆奧運會
  • Year:年份
  • Season:季節(jié)
  • City:主辦城市,如北京
  • Sport:運動項目,如籃球
  • Event:具體項目,如男子籃球
  • Medal:獎牌,如金牌、銀牌、銅牌或沒有

奧委會數(shù)據(jù):

  • NOC:國家奧委會3個字母的代碼
  • Region:國家/地區(qū)
  • Notes:備注

這里需要理解的是:

  • ID號比實際數(shù)據(jù)量少是因為會有1個運動員參加幾個項目的情況,一個運動員對應一個ID編號,而非一條數(shù)據(jù)對應一個ID。
  • NOC是指國家奧委會三字代碼,比如中國的代碼是CHN
  • GAMES是用年份+季節(jié)命名的哪一屆奧運會,比如2016 Summer是2016年夏季奧運會。奧運會其實包含夏季奧運會、冬季奧運會、殘奧會等,夏奧會受關(guān)注較多,這份數(shù)據(jù)是包含夏奧會和冬奧會的。
  • TEAM是該運動員所在的代表隊,也就是運動員所屬的國家/地區(qū)。插播一條冷知識,奧運會是以奧委會為代表團參加的,而不是以國家為代表,所以也一直在強調(diào)“國家或地區(qū)”這個概念,也是為什么臺灣會參與,并且是以中華臺北的名義,因為中華臺北奧委會是國際奧委會的成員,所以它可以參與,歷史上它還以“中華民國”的名義參與,被我們抵制了。

將兩份數(shù)據(jù)以NOC為共同字段進行關(guān)聯(lián),就可以得到每個運動員所屬的國家/地區(qū)了。

將數(shù)據(jù)導入Power BI,它會自動設置好關(guān)聯(lián)。


image

1.2 數(shù)據(jù)處理

1.2.1 缺失值

這份數(shù)據(jù)在Age、Height、Weight、Medal列存在缺失值:

  • Medal的缺失值表示該運動員在此項目上沒有拿到獎牌,不用處理
  • Age列有9474個缺失值,占比3.5%
  • Height列有60171個缺失值,占比22%
  • Weight列有62875個缺失值,占比23%

年齡、身高、體重屬于個人信息,本來想做一些填充處理,但發(fā)現(xiàn)很多空值都是某一個國家,一個類別的項目,一大片的缺失,無法根據(jù)已知信息去填充,所以這里就空著吧,保留原始數(shù)據(jù)。


image

1.2.2 異常值

Team里命名是不規(guī)范的,可以看到一個代表隊后面跟了好幾個數(shù)字,但好在這些代表隊的奧委會編碼NOC都是一樣的,因此可以直接根據(jù)NOC去匹配國家/地區(qū),這里就不處理了。其他的數(shù)據(jù)都比較規(guī)范,沒有什么異常值。


image

1.2.3 重復值

介紹字段的時候提到了,一個ID代表一個運動員參加的一個項目,因此ID重復是正常的,因為一個運動員可能不止參加一項比賽。

03 數(shù)據(jù)分析

夏季奧運會從1896年開始,每4年舉辦一次,這份數(shù)據(jù)是到2016年的,共舉辦了29次,冬季奧運會舉辦了22次。

相信對數(shù)字敏感的你已經(jīng)發(fā)現(xiàn)問題了,文章開頭剛提到2020東京奧運會是第32界奧運會,這里的夏季奧運會怎么才舉辦了29次呢?少了哪3屆沒有舉辦呢?

其實看一下年份就發(fā)現(xiàn)端倪了,兩次世界大戰(zhàn)的緣故,原擬在1916、1940、1944年舉辦的三屆奧運會成了空白。


image

參與人數(shù)逐年增加

從1896年第一屆現(xiàn)代奧運會176名運動員12個國家/地區(qū)參賽開始,到2016年倫敦奧運會11179名206個國家/地區(qū),運動員參賽數(shù)量逐漸增加(2020年東京奧運會參賽運動員11669名,204個國家/地區(qū)),下圖是夏季奧運會的運動員參賽數(shù)量和參數(shù)國家/地區(qū)數(shù)的圖。


image

圖中紅圈圈出來的是3個明顯的低點,非常值得說道:

  • 1932年洛杉磯奧運會,因費用問題,參賽人數(shù)顯著減少,值得一提的是,也是此次奧運會,中國首次派出了代表團,也就是我國奧運第一人劉長春,參與了田徑項目,這也是我們征戰(zhàn)奧運的第一槍。
  • 1956年墨爾本奧運會,是歷史上唯一一次在不同時間、地點舉行的奧運會,且當時正值美蘇冷戰(zhàn)的大背景下,多國棄權(quán),人數(shù)少也就可想而知了。并且此次奧運會中國代表團拒絕參賽,原因是國際奧委會一面承認中華人民共和國,一面同意臺灣以“中華民國”名義參加奧運會,為了反對分裂中國的企圖,中國嚴肅地抵制了該屆奧運會。
  • 1980年莫斯科奧運會,當時蘇聯(lián)還沒解體,奧運會第一次在社會主義國家舉辦,為了抗議蘇聯(lián)入侵阿富汗,美國等國發(fā)起抵制莫斯科奧運會,使得最終只有80個國家參加,這是自1956年以來最少國家參加的一屆奧運會。

女性運動員參賽人數(shù)逐漸增加

1900年23名女性首次參加了奧運會,占比1.87%,1980年開始女性參賽的數(shù)量大幅增加,到2016年5034名女運動員參賽,占比45%。


image

歷史上男女運動員比例。


image

比賽項目種類逐漸豐富

歷屆奧運會比賽項目種類也是逐漸增加,1896年夏奧會上只有9個,到2016年有36個項目。

image

參與人數(shù)最多的運動

歷史上參與人數(shù)最多的項目是田徑,其次是游泳、劃船、足球。


image

男女運動員參與這些項目的人數(shù)比例情況如下圖,在棒球、北歐兩項(冬奧會項目)、拔河、橄欖球、馬球、長曲棍球等13個項目上完全沒有女運動員參與,不過在藝術(shù)體操、花樣游泳、壘球上也都沒有男運動員參加。


image

國家/地區(qū)之最

No.1 哪個國家參加奧運會的次數(shù)最多

歷史上總共有208個國家/地區(qū)參加過奧運會,澳大利亞、法國、希臘、意大利、瑞典參加了全部29次夏季奧運會,中國參加了19次。


image

No.2 哪個國家派遣的運動員最多

可以看到歷史上美國派遣參加奧運會的人數(shù)最多,其次是德國,中國排在第11位,這也和我們前期沒參與有關(guān)。


image

No.3 舉辦奧運會次數(shù)最多的城市是哪個

歷史上共有42個城市舉辦過奧運會,其中雅典和倫敦舉辦過3次,因斯布魯克、普萊西德湖城、洛杉磯、巴黎、圣莫里茲、斯德哥爾摩舉辦了兩次,剩下的城市都只舉辦過1次。


image

通過繪制數(shù)據(jù)地圖可以看出,歐洲國家不管是在單個城市承辦次數(shù)還是數(shù)量上都有明顯優(yōu)勢,不過北京也馬上要成為舉辦過2次奧運會的城市了(2008年夏季奧運會和即將到來的2022年冬季奧運會)。


image

No.4 哪個國家獲獎最多?

歷史上獲得獎牌最多的國家是美國,其次是俄羅斯、德國、英國。在今年的東京奧運會上,我們拿到了38塊金牌,88塊獎牌。


image

N0.5 哪個國家哪個項目的金牌最多

在大項目上,美國的游泳、田徑拿的金牌占了幾乎半壁江山。


image

個人之最

通過查看運動員年齡分布狀況,可以知道選手21~24歲的人數(shù)是最多的,男女運動員都差不多。


image

從拿獎牌的選手的年齡分布上也可以看出,還是22~23歲的選手獲獎最多。


image

No.1 年齡最小的選手

年齡最小的是10歲的這條數(shù)據(jù),我核實了一下,居然是真的,Dimitrios Loundras這位10歲的小朋友,在1896年雅典奧運會上獲得了體操男子團體銅牌,是奧運史上最年輕的獲獎牌的運動員。


image

No.2 年齡最大的選手

那么97歲的這位運動員,我覺得也不是異常值了,這位John Quincy Adams Ward參加了1928年阿姆斯特丹奧運會,藝術(shù)類的雕塑項目,雖然沒有獲得獎牌,但他以97歲的高齡成為年齡最大的奧運會選手。

這里又有個冷知識了,關(guān)于奧運會藝術(shù)競賽。

1912年到1948年的7屆奧運會中都有美術(shù)類競賽,如建筑、文學、音樂、繪畫和雕塑,從1952年起,奧運藝術(shù)競賽就被取消了,后來改為奧林匹克藝術(shù)大會。


image

No.3 身高最低的選手

身高最低的選手有兩位,都是127cm,一男一女。

一位是來自墨西哥的體操女子全能選手Rosario Briones參加了1968年墨西哥奧運會。

另一位是來自馬拉維的男子拳擊運動員Lyton Levison Mphande,參加了1988年漢城奧運會。


image

No.4 身高最高的選手

身高最高的是我們的姚明,226cm,2000、2004、2008年的奧運會籃球項目都有參與。


image

No.5 最輕的選手

體重最輕的選手是這位來自朝鮮的女子體操全能運動員,只有25kg,真·身輕如燕,參加了1980年莫斯科奧運會。


image

No.6 最重的選手

體重最重的選手是這位來自關(guān)島的男子柔道運動員,參加了2008年、2012年兩屆奧運會。


image

參加奧運會次數(shù)最多的選手

有位名叫Ian Milar的馬術(shù)運動員參加了10次奧運會,自1972年開始,他代表加拿大征戰(zhàn)奧運,直到2012年,是他參加的第10次夏季奧運會了,并且在2008北京奧運會上他第一次拿到了馬術(shù)項目的團體銀牌,真是一個非常勵志的故事。


image

獲得金牌最多的選手

史上獲得金牌最多的選手是來自美國的“飛魚””菲爾普斯,以23枚金牌數(shù)遠超第二多的選手13枚。


image

中國情況

1932年我國派出第一個奧運代表團參加奧運會,劉長春這個名字被我們深深地記住了。1984年以后我們開始派出大規(guī)模的代表團參賽,2008年北京奧運會,有633名選手參賽,達到了歷史最高水平(2020年東京奧運會中國派出431名運動員)。


image

中國奧運史上男女運動員參賽比例情況如下圖所示,可以看到比起國際數(shù)據(jù),我們女性選手的地位要高很多了,1994年女運動員占比達到了72%的最高水平。


image

我國參與人數(shù)最多的項目是田徑,其次是游泳、籃球、射擊、舉重,女運動員參與人數(shù)最多的5項運動是田徑、游泳、舉重、排球、籃球,男性則是田徑、游泳、射擊、籃球、擊劍。
image

image

我國拿獎牌最多的比賽項目是體操(60塊獎牌),其次是排球、舉重、游泳、羽毛球、跳水、乒乓球。

拿金牌最多的項目是排球(可能因為排球人數(shù)比較多),單人項目上金牌最多的運動是跳水、舉重。


image

我國獲金牌最多的選手有3位,都是拿了5塊金牌,跳水運動員陳若琳、跳水的吳敏霞、體操運動員鄒凱。


image

04 寫在最后

最后總結(jié)一下,

  • 奧運會參數(shù)運動員人數(shù)從第一屆的176名增加到第32屆的11669名,奧運會不斷覆蓋更多的人數(shù)
  • 女性運動員從最初的不到占比2%到如今的45%,有了很大的突破
  • 比賽項目的種類也從9個增加到如今的36個,種類越來越多
  • 歷史上參賽人數(shù)最多的項目是田徑,其次是游泳、劃船、足球
  • 澳大利亞、法國、希臘、意大利、瑞典參加了全部29次夏季奧運會,中國參加了19次
  • 美國派遣參加奧運會的人數(shù)最多,其次是德國,中國排在第11位
  • 歷史上共有42個城市舉辦過奧運會,其中雅典和倫敦舉辦過3次
  • 獲得獎牌最多的國家是美國,其次是俄羅斯、德國、英國,中國排在第12位
    ...

寫這篇文章,查了很多奧運知識,自己也學到了不少的冷知識,百年奧運的數(shù)據(jù)分析到這其實還只是個開始,你有什么想法都可以拿它來練手。

希望奧運會也能永遠保持初心,讓更高更快更強的奧運精神不只是一句口號,我們下一個奧運再見了。

另附數(shù)據(jù)來源,可自行下載:
https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154


作者簡介:
個人IP:可樂的數(shù)據(jù)分析之路
data_cola
《Excel數(shù)據(jù)處理與分析——數(shù)據(jù)思維+分析方法+場景應用》作者

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容