確定分析思路
在進行數(shù)據(jù)分析之前,先確定本次分析思路,具體如下


一、提出問題

二、理解數(shù)據(jù)數(shù)據(jù)來源:?https://www.kaggle.com/edx/course-study共有23個字段,一共290門在線課程。數(shù)據(jù)分為4種類型

1、課程字段
Institution,學(xué)校
Course Number,課程ID
Launch Date,上線時間
Course Title,課程名
Instructors,講師
Course Subject,課程類別
Year,課程持續(xù)時間
Honor Code Certificates,是否授予證書
2、數(shù)量字段
Participants (Course Content Accessed),學(xué)生數(shù)
Audited (> 50% Course Content Accessed),完成50%課程的學(xué)生數(shù)
Certified,拿到證書的人數(shù)
Total Course Hours (Thousands),總課程時間(千小時)
Median Hours for Certification,取得證書時間中位數(shù)
3、百分比字段
% Audited,完成50%課程學(xué)員的比例
% Certified,拿到證書的學(xué)員比例
% Certified of > 50% Course Content Accessed,完成課程50%學(xué)員拿到證書的比例
% Played Video,視頻播放率
% Posted in Forum,論壇張貼率
% Grade Higher Than Zero,分?jǐn)?shù)高于0的比例
4、用戶情況字段
Median Age,年齡中位數(shù)
% Male,男性學(xué)員占比
% Female,女性學(xué)員占比
% Bachelor's Degree or Higher, 本科學(xué)歷及以上比例
三、數(shù)據(jù)清洗

1、選擇子集
根據(jù)問題需要,選擇數(shù)據(jù)子集。
數(shù)據(jù)集中Course Number課程ID為唯一標(biāo)識,保留該字段。
學(xué)校字段Institution是我們提出問題中的一個,需要保留。
課程持續(xù)時間Year、總課程時長Total Course Hours (Thousands)對數(shù)據(jù)分析沒有幫助,隱藏起來。
2、列名重命名
由于數(shù)據(jù)集為全英文,為方便理解、描述,將字段進行重命名,采用中文形式。

3、刪除重復(fù)值
以課程ID作為數(shù)據(jù)集唯一標(biāo)識,通過數(shù)據(jù)>刪除重復(fù)值操作,刪除重復(fù)數(shù)據(jù),發(fā)現(xiàn)重復(fù)值102條,雖然課程ID與課程名稱重復(fù),但是課程講師或上線日期不同。
根據(jù)上述情況,做輔助列,輸入公式=B2&C2&E2,以課程ID+上線時間+講師姓名,作為數(shù)據(jù)唯一標(biāo)識,再次執(zhí)行重復(fù)值刪除。發(fā)現(xiàn)1條重復(fù)數(shù)據(jù),剩余289條數(shù)據(jù)。

4、缺失值處理
以唯一標(biāo)識列:課程ID+上線日期+講師進行計數(shù),共計289條數(shù)據(jù),以此為標(biāo)準(zhǔn),查看其它列數(shù)據(jù)是否有缺失。
對比發(fā)現(xiàn),講師字段缺少一個數(shù)據(jù),根據(jù)課程ID進行篩選,發(fā)現(xiàn)本課程共有4條數(shù)據(jù),除2012年為幾位講師一起,2014、2015年該課程均為David Malan講授,所以可以推斷,2016年該課程依然是David Malan講師進行授課,以此為依據(jù),補全數(shù)據(jù)。


5、排序
我們關(guān)系哪些課比較受學(xué)員歡迎,所以根據(jù)學(xué)生數(shù),對數(shù)據(jù)進行將序排列。

審視數(shù)據(jù)集,未發(fā)現(xiàn)異常格式、異常值,所以不需進行一致化、異常值處理。
四、構(gòu)建模型
1、哪些課程最受歡迎?什么類別的課程最受歡迎?
插入數(shù)據(jù)透視表,行標(biāo)簽選擇課程名,對學(xué)生數(shù)求和,結(jié)果發(fā)現(xiàn)最受學(xué)員歡迎的課程為Introduction to Computer Science,學(xué)員數(shù)為690059.

查看課程類別發(fā)現(xiàn),課程共分為四大類:
Computer Science,計算機科學(xué)
Science, Technology, Engineering, and Mathematics,科學(xué)、技術(shù)、工程和數(shù)學(xué)
Humanities, History, Design, Religion, and Education,人文、歷史、設(shè)計、宗教和教育
Government, Health, and Social Science,政治、健康和社會科學(xué)
插入透視表進行統(tǒng)計,行標(biāo)簽為課程類別,對學(xué)生數(shù)求和,發(fā)現(xiàn)計算機科學(xué)領(lǐng)域最受學(xué)員歡迎


那么,為什么人們喜歡計算機科學(xué)類課程呢?
同樣從上面課程報名人數(shù)可知,計算機科學(xué);科學(xué)、技術(shù)、工程和數(shù)學(xué);政治、健康和社會科學(xué)人數(shù)比較多,而人文、歷史、設(shè)計、宗教和教育類專業(yè)人數(shù)最少,可以知道人們通過網(wǎng)絡(luò)在線平臺Edx進行學(xué)習(xí),需要提升理工科、社科類可操作性強的學(xué)科,更希望獲得實用性強的技能提升。 而不是人文、歷史、設(shè)計、宗教和教育類的素養(yǎng)類熏陶。
2、人們更喜歡Harvard還是MITx的課?




為什么MITx學(xué)校更受歡迎?


從兩所學(xué)校開設(shè)課程數(shù)量可知,MITx學(xué)校偏向于理工、計算機科學(xué)類。HarvardX學(xué)校開設(shè)的課程正好相反,以人文社科類專業(yè)為主,之前已經(jīng)知道學(xué)員在Edx平臺上主要的學(xué)習(xí)需求是學(xué)習(xí)實用性強的技能型學(xué)科,因此開設(shè)理工、計算機科學(xué)類的MITx可以吸引到更多學(xué)員。
3、課程完成度如何?用戶學(xué)習(xí)狀況是怎樣的?


哪個學(xué)科的課程更容易通過?
要探究哪個學(xué)科更容易通過,通過3個指標(biāo)進行分析:完成50%課程學(xué)生數(shù)、拿到證書人數(shù)、拿到證書時間


從完成50%課程學(xué)生數(shù)看,政治、健康、社會科學(xué)類課程入門難度最低,其次是計算機科學(xué)類課程。


從學(xué)完課程拿到證書的人數(shù)看,同樣政治、健康、社會科學(xué)類課程入門難度最低,其次是人類學(xué)、歷史、設(shè)計、宗教和教育類。而計算機科學(xué)、理工類學(xué)科的學(xué)成率不高。


從拿到證書的時間來分析,人文、歷史、設(shè)計、宗教和教育類課程用時最短,其次是政治、健康、社會科學(xué)類課程。
綜合來看,政治、健康、社會科學(xué)類課程在50%完成度、拿到證書人數(shù)、拿到證書時間三個維度排名都很高,所以這是平臺上最容易通過的課程類別。
4、使用edx的是什么樣的用戶?












五、結(jié)論與建議

