色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊寫文章

聚類分析-countries

桃子鎮(zhèn)

聚類分析-countries

聚類分析是根據事物自身的特性對被聚類對象進行類別劃分的統計分析方法，它的目的是根據某種相似度度量對數據集進行劃分。

目標數據文件：

smoker.xlsx? 一共6個變量

目的：根據該數據中的變量特征進行聚類。

方法一：基于python在spyder中實現。

代碼如下：

代碼寫到這，進行了導入數據、查看數據、清洗數據（數據類型變更、去缺失值）。

清洗完數據之后，篩選出不同年份的數據放入新的數據框，并對這些數據進行相關分析corr()

相關分析之后發(fā)現，這兩個數值型變量“成年人吸煙占比”和“人均GDP (單位：國際元)”呈低度相關，決定根據這兩個變量的變量特征進行聚類。

提取最近年份2016年的數據中的“成年人吸煙占比”和“人均GDP (單位：國際元)”放入nin數據框中，但是nin數據框中 “成年人吸煙占比”和“人均GDP (單位：國際元)”的數據差距太大，不在一個量綱，所以要進行數據標準化。

沒有進行標準化之前的數據

進行標準化之后的數據

數據標準化之后，導入KMeans模塊進行分類，分成了三類，并把分類標簽添加進nin數據框中，再做散點圖。

散點圖

分類后導入輪廓系數評分模塊metrics查看評分：0.4466479445680197。

評分越接近1，效果越好！

懷疑是不是分類出問題，肘部法則看一下。

坡度趨于平緩的位置就是分類的數量，上圖中肘部法則建議分三類。

導出中心距離數據：

第一類：吸煙占比和其他兩類有明顯差異，比較高；

第二類：人均GDP和其他兩類有明顯差異，特別高；

第三類：吸煙占比、人均GDP和其他兩類有明顯差異，比較低。

聚類完成后，分析各分類對象的特征：

查看三個類別的數量

從代碼中可以nine數據框中的數據是2016年的原始數據，此次聚類的數據就是2016的數據，所以在nine數據框中添加分類標簽并導出為sk.csv.

在excel中對sk.csv中各類別數據進行描述性統計：

第一類

第一類，有61個國家，平均成年人吸煙占比接近30，人均GDP為中等水平。

第二類

第二類，有29個國家，平均成年人吸煙占比為21.5，在這三類國家里為中等，但是這一類國家的人均GDP較高。

第三類國家

第三類，有52個國家，平均成年人吸煙占比為12.3較低，人均GDP較低。

我覺得這個分類不夠細，決定用第二種方法進行聚類

方法二：基于spss進行聚類分析。

一、k-means均值聚類（省略了步驟，只呈現結果）

頻率（個數）表

描述統計表

發(fā)現spss均值聚類結果和python聚類分析結果幾乎一樣。

二、系統聚類（省略了步驟，只呈現結果）

系統聚類最大分四類，最少分三類

分三類頻率表

描述統計表

驚訝的發(fā)現系統聚類分三類變得更模糊了。

分四類頻率表

描述統計表

驚喜的系統聚類分四類：

第一類：只有2個國家，根據吸煙占比和人均GDP，發(fā)現這是兩個富有的國家；

第二類：有81個國家，根據根據吸煙占比和人均GDP，發(fā)現包含了發(fā)達國家和發(fā)展中國家；

第三類：有42個國家，根據根據吸煙占比和人均GDP，發(fā)現包含了欠發(fā)展的國家；

第四類：有17個國家，根據根據吸煙占比和人均GDP，發(fā)現包含了較發(fā)達的國家。

在日常工作中，選擇哪一個聚類結果要結合我們的業(yè)務場景，這就是我常用的聚類分析方法，OVER！

看過的點個贊鴨！

最后編輯于：2023.06.12 14:23:08

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成，瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

禁止轉載，如需轉載請通過簡信或評論聯系作者。

相關閱讀更多精彩內容

因子分析后如何進行聚類分析？
一、案例說明 1.案例背景研究短視頻平臺用戶行為的分類情況，調查搜集了200份數據其中20項可分為品牌活動，品牌...
spssau閱讀 5,099評論 0贊 4
一文總結聚類分析步驟！
一、聚類 1.準備工作（1）研究目的聚類分析是根據事物本身的特性研究個體分類的方法，聚類分析的原則是同一類別...
spssau閱讀 1,643評論 0贊 3

聚類分析思路分享，如何完成用戶細分？
聚類分析廣泛用于市場研究、管理研究中，用于對個體細分，或對比聚類后不同樣本差異。本文給大家簡單梳理下聚類分析的分析...
spssau閱讀 1,302評論 0贊 7
基于RFM模型的客戶分群和K-Means聚類分析
項目描述數據源是來自Kaggle的一個跨國數據集，其中包含2010年12月12日至2011年12月9日期間發(fā)生的...
Mukee閱讀 7,748評論 3贊 20
2016年廣西各市第一、二、三產業(yè)分布情況【聚類分析】
2016年廣西各市第一、二、三產業(yè)分布情況數據來源：國家統計局代碼實現如下：數據處理描述統計聚類分析條...
宴長閱讀 3,736評論 0贊 2

友情鏈接更多精彩內容

1贊2贊

贊賞

手機看全文

禄丰县| 镇康县| 吴旗县| 简阳市| 广东省| 聊城市| 陆良县| 库车县| 宣城市| 洪泽县| 阿拉善右旗| 牡丹江市| 渭南市| 拜城县| 五台县| 宜君县| 綦江县| 福贡县| 孝感市| 康保县| 乌海市| 互助| 两当县| 灵璧县| 雅江县| 彭州市| 荆门市| 嘉善县| 威远县| 河北区| 朝阳县| 同仁县| 海阳市| 万宁市| 开江县| 景谷| 绥滨县| 甘孜| 南丹县| 沛县| 博湖县|