R語言——因子

變量課歸結為名義型、有序型或連續(xù)型變量。

名義型變量是美喲順序之分的類別變量。有序型變量表示一種順序關系,而非數(shù)量關系。連續(xù)型變量可以呈現(xiàn)為某個范圍內(nèi)的任意值,并同事表示了順序和數(shù)量。

類別(名義型)變量和有序類別(有序型)變量在R中稱為因子(factor)。因子決定了數(shù)據(jù)的分析方式以及如何進行詩句呈現(xiàn)。

函數(shù)(factor)以一個整數(shù)向量的形式存儲類別值,整數(shù)的取值范圍是[1...k](其中k是名義型變量中唯一值的個數(shù))同時一個由字符串(原始值)組成的內(nèi)部向量將映射到這些整數(shù)上。

要表示有序型變量,需要為函數(shù)factor()指定參數(shù)order=TRUE。

對于字符型向量,因子的水平默認依字母順序創(chuàng)建。但按字母順粗排序的因子很少能讓人滿意,可通過指定levels選項來默認覆蓋默認排序。

數(shù)值型變量可以用levels和lables參數(shù)來編碼成因子。

因子的使用示例

首先,以向量形式輸入數(shù)據(jù),然后將diabetes和status分別制定為普通因子和有序型因子。最后,將數(shù)據(jù)合并為一個數(shù)據(jù)框。函數(shù)str(object)可提供R中某個對象的信息,它清楚的顯示diabetes是一個因子,而status是一個有序型因子,以及此數(shù)據(jù)框在內(nèi)部是如何進行編碼的。

函數(shù)summary()會區(qū)別對待各個變量,它顯示了連續(xù)性變量age的最小值、最大值、均值和各四分位數(shù)【四分位數(shù)(Quartile)也稱四分位點,是指在統(tǒng)計學中把所有數(shù)值由小到大排列并分成四等份,處于三個分割點位置的數(shù)值。多應用于統(tǒng)計學中的箱線圖繪制。它是一組數(shù)據(jù)排序后處于25%和75%位置上的值。四分位數(shù)是通過3個點將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。很顯然,中間的四分位數(shù)就是中位數(shù),因此通常所說的四分位數(shù)是指處在25%位置上的數(shù)值(稱為下四分位數(shù))和處在75%位置上的數(shù)值(稱為上四分位數(shù))。與中位數(shù)的計算方法類似,根據(jù)未分組數(shù)據(jù)計算四分位數(shù)時,首先對數(shù)據(jù)進行排序,然后確定四分位數(shù)所在的位置,該位置上的數(shù)值就是四分位數(shù)。與中位數(shù)不同的是,四分位數(shù)位置的確定方法有幾種,每種方法得到的結果會有一定差異,但差異不會很大,該解釋來源于百度百科】,并顯示了類別型變量diabetes和status的頻數(shù)值。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 1、變量分類: (1)連續(xù)型變量(2)名義型變量(3)有序型變量在 R 中,名義型變量和有序型變量稱為因子(fac...
    Zhigang_Han閱讀 701評論 0 1
  • 1.因子的創(chuàng)建因子利用函數(shù)factor()來創(chuàng)建。其格式為 x為字符型和數(shù)值型向量;levels為指定的因子水平;...
    叮咚小溪水閱讀 1,801評論 0 1
  • 因子是用于對數(shù)據(jù)進行分類并將其存儲為級別的數(shù)據(jù)對象。 它們可以存儲字符串和整數(shù)。 它們在具有有限數(shù)量的唯一值的列中...
    yuanyb閱讀 636評論 0 0
  • 2017年夏天開始學習R語言。 第1章 R語言介紹 1.1 R的獲取和安裝 下載Rgui:http://cran....
    彈跳騎士閱讀 8,219評論 0 10
  • iphone碎屏我相信用過蘋果手機的人大部分都經(jīng)歷過,尤其對于男生而言,這個概率可能更大一些,但是像我這樣3年...
    flairlee閱讀 988評論 0 0

友情鏈接更多精彩內(nèi)容