第三講 原始數(shù)據(jù)收集(描述統(tǒng)計分析)

一,調(diào)查方式


A,隨機抽樣調(diào)查

概念:一種非全面調(diào)查。在全部被調(diào)查的總體中隨機地抽選(樣本單位的抽取不受主觀因素及其他系統(tǒng)性因素的影響,每個總體單位都有均等的被抽中的機會)一部分單位進行觀察,并根據(jù)樣本數(shù)據(jù)來推斷總體的數(shù)量特征。

注意:如果抽樣調(diào)查不遵守隨機原則選樣,從樣本推斷總體特征的調(diào)查目的就不可能達到。因此,如何保證抽樣的隨機性是進行抽樣調(diào)查的第一要務。

條件:以概率理論為基礎(chǔ)的抽樣推斷,不僅可以估計出抽樣推斷誤差的大小,而且可以通過一定方法控制這些誤差。

隨機抽樣調(diào)查的適用范圍:

1,無法進行全面調(diào)查的現(xiàn)象。例如:一些具有破壞性的產(chǎn)品質(zhì)量檢查。

2,由于工作量和工作難度太大,難于進行全面調(diào)查,而又必須取得總體數(shù)據(jù)的現(xiàn)象。例如:對我國每一戶居民家庭收支情況的了解。

3,對普查資料做修正和補充。

優(yōu)點:省時省力,降低成本,可靠有效(可以用科學方法控制誤差)。

a,簡單抽樣(時點)

前提:事先就知道總體數(shù)量。

概念:最基本的抽樣方式。按照總體原有的狀況依次編號后,不加任何限制地抽取樣本。如抽簽、摸球、搖色子、excel的隨機函數(shù)=int(rand()*x+1),x表示總體個數(shù)。

抽樣誤差:樣本單位差異越小,抽出的樣本代表性就越高,抽樣誤差也就越低。

缺點:當總體很大或無限大時,編號工作量很大,甚至是不可能的。

b,等距抽樣(時點、時段)

辦法1前提:事先能把握總體數(shù)量。

辦法2前提:事先就知道總體狀況。

首先將總體單位進行排序。

辦法1:按照與抽樣調(diào)查內(nèi)容無關(guān)的標志排序,如調(diào)查人口的收入時,按姓氏筆畫排序。

辦法2:按照與抽樣調(diào)查內(nèi)容有關(guān)的標志排序。如調(diào)查人口的收入時,按收入多少排序。

抽樣誤差:排序標志與調(diào)查內(nèi)容的關(guān)系越密切,順序越一致,抽樣誤差就越小。

忌用:當總體的排序呈現(xiàn)出某種周期性時,特別是周期性節(jié)奏與抽樣間隔一致時,會引起系統(tǒng)性誤差,從而影響樣本的代表性。

依次編號后,抽取第一個樣本單位。

辦法1:在規(guī)定的間隔之內(nèi),用簡單抽樣的辦法抽取第一個樣本單位。(間隔內(nèi)的樣本單位差異越小,抽出的樣本代表性就越高,抽樣誤差也就越低)

辦法2:在規(guī)定的間隔之內(nèi),抽取處于正中間位置上的樣本單位(代表第一段的中間水平,最具代表性,從而可以得到較有代表性的樣本)。

再從第一個樣本單位開始按規(guī)定的間隔抽取其他樣本單位。

優(yōu)點:比簡單隨機抽樣更簡便,更節(jié)省費用,選取的樣本代表性也越高。

c,類型抽樣(時點、時段)

辦法1前提:事前能把握總體數(shù)量。

辦法2前提:事先就知道各群組占總體的比例,以及各群組內(nèi)的狀況。

選擇分組標志:

每一個分組標志都代表著調(diào)查目的在某一方面的反應情況,只有選擇最恰當?shù)姆纸M標志才能使分組的結(jié)果正確反應現(xiàn)象的本質(zhì)。

復合分組:按兩個或兩個以上的標志層疊分組。優(yōu)點是有利于分析得全面深入具體,缺點是組數(shù)太多不僅增大工作量而且容易沖淡主要的調(diào)查目的,因此要先按主要標志分組,再輔以次要標志。

確定分組組別:

把總體在同一個標志下按特征的不同分為各個組(前提:知道特征的范圍,有的可以參考國家的統(tǒng)計分組體系),組之間要具有互斥性(任何一個總體單位都只能適合一個群組)、完備性(任何一個總體單位都在某一個組中)、相似性(組之間具有可比性)。如:農(nóng)產(chǎn)品調(diào)查時,按地形分為山地、丘陵、平原,人口調(diào)查時,按年齡分為1~18(少年)、19~30(青年)、31~50(中年)、51~100(老年)。

抽樣誤差:抽樣選擇的分組標志與調(diào)查目的關(guān)系越密切,定性定量越細,每組內(nèi)的差別就越小,從中選取樣本單位就越具有代表性,抽樣誤差就越小。

確定各組中應抽取的樣本數(shù)目:

方法1:根據(jù)各種組內(nèi)部變異程度大小,變異程度越大,抽取樣本單位數(shù)目越多,變異程度越小,抽取樣本單位數(shù)目越少。(時段)

方法2:按該組單位數(shù)目占總體單位數(shù)目的比例大小抽取同樣比例的樣本單位數(shù)目,即類型比例抽樣;(時點)

將組單位進行排序。

辦法1:按照與抽樣調(diào)查目的無關(guān)的標志排序,如調(diào)查人口的收入時,按姓氏筆畫排序。

辦法2:按照與抽樣調(diào)查目的有關(guān)的標志排序。如調(diào)查人口的收入時,按收入多少排序。

抽樣誤差:排序標志與調(diào)查目的的關(guān)系越密切,順序越一致,抽樣誤差就越小。

各組內(nèi)依次編號后,抽取第一個樣本單位。

辦法1:在規(guī)定的間隔之內(nèi),用簡單抽樣的辦法抽取第一個樣本單位。(間隔內(nèi)的樣本單位差異越小,抽出的樣本代表性就越高,抽樣誤差也就越低)

辦法2:在規(guī)定的間隔之內(nèi),抽取處于正中間位置上的樣本單位(代表第一段的中間水平,最具代表性,從而可以得到較有代表性的樣本)。

再從第一個樣本單位開始按規(guī)定的間隔抽取其他樣本單位。

優(yōu)點:由于從每一類中都要抽選樣本單位,就又保證樣本中各個類型都包括到了,因此類型抽樣會使樣本的代表性大大提高。

d,整群抽樣(時點)

前提:事先就知道總體數(shù)量。

概念:先將總體分為許多屬性特征相同的群組,依次編號后,從中隨機的抽取若干群組作為樣本。

抽樣誤差:群組之間屬性的相似度越高,總體單位分布越均勻,樣本的代表性就越高,抽樣誤差就越小。

優(yōu)點:當總體數(shù)目很多,各單位在時空上分布又很分散時,用此方法可以節(jié)省人力物力,降低成本。

缺點:抽出的樣本往往不夠均勻,代表性比較低。慎用。


B,非隨機抽樣調(diào)查

概念:一種非全面調(diào)查。不按照概率均等的原則,而是根據(jù)人的主觀判斷或其他條件來抽取樣本。

隨機抽樣調(diào)查的適用范圍:

1,有些情況下,嚴格的隨機抽樣幾乎無法進行,如調(diào)查對象的總體邊界不清楚而無法制作抽樣框。

2,有些研究為了符合研究的目的,不得不按照需要從總體中抽取少數(shù)有代表性的個體作為樣本。

3,隨機抽樣的操作過程要求嚴格,實施起來比較麻煩,費時費力,因此如果調(diào)查的目的僅是對問題的初步探索,獲得研究的線索和提出假設(shè),而不是由樣本推論總體,就不一定需要采用隨機抽樣。

優(yōu)點:非隨機抽樣操作時省時省力,如果研究者對調(diào)查總體和調(diào)查對象有較好的了解,也可獲得較準確的結(jié)果。

缺點:因為是主觀決策,所以不能保證樣本是否重現(xiàn)了總體的分布結(jié)構(gòu),樣本代表性較小,誤差很大且無法估計,用這樣的樣本推論總體極不可靠。

ba,典型調(diào)查

在被調(diào)查的總體中,有意挑選出個別或少數(shù)具有代表性的單位進行調(diào)查。

挑選典型的方法:分類選點。

bb,重點調(diào)查

在被調(diào)查的總體中,選出一部分重點單位進行調(diào)查,重點單位雖然只是總體中的一小部分,但它們在所調(diào)查的數(shù)量標志方面占有很大比重。

優(yōu)點:省時省力,降低成本,而且樣本代表性高,從而推斷總體比較可靠。

bc,就近抽樣

以自己方便的形式在總體中抽取偶然遇到的單位作為樣本。

bd,目標式和判斷式抽樣

根據(jù)主觀判斷選取代表性高的單位作為樣本。

抽樣誤差:研究者對總體越了解,抽樣誤差越小。

be,滾雪球抽樣

當我們無法了解總體情況時,可以先從總體中的少數(shù)單位開始收集樣本,通過轉(zhuǎn)介紹或其他方式找到越來越多的樣本單位。

優(yōu)點:研究少數(shù)群體時適用。

bf,配額抽樣

前提:事先就知道總體數(shù)量,及各群組占總體的比例。

確定樣本的數(shù)量,根據(jù)總體中各類別數(shù)量所占的比例確定樣本中各類別數(shù)量所占的比例(用樣本模擬出一個總體),最后按比例進行取樣。


C,定期統(tǒng)計報表

概念:自上而下地布置統(tǒng)一的報表,然后自下而上的逐級上報匯總報表資料的調(diào)查方式。

優(yōu)點:1資料的全面性和連續(xù)性;2資料的統(tǒng)一性和及時性;3資料的來源和準確性比較可靠。

缺點:1資料受利益影響會參雜虛假數(shù)據(jù);2報表過多會增加基層的負擔,甚至會引起混亂。

報告周期越短,內(nèi)容越簡明,報送時間越緊;

報告周期越長,內(nèi)容越詳盡,報送時間越寬松。


D,普查

概念:專門組織的一次性全面調(diào)查。

調(diào)查的內(nèi)容可以是一定時點下的現(xiàn)象(如人口狀況、固定資產(chǎn)的存量等),也可以是一定時期的過程性現(xiàn)象(如一年的生產(chǎn)量、銷售量)。

調(diào)查的目的主要是收集一些不能夠或不適合定期統(tǒng)計報表的數(shù)據(jù)資料,以搞清重要的公司總體情況和某些重要的經(jīng)濟現(xiàn)象的全面情況。

優(yōu)點:資料最全面、最系統(tǒng)、最詳盡。

缺點:花費較多人力、物力、財力和時間(調(diào)查登記的時間雖不長,但復雜細微的準備工作和數(shù)量巨大的數(shù)據(jù)處理工作卻需要很長時間),容易產(chǎn)生登記誤差。



二,調(diào)查方案


調(diào)查目的:

搞清楚調(diào)查要解決什么問題,有了目的才知道應該收集什么樣的資料。

調(diào)查對象:

被調(diào)查的或被推斷的總體。總體中的個體叫調(diào)查單位(全部或部分)。

報告單位:

負責提交調(diào)查資料的單位。

調(diào)查內(nèi)容:

1內(nèi)容應當是滿足調(diào)查目的所必需的,可有可無或者備而不用的內(nèi)容不必列入。

2內(nèi)容應當只包括能得到確切答案的標志。

3內(nèi)容的提法要確切具體,不可模棱兩可,使填報人能有一致的理解。

問卷調(diào)查法:(略)

調(diào)查表:

1,表頭:包括調(diào)查表名稱(中間),報告單位的名稱、地址、隸屬關(guān)系(左上角),表號、制表單位、批準備案文號(右上角)。

2,表體:調(diào)查表的主體,表現(xiàn)為表格形式,調(diào)查內(nèi)容列于表格內(nèi)。

3,表腳:包括調(diào)查人員或填報人員的姓名、簽章,及單位負責人的姓名、簽章。

調(diào)查表的形式包括一覽表、單一表和特殊表。

1,在研究樣本的時候用一覽表。

2,在調(diào)查樣本單位的時候用單一表。

3,對于不同的調(diào)查標志,就需要用到特殊表。

調(diào)查時間:

調(diào)查資料所屬的時間,分為時段和時點。

調(diào)查方式

調(diào)查期限:

提交調(diào)查報告的時間,目的是為了及時取得資料。

調(diào)查地點:

如果樣本單位處于流動狀態(tài)或分布在不同位置,就應該明確地作出規(guī)定和注明。

調(diào)查的組織實施計劃:

包括確定調(diào)查活動的組織機構(gòu)、人員培訓安排、文件準備、經(jīng)費預算、調(diào)查方式方法、資料報送方法、是否要進行試差等問題。

調(diào)查數(shù)據(jù)的錄入:

任何捏造、改動數(shù)據(jù)的做法都是有悖于統(tǒng)計學精神和思想的嚴重錯誤行為,對于錯誤的信息在錄入時要堅決舍棄。



三,原始數(shù)據(jù)(一手數(shù)據(jù)):


概念:通過直接來源得到的數(shù)據(jù)。如,觀察、試驗、問卷調(diào)查等。



四,次級數(shù)據(jù)(二手數(shù)據(jù))的收集:


概念:通過間接來源得到的數(shù)據(jù)。

如:各類出版物,已發(fā)表的匯編資料,網(wǎng)上資料等。

引用時需要注明來源出處,一是尊重別人的勞動成果,二是證實其可靠性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容