雙重差分的理論與實踐

1. 理論

1.1 標準表述(定義)

雙重差分模型(difference-in-differences)主要被用于社會學中的政策效果評估。其原理是基于一個反事實的框架來評估政策發(fā)生和不發(fā)生這兩種情況下被觀測因素y的變化。如果一個外生的政策沖擊將樣本分為兩組—受政策干預的Treat組和未受政策干預的Control組,且在政策沖擊前,Treat組和Control組的y沒有顯著差異,那么我們就可以將Control組在政策發(fā)生前后y的變化看作Treat組未受政策沖擊時的狀況(反事實的結(jié)果)。通過比較Treat組y的變化(D1)以及Control組y的變化(D2),我們就可以得到政策沖擊的實際效果(DD=D1-D2)。

具體地,單一沖擊時點的雙重差分的模型如下:


其中,Ti為政策虛擬變量;Ai為時間虛擬變量; Ti ×At為兩者的交互項;b3即為我們需要的雙重差分估計量。


政策沖擊的實際效果: DD = D1 - D2 = ( β2 + β3 ) - β2 = β3

需要特別指出的是,只有在滿足“政策沖擊前Treat組和Control組的y沒有顯著差異”(即平行性假定)的條件下,得到的雙重差分估計量才是無偏的。

詳細說明

為測度“處理”(或?qū)嶒灒┑男Ч覀冴P(guān)心被解釋變量經(jīng)“處理”前后的變化,考慮以下兩期面板數(shù)據(jù):

混合OLS

只加政策變量作為核心解釋變量,再加入時間D(t)等作為控制變量,進行的普通混合OLS回歸,測度出x(it)的效應β,就是簡單地將實驗組減去控制組,得到一個有偏的估計(因為x(it)可能與不隨時間改變的個體特征u(i)等固定效應相關(guān)),故下一步再做一階差分,第二期減去第一期,將u(i)消掉。即雙重差分。
雙重差分DID

示意圖

只有在滿足“政策沖擊前Treat組和Control組的y沒有顯著差異”(即平行性假定)的條件下,得到的雙重差分估計量才是無偏的。

1.2 另一種表述(常用)

1.2.1 理解交互項的含義

例子:研究性別和學歷對工資的影響,性別是F,學歷是E,工資是S。如果沒有交叉項,那么回歸的方程是:

S = β0 + β1 × F + β2 × E

在這種情況下,性別的影響是β1,學歷的影響是β2。而有交叉項,那么回歸的方程是

S = β0 + β1 × F + β2 × E + β3 × F × E

在這種情況下,性別對工資的影響是β1+β3*E,學歷對工資的影響是β1+β3*F

所以我們很容易發(fā)現(xiàn),交叉項刻畫了什么呢?

  • 它刻畫了一個人的學歷對工資的影響是否受性別的影響β1+β3*F),刻畫了一個人的性別對工資的影響是否受學歷的影響β1+β3*E)。
  • 換言之,他刻畫了第一種情況下,如果把不同的性別分開回歸,得出的β2是否與F有相關(guān)關(guān)系,刻畫了如果把不同的學歷分開回歸,得出的β1是否和E有相關(guān)關(guān)系。
  • 更簡單點說,就是兩個自變量對因變量的共同作用。

加交互項,就相當于分組回歸(PS:離散型變量的交互項)

Y = β0 + β1× A + β2 × X + β3 × A × X + ε
A對Y有影響
X對Y有影響
β3 :X對Y的影響,因A變化而變化。

按照上述例子,性別是A,學歷是X,收入是Y,那么就如同下圖。
如果女的是1 男的是0

斜率差

Y = β0 + β1× A + β2 × X + β3 × A × X + ε
性別是A,學歷是X,收入是Y

  • β2:對于男性,學歷對收入的影響

  • β2+β3:對于女性,學歷對收入影響

  • β3 就是兩線的斜率差

  • β1 他們的截距差(性別對收入的影響)

1.2.2 用交互項表示的雙重差分

用交互項表示的雙重差分

G(i)=0時,
y(it)= β0 + β3×D(t) + ε(it)

G(i)=1時,
y(it)= β0 + β1 × D(t) + β2 + β3 × D(t) + ε(it) = β02 + ( β1+ β3 ) × D(t) + ε(it)

  • β3:控制組(Gi=0)的t2t1之差,對照組前后期之差。
  • β1+ β3:處理組(Gi=1)的t2t1之差,處理組前后期之差。

所以政策變量與時期變量的交互項G(i)×D(t) 的系數(shù)β3 就是雙重差分估計量,表示了雙重差分估計出的政策效應。

2. R、Stata操作運用

R與STATA操作
  • using all women with children as the treatment group:anykids為分組標識
  • post93:時期變量(沖擊發(fā)生標識),93年前為0和93年后為1

2.1 R:

eitc$p93kids.interaction = eitc$post93*eitc$anykids
reg1 = lm(work ~ post93 + anykids + p93kids.interaction, data = eitc)
summary(reg1)

The coefficient estimate on p93kids.interaction should match the value calculated manually above.

2.2 Stata:

2.2.1 OLS_DID:

標準:

reg y treat post treat*post x1 x2 ,robust

gen Treat_Post=Treat*Post
xi: regress y Treat Post Treat*Post x1 x2 i.year, vce(robust)
est store OLS_DID

xi:命令會幫助生成出i.varname形式的虛擬變量。不加則不會生成新變量,但回歸中仍然能使用這些虛擬變量(就是讓虛擬變量藏于回歸中不顯現(xiàn)出來)。

簡單示例:
gen interaction = post93*anykids
reg work post93 anykids interaction

或者用Stata非官方命令diff

ssc intall diff
diff y, t(處理或分組或政策變量Gi)  p(時期虛擬變量Dt)  cov(協(xié)變量)  robust  report  test
diff work, t(anykids)  p(post93)  robust

2.2.2 FE_DID:

did只能做混合OLS,不能做固定效應,想做固定效應,要去掉一個虛擬變量。

標準:
xtset group year
xi: xtreg y Treat*Post x1 x2 i.year,fe vce(robust)
est store FE_DID

雙向固定效應估計時Post與i.year中某一虛擬變量應該多重共線,Post如同Treat一樣分別被時間效應和個體效應吸收了。

輸出word結(jié)果:(///表示換行)
esttab OLS_DID FE_DID, ar2(%9.3f) b(%9.3f) t(%9.3f) nogap compress ///
indicate("Year=_Iyear*") star(* 0.1 ** 0.05 *** 0.01)
輸出的結(jié)果

結(jié)果顯示交互項(Treat*Post)的系數(shù)顯著為正,表明政策實施導致了y顯著增加。然而,此時我們還不能確切的說,這一政策效果的評估是準確的,因為只有在對照組和實驗組滿足平行性假定的時候,Treat和post的交互項才是處理效應。因此平行趨勢假定的重要性不言而喻。平行性假定的檢驗可以通過回歸分析或者繪圖的方式進行。

其他等價方法:

xtreg 與 reg 可殊途同歸!(雙向固定時)

xtreg y treat*post i.year, fe robust
reg y i.treat i.post i.treat#i.post, robust

注:
FE與LSDV是等價的:
(1)xtreg fatal unrate beertax, fe
(2)xi:reg fatal unrate beertax i.state

2.2.3 平行趨勢假定

通過回歸分析檢驗:

分別生成每一期的控制組和處理組:

gen Dyear=year-2012

gen Before2=(Dyear==-2 & Treat==1)
lab var Before2 "2 Year Prior"

gen Before1=(Dyear==-1 & Treat==1)
lab var Before1 "1 Year Prior"

gen Current=(Dyear==0 & Treat==1)
lab var Current "Year of Adoption"

gen After1=(Dyear==1 & Treat==1)
lab var After1 "1 Year After"

gen After2=(Dyear==2 & Treat==1)
lab var After2 "2 Year After"

gen After3_=(Dyear>=3 & Treat==1)
lab var After3_ "3 or More Year After"

xtset group year
xi:xtreg y Treat Post Before2 Before1 Current After1 ///
   After2 After3_ x1 x2 i.year,fe vce(robust)

est store Dynamic
平行趨勢檢驗

Before2,Before1均為虛擬變量,如果觀測值是受到政策沖擊前的第2年和第1年的數(shù)據(jù),則該指標分別取1,否則取0;如果觀測值是受到政策沖擊當年的數(shù)據(jù),則Current取值為1,否則取0;當觀測值是受到政策沖擊后的第1年、第2年、第3年的數(shù)據(jù)時,After1、After2、After3分別取1,否則取0。

我們看到Before2,Before1的系數(shù)均不顯著,而Current、After1、After2、After3的系數(shù)均正向顯著,說明雙重差分模型滿足平行趨勢假定。

注:
1)關(guān)于Before之前選幾期的問題,一個要看樣本跨越的年度,一個要看已有文獻的做法。一般來說,時間跨度比較長的話,會保留Before前3年的。
2)如果Before均不顯著,就說明樣本符合平行性假定。對于Current的顯著性則不作要求。

通過繪圖檢驗:

首先,安裝外部命令:
ssc install coefplot
當我們help coefplot后可以看到其眾多的功能,接下來我們介紹輸出圖形的模式。

1. 默認輸出模式

coefplot Dynamic, keep(Before2 Before1 Current After1 After2 After3_) vertical recast(connect) yline(0)

  • 保留關(guān)鍵變量: keep(Before2 Before1 Current After1 After2 After3_)
  • 轉(zhuǎn)置: vertical
  • 系數(shù)連線,觀察動態(tài)效果: recast(connect)
  • 增加直線y=0: yline(0)
    默認輸出模式
2. 優(yōu)化模式
  • graphregion & plotregion & title & notes
 coefplot Dynamic, keep(Before2 Before1 Current After1 After2 After3_) vertical ///
 recast(connect) lcolor(red*0.45) lpattern(-) ///
 ciopts(lcolor(edkblue*0.8)) ///
 mlcolor(gs6) mfcolor(white) msize(*1.2) msymbol(h) ///
 yline(0,lcolor(edkblue*0.6) lwidth(*1.0)) ///
 xlabel(,labsize(*0.75) labcolor(purple)  tposition(crossing) tlcolor(gs10)) ///
 ylabel(,nogrid tposition(crossing) tlcolor(gs10)) ///  
 graphregion(color(gs16)) ///
 plotr(lcolor(edkblue) lpattern(1) lwidth(*1.5)) ///     
 title("Fig.1 The Dynamic Effect of the Policy") ///
 note(" " "   Notes: Vertical bands represent +(-)1.96 times the standard error of each point estimate", size(*0.8)) 
優(yōu)化模式
3. 進階:通過兩條線展現(xiàn)動態(tài)變化

其實,也可以通過兩條線來展現(xiàn)沖擊發(fā)生前后兩組樣本y的動態(tài)變化。其思想和安慰劑實驗比較相似。但是對于虛擬變量的定義要進行更改。具體代碼如下:

gen Before3=(Dyear==-3)
gen Before2=(Dyear==-2)
gen Before1=(Dyear==-1)
gen Current=(Dyear==0)
gen After1=(Dyear==1)
gen After2=(Dyear==2)
gen After3=(Dyear==3)
gen After4=(Dyear==4)
xtset group year
xi:xtreg y Before3-After4 x1 x2 if Treat==1,fe vce(robust)
est store Treat
xi:xtreg y Before3-After4 x1 x2 if Treat==0,fe vce(robust)
est store Control
coefplot Treat Control, keep(Before* Current After*) vertical recast(connect) yline(0)

Before*Current After*后面*表示:在搜索字符串末尾指定星號(*) 以執(zhí)行通配搜索。
在計算機(軟件)技術(shù)中,通配符可用于代替字符。 通常地,星號“*”匹配0個或以上的字符,問號“?”匹配1個字符。如:123??? 將匹配 1231 或 12313,但不會匹配 123991991

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容