会社員が経済学を考えるブログ

Goodな生活

2017年、新卒で民間シンクタンク入社。学んだこと、行った場所について書きます。

Mostly Harmless Ch.2 セレクションバイアスとRCT

 {
\begin{eqnarray}
\end{eqnarray}
}

はじめに

Joshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly harmless econometrics』第2章の学習メモ。

Mostly Harmless Econometrics: An Empiricist's Companion

Mostly Harmless Econometrics: An Empiricist's Companion

 この章は実証研究を行う上で最も重要な課題である「セレクションバイアス」とその対処法であるランダム化比較試験(Randomized Controlled Trial; 以下RCT) *1に関するもの。章の末尾では、回帰分析を用いて実験データ(experimental data)を分析する方法についても触れられている。RCTの有名な例が、1960年代にミシガン州で行われたペリー幼稚園プロジェクトである。このプロジェクトは就学前の教育プログラムの効果検証を目的に設計されたものであり、処置群(treatment group)の子供はコントロール群(control group)の子供に比べ、成人後の収入が高く、反社会的な行動への参加率が低いという結果が得られた*2。このプロジェクトは、1964年に開始される低所得者層向けの教育プログラムであるヘッドスタート(Head Start)の基盤となった。

1.セレクション問題

 ある行為と結果との間の因果関係を明らかにする上で、実験(experiment)はどのような役割を果たすことができるだろうか。例えば「病院に行く(医療サービスを受ける)」という行為と「健康になる」という結果との間の因果関係を考えたい。実証研究者にとっては、病院に行った(医療サービスを受けた)人とそうではない人の健康状態を比較する、というのが自然なアプローチではないだろうか。NHIS(National Health Interview Survey)には、過去12か月における入院の有無・現在の健康状態についてのアンケート結果が集計されている。このアンケート結果に基づき、回答者の現在の健康状態について、1を「健康ではない」、5を「大いに健康」として5段階に割り振り、下表のように整理する。

 {
\begin{array}{|c|c|c|}
  \hline
   Group  & Sample\,Size         & Mean\,Health\,Status\,(E[Y_i])     & Standard\,Error \\
  \hline
  Hospital \,(D_i =1)&  7,774         & 3.21& 0.014 \\
  \hline
  No\,hospital \,(D_i=0)& 90,049 & 3.93    & 0.003 \\
 \hline
Obserbed\,difference  &{-} & -0.72\,(E[Y_i|D_i = 1] - E[Y_i |D_i =0]) & {-}  \\
 \hline 
  \end{array} 
}

 表内のMean Health Statusをグループ間で比較すると、一見「病院に行くほど人々は不健康になる」とも読めるがこれは正しい解釈ではない。なぜかと言うと、まず病院に行く人が元々健康ではない、さらに一度病院に行った人であっても一度も病院に行かない人に比べると健康ではない、という可能性が考えられるためである。この問題を定式化しよう。
 病院での医療サービスを、\(D_i=\{0,1\}\)という二項ランダム変数(binary random variable)を使って表す。\(i\)は各人を表す添え字である。同様に、医療サービスの結果である健康状態を\(Y_i=\{0,1\}\)で表す。\(Y_{1i}\)は病院に行った場合の健康状態、\(Y_{0i}\)は病院に行かなかった場合の健康状態である。ここで問題なのは\(Y_i\)が\(D_i\)に影響を受けるかどうか、すなわち病院に行って医療サービスを受けることにより、健康状態が変わるか(改善されるか)どうかである。\(Y_i\)(健康状態)は\(D_i\)(医療サービス)の結果として観察される変数(observed outcome)であると同時に、\(D_i\)の関数である潜在変数(potential variable)としても表すことができる。

 {
\begin{eqnarray}
Y_i &=& 
\left\{\begin{array}{l}
Y_{1i} &if &D_i = 1\\
Y_{0i} &if &D_i =0 \\
\end{array}
\right. \\
&=& Y_{0i} + (Y_{1i} - Y_{0i} ) D_i \tag{2.1.1}
\end{eqnarray}
}


\(D_i\)が\(Y_i\)に与える影響の有無やその大きさを検証するには\(Y_{1i} - Y_{0i}\)、つまり病院での医療サービスによる健康状態への因果効果(causal effect)を観察する必要があるが、同一人物\(i\)についてこのようなデータを入手することはできない。なので\( (2.1.1)\)では人工的に\(Y_{1i} - Y_{0i}\)を出現させる操作を行っている*3。\((2.1.1)\)では、\(Y_i\)は\(D_i\)によって取りえる値が異なる二項変数であると同時に、\(D_i\)を因果効果\(Y_{1i} - Y_{0i}\)が健康状態に与える影響の大きさを表す「係数」とする線形関数の実現値である。\(Y_{1i} - Y_{0i}\)を個別に観察することができない以上、もちろん医療サービスを受けることによる健康状態への影響の大小は各人\(i\)によって異なるが、次善策として、医療サービスを受けた人と医療サービスを受けていない人の二つのグループにおける平均的な健康状態の違いを比較することで、因果効果を検証しようという発想が生まれる訳である。

次式において、健康状態の医療サービスの有無による条件付き期待値を比較することと、「平均的な因果効果」との関連が説明されている。

 {
\begin{eqnarray}

E[Y_i|D_i = 1] - E[Y_i |D_i =0] &=& E[Y_{1i}|D_i =1] -  E[Y_{0i}|D_i =1] +E[Y_{0i}|D_i = 1] - E[Y_{0i}|D_i =0] \\
&=& \underbrace{E[Y_{1i}-Y_{0i}|D_i =1]}_{Average\,treatment\, effect\,on\,the\,treated} +\underbrace{E[Y_{0i}|D_i = 1] - E[Y_{0i}|D_i =0]}_{Selection\, bias} \\

\end{eqnarray}
}

上式の左辺は平均的な健康状態の違いであり、先ほどの表のObserved differenceの\(-0.72\)に相当する。これは右辺1項目「医療サービスが健康状態に与える平均的な効果」と2項目「セレクションバイアス」とに区別できる。いずれの項も\(Y_i\)の\(D_i\)による条件付き期待値の形をとっている。セレクションバイアスは、医療サービスを受ける人と受けない人の「元々の」健康状態の差の平均値を表している。この例では「元々健康状態の悪い人は健康な人と比べてより病院に行く可能性が高い」、つまり「健康状態という結果に大きな影響を与える条件が同一ではない」というバイアスが表されている。上表のObserved differenceが\(-0.72\)となったのは、このセレクションバイアスがマイナスとなったためだと考えられる。今回のような病院(医療サービス)と健康状態との因果関係の検証に限らず、多くの実証研究の目的はこのセレクションバイアスを克服することである。

2.セレクションバイアスを克服するランダム割り当て

セレクションバイアスを克服するには、\(D_i\)を\(Y_i\)から独立した形で割り振らなければならない。これをランダム割り当て(random assginment)と呼ぶ。\(D_i\)と\(Y_i\)が独立であるとき、\(Y_i\)の\(D_i\)による条件付き期待値と単なる期待値との違いがなくなり、セレクションバイアスはゼロとなる。RCTはいかなる実証分析においても万能というわけではないが、最も重要な問題に対処することができる。

医療分野の最近の研究例として、HRT(ホルモン補充療法)の効果に関する研究が挙げられる。大規模サンプルを対象にした非実験的調査であるNurses Health Surveyによると、HRTの利用者は健康状態が改善したという結果が報告されている。しかしながら近年のRCTの結果からは、HRTの効果は僅かであり、副作用を持つことさえも明らかになった。同様の例が労働経済学分野の、職業訓練プログラムの評価においても報告されている。この職業訓練プログラムは、薬物中毒者や犯罪者など長期間無職の人々の就業状況や賃金を改善するという目的の下、講習やOJT(オンザジョブトレーニング)を提供するというものである。セレクションバイアスを適切に対処できていない研究からは「プログラム受講後に賃金が下がる」という逆説的な結果が導かれるが、RCTの結果からは「プログラムはポジティブな効果をもたらす」ことが明らかなっている。

RCTを用いた教育分野の先行研究-Kruger(1999) *4

 RCTは社会科学の分野で広く普及しているわけではないが、特に教育分野において重要性が高まっている。先進的な事例が少人数クラスと生徒の成績との関係を検証したテネシー州のSTAR実験である。
 労働経済学者をはじめとする関連分野の研究者は、長らく"education production" というフレームワークを用い、「いかなるインプットが学習効果を最大にするか」というリサーチクエスチョンに取り組んできた。ここでは教育環境をコスト(インプット)、生徒の学習をアウトプットだと考えており、教員の採用コストを踏まえると最も高額なインプットがクラスの規模である。
 これまで非実験的データを用いた多くの教育研究において、クラスの人数と成績の間にはほとんど影響がないと報告されてきた。であるならば成績(学習)を損なうことなく、教員採用数を減らした方がコストを削減できるという示唆も得られるだろう。しかしながら、クラスの割り振りが必ずしもランダムに行われるわけではなく、成績の悪い生徒が少人数クラスに割り振られる可能性もある。クラス規模と成績を単純比較するだけでは不十分である。Kruger(1999)は、RCTを用いたテネシー州のSTARプログラムにおいて、クラス規模が成績に与える効果を検証し、明確かつ持続的な因果関係が存在することを示した。STAR実験では、対象となった生徒は13~17人の少人数クラス(small)、22~25人の標準クラス(regular)、先生の24時間サポート付きの標準クラス(regular/aide)の3グループに分割された。ここでは処置群が少人数クラス、コントロール群が標準クラスに該当する。それぞれのグループの生徒の特徴を表す変数の平均値がTable1に記載されている。


f:id:hacmouka:20191229210058p:plain
Table1 Kruger(1999)

Table2は生徒のテストの点数をアウトカム(\(Y_i\))とした回帰分析の結果であり、少人数クラスに所属することで点数が約5ポイント高まることを示している。少人数クラスの効果は統計的に有意(すなわち回帰係数βの推定値がゼロではなく)であるが、標準クラス、先生のサポート付き標準クラスの効果は小さく、統計的に有意ではない*5

f:id:hacmouka:20191229210158p:plain
Kruger(1999) Table5

非実験的データを用いた先行研究-Angrist and Lavy(1999)*6

STAR実験はRCTの模範例だが、実行上のロジスティクス面の難しさ、実施期間の長さ、多大なコスト等RCTの困難な面も浮き彫りにしている。多くの場合、このような実験は「早急に結論を出すことができない」という面で実用的ではないと指摘される。だからこそ、研究者はよりコストのかからない方法でRCTを「模倣」する形で、自然実験(natural experiment)や準実験的環境(quasi-experimental)を活用しようとする。Angrist and Lavy(1999)は、「クラス規模の非連続的な変化」という事例を活用し、非実験的データを実験的なデータとして扱った。彼らの分析対象であるイスラエルでは、1クラスの人数に40人という上限が設けられ、この定員を超えた場合にはクラスを分割する制度*7を採用している。そのため1学年の生徒数が41人となった場合には、もう1クラスが追加され20人と21人のクラス編成となる。ここで1学年40人の生徒と41人の生徒には、学力や家族構成等の特徴に違いがないと仮定すると、クラス規模はランダムに割り当てられたもの(random assignment)と考えることができる。同研究ではクラス規模と成績には有意な負の関係があることが示された。

3.実験の回帰分析

回帰分析は実験データを用いた因果推論にも活用できるツールである。ここで\(Y_{1i} - Y_{0i}\) (treatment effect)が各人にとって共通、つまり定数だと仮定すると、\( (2.1.1)\)を回帰式の形で書き表すことができる。\(ε_i\)は\(Y_{0i}\)の誤差項である。

 {
\begin{eqnarray}
Y_i &=& α + ρ D_i + ε_i  \tag{2.3.1}
\end{eqnarray}
}


\( (2.3.1)\)式について\(D_i=\{0,1\}\)のそれぞれの条件付き期待値の差をとると、


 {
\begin{eqnarray}
E[Y_i|D_i = 1] - E[Y_i |D_i =0] &=& \underbrace{ρ}_{treatment\,effect} + \underbrace{E[ε_i|D_i = 1] - E[ε_i|D_i =0]}_{Selection\, bias}
\end{eqnarray}
}


セレクションバイアスは、誤差項\(ε_i\)と回帰変数\(D_i\)との相関によって生じていることが分かる。この相関は元々は\(Y_{0i}\)と回帰変数\(D_i\)との相関、つまり潜在的な結果(potential outcome)の違いに由来する。Angrist and Lavy(1999)における「元々小規模クラスには成績の悪い生徒がいる」というバイアスである。

STAR実験では、RCTにより\(D_i\)がランダムに割り当てられており、セレクションバイアスの項が消失するため、\(Y_{0i}\)から\(D_{i}\)への回帰によって\(ρ\) (treatment effect)を推定することができる。Table2の結果は、\(D_{i}\)以外の共変量(covariates)を加えた識別*8結果も併せて示されている。

共変量(covariate)は実証分析を行う上で2つの役割を果たしている。1つ目が「固定効果(fixed effect)」、2つ目が「コントロール変数」である。まず固定効果であるが、STAR実験におけるランダム割り当てはあくまでも同じ学校の中でのクラスの割り振りであり、異なる学校間での割り振りではない。例えば都市部と田舎の学校では当然クラスの大きさにも違いがあるはずである。Table2の(2)と(3)の識別では、実験が行われた学校特有の効果を捉えるため、固定効果を含んだ回帰式が推定されている。2つ目のコントロール変数とは、\(D_{i}\)との相関が考えられる人種、年齢、フリーランチの有無など生徒の特徴を表す変数を指す。STAR実験の回帰分析において、クラス別にこれらの生徒の特徴がバランスしている場合*9、つまりこれらのコントロール変数が\(D_{i}\)と独立しているならば\(ρ\)の推定値に何ら影響は与えない。\( (2.3.1)\)と\( (2.3.2)\)における\(ρ\)の推定量はほとんど同じとなる。


 {
\begin{eqnarray}
Y_i =α + ρD_i + X_i' γ + ε_i \tag{2.3.2}
\end{eqnarray}
}


\(X_{i}\)を回帰式に加えることの利点は、より正確な因果効果の推計ができる点である。というのもTable2の(3)の識別におけるsmall classの回帰係数の標準誤差は(2)よりも小さくなっている。これはコントロール変数の\(X_i\)が\(Y_i\)についてそれなりの説明力をもっていたということである。コントロール変数を加えることで誤差項の分散が小さくなり、結果として推定値の標準誤差が小さくなっている。同様に、学校の固定効果を加えることによってもsmall classの回帰係数の標準誤差が小さくなっている。他方、教師の特性(teachers experiment, age)はランダムに割り振られているため、影響力は小さい(推定値の絶対値が小さく、また標準誤差の改善幅も小さい)。

この節では実験データを扱うにあたり回帰分析が有用だと説明した。回帰と因果推論との関係に踏み込む前に、まずは次章で回帰分析の特徴・性質をレビューしたい。

*1:RCTとはある操作(介入・治療など)を行うこと以外は同一の条件とになるように,対象の集団を無作為に複数の群(処置群とコントロール群など)に分け、その操作の影響・効果を測定し、明らかにするための比較研究

*2:ペリープロジェクトの結果に対する留意点として、Michael Anderson(2008)による分析において「就学前の教育プログラムの効果は主に女児について認められたが、男児には影響がない」という結果が得られたことが紹介されている。ペリープロジェクトについては、中室牧子(2015)『学力の経済学』等ででも紹介されているらしい。

*3:同一人物\(i\)についてこの変数を観察できない、というのは全く同じ条件の同一人物に対して「医療サービスを受ける/受けない」という実験を行うのは不可能、という意味であり、(倫理的な実現可能性も含めて)度々自然科学と社会科学の違いを説明するときに使われる言説でもある。

*4:Alan B. Krueger, 1999. "Experimental Estimates of Education Production Functions," The Quarterly Journal of Economics, Oxford University Press, vol. 114(2), pages 497-532.

*5:回帰分析の結果を示す表では、推定値の下側の括弧の中に推定値の標準誤差が記載されている。ここで推定値を標準誤差で割ることで、推定値がゼロという帰無仮説を棄却するための検定統計量(t-statisticsとも呼ばれる)を計算することができる。有意水準を両側検定で5%とするならば、この値が1.96よりも大きいことを確かめればよい。多くの実証研究において推定値とその下に標準誤差が記載されているのは、検定統計量の大きさを簡潔に説明するためである

*6:Joshua D. Angrist & Victor Lavy, 1999. "Using Maimonides' Rule to Estimate the Effect of Class Size on Scholastic Achievement," The Quarterly Journal of Economics, Oxford University Press, vol. 114(2), pages 533-575.

*7: マイモニデスの法則と呼ばれるクラス規模の決定ルール。日本でも同様の制度が採用されている。この学級規模の変化は生徒の能力とは関係のない偶然の結果だと考えられる。

*8:識別(identification)については観察データから検証したい効果をいかに見分けていくか、ということだとざっくり認識しておりますが、計量経済学におけるきちんとした定義は理解しておりません。

*9:処置群とコントロール群において、各共変量の平均値や分散などに大きな違いがない場合を指す。記述統計表(descriptive statistics table)により説明されることが多い