Tomohiro's Web Site

入門統計的因果推論のまとめと練習問題の解答

category: 読書

2020年12月27日:公開日
2021年1月14日:最終更新

因果推論勉強したかったので、有名なPearlさんの入門統計的因果推論を購入した。

1,2章のグラフィカルモデルに関しては、PRMLなどで学習済みなので、3章以降についてまとめていく。3章以降の練習問題の解答はここに飛ぶとすぐ見られます

3章 介入効果

3.1 介入

定義: 介入効果
何かに介入することによって何かの量を増やす/減らす効果のこと、e.g.薬を飲ませる、という介入をすることで病気にかかる人を減らす

現実では、介入効果を知りたいことが多いが、それを測るのは容易ではない。

介入の結果は単純な条件付き確率の差で測ることはできない。なぜなら、介入によって他の変数も変化する可能性があるからである。e.g.アイスの売り上げが多い時->気温が高いことが多い->犯罪が起きやすい、ので単純にアイスの売り上げの量で条件付けして犯罪が起きやすいと判断するのはよくない

そこで、Xをxとする介入をすることをdo(X=x)と表記してこれをどのようにして計算していくかこの章でやっていく。

3.2 調整

この章での目的は、以下の平均因果効果ACEを推定することである。

P(Y = 1 | do(X=1)) - P(Y = 1 | do(X=0))

これをX, Yの全ての値に対して求められるようにしたい。

因果を測ろうと思った時に、データのみから因果を求めるのは不可能と言える。因果のストーリーを元に因果を測ることになる。

介入していない場合のグラフィカルモデルと介入している場合のグラフィカルモデル(介入している変数への矢印が消える)を比較し、それぞれのモデルにおいて確率が変化しないものを抽出する。

そこから変換をしていって、介入していない場合のグラフィカルモデルを用いて表された確率(P(Y=1 | X=1)とか)を用いて、P(Y = 1 | do(X=1))を表せるようにする。

この表し方を一般化すると以下のようにまとめられる。

規則1
グラフGに置いてXの親をPAとすると、XがYに及ぼす因果効果は、
P(Y=y | do(X=x)) = ∑_z P(Y = y | X = x, PA=z)P(PA=z)
で与えられる。ここでzはPAに含まれる変数がとりうるすべての組み合わせである。

より便利な形として、p(y | do(x)) = ∑_z P(Y = y, X = x, PA=z) / P(X=x | PA=z)とも表せる。

上記の結果から、Xの親が全て観測される場合は、観察データのみから因果関係を見つけることができることがわかる。

介入したいXが複数ある場合に一般化することも可能で、その場合は、

一般化した因果効果

を使って、周辺化すれば求めたい介入効果を測ることができる。

3.3 バックドア基準

定義: バックドア基準

非巡回的有向グラフGに置いて変数の順序対(X, Y)が与えられたとき、変数の集合Zに含まれるいかなるノードもXの子孫ではなく、かつXとYの間の道でXに向かう矢印を含むようなすべてをZがブロックするとき、Zは(X, Y)についてバックドア基準を満たすという。

3.2節において、Xの親が全て観測できれば、観察データから因果関係を見つけることができると書いたが、Xの親が全ては観測できなくても、バックドア基準を満たすようなZを選べれば問題ないことがわかる。

3.4 フロントドア基準

定義: フロントドア

変数の集合Zが以下の条件を満たすとき、Zは順序対(X, Y)についてフロントドア基準を満たす。
1. ZはXからYへの有向道をすべてブロックする
2. XからZへのバックドアパスは存在しない
3. ZからYへの全てのバックドアはXによりブロックされている。

おそらくバックドア基準より使う機会は少ない(条件が厳しい)が、有効な時もあると思われるので覚えておく。

定義: フロントドア調整

Zが(X, Y)についてのフロントドア基準を満たし、P(x, z) > 0であるならば、XからYへの因果効果は識別可能であり、以下の式で与えられる。

P(y | do(x)) = ∑_z P(z | x) ∑_x' P(y | x', z)P(x')

3.5 条件付き介入と特定共変量効果

介入するものに条件を付けたい時(体温が一定以上の人に薬を出すとか)に因果効果を算出するには、以下の調整式を使えばよい。

規則2 SとZの和集合がバックドア基準を満たすような変数の集合Sが計測可能であれば、特定z効果P(Y=y|do(X=x), Z=z)は識別可能である。さらに、特定z効果は以下の調整式で与えられる。
P(Y = y | do(X=x), Z=z) = ∑_s P(Y=y|X=x, S=s, Z=z)P(S=s | Z = z)

3.6 逆確率重み付け法

これまでの節のやり方は、論理的には正しいが、計算量の問題(Zがたくさんある場合など)に実行できない場合が多々ある。そこでこの節では、その問題を回避する方法をあげる。
定義: 傾向スコア

関数g(x, z) = P(X = x | Z = z)

上で定義されている傾向スコアを用いることで調整化公式を変形することができる。
変形結果は
P(Y | do(x)) = ∑_z P(Y = y, X = x, Z=z)/ P(X = x| Z=z)
となり、母集団それぞれのケースについて傾向スコアの逆数に基づく重み付けをすればよいことがわかる。
注意点としては、そもそも調整化公式を使っているので、Zがバックドア基準を満たしている必要があること、 極端な重みづけをすると推定が不正確に(分散が大きく)なること、この計算方法では、O(標本数)になるので、必ずしも計算量が減るわけではないこと、があげられる。

3.7 媒介

直接効果と媒介変数を介した効果を区別したいときを考える。媒介変数を条件付ければすむこともあるが、それによって他のパスができてしまう場合の対処法を扱う。
ここで、媒介変数について条件付けではなく介入を行う、Yの制御された直接効果(CDE)を以下の式で定義する。
CDE = P(Y = y | do(X=x), do(Z=z)) - P(Y = y | do(X=x'), do(Z=z))

doオペレータが二つあるわけだが、それぞれのdoオペレータを3.2節と同様に取り除いていけば計算できる。
これによって直接効果は推定できるが、間接効果は単純に総合効果-直接効果、で計算することはできず(線形ならこれでもいいが)、難しい問題となる。(4章で対処する)

3.8 線形システムにおける因果推論

線形モデルを利用することで、以下の4つの有用な特性を利用することができる。

  1. 効率よく記述できる。
  2. 確率の代わりに期待値を使うことができる。
  3. 期待値の線形性
  4. 回帰係数の不変性

構造方程式と回帰式の区別をすることが大事。構造方程式は因果があることを背景に線形なモデルを利用しており、回帰式は線形近似としてベストなものを追求するモデルと言える。例えば、回帰式における誤差項は観測値と予測値の誤差を表すが、構造方程式においては、見えない因子が関係していると解釈される。

構造方程式を全て書き、バックドアをなくすような調整をしたりすることで総合効果を測ったりすることも容易である。

考察をまとめると、2つの興味深い特徴に気づく。まず、線形システムにおいては、回帰分析が因果効果の識別と推定において大きな役割を果たす。その効果を測定するには、回帰式を書き出し、
1. 回帰式にどの変数が含まれるべきか、
2. その式に含まれるどの係数が現在目をつけている効果を表しているか
について明らかにすればいい。

4章 反事実とその応用

4.1 反事実

実際には行えなかった選択をした場合にどういう結果になったかを推定していく。
式で表すと、選択肢1を取った時の結果をY_{X=1}, 選択肢0を取った時の結果をY_{X=0}として、
E[Y_{X=1} | X=0, Y_{X=0} = 2]
というような式を推定したい。

4.2 反事実の定義と計算

反事実の文"U=uの状況に置いて、もしXの値がxであったならば、Yの値はyであろう。"をY_x(u) = yと表記する。

構造方程式がわかっている場合、上の反事実のような介入は、方程式のX = f(u)をX=xに変更すればよいだけである。

doオペレータと反事実の違いは、doオペレータでは介入による母集団の振る舞いを捉えている(だから結果は確率分布になる)一方で、反事実では、介入による特定の個体U=uの振る舞いを表す。

正式に反事実を定義すると、以下のようになる。

反事実の定義

反事実においては、割り当てられる値が任意というわけではなく、辻褄が合うようにしなければならない。

反事実は以下の3つのステップで計算される

  1. 仮説形成: 証拠E=eを利用してUの値を決定する。(回帰をする)
  2. 行動: モデルMにおいて、Xに含まれる変数についてその構造方程式を適当な関数X=xに変更し、修正モデルM_xを得る。
  3. 予測: 修正モデルM_xを使い、Uの値から反事実の結果Yを計算する。

4.3 確率論的反事実

Uのそれぞれの値に確率を割り当てる(U=uの状況がどれくらいの確率でおこるか割り当てる)。
これによって、do表記より幅広い反事実について計算をすることが可能になる。

ここまでは、構造方程式モデルにおいて反事実というものを考えて来たが、因果グラフにおいても反事実が成り立つかが気になる。

ここで4.2での反事実の定義を思い出すと、因果グラフでも反事実を扱えることがわかる。

定理4.3.1 バックドアの反事実的解釈
変数の集合Zが(X, Y)についてのバックドア基準を満たすならば、Zが与えられた下で反事実Y_xとXは、すべてのxについて、条件付き独立である。
P(Y_X | X, Z) = P(Y_X | Z)

この定理から、P(Y_x = y)という反事実における確率を推定する式(4.16)が導き出される。これが観察研究において有用。

線形モデルにおける反事実では、以下の定理が使える。

定理4.3.2 XからYの総合効果の傾きをτとする。
τ = E[Y | do(x+1)] - E[Y | do(x)]
このときどの証拠E=eについても
E[Y_{X=x} | Z=e] = E[Y | Z=e] + τ (x - E[X | Z = e])
が成り立つ。

処置群での処置効果ETT = E[Y_1 - Y_0 | X=1]

4.4 反事実の実践的応用

まず、測りたい効果を定義する。(例4.4.1ならETT=E[Y_1-Y_0|X=1])
次に、因果グラフを作成する。
そして、因果グラフを元に、測りたい効果を式変形し、現在得られるデータから測りたい効果が計算できるようにする。(もちろん計算できない場合もある)
最後に計算すれば良い。

この章では、測りたい効果の例として、
- 処置群での処置効果(処置群と非処置群のデータがある)
- 加法的介入の効果(全員に一定量加えるという介入をする)
- 必要性/十分性の確率(違う選択肢を取ったときに効果を得られた確率)
- NIE、自然な間接効果(XがYに及ぼす効果のうちどの程度が媒介変数Qによるものか

があげられている。

4.5 介入と寄与の分析に関する数学的ツール

4.4章で応用例をいくつかあげたが、その際に使える数学的な結果を紹介する章。

まずは、「実際にはXの値はx、Yの値はyであるのだが、もしXの値がx'であったならば、Yの値がy'であろう確率を求めよ。」という問題を解く場合を考える。数式でこれを表すと(4.27)のようになり、これは必要性の確率(PN)、と呼ばれる。
ここで、どのような仮定があれば、PNを識別できるか調べる。

定理4.5.1 すべてのuでYがXについて単調、つまりY_1(u) ≥ Y_0(u)であるとき、因果効果P(y | do(x))が識別可能であるならばPNも識別可能である。
PN = (P(y)-P(y | do(x')))/P(x, y)
またP(y) = P(y|x)P(x) + p(y|x')(1-P(x))を代入し、
PN = (P(y|x)-P(y | x'))/P(y | x) + (P(y|x')-P(y | do(x')))/P(x, y)
を得る。

右辺の第一項は、過剰相対リスク(ERR)と呼ばれる。第二項は、交絡バイアスの修正項。

次に、媒介に関する話。
4種類の効果を定義する(過去に出てきたものもある)。

  • 総合効果TE = E[Y_1-Y_0]
  • 制御された直接効果CDE = E[Y_{1, m} - Y_{0, m}]
  • 自然な直接効果NDE = E[Y_{1, M_0} - Y_{0, M_0}]
  • 自然な間接効果NIE = E[Y_{0, M_1} - Y_{0, M_0}]

TEやCDE(m)はdo表記ができ、実験データや観察調査から、推定が可能。NDEやNIEは他の仮定が必要。
その十分条件が以下(共変量をWとする)

  1. Wの要素にはTの子孫が一つもない
  2. Wは(T->MとT->Yを除いた後)MからYへのバックドアパスをすべてブロックする。
  3. TからMへの特定W効果は(おそらく実験か調整により)識別可能である。
  4. {T, M}からYへの特定W同時効果は(おそらく実験か調整により)識別可能である。

これらの仮定の元で、定理4.5.2を用いればNDEやNIEを推定できる。

Pearlさんの入門統計的因果推論の練習問題を解いたので、(自分の)解答を載せます。なにか間違いなどあれば、twitterなどから指摘していただけるとありがたいです。

2章までは自分にとって既知の部分が多かったので、3,4章の解答のみです。

3章練習問題

3.2.1

(a)
図1.10の例は図3.3のグラフィカルモデルと同じ形をしているため、Xに介入をした場合のグラフィカルモデルは図3.4と同じになる。図3.4におけるモデルでの確率をP_mと表すとすると、本と同様に考えて答えは以下のようになる。

  • P(y_1 | do(x_1)) = P_m(y_1 | x_1)
  • P(y_1 | do(x_0)) = P_m(y_1 | x_0)
  • P(y_0 | do(x_1)) = P_m(y_0 | x_1)
  • P(y_0 | do(x_0)) = P_m(y_0 | x_0)

(b)
調整化公式3.5を利用する。
今回の例におけるXの親ノードはZのみなので、PA = Z。よって、式3.5は以下のように変形できる。

3.2.1(b)の式変形

同様に考えて、

3.2.1(b)の解答

(c)
(b)の結果より、

3.2.1(c)の解答

ACEとRDを比較すると、ACEとRDの分子が似ていることに気づく。その違いとしては、ACEでは、XのZが与えられた元での条件付き確率がなんら考慮されておらず、RDでは、XのZが与えられた元での条件付き確率に基づく重みづけがされていることがわかる。 言い換えれば、ACEではXに介入をした時(条件付き確率ではなくなる)の差分が表され、RDでは現実での差分(条件付き確率を考える必要がある)が表されているとわかる。
逆に言えば、ACEとRDが同じ結果になるのは、条件付き確率が意味をなしていないとき、つまりXとZが独立なときであり、このときq_1=q_2であることから、ACEとRDが等しくなることが確認できる。

(d)
Simpsonのパラドックスとは、全体で見たときの統計的関係と部分で見たとき(条件つけたとき)の統計的関係が逆になることだった。つまり今回の例で言えば、RDとP(y_1| x_1, Z) - P(y_1 | x_0, Z)で真逆の傾向が見られるということである。

  • P(y_1| x_1, z_1) - P(y_1 | x_0, z_1) = p_4 - p_3
  • P(y_1| x_1, z_0) - P(y_1 | x_0, z_0) = p_2 - p_1

なので、例えば上の二式が正でRDが負になる例を答えればよい。
例えば、症状Zがあると死亡確率が高いのでp_4=0.9, p_3=0.8, p_2 = 0.2, p_1=0.1というケースを考える。この時、上の二式は正になり症状Zの有無に関わらず薬を飲むと死亡率が上がっており、薬は逆効果になっていることがわかる。
簡単のため症状Zを持つ人の割合rが0.5の場合で、症状のある人が薬を大きく避けて、q_2 = 0.2, q_1=0.8だったとする。この時、RD = -0.32となり、全体としては薬を飲むことで死亡率が下がっていることになる。つまり上記のようなパラメータはSimpsonのパラドックスと言える状態になっていると言える。
一方で、ACE = (p_4-p_3)r + (p_2-p_1)(1-r)とまとめることができるので、p_4-p_3>0かつp_2-p_1>0のときは必ずACE>0となり、新薬の因果効果を層別しない統合データから得られていることがわかる。

3.3.1

(a)
ZがXにもYにも直接影響を与えるため、Zは必ずバックドア基準を満たす変数の集合に含まれる。このとき、ZがBとCの合流点になっていることに注意して、答えは以下のようになる。
{A, B, C, D, Z}, {A, B, C, Z}, {A, B, D, Z}, {A, C, D, Z}, {B, C, D, Z}, {A, B, Z}, {A, C, Z}, {A, D, Z}, {B, C, Z}, {B, D, Z}, {C, D, Z}, {A, Z}, {B, Z}, {C, Z}, {D, Z}

(b)
(a)の中で要素数が最小となるのは要素が2つのときなので、答えは以下のようになる。
{A, Z}, {B, Z}, {C, Z}, {D, Z}

(c)
DがYに及ぼす因果効果を計算するのに測定しなければならない変数の集合のうち最小なものは{C}である。{Z}では、(a)と同様にBとCの合流点になってDとYがd連結になってしまうので不適切である。
{W, D}がYに及ぼす因果効果を知りたいときは、{Z}を計測すればよい(ZはBとCの合流点だが、Dが条件づけられているためd分離できている)。

3.3.2

日本だと9月が年初という感覚はないので添字を逆にしないように注意。
(a) 変数ABは、ミールプランの選択を表すとする。

3.3.2(a)の解答

(b)
因果グラフに基づいて2人の統計家の発言を精査する。
まず、1人目の統計家の「平均体重がどちらのミールプランでも変化していないから、ミールプランは体重に影響を与えない」という主張を検証する。上の因果グラフにおいて、条件付けを行わない場合、AB <- W_I -> W_F -> W_I-W_Fというパスによって、明らかにABとW_I-W_Fはd連結となっている。よって1人目の統計家の主張は偽である。
次に2人目の統計家の「どの体重においてもミールプランBを選んだ学生の方がミールプランAを選んだ学生よりも年末の体重が大きい」という主張を検証する。因果グラフより、年初の体重W_Iで条件づけすることで、AB <- W_I -> W_F -> W_I-W_Fというパスがブロックされ、検証したいAB -> W_F -> W_I-W_Fというパスによる影響のみを見ることができる。よって、2人目の統計家の主張は正しい、と言いたいのだが、年初の体重がとても低い人(例えば図3.9のW_0/2のあたりの人とか)は、ミールプランAしか選択しておらず、その体重においてミールプランBを選ぶとどうなるか、がわからないため、その体重(W_0/2とか)においてはどちらのプランがいいか結論づけることはできない。にも関わらず2人目の統計家は、プランAとプランBをともに選んだ人がいる体重の範囲での結論(プランBの方が体重が増えやすい)を全てのW_Iに対して展開しているため、その部分が誤っていると言える。
(参考: https://m-clark.github.io/docs/lord/index.html#treatment_with_confounding)

(c)
全体の情報を(平均という形で)縮約すると、プランA,Bどちらも影響は変わらないという結論が得られる一方で、(年初の体重に基づいて)部分部分で見ると、プランAとBで違いがあるという結論になり、異なる結果が導かれるという点で、Simpsonのパラドックスと似ていると言える。

3.3.3

(a)

3.3.3(a)の解答

(b)
この例ではRCT(ランダム化比較試験)が行われているため、調整は不要である。(P(回復 | do(薬の投与)) = P(回復 | 薬の投与))
一方で、p75に"ランダム化比較試験においてもサンプリングによる分散を最小化するために調整を使う"と書いてあり、これを目的に調整をする場合は、気分について調整をすることが可能である(気分と飴について調整しても良い)。

(c)
(b)で触れたように気分について調整をする場合、調整化公式は以下のようになる。

3.3.3(c)の解答

(d)

3.3.3(d)の解答

この場合では、気分について調整を行うと、薬->気分->回復、という計測したい因果効果を計測できなくなってしまうため、調整は行えない。つまり、P(回復 | do(薬の投与)) = P(回復 | 薬の投与)を用いて効果を把握するしかない。

3.4.1

Wは(X, Y)についてフロントドア基準を満たしている。よってWを計測すればよい。その時の効果としては、XがWに及ぼす効果とWがYに及ぼす効果を測り、X->W->Yの流れでXがYに及ぼす効果を計算できる。

3.4.2

(a)

3.4.2(a)の解答

(b)
この節で取り扱った喫煙とタールのデータ(表3.2)をそのまま用いることが可能。
具体的には、
喫煙者 -> 旧薬を飲んだ人
非喫煙者 -> 新薬を飲んだ人
肺がんなし -> 回復した人
肺がん -> 回復しなかった人
に置き換えればよい。
この問題の例においては、有効成分濃度が(薬の選択, 回復率)についてフロントドア基準を満たしているため、本の喫煙と肺がんの関係性を探る議論と同様の議論をすることができ、薬を買った人の重症度に関係なく、有効成分が高い薬を買うべきであり、そのためには新薬を買うことが効果的、という結論を導くことができる。(それほど重症でない人は、薬にお金をかけたいと思わないため、旧薬の選択率が上がる。さらに、それほど重症でない人は(薬の効果がなくても)回復しやすい。これらのことから、薬の選択 <- 重症度 -> 回復率、というパスによって、旧薬を買った人の方が回復率が高くなったと想像される。)

(c)
フロントドア調整(3.16)式を使う。y_1 = 回復, y_0 = 回復せず, x_1 = 新薬, x_0 = 旧薬, z_1 = 有効成分含有, z_0 = 有効成分含まれず、として、ACEを計算する。問題文より下記が成り立っている。

3.4.2(c)の定数確認

よって、

3.4.2(c)の解答

となり、平均的には新薬を飲んだ方が4.5%回復率が上がることがわかった。

3.5.1

(a)
練習問題3.3.1より{C, Z}がバックドア基準を満たしているため、S = {Z}として、規則2をそのまま適用すればよい。
P(y|do(x), c) = ∑_z P(y|x, z, c)P(z | c)

(b)
Zを含むバックドア基準を満たす集合を考えればよいので、(a)と同様に{C, Z}はバックドア基準を満たすため、今度はS={C}とすればよい。 X, Y, Z, C(C出なくてもA, B, Dでもよい)
P(y|do(x), z) = ∑_c P(y|x, c, z)P(c | z)

(c)

3.5.1(c)の解答

3.8.1

(a)
検証したい関係以外のパスがなければ検証可能である。なので、Z_1->Z_3, Z_1->W_1, Z_2->Z_3, Z_2->W_2などは検証可能である。

(b)
W_3 -> Yは検証可能である。Xによってパスをブロックできるため、YをXとWに回帰した時のWの係数はaになる。

(c)
Z_1, Z_2は親がないので、その二つの変数から出る矢印は単純に回帰すれば検証できる。
r_sは係数sを検証しているパラメータを表す。

3.8.1(c)a_1,a_3,b_3,c_2の解答

Z_1, Z_2, W_1, W_2, W_3は合流点になっていないので、何も気にせずに条件付けしてよい。よって、t_1, t_2, b, cは以下の回帰式で推定できる。

3.8.1(c)t_1, t_2, b, cの解答

c_3はバックドアのパスがないので、これも単純な回帰でよい。

3.8.1(c)c_3の解答

残りはa。YにはZ_3->YとW_2->Yの二つのパスが通っているので単純にその二変数について条件付けすれば(今回に関しては)うまくいく。

3.8.1(c)aの解答

回帰式が複数存在するパラメータは関係ない変数とかを適当に回帰式に入れればほぼ全てのパラメータになる気がするのですが…

(d)
(c)での説明より、c_3は識別可能。
XからYへの総合効果を推定するには、バックドア基準より、Z_3に関して調整しなければならないが、観測できないので推定不可能である。

(e)
逆向きの因果をどうすればいいのかさっぱりわからない…

(f)
Z_1->W_2, Z_2->W_1,, Z_1->W_2, W_1->W_2。あとはW_3の方程式にW_1を組み込むなども問題ないが、問題の意図がよくわからない。

(g)
Z_1->Z_3->Yのパスの効果をはかり、Z_1->Z_3の効果で割ることでbを測りたい。YをZ_1とW_3に回帰すると、Z_1->Z_3->Yのパスの効果を測ることができ、Z_3をZ_1に回帰すると、Z_1->Z_3の効果を測ることができるので、最初に書いたように割ることで、bを推定できる。

4章練習問題

4.3.1

(a)
E[Y_{X=x} | Z=z]が求めたい答えなので、以下式変形をしていく。(期待値は和なら分解できる、などの変換の説明は省いています。)

4.3.1(a)の解答

(b)
(a)の答えから、特定のスキルレベルzにおける、教育を受けた時X=1と受けていない時X=0の差分を取る。

4.3.1(b)の式変形

これがzに依存していないので、スキルレベルに依存しないとわかる。

4.3.2

(a)
まずはパラメータaについて。X->Hのパスを取り除いたモデルを考えると、XとHは独立なのは明らか。よって、何も条件付けずに回帰すれば良い。
パラメータbについて。図4.1のモデルにおいて集合{X}はバックドア基準を満たす。よって定理4.3.1より、(4.16)式同様Xについて条件付けして求められる。
パラメータcについて。集合{H}はバックドア基準を満たさず、条件付けすると4.3.2の図4.3の説明と同様にXとYは独立にならない。そこで、まず何も条件付けずに回帰を行い、XからYへの総合効果を測り、そこから間接効果であるabを引けばcが求まる。

(b)
定理4.3.2を使う。τ=abである。

4.3.2(b)の解答

(c)
τとETTをそれぞれ計算する。U_XとU_Hは平均0で同一分散だとする。(この答えはあまり自信がないです。)

4.3.2(c)の解答

τとETTの差はδa/(1+a^2)となる。

4.4.1

(a)
問題の直前の本文に書かれていたように、観察データと実験データから、P(Y=y|do(X=x))とP(X=x, Y=y)が求まるとする。(問題文の翻訳ミスだと思う、観察データと実験データからETTを識別する。)
ヒントにあるように、E[Y_0]を分割したものを考える。

4.4.1(a)E[Y_0]の分割

最後の式は、観察データと実験データから得られるので、E[Y_0 | X=1]が計算できることがわかる。

4.4.1(a)の解答

第一項は観察データから計算でき、第二項は先ほど計算できることを確認したので、ETTが推定できることが証明できた。

(b)

4.4.1(b)の解答

(c)
(4.21)式を使えば良い。

4.4.1(c)の解答

答えが一致することが確認できた。

4.4.2

(a)
Joeが気になっている問題は、これからタバコを吸うつもりだが、もし今現在タバコを吸っている人が吸っていなかった場合、肺がんになる確率はどのくらい下がるか、である。X=喫煙の有無(1が有0が無)、Y=肺がんに罹患するか(1が肺がん0がかからない)として、これはETTを使って以下のように表せる。

4.4.2(a)の解答

(b)
4.4.1節において、期待値E[Y_0 | X=1]が計算できる場合として以下のような場合があげられていた。

  • 共変量の集合Zが処置と反応変数についてのバックドア基準を満たす
  • 2値変数Xで実験データと非実験データがそれぞれP(Y=y|do(X=x))とP(X=x, Y=y)の形で手に入るとき
  • XとYの間に媒介変数があり、これがフロントドア基準を満たすとき

3.4章の例のように、タバコがタールの蓄積を媒介して肺がんに与える影響を計測することで、(a)の効果を測ることができると考えられる。よって、喫煙の有無、肺がんの有無、タール蓄積の有無、のデータがあれば良い。

(c)
まず、Zがフロントドア基準を満たす場合において、(3.14)における論理と同様にP[Y_x]を変形する。

4.4.2(c)P[Y_x]の変形

これを使って(a)のETTを変形していく。

4.4.2(c)の式変換

表3.1のデータを代入できるので、代入して答えが求まる。

4.4.2(c)の解答

よって、喫煙した人が喫煙していなかったら4.75%肺がんにかかる確率が減っていたことがわかる。この確率と自分がタバコを吸いたい気持ちを比較してJoeは喫煙するか決める必要がある。

4.5.1

x=1, x'=0, y = 0, y'=1とする。
実験結果と観察データから
P(y | do(x')) = 0.61(実験で放射線治療をしなかったときの再発を抑えられる確率)
P(y' | do(x')) = 0.39(実験で放射線治療をしなかったときの再発率)
P(y) = 0.7(再発しなかった割合) P(x, y) = P(y')P(x | y')(P(y|x)/P(y'|x))0.30.3(0.7/0.3) = 0.21
P(x', y') = P(y')*P(x' | y') = 0.21
これらを(4.30)式に代入して、答えは3/7 ≤ PN ≤ 6/7となり、治療を受けずとも十分治る可能性はあったが、治らない可能性もあったので、Jonesさんがどれくらいリスクを取るかによって、答えは変わってくる。

4.5.2

(a)
線形システムなので、TE = NDE + NIE

4.5.2(a)の解答

(b)
u_yとu_mが独立、という仮定を使って行った変換はないので、(a)と答えは同じ。

4.5.3

(a)
誤差項の期待値は0で計算しているっぽいので、そういう仮定をおきます。

4.5.3(a)の解答

より、(4.58-61)の通りになった。

(b)

4.5.3(b)の解答

4.5.4

採用における性差はTE、資格のみによって説明できる差分はNIEで表される。
計算式は放課後補修プログラムの例と同じなので、TE, NDE, NIEは同じになる。
よって、全体の内、資格のみによって説明できる割合NIE/TE = 0.07でかなり少ない。よって、性別による差別があることが疑われる。

Tomohiro's Web Site

↑ PAGE TOP