記事の内容
この記事では、『因果推論の科学』という本の内容を紹介する。
本のエッセンスをできるだけ抽出したい。
- なぜ、データだけで因果は分からないのか
- なぜ、因果を表現するモデルが必要なのか
- 因果を表す数式の導入という革命の凄さ
- 因果と確率の違い
これらが気になる人には、ぴったりな本になっている。
因果という概念をめぐる科学と哲学の挑戦と混乱を本書は整理してくれる。
とくに、因果を3段階に分けて整理してくれるのはとても分かりやすい。因果と確率の違いが分かるはずだ。
それでは、目次をどうぞ
データ、因果モデル、do演算子
データだけでは、物事の関係性しか分からない。因果関係までは分からない。
だから、現実世界にある因果関係のモデル、仮説が必要。
因果モデルとして、著者は、因果ダイアグラムを採用する。
因果ダイアグラムにおける、因果の定義はこうだ。
「変数yがxの意見を聞き、その意見に応じて自らの値を決定する場合、変数xはyの原因である」
そして、著者は、因果的な問いを、数学的に表現する式を発明した。
それが後に紹介するdo演算子だ。
因果のはしご
著者は、因果という概念を明らかにするために、3段階に分類する。この分類により、因果と確率をめぐる混乱、パラドクスが解消される。科学的にも、哲学的に、とても価値ある試みだと思う。
1 関連付け Xを見たら何がわかるか?
見ることによって、規則の発見をする。
相関、回帰、確率、ベイジアンネットワーク
2 介入 Xをすればどうなるか?
完全に同じ環境は得られないため、過去のデータだけでは分からない。因果モデルが必要。
3 反事実 もしこうしていたら、どうなったか?なぜ?
データは事実。よって、データから反事実は分からない。
確率という概念は、因果を扱えない
2段目、3段目に上がるには、因果モデルが欠かせない。
人間の直感にとって、因果という概念は確率という概念よりも基礎的なはずだ、と著者は言う。だから、因果関係は確率に還元できない。条件付き確率なども、因果のはしごの1段目に属す。
xとyの共通の原因、交絡因子。この概念も因果関係に関わる概念だ。よって、因果のはしごの1段目、つまり確率による定式化はできない。
ベイジアンネットワークの真価と限界
ベイジアンネットワークは、あくまでも確率だけを扱う。よって、はしご1段目内にとどまる。ベイジアンネットワークの矢印は、因果を仮定していない。矢印は、順確率であることを意味しているだけだ。
ベイジアンネットワークでは、因果を扱えない。煙は火災の確率を上げるが、火災もまた煙の確率を上げる。
しかし、ベイジアンネットワークは、因果ダイアグラムとデータの間の橋渡しとして重要だ、と著者は言う。
パターン1 チェーン
A → B → C
Bは、媒介であり、AとCの仕切りになる。
パターン2 フォーク
A ← B → C
Bは、共通の原因。交絡因子と呼ぶ。
パターン3 コライダー
A → B ← C
例えば、ベイジアンネットワークは、チェーンとフォークの区別ができない。はしごの2段目、3段目、つまり、介入や反事実に関する問いに答えられない。
はしご2段目「介入」 どうにかして、観察に帰着できないか?
はしごの2段目にあたる介入を記号で示し、数式として表現した。それが、do演算子だ。
介入XのYにたいする効果を次のような式で表す。
P( Y | do( X ) )
そして、著者は、こうしたdo演算子が含まれた式を、do演算子が含まれない式に変形するパターンを整理した。つまり、観察データをもとに因果効果の推定が可能になる。
do演算子を排除できるパターンの一つが、フロントドア調整だ。
フロントドア調整
適切な状況であれば、たとえ交絡因子についてのデータが一切なくても、数学によって交絡因子の影響を除去できる。
適用条件は、媒介因子が交絡因子からの影響をほとんど受けない、と仮定できるときだ。
介入を観察に変える、3つのルール
- 観察の付加、あるいは排除を許可する
- 介入を観察に、あるいは観察を介入に置き換えることを許可する
- 介入の排除、あるいは付加を許可する
許可には一定の条件があり、因果ダイアグラムによって妥当性を検証する必要がある。
(因果ダイアグラムという仮定ありきなのだ!因果ダイアグラムの不可欠さが分かるとおもう。だからこそ、因果ダイアグラムそのものの妥当性は、どんな基準でチェックするの?と疑問はわく)
引き続き、本書の内容をまとめていく。
更新していきたい。
関連記事