なぜデータ分析が重要なのか?
ビジネスでもデータを活用しろ!
データサイエンスを必修にしろ!
最近、このような動きが社会で進んでいると思います。
しかし、どうしてデータ分析は大事なのでしょうか?
それには、様々な理由がありますが、大きな理由の一つは「因果関係を知りたいから」なのです。
今回の記事では、データ分析がなぜ「因果関係を知ること」につながるのかの説明をします。
記事を読み終えると、因果関係に迫る考え方と、データ分析の関係について基礎がわかるはずです。現代を生き抜くための必修の教養が身につきます。
- なぜデータ分析が重要なのか?
- 本記事のイシュー
- データ分析の力 因果関係に迫る思考法
- 因果特定のどこが難しいのか?
- 他の要因の影響していた可能性がある
- 逆の因果関係だった可能性もある
- 因果関係と相関関係は違う
- ランダム化比較試験 (RCT)
- データ分析の限界
- 関連記事
- まとめ
本記事のイシュー
なぜ、因果関係を特定することは難しいのか。また、データ分析は因果特定にどのように役立つか。
データ分析の力 因果関係に迫る思考法
今回はこちらの本から学ばせてもらいます。
いくつかの重要なテーマをまとめます。
因果特定のどこが難しいのか?
ある因果関係を調べたい対象があったとします。
しかし、本当に調べたい因果関係のみを調査するのは難しいのです。
広告の影響でアイスクリームの売り上げが伸びたかどうか
・単に気温が上がったからでは?
・景気が良くなったから消費も伸びたのでは?
海外留学をすると、就職率が上がるかどうか
・留学ができるほど、家庭の財力が高かったから
・留学ができるほど、元々の成績が良かったから
これら例のように、何が影響を本当に与えたのか、特定することが難しいのです。たくさんの原因のようなものが考えられます。
他の要因の影響していた可能性がある
「XがYに影響を与えた」という因果関係を示すことの難しさの理由の一つは、「Yが変化したのは、X以外の要因のせいだったのでは」という可能性が残ってしまうことです。
現実世界は、同時にたくさんのことが起こっています。そこには、ほとんど無限の要因が存在しています。だから、私たちが調べたいXという要因のみが原因になったということは難しいのです。
逆の因果関係だった可能性もある
例えば、アイスクリームの例では、
「猛暑のおかげで売り上げが伸びたので、そのお金で広告を出した」という可能性も考えられます。
これでは、YがXの要因になっています。
因果関係が逆転していますね。
私たちが調べたかった因果関係とは逆のものが出てきてしまいました。
因果関係と相関関係は違う
2つのデータの動きに関係がありそうなことを、「相関がある」といいます。
しかし、相関があることはわかっても、因果関係があるとまでは言い切れないのです。
なぜなら、
・XがYに影響を与えている可能性
・YがXに影響を与えている可能性
・XとYの両方に影響を与える他の要因がある可能性
これら3つの可能性のうちどれが正しいのか、判定することができないのです!!
ここが、因果関係を調査することの難しさです。
テレビなどの、メディアなどに溢れている「相関関係と因果関係をごっちゃにした主張」には注意すべきです。
それでは、どうやって因果関係を検証すればいいのでしょうか?
その最適な方法が、ランダム化比較試験です。
ランダム化比較試験 (RCT)
・薬剤の効果を確かめたい場合
研究の対象者をランダムに2つのグループに分け(ランダム化)、一方には評価しようとしている治療や予防のための介入を行い(介入群)、もう片方には介入群と異なる治療(従来から行われている治療など)を行います(対照群)。一定期間後に病気の罹患率・死亡率、生存率などを比較し、介入の効果を検証します。例えば、特定のがんXの再発を予防する効果があるとされる薬剤について調べたい時には、従来の治療に加え薬剤を投与する介入群と、従来の治療のみを行う対照群の再発率を比較し、対照群に比べて介入群で再発率が低くなれば薬剤に効果があることが証明されます。
ランダム化比較試験/無作為化比較試験 (らんだむかひかくしけん/むさくいかひかくしけん):[国立がん研究センター がん情報サービス 一般の方へ]
・注意点
グループ分けは必ずランダムに
各グループに十分なサンプル数を
なぜランダムなのか?
調べたい要因のみを特定するため。
所得、教育水準、居住地域、家族構成、など、どのような要素も各グループで均等になる。だから、自分が調べたい要因、つまり、介入したものの影響だけを考えることができる。
因果関係には、様々な可能性がありました。
しかし、ランダム化比較試験ならば、「XがYに影響を与えている」という因果関係を特定することができるのです。自分が調べたい要因以外の可能性を排除できるのです。
データ分析の限界
もちろん、ランダム化比較試験にも欠点があります。
この手法だけではなく、データ分析には様々な方法があります。しかし、それらの手法も完璧なものはありません。
そもそも、データそのものに不備があった場合には、データ分析をしてもいい結果は出ません。
データ分析のいくつかの手法、そしてそれらの利点、問題点の案内がこの本には載っています。もっと詳しく勉強したい人は、ぜひ本書にチャレンジしてみてください。
関連記事
まとめ
・因果関係の特定のためにデータ分析が必要
・相関関係はわかるが、因果関係を特定するのは難しい
・ランダム化比較試験によって、調べたい因果関係のみに焦点を当てられる
本記事が誰かの自由につながったなら、うれしい。