記事の内容
確率とはなんだろうか?
流行りの人工知能、機械学習を勉強していても、統計学を勉強していても、その基礎には確率論がある。しかし、その確率論を深ぼっていない人は案外多いと思う。
現代の数学には、おもにふたつの確率論がある。
現実に観測されたデータの頻度に基づく確率と、仮定と推論規則にもとづき、論理的に操作していく公理的確率だ。後者は、確率空間というアイデアのもと、測度論という数学により厳密に定義されている。
それでは、現代整備されている確率論はどこまで「確率」というものを捉えているのだろうか?
今回の記事では、確率論の専門家である著者が書いた、「確率」の本質を探る読み物を紹介する。数学になっている部分と、まだまだ数学では捉えられていない部分に注目してみてほしい。
眠れぬ夜の確率論
確率論は非常に奇妙な,特別な分野だと私は思っています.もちろんこれは,たまたま,確率論を専攻した私の身贔屓でしょうが,純粋数学の問題であると同時に,物理学を始め自然科学の諸分野や,経済学,哲学,倫理学,果ては処世術にまで関係するのは,例外的だと言えましょう.
本書では,このさまざまな領域に関わる確率の姿を,できる限り,精一杯,幅広く取り上げました.かなり深い数学的知識を仮定した箇所もありますが,全体としては,数式などを読み飛ばしても,十分に楽しんでいただけると思います.
それでは、本書からいくつかの話題をピックアップしてみる。
まずは、数学的な確率論の話をしっかりとしてくれる。
コルモゴロフによる公理的確率論だ。測度論という数学も押さえてくれる。
数学を押さえたあとに進む、確率の本質を探ろうとする旅が魅力的な本になっている。
測度論的確率論の感じをつかみたい方は、次の記事などがおすすめ。
初心者のための測度論的確率論 ~ Pythonコードを添えて ~ - Qiita
【2日目】統計を学ぶ人のための測度論(1週間限定独りリレーブログ) - Data Science by R and Python
確率が定義できる対象とは?
ミーゼスの「コレクティブ」というアイデア。
観測された無限列からなるデータのこと。頻度の極限をもち、ランダムな列。
これは、可能性の集まりである確率空間とは違い、一つの実現例である。
この実現例から相対頻度を得る。先験的に確率が考えられるわけではない。
ミーゼスが確率に求めたこと。
・客観的確率とは、観察されたデータから得られる頻度のこと。
・予測が不可能なわけだから一様性をもつ。データのどの部分を抜き出しても、得られる頻度の極限は一定になる。ランダム性の要請。
「頻度の極限を持つ」ということは、大数の法則を意味するのか?
・大数の法則
確率変数のとりうる値のうち、その圧倒的多数では平均値(=頻度)が期待値に非常に近くなること。
理論的、先験的確率である期待値と、データを観察するという経験から導かれる平均、頻度をつなぐ、と解釈できる。
・ミーゼスからの大数の法則へのツッコミ
数学的な大数の法則は、現実のコインについて何も言えないのでは。なぜたった一つの実現例から、コイン自体の確率を導けるのか?現実の頻度の性質を先験的な確率から導ける根拠がわからない。母集団の性質をその一部分だけに過ぎないデータから推定できる根拠は何か。
私たちは、可能性の全体のうちただ一つのサンプルしか経験できない。だからこそ、ミーゼスの指摘は無視できない。
ミーゼスのランダム性の要請は、得られた一つの実現例であるデータの「複雑度」の話に変換されてしまっている。確率の本質に関わる「ランダム性」をうまく取り出すことには失敗している。
確率とランダム性の関係とは?
ランダム性と複雑度の関係はどうなっているのか?
でたらめという名の規則
・コルモゴロフの複雑度
コルモゴロフの確率空間は、反規則性としてのランダム性をとらえていない。だから、ランダム性に、確率空間とは別の側面から迫った。
記号列がランダムであるとは?
複雑度が十分に高いこと。その記号列を出力するために必要な計算手順の長さ、で定義。
それでは、確率空間と複雑度はどのようにつながるのか?重なるのか?
「偶然」ということの側面として、なぜ確率空間による可能性の話と、アルゴリズムによる複雑度の話があるのか?
参考になるのは大数の法則などの極限定理。
圧倒的多数ならば重なる部分は大きくなる。
ミーゼスのランダム性とはやや異なるが、ランダム性の一側面をとらえている。
確率論の3つの側面
・形式主義による確率
仮定と論理法則だけを用いて操作する純粋数学。
・実際のデータの頻度
統計的推測の理論か築かれる。
・主観的確率
個人の中にある不確実な未来への見込み。それなりには合理的。
割合、分数の意味
確率には、「割合」が本質的にからむ。
それでは、その分母になるところの「可能性の全体」とはなにか?
可能性の全体の中の割合、それがなぜ可能性の中のたった一つしか実現しない我々の現実世界に応用できるのか。
この分数の意味こそ、確率論の応用、統計的の根幹に関わる謎である。大数の法則へのツッコミともかぶる。
分数の意味、割り算の意味を私たちはまだまだ過小評価しているのかもしれない。
この大きな問いを、個人的にはまだまだ実感できていない気がする。小島寛之の『確率的発想法』という本で指摘されている話を紹介したい。
客観的確率と個人の中にある主観的な確率の溝だ。例えば、年間死亡率という割合は、自分とは全く関係のない人々に起こったことだ。飛行機の年間死亡率が100万分の5だということと、今から私が飛行機事故に遭遇する可能性の間には、どんな論理的な関係があるのだろうか?
私は他にありえない。1回だけのものだ。それと、私ではないものの観測結果から得られた割合は、どう結びついているのか?
この問いは考え続けるべき問いだと思う。
最後に個人的に読んでおきたい本をまとめておく。
関連記事