好きをブチ抜く

「好き」をブチ抜く

本、映画、科学、哲学、心理、すごい人の考え方など。あらゆる情報を編集したい。

従来の数学理論と矛盾?必見!【深層学習の原理に迫る】要約・まとめ

記事の内容

 

この記事では、

 

 深層学習の原理に迫る

 

という本を紹介します。

 

深層学習の数理を理解するための一般向けの本として、とてもおすすめな本です。数式もほとんど出てきません。

AIの本体である深層学習、この仕組みの数学理論に興味ある方にはぴったりな内容です。

 

それでは、目次をどうぞ。

 

 

 

 

 

深層学習の原理に迫る 今泉弁聡

 

深層学習の原理に迫る 数学の挑戦 (岩波科学ライブラリー) | 今泉 允聡 | コンピュータサイエンス | Kindleストア | Amazon

 

第三次人工知能(AI)ブームの中核的役割を果たす深層学習(ディープ・ラーニング)は,その高い信頼性と汎用性ゆえに様々な領域に応用されていく一方で,「なぜうまくいくのか」すなわち「なぜ優れた性能を発揮するのか」ということは分かっていない.深層学習の原理を数学的に解明するという難題に,気鋭の研究者が挑む.

 

 

 


この本の面白いところは?

 

  • 深層学習の実際と従来数学理論との矛盾が整理されている
  • 「目の前の現象を理解したい」という著者の気持ちが溢れている
  • 数学の持つ意義が熱い
    • 非連続的な質的発展の契機
    • 知識の体系化と継承
    • 深層学習のその先に向けて

 

 

 


多層が効果的なのはどうして?

  • 従来の理論と矛盾
    • 従来の理屈では、少ない層で充分だという数学的な成果がある
    • 深層学習は、多層で良い成果が出ている
  • ニューラルネットワークによる関数表現能力に注目して、理論を解析
    • 近似誤差レート
      • パラメータを増やした時の誤差の減少率
      • より少ないパラメータで目的の関数を近似できれば、近似誤差レートは向上
      • 表現したい関数が滑らかである時、層が二つあるニューラルネットワークの近似誤差レートは、どんな方法をもってしても改善できない
  • 近似したい関数の性質に注目
    • 滑らかな関数の場合
      • 従来の理論の通り、少ない層で充分
    • 滑らかでない関数の場合
      • 多層の方が効果的
    • 滑らかだが、場所ごとに異なる滑らかさを持つ関数の場合
      • 多層の方が効果的
  • データのより複雑な特徴量の抽出に、多層は効果的
  • まだ分かっていない理屈
    • 100層、1000層のような超深層ニューラルネットワークの意義
      • せいぜい数10層の効果までしか、数学的に証明できていない
    • 特徴量を記述する数学的概念が充分に整っていない
      • 現実にあるようなデータをどんな数学的概念で記述するべきなのか、有用な指針があまりない

 

 

 

 

 

 


膨大なパラメータが効果的なのはなぜ?

 

  • 従来の理屈と矛盾
    • 膨大なパラメータ数は可適合をもたらす
    • ニューラルネットワークの自由度
      • 表現できる関数の種類の多さの尺度
    • 自由度が上がると、可適合が起きやすくなり、予測の精度が下がる
    • バイアスとバリアンスのトレードオフ
      • バイアス 近似誤差
      • バリアンス 可適合のしやすさ
      • モデルが大きくなるとバイアスは減少するが、バリアンスは増加
    • しかし、膨大なパラメータをもつ深層学習が実際にうまくいっている
  • 新しい自由度論
    • 暗黙的正則化
      • 深層学習の隠れた構造が、ニューラルネットワークの実際の自由度を大きく下げているのでは
    • 損失平坦性
      • 損失関数の形状によって可適合を評価しよう
      • 学習されたパラメータの近くで損失関数が平坦な時、可適合が起こらなくなる
    • 二重降下
      • 一定水準以上に過剰に増やされたパラメータは、かえって可適合を防ぐ
  • バイアスとバリアンスのトレードオフという常識が覆る理論が見つかる可能性がある!

 

 

 

 

 

パラメータの学習ができるのはなぜ?

  • 従来の数学理論では、深層学習のパラメータ学習は非常に困難
    • 深層学習の損失関数の構造はとんでもなく複雑
    • 凸関数ではない損失関数のもとでは、損失を最も小さくするパラメータの発見には非常に長い時間がかかる
    • しかし、実際には効果的な結果が出るように学習ができている
  • 確率的勾配降下法を解析する理論仮説
    • 過剰パラメータ化
      • 過剰に多いパラメータが損失関数をシンプルにする
    • ランジュバン動力学
      • パラメータ更新の様子を近似する方法の一つ
      • パラメータ更新時の変動が、良いパラメータを発見する
      • 確率的勾配降下法が、損失が小さくなる点への収束を促進する

 

 

 


注意 本書の発売は、2021年

AI分野は進歩が早い。最新の情報を知りたい方は、論文にチャレンジしてみてほしい。

 

もちろん、入門書として本書はとてもおすすめである。

 

 

 

 

人工知能、認知科学をさらに知りたい人はこちらへ

 

www.buchinuku.work

 

 

 

 

 

 

 

 

関連記事

 

www.buchinuku.work

 

 

www.buchinuku.work

www.buchinuku.work

www.buchinuku.work

www.buchinuku.work

www.buchinuku.work

www.buchinuku.work

www.buchinuku.work

www.buchinuku.work