記事の内容
今回は注目されるAI技術の中でも、とくに「強化学習」についてまとめたい。
強化学習の中心概念を知れるいい本に出会うことができたからだ。
その本から、強化学習の基本をおさえたい。
強化学習の基本とは、「価値」という概念だ。
その「価値」を理解するために、「平均」というなじみの概念からアプローチできる。平均と価値がどう関係しているのか、本質的な理解を得ることができる。
それでは、目次に目を通してみてほしい。
- 記事の内容
- 強化学習アルゴリズム入門 「平均」から始める基礎と応用
- 平均と期待値
- なぜ平均を使って価値を表せるのか
- マルコフ性を平均を用いて理解
- 価値関数の導入
- 確率型ベルマン方程式へ
- 強化学習の核
- 平均によるモンテカルロ学習法の導出
- TD法 ( 時間差分学習)
- まとめ
- おすすめ記事
強化学習アルゴリズム入門 「平均」から始める基礎と応用
AlphaGoがプロ棋士を破った2016年以降、強化学習や深層強化学習はさまざまな分野から注目を集めています。しかし、専門書では難解な専門用語や数式が多用されるため、初学者にとってはハードルが高い状態が続いていました。
本書は、そのハードルの高さを解消することを目的に制作されました。平均という初歩的な数学を使うことで、「価値」「探索」「マルコフ性」といった強化学習の基本をわかりやすく解説します。
また、各アルゴリズムについては、「多腕バンディット問題」および「グリッドワールド問題」のいずれかを用いて、比較しやすい状態で解説します。そのため、各アルゴリズムの特徴や差異がわかりやすくなっています。さらに、中核的なアルゴリズムについては、PythonとMATLABの2種類のコードを、オーム社のWebサイトおよびGithubで配布します。配布コードを実行することで、「原理→数式→プログラム」という一連の流れを直感的に把握できます。
平均と期待値
平均の計算式をよくみると、動的探索と不変な静的性質(確率)の両方の性質を持っていることがわかる。
動的な探索から、不変な静的性質への変化を表現するのが平均の計算式。
これが、後々マルコフ性の証明につながる。
なぜ平均を使って価値を表せるのか
真の価値は通常未知。探索によって部分的に調べるしかない。
平均は、動的に変化している部分像を不変的性質に変形し、真の価値を表してくれる。
平均は、価値を反映しているといえる。
マルコフ性を平均を用いて理解
「将来の平均」は何か?どうやって求めるか?
・マルコフ性( MP)
時系列をイメージ。将来の分布が、過去ではなく、現在だけに依存すること。
ここで、逐次平均表現がMPになることがわかる!!!!
平均の計算が、時系列を収束させるイメージ。だから、平均計算の性質が重要。
価値関数の導入
過去に対する平均式を、平均と価値の等価性を用いて価値関数に書き換える。
「将来に対する平均」も同様に価値関数(V)へ。
将来に対する価値関数の注意点
・最終年度の価値はゼロ
なぜなら、将来に対する平均だから。最終年度の将来はない。
・減衰率
時間が経てば価値は下がる。
価値関数を、ちょっと変形すれば決定型ベルマン方程式になる。
遅延価値・・・現在の状態の価値は、次の状態のサンプル値(=報酬)と次の状態の価値からなる。(図1へ)
確率型ベルマン方程式へ
強化学習とは、多数の行動選択肢から、どの行動をとったほうがよいかという不確定性を扱う学問
行動状態価値関数(Q)へ
どんな行動をするか=確率
ある行動をとる確率を導入すれば、確率型ベルマン方程式になる。(画像1へ)
さらに、その行動を実際に実行するのかどうかを規定するために、遷移確率関数を導入する。条件付き確率のイメージ。
方策・・・どの行動をとりやすいか確率で表現したもの
方策を選んだ上で、さらに実際に、どの状態に移動するのかも不確定。
つまり、どの行動を選ぶのか、その結果、どの状態に移るのかの2段階の不確定性がある。
確率型ベルマン方程式に基づいて、更新していく方法を動的計画法という。
強化学習の核
とにかく、強化学習の中心は、確率型ベルマン方程式。これを、どう解釈するのかで、いくつかの方法がある。
学習方法も数種類。式、概念としては同じなのに、学習方法が違うとはどういうことだろう?式展開の方法が違う?計算方法がちがう?いや、概念定義の中に、計算方法も含まれているはずだ。
・決定型ベルマン方程式
・遷移確率制限の確率型ベルマン方程式
・確率型ベルマン方程式
これらの違いを、逐次表現と総和表現を行ったり来たりしながら抑えるべし。
平均によるモンテカルロ学習法の導出
表現が同じ総報酬と価値関数の違いは???
・総報酬
1試行が終わり、すべてのサンプル値(報酬)が出てから総和の平均をとる。総報酬という名前からもイメージできそう。終点からの逆伝播。
・価値関数
逐次展開で計算する。
予測しながら計算するので、計算はステップごとに更新される。予測計算手法。どうやって将来の平均求めるのか?という話に繋がってる。だからこそ、価値関数の方は工夫的で、総報酬の方は自然と言えそう。
未来の平均を求めるために、価値関数の方はちょっと工夫する。一方、総報酬では、ふつうの平均計算になるので、「将来に対する平均」という概念すらない。
さらに、総報酬の平均を用いた価値関数も導入できる。施行が終わるごとに、この価値関数を更新していくのがモンテカルロ学習法。
TD法 ( 時間差分学習)
総報酬を価値関数で近似する。近似の仕方に注意。
TD法は、モンテカルロ法をもとに、動的計画法の要素を融合したもの。
まとめ
強化学習の核心とは、将来の価値をどう計算するのか、ということ。
さらに詳しくは、本書に進んでみてほしい。
おすすめ記事