今、絶対に読むべき本【まとめ・要約】大規模言語モデルは新たな知能か

記事の内容

今、世界中を騒がせているChat GPT。

AIの進化として、インパクトの大きい成果です。

そんなAIを解説する待望の本が出版されました。

大規模言語モデルは新たな知能か

という本です。

今の世界を知るために、絶対に読んでおくべき一冊です。

この記事では、この本の内容の一部をまとめます。

それでは、目次をどうぞ。

記事の内容
大規模言語モデルは新たな知能か
言語モデルってなに？
大規模言語モデル
大規模言語モデルの作り方
人は人以外の知能とどう付き合うのか？
おすすめ本の紹介
人工知能　関連記事

大規模言語モデルは新たな知能か

Amazon商品紹介より

本書では大規模言語モデルの可能性と課題、その仕組みを一般の方に向けて書きました。また最新の研究成果にもとづいて現時点でわかっている知見や将来の展望もまとめています。

本書では大規模言語モデルのもつ大きな可能性とともに、考えられるリスクについても述べています。そのリスクは非常に大きく、人類社会を脅かす可能性もゼロではない以上、よく向き合うべきだという懸念が世界的に示されています。今後、そうした可能性には具体的にどのようなものがあるかを検討し、どうすれば対応していけるのか、考えていく必要があります。

本書の後半では、これまで機械はなぜ人のように話せなかったのか、どのように言語モデルと機械学習が発展してきたのか、そして、ChatGPTを実現した大規模言語モデルはどのような仕組みであるのか、数式を用いずに解説しています。

しかしながら、大規模言語モデルがなぜこのように成功したのか、まだわかっていないところも多いのです。さらに言えば、私たちはまだ、なぜ人がうまく言語を獲得でき運用できるのか、深く理解できていません。大規模言語モデルと人の言語獲得には、解明すべき謎が多くあるのです。

今後、大規模言語モデルを人類が適切に扱えるようにしていくことが重要です。本書が大規模言語モデルを理解する一助になれば幸いです。

言語モデルってなに？

単語や文に対して確率を割り当てる
言語モデル=「次の単語」予測モデル
- これまでの単語列から次に出現するであろう単語の出現確率を予測するモデル
  - 「走りは朝私ます」よりも、「私は朝走ります」の方が確率が大きい
  - 言語モデルは言語を生成できる
言葉の意味を捨てた世界であり、確率の世界
言語理解へのアプローチ「単語当てタスク」
- 文中のいくつかの単語を消去し、それを周囲の単語、文脈から推測させる
  - 言語理解の能力を総動員しないと！
- 学習方法は、自己教師あり学習
  - いくらでも正解データが手に入るような問題で、教師あり学習を行うこと
言語モデルは、「意味」を理解してるの？
- 人と同じような「意味」を獲得できているかは分からない
  - そもそも、人の言語理解の研究がまだ不十分。
- 人に近いレベルで言葉を使えている。現象論的には意味を理解していると言っていい。

大規模言語モデル

OpenAIのGPTシリーズ
- 学習データを増やして、モデルを大きくする
- ゼロショット学習
  - プロンプトと呼ばれる指示を出すことで、学習し直すことなく、その場でタスクをこなせる
  - 同じモデルで、様々なタスクを処理可能
言語モデルのべき乗則の発見
- 訓練データ、モデルサイズ、学習時の投入計算量を増やすほど、言語モデルの性能は良くなる
  - 機械学習一般に成り立つ訳ではないことに注意
- 投資対効果が前もって予測できる
  - 従来の機械学習では、効果の予測が難しい
- 大きなモデルほど汎化し学習効率が改善
  - 従来の機械学習では、モデルを大きくし過ぎると過学習になり、汎化が難しい
    - 従来の機械学習の常識を覆す結果
どこまで大きくなるの？
- まだ大きくなるが、桁違いに大きくしていくのは今後難しいはず
- 10倍はできても100倍は難しい

大規模言語モデルの作り方

ディープラーニングの成功理由
- 表現学習
  - データの最適な表現方法を、AI自身がデータから獲得できる
- 複雑な問題でも学習できる
- 表現力を上げつつ、過学習を防ぎ汎化できる
トランスフォーマーというモデル
- トランスフォーマーは、自己注意機構とMLPブロックを交互に重ねていき、データを処理するモデル
- 注意機構
  - データの流れ方を動的に変える。どの情報を集めるか、捨てるかという制御を学習で獲得する。
  - 言語モデルにおいて、次に出現するであろう単語を予測するために、過去の単語列から必要な情報を選択することに使われる
    - すべての情報を集めると、予測にとって重要な情報が埋もれてしまう。取捨選択したい。
  - 自己注意機構
    - 過去の自分の途中処理結果を注意対象にできる
  - 文中の遠く離れた場所にある情報を壊さずに集められる
    - 過去の単語列で重要な部分を思い出す。人間の脳でいう短期記憶のよう
- MLP
  - 自己注意機構で集めた情報をもとに、それを変換する部分
  - 過去のデータで得た記憶を想起
  - 処理する際は現在の状態に関係する記憶を想起し、学習の際は現在の訓練データで必要な記憶を書き込む
    - 長期記憶のよう
- トランスフォーマーでどうやって言語モデル実現するの？
  - 次の単語を予測するのに関連しそうな情報を自己注意機構を使って過去の単語列や途中処理結果から想起
  - MLPブロックを使って、過去の学習時に見た事例で関連しそうなものを想起
  - この繰り返しで、次の単語を予測できるように学習する
プロンプトからその場で学習してるように見えるのはなぜ？
- 大規模言語モデルは、学習時のみパラメータを変え、利用時にはパラメータは固定。
- 自己注意機構が、今の問題に急速に特化していった場合をシミュレーションしてくれる。
  - プロンプトによる指示からその場で学習しているように見える
目的駆動学習人間のフィードバックによる強化学習
- 人によるフィードバックを使って、言語モデルを強化学習で修正していく。
- 価値観や考え方を教え込む、教育に近い

人は人以外の知能とどう付き合うのか？

大規模言語モデルは、人とは違うが知能といえる
新しい道具と捉えよう
間違いもするし、自分と考え方も違う人のように付き合おう

「好き」をブチ抜く

本、映画、科学、哲学、心理、すごい人の考え方など。あらゆる情報を編集したい。

今、絶対に読むべき本【まとめ・要約】大規模言語モデルは新たな知能か

記事の内容

大規模言語モデルは新たな知能か

言語モデルってなに？

大規模言語モデル

大規模言語モデルの作り方

人は人以外の知能とどう付き合うのか？

おすすめ本の紹介

人工知能　関連記事

記事の内容

大規模言語モデルは新たな知能か

言語モデルってなに？

大規模言語モデル

大規模言語モデルの作り方

人は人以外の知能とどう付き合うのか？

おすすめ本の紹介

人工知能 関連記事

人工知能　関連記事