はじめに
2023年6月に出版された比較的新しい本です。
この岩波科学ライブラリーシリーズは、専門家の人が一般の人に向けてその分野をできるだけわかりやすく説明しようとしているシリーズです。講談社ブルーバックスに近い感じですが、『深層学習の原理に迫る』『驚異の量子コンピュータ』など、こちらのほうがややマニアックな印象があります。
対話型サービスChatGPTは驚きをもって迎えられ,IT企業間で類似サービスをめぐる激しい開発競争が起こりつつある.それらを支える大規模言語モデルとはどのような仕組みなのか.何が可能となり,どんな影響が考えられるのか.人の言語獲得の謎も解き明かすのか.新たな知能の正負両面をみつめ,今後の付き合い方を考える.
amazon.co.jp
全体の感想
本書を通じた著者の主張は、「大規模言語モデルは人とは違う種類の知能で、人の可能性を最大にするために、うまい使い方、飼い慣らし方を人間が身につけていく必要がある」ということです。極端に怖がったり、礼賛したり、というのではなく、LLMを知った上で「どう付き合っていくか」ということが一番重要だとわたしも思います。技術をなかったことにしたり、開発を止めたりすることはもはや不可能です。
内閣府が発表した「人間中心のAI社会原則」でも、「人間中心」であることが強調されています。人間にとって利益があるように作っていき、AIはあくまでも人間の生活を良くするために使うことが重要です。
筆者は研究者の立場から、冷静だけどもポジティブにLLMを受け止めています。本書を読み終わって、「これからLLMは人間にとって良いものになっていくだろうし、そうなるように考えていこう」という前向きな気持ちで読了しました。
本書ではLLMとの「付き合い方」や「使い方」を考えるために、LLMの歴史を振り返り、LLMの特性を理解することを試みます。なぜ計算機で言語を扱うことが難しかったのか、なぜLLMが言語を扱うことができているのか、ということについて、数式を用いずにわかりやすく説明されています。数式がないだけにかえってわかりにくくなっているところもあると感じましたが、できるだけ正確で、かつわかりやすい表現になるよう苦心されたことが伺えます。LLMはこれまでもあったけれども、なぜChatGPTではずば抜けた性能を示すのか?GPTのTはTransformerのTらしいけど、なにが違うのか?ということがわかっていなかったので、本書はとてもおもしろく読みました。
本書でとくに気になった用語についてここで説明します。
単語当てタスク
LLMに文章を学習させるにあたり、「文章中からいくつか単語を消去し、残された文章から消された単語を予測するタスク」すなわち「単語当てタスク」を与えると、言語理解に必要な能力を自然に獲得できることがわかりました。この方法だと、学習に必要な文章はなんでもいいので、特別な文章を用意しなくてもいくらでもデータが手に入るのが利点です。言語以外の画像、音声、動画でも、同様に一部分のみを削除して、欠損を予測させる方法で学習させると、効率よくデータを扱うスキルが身につくことがわかっているようです。
言語モデルのべき乗則
言語モデルのべき乗則とは、「訓練データを増やせば増やすほど、モデルサイズを大きくすればするほど、学習時の投入計算量を増やせば増やすほど、言語モデルの性能が改善される(Transformerモデルを言語モデルに対して適用した場合)」というものです。これが証明されたからこそ、投資に対する性能の向上が予測できるようになり、言語モデルの学習に莫大な費用を投じて研究開発することができるようになったのでした。
宝くじ仮説と構成属性文法仮説
モデルサイズを大きくするだけで、それまで全く解けなかった問題が急に解けるようになるのはなぜなのでしょうか?本書では「宝くじ仮説」と「構成属性文法仮説」の二つの仮説について説明しています。難しかった…
目的駆動学習
目的駆動学習(RLHF)とは、望ましい行動や価値基準を示すデータセットを用意し、これを利用して教師あり学習と強化学習でLLMを修正することです。単純にデータを集めて学習しただけでは、LLMは偏った価値観や偏見を出力するようになってしまう可能性があるため、人間が「望ましい姿」を教える必要があるということです。LLMの用途は多岐にわたりますので、LLMの返答が偏見にまみれていると、それが利用者に刷り込まれてしまうという問題があります。RLHFによってAIに「望ましい姿」を教え込むことができますが、「何が望ましい姿なのか?」ということを人間が正面から考えていく必要があります。
Transformer
再帰も畳み込みも用いず、「Self-Attention」と「Source-Target Attention」という2種類のAttentionというネットワーク構造を採用しているモデルです。Attention機構のみから構成されているため並列計算がしやすく、他のタスクにも汎用性が高いのが特徴です。
Attentionとは何かというと、文字どおり「注意」「注目」という意味です。文中にある単語の意味を理解するときに、文中の単語のどれにどのくらい注意を払うかということです。これによって、意味を知りたい単語から遠く離れていても、重要な単語の情報を集めてくることができるようになります。
数式がないのと、図が本文中にない&ちょっとわかりにくいので、文章だけでは理解が難しいところもありました。本書は一般向けの入門書という位置付けだと思いますので、この本をきっかけにして書籍や論文を読んでみるといいと思いました。(そういう意味では参考文献がないのはちょっと残念でした。)
おわりに
AIについて全く知識がない状態で読むには難しいかな、と思いますが、G検定レベルの知識があればついていける内容になっていると思います。(G検定、いいぞ!受験おすすめ。)
ChatGPTの使い方やテクニックはとりあえず置いといて、なぜLLMはこんなに性能が高いのか?どういう背景や理論があって実現したのか?が知りたいという人にはとてもおすすめの本です。136ページと、分量も多くないですし、文章も一般向けにわかりやすく書かれています。気軽に読めて知的好奇心が刺激される良書でした。
コメント