タイトルで紹介した野口先生の本は、ChatGPTには課題がいくつもあるが、仕事や勉強に使わない手はないと述べている。特に、外国語や理科・社会の勉強には大いに役立つという趣旨で様々な視点からChatGPTの勉強への利用法を解説してくれる。ただ、同書の50~51ページで示されているように、ChatGPTは数学や論理に弱いという、一見すると我々の直感に反する経験則も披露されている。
その一つの理由を示していると思ったのが次の一節。原文の下の翻訳はChatGPT。まだ精査していませんが、大意はつかめると思います。
Large language models identify statistical regularities in text. Any analysis of the text of the Web will reveal that phrases like “supply is low” often appear in close proximity to phrases like “prices rise.” A chatbot that incorporates this correlation might, when asked a question about the effect of supply shortages, respond with an answer about prices increasing. If a large language model has compiled a vast number of correlations between economic terms—so many that it can offer plausible responses to a wide variety of questions—should we say that it actually understands economic theory? Models like ChatGPT aren’t eligible for the Hutter Prize for a variety of reasons, one of which is that they don’t reconstruct the original text precisely—i.e., they don’t perform lossless compression. But is it possible that their lossy compression nonetheless indicates real understanding of the sort that A.I. researchers are interested in?
(日本語訳)大規模言語モデルはテキスト内の統計的規則性を識別する。ウェブ上のテキストを分析すると、「供給が少ない」といったフレーズが「価格が上昇する」というフレーズと頻繁に近接して現れることがわかる。この相関関係を取り入れたチャットボットは、供給不足の影響について質問されると、価格上昇に関する回答を返す可能性がある。大規模言語モデルが経済用語間の膨大な相関を蓄積し、多岐にわたる質問に対してもっともらしい応答ができるとする。その場合、このモデルは実際に経済理論を理解しているとみなすべきなのだろうか?ChatGPTのようなモデルがハッター賞の対象とならない理由の一つは、元のテキストを正確に再現しない、すなわちロスレス圧縮を実現できていないためである。しかし逆に、こうしたロッシー圧縮が、AI研究者が関心を寄せる「真の理解」を示している可能性はないのだろうか?(ここまで)
出所は、昨年2月に雑誌ニューヨーカーに掲載された世界的SF作家、テッド・チャン(Ted Chiang)氏のエッセイ
ChatGPT Is a Blurry JPEG of the Web
OpenAI’s chatbot offers paraphrases, whereas Google offers quotes. Which do we prefer?(「ChatGPTはウェブのぼやけたJPEGか?――OpenAIのチャットボットは意訳を提供し、Googleは引用を提供する。どちらが望ましいのか?」)です。
なるほど、大規模言語モデルは過去のデータを探して「拾ってくる」くるだけで「自ら考えるわけではない」ので、データが乏しいと(正しい)答えが見つけにくくなる(見つけられなくなる」という、言われてみれば至極当たり前の理屈だ。これは説得力があると思った(ただし、これはあくまでも昨年2月の論文であり、ベースとなっているのちょっとGPT-3である点には注意)。ご参考まで。
(余談)言語学者ノーム・チョムスキー氏も昨年3月にニューヨークタイムズ紙に” The False Promise of ChatGPT”(「ChatGPTの誤った約束」)を発表し、生成AIに対して悲観的な見解を発表していますが、チョムスキー氏が 「人間の能力の素晴らしさ」に重点を置いている(「機械が追い付けるはずがない」)のに対し、チェン氏は生成AIの欠陥(「機械の能力はまだまだ」)に重点を置いていると点で視点が異なっている。
両氏の論文の参照先は次の通り。ただしいずれも有料記事なので閲覧制限がかかっている(全く読めないか、最初の1 、2回のみでその後にアクセスしようとすると定期購読を求められる)と思います。