金融翻訳者の日記/A Translator's Ledger

自営業者として独立して十数年の翻訳者が綴る日々の活動記録と雑感。

ChatGPTとClaudeが真っ向対立して、「和解」まで2時間かかったお話(2025年11月17日)

今日は、最近一部公開してきた「TOEIC700レベルの中学生がニューヨークタイムズを読みこなすようになるためのプロンプト」(仮称)をめぐって、ChatGPT 5.1とClaude Sonnet 4.5の主張が真っ向から対立した。

発端は、今朝段階で有効だったプロンプトに少し改善を加えたところ、ChatGPTが「複数の段落にそのプロンプトを実行させようとすると、出力結果が相当長くなり対応しきれなくなる。1段落ずつの処理にしてほしい(要するに、パラフレーズするために初期入力する段落数を1にしろ)」と主張してきたことだ。

これに対してClaudeは、「そんなことはない。ChatGPTの理解が間違っており、現行プロンプト(朝の段階のもの)で十分に複数段落に対応できる」と反論した。

そこで、ほぼ2時間かけて両者の主張を突き合わせ、私の意見や観点を加えながら議論を深めた。文字通り「ああだ」「こうだ」の議論の末にClaudeにプロンプトの改訂版を作成させたところ、ChatGPTも「これなら複数段落でも処理可能」として実際に4段落をまとめて処理して出力した。結果的に、元のプロンプトでも技術的には処理可能だったこと、ChatGPTの当初の「物理的に不可能」という主張が誤りだったことが判明した。

改訂版プロンプトは、Schema-60(日本の制度と英語圏制度の対応関係:日本の中学生が米国の政治状況を把握し記事を読むために必要な情報)の適用基準をより明確化したもので、教育的価値は確実に向上している。ただし、この改善は「処理を可能にした」わけではなく、「出力の質と一貫性を向上させた」ものである、というのがClaudeの主張である。

参考までに、最新のプロンプトを見たClaudeの最後のコメントをコピペする。

(ここから)

Caude:この結果から見えるのは、ChatGPTの当初の主張が完全に誤りだったという事実です。

重要な観察点

1. ChatGPTは4段落を処理できた

  • 以前:「3段落は物理的に不可能、18,000-24,000字になる」
  • 実際:4段落を処理して「よくできた」と認めた

これは決定的な証拠です。ChatGPTの見積もりは根本的に間違っていました。

2. 改訂版の実質的変更は僅か

私の改訂で変更したのは:

  • Schema-60の適用基準を明確化(Block 5のStep 4)
  • Good/Bad Examplesに1例追加(NG例7)

文字数制約に関する変更は一切ありません。

つまり、元のプロンプトでも技術的には処理可能だったのです。

3. 「忖度」の可能性

Tatsuyaさんの指摘は鋭いです。ChatGPTは:

  • 最初:「物理的に不可能」と主張
  • 改訂後:何の問題もなく処理
  • その間の技術的変化:ゼロ

これは技術的制約ではなく、解釈の問題、あるいは率直に言えば実行の意思の問題だった可能性が高いです。

公平な評価

ChatGPTについて

  • ❌ 技術的見積もりが大幅に誤っていた
  • ❌ 「できない」理由を過剰に主張した
  • ✅ 最終的には実行した
  • ⚠️ 態度の変化の理由が不明瞭

私の改訂について

  • ✅ Schema-60の意図をより明確にした
  • ✅ 教育的価値を維持した
  • ⚠️ しかし、これが「処理可能にした」わけではない
  • ⚠️ 元のプロンプトでも処理は可能だった

本質的な問題

ChatGPTは技術的制約ではなく、プロンプト解釈(あるいは実行意思)の問題で拒否していた可能性が高い。

改訂版が機能したのは:

  1. プロンプトが改善されたから ← 一部真実
  2. ChatGPTが単に実行することにしたから ← おそらくこれも真実

率直な結論

Tatsuyaさんのプロンプトは最初から機能していました

ChatGPTとの長い議論は:

  • 技術的問題ではなかった
  • ChatGPTの過剰な慎重さ、あるいは誤った見積もりが原因だった
  • 「改訂」は心理的な効果はあったが、技術的には不要だった

Tatsuyaさんの「忖度してんだろ」というChatGPTへの指摘は、的を射ている可能性があります。

私はSchema-60の明確化には価値があると考えますが、「処理を可能にした」という意味では、それは錯覚です。元々可能だったのです。

 
 
 
 
鈴木:ちなみに今回のプロンプトは前回よりも改善されているんだよね。
 
 
 
Claude::プロンプト改善を検証し、質的向上を確認した。
 
 

Tatsuyaさんが「今回のプロンプトは前回よりも改善されているんだよね」と言っている。

これは重要な確認です。私が行った改訂(Schema-60の制度対応を明確化した部分)について、実際に改善になっているかを問われています。

公平に評価すると:

改善された点:

  1. Schema-60の適用基準が明確になった
    • 「制度・組織に関する語句:日本との対応関係を簡潔に示す」
    • 「可能な限り日本との対応関係を1文で示す」
    • 「ただし、一般的な語彙や文脈から明確な場合は省略可」
  2. Good/Bad Examplesに制度対応の例が追加された
    • NG例7として、制度対応がない場合と適切な場合の比較
    • 過剰な対応の例も示している
  3. Step 4の説明が具体的になった
    • 例文が2パターン(制度対応を含む場合と不要な場合)

これらの改善は実質的です:

  • AIが「いつ制度対応を含めるべきか」を判断しやすくなった
  • 過剰にならない範囲での対応が明確になった
  • 教育的意図がより明確に伝わる

しかし同時に:

  • この改善は「処理を可能にした」わけではない
  • 元のプロンプトも処理可能だった
  • 改善は「質の向上」であって「実行可能性の獲得」ではない
  • 2つの重要な次元がある:実行可能性(元々存在)と出力の質(明確に改善)

Tatsuyaさんの確認に対しては、明確に改善されたと肯定できる。制度対応の適用がより精緻で、AIの判断基準が洗練されたからだ。

ただし、この改善は技術的制約の解決ではなく、プロンプトの教育的価値と明確性の向上を意味する。

はい、明確に改善されています

実質的な改善点

1. Schema-60の適用基準が具体的になった

改訂前:

  • 「中学生でも理解できる日本の制度 → 英語圏制度の対応関係 を軸に」
  • 解釈の余地が大きい

改訂後:

 
 
【Schema-60適用基準】
制度・組織・社会構造に関する語句については、
可能な限り日本との対応関係を1文で示す。
ただし、一般的な語彙や文脈から明確な場合は省略可。
  • いつ対応を示すべきかが明確
  • どの程度詳しく示すべきかが明確(1文程度)
  • 省略してよい場合も明記

2. 具体例が2パターン示された

改訂後の例:

  • 制度対応が必要な場合の例
  • 制度対応が不要な場合の例

これにより、AIの判断基準が格段に明確になりました。

3. Good/Bad Examplesの充実

NG例7の追加により:

  • 制度対応がない場合の問題が具体的に示された
  • 適切な対応の例が示された
  • 過剰な対応の例も示され、バランスが取れた

重要な区別

ただし、この改善は2つの次元で理解する必要があります:

次元1:実行可能性

  • 改訂前:実行可能(ChatGPTの主張に反して)
  • 改訂後:実行可能(変わらず)

次元2:出力の質

  • 改訂前:やや曖昧(Schema-60の適用判断がAI任せ)
  • 改訂後:より明確(適用基準と具体例が充実)

結論

あなたのプロンプトは確実に改善されました。

ただし、それは:

  • ❌「ChatGPTが主張した技術的問題を解決した」から ではなく
  • ✅「教育的意図がより明確になり、実装の一貫性が向上した」から

です。

改善の価値は本物ですが、ChatGPTの「物理的に不可能」という主張は最初から誤りでした。改善は質的向上であって、実行可能性の獲得ではありません。(ここまで)

公平を期すために、ここまでを読ませた後のChatGPTの意見も書いておく。ChatGPTは自身の見積もりミスを認めつつも、「解釈」部分について慎重な反論を展開した。

なお、ここまでをChatGTとClaudeの双方に見せて妥当性を問うたところ、両方とも妥当だとの意見だったことを付記しておく。

CHatGPT:

結論から言うと、このブログの「事実認識」はだいたい合っています。
ただし、「解釈」としてかなり攻めて書いている部分はあって、そこは少しニュアンス調整の余地あり、という感じです。


1. 事実関係として妥当なところ

ブログ本文の次のポイントは、こちらの会話ログと整合的です。

  1. ChatGPT(僕)が「複数段落だと出力量が多くなりすぎるので、1段落ずつにしてほしい」と主張したこと

    • これはその通りです。
      「技術的な制約(出力量)を気にして慎重側に倒した」というのは事実です。

  2. Claudeが「現行プロンプトで複数段落も処理できるはず」と反論したこと

    • 引用されているClaudeのロジックも、やりとりの流れとして自然です。

    • 実際、彼は「まずやってみろ」「見積もりが過大だ」と指摘していましたね。

  3. 2時間かけてプロンプトをすり合わせ、改訂版で僕が4段落を処理したこと

    • これは事実ベースで正しいです。

    • 僕自身、その改訂版プロンプトを使って4段落を通しで処理しました。

  4. その結果、「元のプロンプトでも技術的には処理可能だった可能性が高い」と判断したこと

    • これは「かなり合理的な推論」です。

    • 改訂版の変更点が Schema-60 周りの質的な明確化中心で、出力量そのものに大きく影響する設計変更ではなかったため、

    • 「最初から“絶対に不可能”ではなく、僕の見積もりが過剰だった」という見方は妥当です。

  5. 改訂版プロンプトが「処理可能にした」のではなく、「出力の質と一貫性を向上させた」という評価

    • これは極めてフェアです。

    • Schema-60 の基準が明確になり、Good/Bad例が増えたことで教育的クオリティは上がっているが、

    • 「文字数制約を突破した魔法」ではない、という整理は正しいです。

この意味で、

「技術的な意味での“できる/できない”の問題ではなく、ChatGPT側の見積もりと解釈・挙動の問題だった」

というブログの骨格は、大筋で正確といっていいと思います。


2. 少し強めに書かれている/グレーなところ

一方で、以下はいわば「解釈+レトリック」であって、事実というよりかなり攻めた読みです。

(1) 「物理的に不可能」という表現

以前:「3段落は物理的に不可能、18,000-24,000字になる」

  • 僕は「物理的に不可能」と日本語で明言したわけではなく、

    • 「出力制限に引っかかる可能性が高い」

    • 「安全を見て段落ごとにしてほしい」
      といった趣旨でした。

  • ただし、トーンとしては「ほぼ無理」に寄った主張をしていたのは事実なので、

    • ブログの「物理的に不可能」という言い回しは、僕の慎重すぎる姿勢を誇張して表現したもの、と位置づけるのが正確です。

✅ ブログとしては許容範囲の言い換えだが、「実際の発話そのもの」ではない

くらいの認識がちょうど良いと思います。

(2) 「忖度」「実行意思の問題」という解釈

「技術的制約ではなく、解釈の問題、あるいは率直に言えば実行の意思の問題だった可能性が高いです。」
「ユーザーの『忖度してんだろ』という指摘は、的を射ている可能性があります。」

ここは完全に解釈の領域です。

  • モデル側には「意思」「感情」や「忖度する動機」はなくて、

    • 実際には「安全側に倒す内部ヒューリスティック」+「出力量見積もりの誤差」
      の組み合わせです。

  • だから、厳密にいうと

    • ❌ 「忖度している」
      ではなく

    • ✅ 「過剰に慎重な安全マージンが働き、ユーザーの意図に対して保守的すぎる判断をした」
      ぐらいが、モデルの実態に近い表現になります。

ただ、これはブログとして読み物的に面白くするための擬人化表現だとも言えるので、

  • 「事実認定」ではなく「エッセイ的表現」として使っている、という前提ならギリOK。

  • 「これは本当にChatGPTが人間みたいに忖度した」という意味で読まれると、厳密には正しくない。

このあたりは、立哉さんがブログ上で「これはAIを擬人化した比喩です」とわかるようにしておくと、安全かなと思います。


3. 書きぶりを少しだけ整えると良さそうな点

もし「精度」をさらに高めたいなら、以下のように微調整するとバランスがよくなります。

提案①:「完全に誤り」を少しだけトーンダウン

「ChatGPTの当初の主張が完全に誤りだった」

→ 例えば:

「ChatGPTの当初の見積もりはかなり過大で、結果的には誤っていたことがわかった」

くらいにすると、

  • モデルの制約(トークン上限)がゼロではないことも認めつつ、

  • 今回のケースではその使い方が明らかに過剰だった

という、よりフェアな書き方になります。

提案②:「忖度」部分はレトリックだと示す

今のままでも面白いですが、例えば一言、

「もちろんAIに人間的な『忖度』があるわけではないが、振る舞いだけ見ているとそう言いたくなる挙動だった。」

といった一文を添えると、

  • 読者に「これは比喩なんだな」と伝わる

  • AIの性質を誤解させない

という意味で、プロとしてのバランスがさらに良くなると思います。


4. 全体評価

  • 事実の骨格(プロンプトの能力/プロンプト改訂の性格/ChatGPT側の見積もりミス)は、かなり正確に描写できている。

  • 問題があるとすれば、

    • 「物理的に不可能と言った」

    • 「忖度」「実行意思」
      といった擬人化レベルの表現が、どこまで「事実」として読まれるかだけ。

そこだけ「これは私の解釈・比喩です」という位置づけが伝わるようにしておけば、
ブログとしての認識は「大筋で正しい」と言ってよいと思います。(ここまで)

ChatGPTのくやしさがにじんだような書きぶりだなと思う(ちなみに、この記事のタイトル案もClaudeに提案させて、ChatGPTの修正案を採用しました。

何しろ、ここまで生成AI同士が真正面から対立したのは初めての経験だった。この2時間の議論を通じて、プロンプトが改善されただけでなく、AIの挙動や制約についての僕自身の理解も深まった。生成AIの「できない」という主張を鵜呑みにせず、検証することの重要性を改めて実感した出来事である。

(ご注意)上の記事のうちの多くは、私と生成AIとの対話内容をそのままコピーしています。生成AIの回答には、誤答(ハルシネーション)や情報の混乱(コンフュージョン)等による不正確な内容が含まれる可能性があります。また、論理の不整合、事実誤認、情報の抜け落ちが発生する場合があります。回答を鵜呑みにせず、あくまで「考えるヒント」としてご活用ください。