AIは「1+1って、2になること多いなあ」と思っている!?
ChatGPTに「1+1は?」と聞けば、当然「2」と返ってきます。
実はこのときのAIの内部で起こっていることは、割と大真面目に 「私のデータによれば、1+1の答えは最も2が多いです」なのです。
計算してるんじゃないの?
ChatGPTのようなAI(大規模言語モデル)は、極端なことを言ってしまえば、次の単語予測マシンです。
たとえば「むかしむかし、あるところに」と言われたら、「おじいさんと」と返す。「今日の天気は」と言われたら、「晴れ」とか「曇り」とか返す。
膨大な文章を読んで「この言葉の次にはこの言葉が来やすい」というパターンを学習しているだけなんです。
AIにとっては、計算問題も文章の一種のため、数学の問題も同じやりかたで解いています。
「1+1=」という文字列を見て、「この後には2が来ることが多いな」と思って2を返しているだけ。
つまり:
- 人間: 1+1を理解して、演算して、2を導く
- AI: 「1+1=」の後に「2」が来るパターンで覚えてる
そう、タイトルの通り、AIは「1+1って、2になること多いなあ」なのです。
ほんと?
もしAIが計算を「理解」しているのではなく、単なる「パターンの暗記」だとしたら、見たことがないパターンに出会ったときにボロが出るはずです。
その実態がよくわかる、2つの証拠を見てみましょう。
証拠1: ちょっと難しいかけ算ができない
普通の計算機(電卓)なら、2桁の足し算ができれば、4桁になっても10桁になっても、やることは同じなので間違えません。
しかし、OpenAIの研究論文「Language Models are Few-Shot Learners」(Brown et al., 2020)によると、当時のGPT-3は以下のような結果になりました。
2桁の足し算: ほぼ100%正解
4桁以上の計算: 正答率は20%以下に急落
つまり、ネット上にたくさん転がっている「よくある計算(2桁)」はパターンとして覚えているけれど、滅多に見かけない「大きな桁の計算」は、パターンがないのでお手上げになってしまうのです。
証拠2: 聞き方が変だとできなくなる
たとえば「0.7 × 5 は?」と聞けばAIは即座に3.5と答えます。
でも同じ計算を「7×10⁻¹ × 5 は?」と科学的記数法で書くと、数学的にはまったく同じ計算なのに、急に怪しくなります。
Yang et al.(2024)の論文「Number Cookbook」では、LLMは標準的な整数計算には強い一方、分数や科学的記数法になると、精度が20%以下まで落ちることが示されています。
数学を理解しているなら「書き方が違うだけ」と分かりますが、AIにとっては見たことがない珍しい文字列に見えてしまうため、予測が外れてしまうのです。
やってみよう
実際に試してみましょう。ChatGPTに「4726 × 3891 は?」と聞いてみます。

あれ、普通に正解されました。
実は、今のAIはこの「弱点」を、知能ではなく「仕組み」で克服しつつあるんです。
今は解決してる
ChatGPTの新しいもの(GPT-4o)やClaude 4.5などは、数学の実力テスト(MATHやGSM8Kといった、AIに数学の問題を解かせてスコアを測る標準テスト)で非常に高いスコアを出しています。その理由は主に2つあります。
1つ目はツールの利用です。 計算が必要な場面で、内部的にプログラミングコードを実行したり電卓を使ったりして、LLM自体は直接計算せずに正解を得る方法が発達しました。
2つ目は、Chain-of-Thoughtというもので、段階を踏んで思考することで、単純に答えるよりもはるかに複雑な問題を解けるようになりました。
例えば「23 × 47」を一発で出すのではなく、「23 × 40 = 920、23 × 7 = 161、920 + 161 = 1081」のように段階を踏めます。
これにより、実用上はAIは計算ができると言える水準になっています。
しかし、ここで注意したいのは、これらはいずれもAIが計算を「理解」しているわけではないということです。
ツール利用は外部の計算機に丸投げしているだけですし、Chain-of-Thoughtも、本来1ステップでは処理しきれない問題を小さく分割して、トークン生成の過程で中間結果を一時的に保持する仕組みです。
LLMの本質は今も変わらず、次に来る言葉の予測であり、これらの間接的な手順を禁じた場合、AIは依然として大きな数の掛け算や見慣れない形式の計算で間違えます。
まとめ
- AIは計算を「理解」しているのではなく、「1+1の後には2が来やすい」というパターンで答えている
- そのため、桁が大きい計算や見慣れない書き方には弱い
- 最近はツール利用(コード実行)やChain-of-Thought(段階的思考)で実用上は高精度になった
- ただし、これらはあくまで補助手段であり、LLMの本質は変わっていない
- AIに計算させるときは、裏でちゃんとコードを実行しているか意識しておくと安心
おまけ
僕はブログを書くときに、AIにレビューをしてもらっています。
この記事をレビューさせてみたときのAIの反応がこちら:
AI:
AIは計算ができない!?のレビューを開始します。
… ファクトチェック中…
計算例が間違っています。 本来ならば4726 × 3891 の正しい答えは 18,374,766 です。修正します.. …
あ、そういえば私もAIでした。Pythonコードを実行し、確認します。
最近のAIは賢いですね。
実は、計算例の部分は僕が「AIにこんな感じの例を提示して」と出力させたものなので、 つまりこのやりとりは、
AIが「AIは計算ができない!?」という記事をレビューし、
AIが計算した計算ミスをAIが指摘・修正し、
同時に自分がAIであることにはたと気づき、
AIは計算ができないため、直ちにプログラム実行によって確証を得る
という、皮肉・メタ認知のミルフィーユであり、今のAIのアホさと賢さの両面が綺麗に凝縮されたやりとりでした。
関連記事
AIに嘘つかないでよーとお願いするとちょっと効くという記事を書いています:

