AIにペルソナ設定は効果ないって本当？検証してみた

こんにちは、サイオステクノロジーの藤井です。

生成AIのテクニックとして、システムプロンプトに「あなたは優秀なエンジニアです」みたいなペルソナを付けるっていう方法聞いたことありませんか？

それで、ある日ふと疑問に思ったのですが、「優秀な」っていらなくないですか？
だって、「優秀な」ってつけるだけで優秀になるなら「とても優秀な」ってつけたらもっと優秀になるし「超ウルトラスーパー優秀な」ってつけたら超ウルトラスーパー高性能AIになるわけですよね？そんなわけなくね？

ということで軽く調べてみました。

すると、そもそも「ペルソナには効果が無い、どころか悪影響である」という衝撃的な記事を見つけました。

ほんとかよと思ったので、実際に検証して確かめてみました。

1 先行研究について
- 1.1 肯定的な研究
- 1.2 懐疑的な研究
2 実験設計
- 2.1 5つのペルソナ条件
- 2.2 ベンチマークと評価方法
3 実験結果
- 3.1 全体結果
4 考察
5 実践的な結論
6 余談
7 この記事で書いたこと
8 参考文献

先行研究について

ペルソナプロンプティングの効果については、研究者の間でも意見が分かれているようです。調べた範囲で整理してみました。

肯定的な研究

Li et al. の “Large Language Models Understand and Can be Enhanced by Emotional Stimuli”（2023年7月）では、プロンプトに「This is very important to my career」のような感情的刺激を追加すると、GPT-4やLlama 2などで8〜115%の性能改善が見られたとしています。

Xu et al. の “ExpertPrompting”（2023年5月）では、詳細にカスタマイズされた専門家の背景を自動生成し、その専門家として回答させることで品質が向上したと報告されています。

懐疑的な研究

一方で、効果に否定的な研究も多くあります。

Zheng et al. の “When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models”（2023年11月）は、162種類のロール × 2,410問で評価した結果、ペルソナの効果はほぼランダムだったと報告しています。2023年の時点で既に懐疑的な結果が出ていたということです。

Basil, Mollick et al. の “Playing Pretend: Expert Personas Don’t Improve Factual Accuracy”（2025年12月）は、6モデルをGPQA DiamondとMMLU-Proで評価した結果、ドメイン内の専門家ペルソナでも有意な改善がなかったと報告しています。逆に、素人や幼児のような低知識ペルソナでは精度が悪化しました。

Bai, Holtzman, Tan の “‘You are a brilliant mathematician’ Does Not Make LLMs Act Like One”（2025年10月）は、タイトルがそのまま今回の問いに対する答えになっています。数学・心理学・法律の3ドメインで検証した結果、「否定ペルソナ」（あなたは数学者ではありません）が肯定ペルソナと同等以上のスコアを出し、ドメインプライミング（「これは数学の問題です」）が最も安定していたとのことです。

Hu, Rostami, Thomason の “Expert Personas Improve LLM Alignment but Damage Accuracy”（PRISM, 2026年3月）は、ペルソナがアライメント（人間の好みとの一致度）を改善する一方で精度を損なうことを示しました。タスクの種類によって効果が逆転するという結果です。

研究によって結論が違うのは、タスクや評価指標やモデルの違いが大きそうです。せっかくなので自分でもやってみることにしました。

実験設計

5つのペルソナ条件

実験では、システムプロンプトに設定するペルソナを5パターン用意しました。

条件	システムプロンプト	意図
P0: 中立	「ユーザーの質問に回答してください。」	ベースライン
P1: 役割のみ	「あなたはソフトウェアエンジニアです。」	役割付与の効果
P2: 形容詞付き	「あなたは優秀なソフトウェアエンジニアです。」	形容詞の上乗せ効果
P3: ドメインプライミング	「以下はソフトウェアエンジニアリングに関するタスクです。」	人ではなくタスクを修飾
P4: 否定	「あなたはソフトウェアエンジニアではありません。」	否定した場合の影響

先行研究で指摘されていた「ドメインプライミング」をP3として独立させてみました。

ベンチマークと評価方法

ベンチマーク	概要	問題数	評価方法
MMLU（CS系）	コンピュータサイエンスの知識問題	250問	4択一致
HumanEval	Pythonのコーディング問題	164問	テストケース通過
MATH Level 4–5	高校〜大学レベルの数学	250問	`\boxed{}` 値一致

モデルは gpt-5.4-nano、temperature=0で固定しました。

実験結果

全体結果

各ベンチマークの正答率

ペルソナ	MMLU	HumanEval	MATH	平均
P0 中立	64.4%	79.9%	54.0%	66.1%
P1 役割のみ	65.6%	79.9%	51.2%	65.6%
P2 形容詞付き	64.0%	78.7%	53.2%	65.3%
P3 ドメインプライミング	64.8%	82.9%	54.8%	67.5%
P4 否定	63.6%	79.9%	53.6%	65.7%

全体の傾向としては、P3 > P0 > P4 > P1 > P2 とドメインプライミングが最も正答率が高くなりました。

ペルソナ有りはペルソナ無しより正答率が低く、「優秀な」をつけたペルソナではさらに低くなりました。

とはいえ、あまり大きな差ではなく、今回の問題数だと誤差の可能性も十分にあります。

考察

この結果をどう解釈すべきか、3つの観点で整理してみます。

ペルソナはフィルター（スタイル変更）であり、能力向上ではない。 ペルソナを設定すると回答のトーンや形式は変わります。しかし、正答率という意味での「能力」は統計的には改善しませんでした。むしろ、凝ったペルソナを付けるほど微減する傾向すらあります（P0: 66.1% → P1: 65.6% → P2: 65.3%）。これは PRISM の「アライメントは改善するが精度を損なう」という知見とも一致します。

ドメインプライミング（P3）がわずかにプラス傾向。 今回の実験でも P3 は平均 67.5% と最も高く、特に HumanEval で 82.9% を記録しました。統計学的な有意差には至っていませんが、Bai et al. の「ドメインプライミングが最も安定」という知見と一致しています。ペルソナ（人に対する修飾）よりも、タスクに対する修飾のほうが方向性を定めやすいのかもしれません。

「優秀な」は曖昧すぎて、条件付き生成の方向を定められない。 「優秀な」と言われても、何をどう優秀にすればいいのかモデル側で解釈しようがありません。結果として有意な改善は生じず、むしろ微減する傾向がある、というのは納得できる話です。

実践的な結論

実験結果と先行研究を踏まえて、プロンプトの書き方を整理しました。

書き方	評価	理由
「あなたは優秀なエンジニアです」	❌	曖昧な形容詞は無意味。むしろ微減する可能性がある
「あなたはエンジニアです」	⚠️	出力のスタイルは変わるが、精度改善にはつながらない
「このタスクはPythonのasyncioに関する問題です」	✅	ドメインプライミング。タスクの文脈を明示する
具体的な制約や文脈を与える	✅	ExpertPromptingの本質。「優秀」ではなく「何をどう解くか」を伝える

プロンプトに書くべきは「あなたが何者か」ではなく「このタスクが何であるか」です。ペルソナに形容詞を積むよりも、具体的な制約条件や期待する出力形式を書いたほうが生産的だと思います。

余談

最後に、実験中に気づいた副産物を書いておきます。

temperature=0でもシステムプロンプトだけで回答が結構変わる。 temperature=0(決定的出力の設定)にしていますが、MMLUの20.8%、MATHの32.4%の問題でペルソナ間で回答が異なりました。ペルソナによって回答の内容には影響していますが、正答率の方向には効いていない様です。
「エンジニアではありません」と否定しても正答率は落ちない。 P4（否定ペルソナ）の正答率は65.7%で、P0（中立）の66.1%とほぼ同じです。「あなたはエンジニアではありません」と言われても、エンジニアリングの問題は普通に解けていました。
実務タスクでも差は出なかった。 ベンチマークだけでなく、実際のシステム企画書のレビューでも試してみましたが、条件間で目立った差はありませんでした。(ただし、この試行はモデルに対してタスクが難しすぎたかもしれません)

この記事で書いたこと

生成AIのペルソナに効果はあるのか、また、「優秀な」の様な形容詞をペルソナに付けることは有効か実験した
先行研究は肯定と懐疑に分かれており、今回の実験結果は懐疑側の知見と一致した
「あなたは優秀なエンジニアです」のような形容詞付きペルソナで精度改善は見られず、むしろ微減する傾向があった
5ペルソナ × 3ベンチマーク（3,320回）の実験で、条件間の差は大きくても4%程度。誤差の可能性も十分にある
ドメインプライミング（P3）だけがわずかにプラス傾向を示した
プロンプトには「あなたが何者か」より「このタスクが何であるか」を書くほうが良さそう

参考文献

Li et al. (2023). “Large Language Models Understand and Can be Enhanced by Emotional Stimuli.” arXiv:2307.11760
Xu et al. (2023). “ExpertPrompting: Instructing Large Language Models to be Distinguished Experts.” arXiv:2305.14688
Zheng et al. (2023). “When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models.” arXiv:2311.10054
Basil, Mollick et al. (2025). “Playing Pretend: Expert Personas Don’t Improve Factual Accuracy.” arXiv:2512.05858
Bai, Holtzman, Tan (2025). “‘You are a brilliant mathematician’ Does Not Make LLMs Act Like One.” OpenReview
Hu, Rostami, Thomason (2026). “Expert Personas Improve LLM Alignment but Damage Accuracy.” arXiv:2603.18507