こんにちは、サイオステクノロジーの遠藤です。
クラウドAPIを使わず、手元のノートPCでLLMを動かしたいと思ったことはありませんか?
2025年現在、軽量で高性能なモデルが続々と登場し、一般的なノートPCでも実用的なLLMを動かせるようになりました。本記事では、ノートPCで動作する主要なローカルLLMモデルを公式ソースをもとに徹底比較し、導入時の注意点まで解説します。
ローカルLLMとは?なぜ今注目されているのか
ローカルLLMとは、クラウドサービスを介さず、自分のPC上で直接動作させる大規模言語モデルのことです。利用することで以下のようなメリットを得ることが出来ます。

- プライバシー保護: データが外部サーバーに送信されない
- オフライン利用: インターネット接続なしで利用可能
- コスト削減: API利用料が発生しない
- カスタマイズ性: ファインチューニングや独自の設定が可能
- レイテンシ: ネットワーク遅延がない
必要なスペック目安
ローカルLLMを動かすために必要なスペックは、モデルサイズによって大きく異なります。
| モデルサイズ | 最低メモリ(RAM/VRAM) | 推奨CPU/GPU | 用途 |
|---|---|---|---|
| 1B〜2B | 4GB | 8世代以降のIntel Core / Apple M1 | 簡単なチャット、軽い要約 |
| 3B〜4B | 8GB | RTX 3060 / Apple M2 | 一般的な質問応答、コード補助 |
| 7B〜8B | 16GB | RTX 4060 / Apple M2 Pro | 本格的な開発支援、文章生成 |
| 14B | 32GB | RTX 4090 / Apple M3 Max | 高度な推論、複雑なタスク |
CPUのポイント: AVX2/AVX512命令セットに対応したCPU(Intel 第11世代以降、AMD Zen4以降)が推奨されます。これらの命令セットはLLMの行列演算を高速化します。
主要モデル比較一覧
2025年12月時点で、ノートPCで動作する主要なローカルLLMを公式情報をもとにまとめました。
軽量モデル(1B〜4B)
| モデル | パラメータ | コンテキスト長 | ライセンス | 特徴 |
|---|---|---|---|---|
| Gemma 3 4B | 4B | 128K | Gemma License | マルチモーダル対応、140言語サポート |
| Gemma 3n E4B | 8B(実効4B) | 32K | Gemma License | 超省メモリ設計、3GBで動作可能 |
| Phi-3-mini | 3.8B | 4K/128K | MIT | 数学・推論に強い、合成データで学習 |
| SmolLM2 | 1.7B | – | Apache 2.0 | 11兆トークンで学習、命令追従性が高い |
| Qwen2.5 | 0.5B〜3B | 131K | Apache 2.0 | 29言語対応、構造化データに強い |
| TinyLlama | 1.1B | 2K | Apache 2.0 | Llama 2互換、3兆トークンで学習 |
中規模モデル(7B〜8B)
| モデル | パラメータ | コンテキスト長 | ライセンス | 特徴 |
|---|---|---|---|---|
| Llama 3.1 8B | 8B | 128K | Llama License | Meta製、幅広いエコシステム |
| Qwen2.5 7B | 7.6B | 131K | Apache 2.0 | 日本語含む29言語、JSON出力対応 |
| Mistral 7B | 7B | 32K | Apache 2.0 | 高効率、商用利用可能 |
| DeepSeek-R1 8B | 8B(蒸留版) | 128K | MIT | 推論特化、RL学習 |
大規模モデル(14B〜24B)
| モデル | パラメータ | コンテキスト長 | ライセンス | 特徴 |
|---|---|---|---|---|
| Phi-4 | 14B | 16K | MIT | STEM・推論でトップクラス性能 |
| Mistral Small 3.1 | 24B | 128K | Apache 2.0 | RTX 4090単体で動作、マルチモーダル |
| Qwen2.5 14B | 14B | 131K | Apache 2.0 | バランスの取れた性能 |
各モデル詳細解説
Gemma 3(Google DeepMind)
Googleが開発した軽量オープンモデルで、Geminiと同じ技術基盤を持ちます。
公式スペック
- パラメータ: 1B / 4B / 12B / 27B
- コンテキスト長: 128Kトークン
- ライセンス: Gemma License(商用利用可、要規約確認)
主な特徴
- マルチモーダル対応: テキストと画像の両方を入力可能(4B以上)
- 140言語サポート: 日本語を含む多言語に対応
- 効率的なアーキテクチャ: ラップトップでのデプロイを想定した設計
ベンチマーク(4Bモデル)
| ベンチマーク | スコア |
|---|---|
| MMLU(5-shot) | 59.6 |
| GSM8K(8-shot) | 38.4 |
| HumanEval | 36.0 |
参考: Gemma公式サイト
Gemma 3n(Google DeepMind)
Google I/O 2025で発表された、モバイル・エッジデバイス向けに最適化された最新モデルです。
公式スペック(E4Bモデル)
- パラメータ: 8B(実効4B相当のメモリ使用量)
- コンテキスト長: 32Kトークン
- 最小メモリ: 約3GB
- ライセンス: Gemma License
主な特徴
- 超省メモリ設計: Per-Layer Embeddings(PLE)技術により、8Bパラメータながら4B相当のメモリで動作
- MatFormerアーキテクチャ: マトリョーシカ人形のように、大きなモデル内に小さなモデルを内包する設計
- マルチモーダル対応: テキスト、画像、動画、音声の入力に対応
- 140言語サポート: Gemma 3と同様の多言語対応
ベンチマーク
- LMArenaスコア: 1300以上(10B未満のモデルで初めて達成)
注目ポイント: ノートPCやモバイルデバイスで高性能なマルチモーダルLLMを動かしたい場合の最有力候補です。
参考: Gemma 3n公式ドキュメント
Phi-4 / Phi-3-mini(Microsoft Research)
Microsoftが開発した、合成データを活用した推論特化モデルです。
公式スペック(Phi-4)
- パラメータ: 14B
- コンテキスト長: 16Kトークン
- 学習トークン: 9.8兆トークン
- ライセンス: MIT
公式スペック(Phi-3-mini)
- パラメータ: 3.8B
- コンテキスト長: 4K / 128K
- ライセンス: MIT
主な特徴
- 合成データ学習: 高品質な合成データセットで学習し、教師モデルを上回る性能を実現
- STEM特化: 数学、コーディング、推論タスクで特に高い性能
- 軽量かつ高性能: 同サイズのモデルと比較して優れたベンチマーク結果
ベンチマーク比較(Phi-4 vs Phi-3)
| ベンチマーク | Phi-4(14B) | Phi-3(14B) |
|---|---|---|
| MMLU | 84.8 | 77.9 |
| GPQA | 56.1 | 31.2 |
| MATH | 80.4 | 44.6 |
| HumanEval | 82.6 | 67.8 |
注意点: 英語中心の学習のため、他言語での性能は低下する可能性があります。
Qwen2.5(Alibaba)
Alibabaが開発した多言語対応モデルで、日本語を含む29言語をサポートします。
公式スペック(7Bモデル)
- パラメータ: 7.61B(非埋め込み層: 6.53B)
- コンテキスト長: 131,072トークン
- 出力長: 最大8,000トークン
- ライセンス: Apache 2.0
主な特徴
- 29言語対応: 日本語、中国語、韓国語、英語など幅広くサポート
- 構造化データ対応: テーブルやJSONの理解・生成に強い
- 長文生成: 8,000トークン以上の長文出力に対応
- GQA採用: Grouped Query Attentionによる効率的な推論
対応言語(一部)
日本語、中国語、英語、韓国語、ベトナム語、タイ語、アラビア語、フランス語、スペイン語、ドイツ語、ロシア語など
参考: Qwen2.5公式ブログ
Llama 3.1(Meta)
Metaが開発したオープンソースLLMで、最も広いエコシステムを持ちます。
公式スペック
- パラメータ: 8B / 70B / 405B
- コンテキスト長: 128Kトークン
- ライセンス: Llama License(商用利用可、要規約確認)
主な特徴
- 幅広いエコシステム: 多くのツールやライブラリが対応
- 事前学習/指示調整版: 用途に応じて選択可能
- 活発なコミュニティ: ファインチューニング済みモデルが豊富
参考: Llama公式サイト
DeepSeek-R1(DeepSeek)
強化学習(RL)を活用した推論特化モデルで、蒸留版が軽量環境で利用可能です。
公式スペック
- パラメータ: 671B(フル版)、蒸留版: 1.5B〜70B
- コンテキスト長: 128Kトークン
- ライセンス: MIT
蒸留モデルラインナップ
| ベースモデル | サイズ |
|---|---|
| Qwen系 | 1.5B / 7B / 14B / 32B |
| Llama系 | 8B / 70B |
主な特徴
- 純粋なRL学習: 教師なし微調整なしで推論能力を獲得
- 高い推論性能: 32B蒸留版がOpenAI o1-miniを一部ベンチマークで上回る
- オープンライセンス: MITライセンスで商用利用可能
SmolLM2(Hugging Face)
Hugging Faceが開発した超軽量モデルで、オンデバイス実行に最適化されています。
公式スペック
- パラメータ: 135M / 360M / 1.7B
- 学習トークン: 11兆トークン
- ライセンス: Apache 2.0
主な特徴
- 超軽量: 135Mから利用可能で、リソースが限られた環境に最適
- 11兆トークン学習: 小型ながら豊富なデータで学習
- 関数呼び出し対応: ツール使用のワークフローに対応
ベンチマーク(1.7B Instructモデル)
| ベンチマーク | SmolLM2-1.7B | Llama-1B | Qwen2.5-1.5B |
|---|---|---|---|
| IFEval | 56.7 | 53.5 | 47.4 |
| GSM8K | 48.2 | 26.8 | 42.8 |
Mistral Small 3.1(Mistral AI)
Mistral AIが開発した中規模モデルで、RTX 4090単体で動作可能です。
公式スペック
- パラメータ: 24B
- コンテキスト長: 128Kトークン
- 推論速度: 150トークン/秒
- ライセンス: Apache 2.0
主な特徴
- RTX 4090で動作: 32GB RAM搭載Macでも動作可能
- マルチモーダル: テキストと画像の入力に対応
- 高い汎用性能: GPT-4o Miniを上回るベンチマーク結果
ベンチマーク
| ベンチマーク | Mistral Small 3.1 | Gemma 3 27B |
|---|---|---|
| GPQA Diamond | 45.96% | 42.4% |
| HumanEval | 88.41% | – |
| DocVQA | 94.08% | – |
日本語性能について
日本語タスクでの性能は、モデルによって大きく異なります。以下は日本語対応状況の目安です。
| モデル | 日本語対応 | 備考 |
|---|---|---|
| Qwen2.5 | ◎ | 公式で日本語サポート、29言語対応 |
| Gemma 3 / 3n | ○ | 140言語対応、日本語も実用レベル |
| Llama 3.1 | △ | 英語中心、日本語は限定的 |
| Phi-4 / Phi-3 | △ | 英語中心の学習、他言語は性能低下 |
| Mistral | △ | 多言語対応だが英語が最も得意 |
| DeepSeek-R1 | ○ | 中国語・英語中心だが日本語も対応 |
日本語を重視する場合: Qwen2.5やGemma 3がおすすめです。
実行環境の選択
ローカルLLMを動かすための主要なツールを紹介します。
Ollama
最も簡単にローカルLLMを動かせるツールです。
# インストール(macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# モデルのダウンロードと実行
ollama pull gemma3:4b
ollama run gemma3:4b
特徴
- ワンコマンドでモデル実行
- REST API対応
- 幅広いモデルサポート
参考: Ollama公式
LM Studio
GUIで操作できるデスクトップアプリケーションです。
特徴
- 直感的なUI
- Hugging Faceから直接モデルダウンロード
- チャットインターフェース付属
llama.cpp
最も軽量で柔軟性の高い実行環境です。
特徴
- 90MB未満の軽量実装
- Vulkanサポート
- CPU最適化
導入時の注意点
ローカルLLMを導入する際に注意すべきポイントをまとめます。
1. メモリ使用量の確認
量子化レベルによってメモリ使用量が大きく変わります。
| 量子化 | メモリ削減率 | 品質への影響 |
|---|---|---|
| FP16(なし) | – | なし |
| Q8 | 約50% | ほぼなし |
| Q4_K_M | 約75% | 軽微 |
| Q4_0 | 約75% | やや影響あり |
推奨: メモリが限られる場合はQ4_K_Mがバランスが良いです。
2. 初回起動時の遅延
モデルの初回ロードには数十秒〜数分かかる場合があります。これはモデルをメモリに展開する時間です。一度ロードすれば、以降の応答は高速になります。
3. 発熱と消費電力
LLM推論はCPU/GPUに高負荷をかけるため、ノートPCでは以下に注意してください。
- 冷却: 長時間使用時は冷却パッドの使用を推奨
- 電源: バッテリー駆動では性能が制限される場合あり
- サーマルスロットリング: 高温時に自動的に性能が低下
4. ストレージ容量
モデルファイルは数GB〜数十GBのサイズがあります。
| モデルサイズ | 目安容量(Q4量子化) |
|---|---|
| 1B〜2B | 1〜2GB |
| 7B〜8B | 4〜6GB |
| 14B | 8〜10GB |
| 70B | 40〜50GB |
5. 生成内容の信頼性
ローカルLLMも、クラウドLLMと同様に以下の制限があります。
- ハルシネーション: 事実と異なる情報を生成する可能性
- 知識のカットオフ: 学習データ以降の情報は持っていない
- バイアス: 学習データに含まれるバイアスを反映
重要: 生成された内容は必ず検証してから使用してください。
6. ライセンスの確認
モデルによってライセンスが異なります。商用利用を検討する場合は必ず確認してください。
| ライセンス | 商用利用 | 代表的なモデル |
|---|---|---|
| MIT | ○ | Phi-4, DeepSeek-R1 |
| Apache 2.0 | ○ | Qwen2.5, Mistral, SmolLM2 |
| Llama License | △(条件付き) | Llama 3.1 |
| Gemma License | △(条件付き) | Gemma 3 |
用途別おすすめモデル
最後に、用途別のおすすめモデルをまとめます。
| 用途 | おすすめモデル | 理由 |
|---|---|---|
| とにかく軽く動かしたい | SmolLM2 1.7B | 超軽量、4GBメモリで動作 |
| 日本語チャット | Qwen2.5 7B | 公式日本語サポート |
| コード補助 | Phi-4 / DeepSeek-R1 | STEM・コード特化 |
| 画像も扱いたい | Gemma 3 4B / Gemma 3n | マルチモーダル対応 |
| 省メモリでマルチモーダル | Gemma 3n E4B | 3GBメモリで画像・音声対応 |
| バランス重視 | Llama 3.1 8B | エコシステムが充実 |
| 最高性能(ノートPC限界) | Mistral Small 3.1 | RTX 4090で動作、高性能 |
まとめ
2025年12月時点で、ノートPCでも実用的に使えるローカルLLMが多数存在します。
選び方のポイント
- スペック確認: 自分のPCのメモリ・GPUに合ったモデルサイズを選ぶ
- 用途の明確化: コード、日本語、マルチモーダルなど、目的に合ったモデルを選ぶ
- ライセンス確認: 商用利用する場合は必ずライセンスを確認
- 量子化の活用: メモリが足りない場合は量子化版を検討
まずはOllamaをインストールして、Gemma 3 4BやQwen2.5 7Bあたりから試してみることをおすすめします。

