ノートPCで動くローカルLLM完全ガイド【2025年12月版】

こんにちは、サイオステクノロジーの遠藤です。

クラウドAPIを使わず、手元のノートPCでLLMを動かしたいと思ったことはありませんか？

2025年現在、軽量で高性能なモデルが続々と登場し、一般的なノートPCでも実用的なLLMを動かせるようになりました。本記事では、ノートPCで動作する主要なローカルLLMモデルを公式ソースをもとに徹底比較し、導入時の注意点まで解説します。

1 ローカルLLMとは？なぜ今注目されているのか
2 必要なスペック目安
3 主要モデル比較一覧
4 各モデル詳細解説
5 日本語性能について
6 実行環境の選択
7 導入時の注意点
8 用途別おすすめモデル
9 まとめ
10 参考リンク

ローカルLLMとは？なぜ今注目されているのか

ローカルLLMとは、クラウドサービスを介さず、自分のPC上で直接動作させる大規模言語モデルのことです。利用することで以下のようなメリットを得ることが出来ます。

プライバシー保護: データが外部サーバーに送信されない
オフライン利用: インターネット接続なしで利用可能
コスト削減: API利用料が発生しない
カスタマイズ性: ファインチューニングや独自の設定が可能
レイテンシ: ネットワーク遅延がない

必要なスペック目安

ローカルLLMを動かすために必要なスペックは、モデルサイズによって大きく異なります。

モデルサイズ	最低メモリ（RAM/VRAM）	推奨CPU/GPU	用途
1B〜2B	4GB	8世代以降のIntel Core / Apple M1	簡単なチャット、軽い要約
3B〜4B	8GB	RTX 3060 / Apple M2	一般的な質問応答、コード補助
7B〜8B	16GB	RTX 4060 / Apple M2 Pro	本格的な開発支援、文章生成
14B	32GB	RTX 4090 / Apple M3 Max	高度な推論、複雑なタスク

CPUのポイント: AVX2/AVX512命令セットに対応したCPU（Intel 第11世代以降、AMD Zen4以降）が推奨されます。これらの命令セットはLLMの行列演算を高速化します。

主要モデル比較一覧

2025年12月時点で、ノートPCで動作する主要なローカルLLMを公式情報をもとにまとめました。

軽量モデル（1B〜4B）

モデル	パラメータ	コンテキスト長	ライセンス	特徴
Gemma 3 4B	4B	128K	Gemma License	マルチモーダル対応、140言語サポート
Gemma 3n E4B	8B（実効4B）	32K	Gemma License	超省メモリ設計、3GBで動作可能
Phi-3-mini	3.8B	4K/128K	MIT	数学・推論に強い、合成データで学習
SmolLM2	1.7B	–	Apache 2.0	11兆トークンで学習、命令追従性が高い
Qwen2.5	0.5B〜3B	131K	Apache 2.0	29言語対応、構造化データに強い
TinyLlama	1.1B	2K	Apache 2.0	Llama 2互換、3兆トークンで学習

中規模モデル（7B〜8B）

モデル	パラメータ	コンテキスト長	ライセンス	特徴
Llama 3.1 8B	8B	128K	Llama License	Meta製、幅広いエコシステム
Qwen2.5 7B	7.6B	131K	Apache 2.0	日本語含む29言語、JSON出力対応
Mistral 7B	7B	32K	Apache 2.0	高効率、商用利用可能
DeepSeek-R1 8B	8B（蒸留版）	128K	MIT	推論特化、RL学習

大規模モデル（14B〜24B）

モデル	パラメータ	コンテキスト長	ライセンス	特徴
Phi-4	14B	16K	MIT	STEM・推論でトップクラス性能
Mistral Small 3.1	24B	128K	Apache 2.0	RTX 4090単体で動作、マルチモーダル
Qwen2.5 14B	14B	131K	Apache 2.0	バランスの取れた性能

各モデル詳細解説

Gemma 3（Google DeepMind）

Googleが開発した軽量オープンモデルで、Geminiと同じ技術基盤を持ちます。

公式スペック

パラメータ: 1B / 4B / 12B / 27B
コンテキスト長: 128Kトークン
ライセンス: Gemma License（商用利用可、要規約確認）

主な特徴

マルチモーダル対応: テキストと画像の両方を入力可能（4B以上）
140言語サポート: 日本語を含む多言語に対応
効率的なアーキテクチャ: ラップトップでのデプロイを想定した設計

ベンチマーク（4Bモデル）

ベンチマーク	スコア
MMLU（5-shot）	59.6
GSM8K（8-shot）	38.4
HumanEval	36.0

参考: Gemma公式サイト

Gemma 3n（Google DeepMind）

Google I/O 2025で発表された、モバイル・エッジデバイス向けに最適化された最新モデルです。

公式スペック（E4Bモデル）

パラメータ: 8B（実効4B相当のメモリ使用量）
コンテキスト長: 32Kトークン
最小メモリ: 約3GB
ライセンス: Gemma License

主な特徴

超省メモリ設計: Per-Layer Embeddings（PLE）技術により、8Bパラメータながら4B相当のメモリで動作
MatFormerアーキテクチャ: マトリョーシカ人形のように、大きなモデル内に小さなモデルを内包する設計
マルチモーダル対応: テキスト、画像、動画、音声の入力に対応
140言語サポート: Gemma 3と同様の多言語対応

ベンチマーク

LMArenaスコア: 1300以上（10B未満のモデルで初めて達成）

注目ポイント: ノートPCやモバイルデバイスで高性能なマルチモーダルLLMを動かしたい場合の最有力候補です。

参考: Gemma 3n公式ドキュメント

Phi-4 / Phi-3-mini（Microsoft Research）

Microsoftが開発した、合成データを活用した推論特化モデルです。

公式スペック（Phi-4）

パラメータ: 14B
コンテキスト長: 16Kトークン
学習トークン: 9.8兆トークン
ライセンス: MIT

公式スペック（Phi-3-mini）

パラメータ: 3.8B
コンテキスト長: 4K / 128K
ライセンス: MIT

主な特徴

合成データ学習: 高品質な合成データセットで学習し、教師モデルを上回る性能を実現
STEM特化: 数学、コーディング、推論タスクで特に高い性能
軽量かつ高性能: 同サイズのモデルと比較して優れたベンチマーク結果

ベンチマーク比較（Phi-4 vs Phi-3）

ベンチマーク	Phi-4（14B）	Phi-3（14B）
MMLU	84.8	77.9
GPQA	56.1	31.2
MATH	80.4	44.6
HumanEval	82.6	67.8

注意点: 英語中心の学習のため、他言語での性能は低下する可能性があります。

参考: Phi-4 Technical Report

Qwen2.5（Alibaba）

Alibabaが開発した多言語対応モデルで、日本語を含む29言語をサポートします。

公式スペック（7Bモデル）

パラメータ: 7.61B（非埋め込み層: 6.53B）
コンテキスト長: 131,072トークン
出力長: 最大8,000トークン
ライセンス: Apache 2.0

主な特徴

29言語対応: 日本語、中国語、韓国語、英語など幅広くサポート
構造化データ対応: テーブルやJSONの理解・生成に強い
長文生成: 8,000トークン以上の長文出力に対応
GQA採用: Grouped Query Attentionによる効率的な推論

対応言語（一部）
日本語、中国語、英語、韓国語、ベトナム語、タイ語、アラビア語、フランス語、スペイン語、ドイツ語、ロシア語など

参考: Qwen2.5公式ブログ

Llama 3.1（Meta）

Metaが開発したオープンソースLLMで、最も広いエコシステムを持ちます。

公式スペック

パラメータ: 8B / 70B / 405B
コンテキスト長: 128Kトークン
ライセンス: Llama License（商用利用可、要規約確認）

主な特徴

幅広いエコシステム: 多くのツールやライブラリが対応
事前学習/指示調整版: 用途に応じて選択可能
活発なコミュニティ: ファインチューニング済みモデルが豊富

参考: Llama公式サイト

DeepSeek-R1（DeepSeek）

強化学習（RL）を活用した推論特化モデルで、蒸留版が軽量環境で利用可能です。

公式スペック

パラメータ: 671B（フル版）、蒸留版: 1.5B〜70B
コンテキスト長: 128Kトークン
ライセンス: MIT

蒸留モデルラインナップ

ベースモデル	サイズ
Qwen系	1.5B / 7B / 14B / 32B
Llama系	8B / 70B

主な特徴

純粋なRL学習: 教師なし微調整なしで推論能力を獲得
高い推論性能: 32B蒸留版がOpenAI o1-miniを一部ベンチマークで上回る
オープンライセンス: MITライセンスで商用利用可能

参考: DeepSeek-R1 GitHub

SmolLM2（Hugging Face）

Hugging Faceが開発した超軽量モデルで、オンデバイス実行に最適化されています。

公式スペック

パラメータ: 135M / 360M / 1.7B
学習トークン: 11兆トークン
ライセンス: Apache 2.0

主な特徴

超軽量: 135Mから利用可能で、リソースが限られた環境に最適
11兆トークン学習: 小型ながら豊富なデータで学習
関数呼び出し対応: ツール使用のワークフローに対応

ベンチマーク（1.7B Instructモデル）

ベンチマーク	SmolLM2-1.7B	Llama-1B	Qwen2.5-1.5B
IFEval	56.7	53.5	47.4
GSM8K	48.2	26.8	42.8

参考: SmolLM2 Hugging Face

Mistral Small 3.1（Mistral AI）

Mistral AIが開発した中規模モデルで、RTX 4090単体で動作可能です。

公式スペック

パラメータ: 24B
コンテキスト長: 128Kトークン
推論速度: 150トークン/秒
ライセンス: Apache 2.0

主な特徴

RTX 4090で動作: 32GB RAM搭載Macでも動作可能
マルチモーダル: テキストと画像の入力に対応
高い汎用性能: GPT-4o Miniを上回るベンチマーク結果

ベンチマーク

ベンチマーク	Mistral Small 3.1	Gemma 3 27B
GPQA Diamond	45.96%	42.4%
HumanEval	88.41%	–
DocVQA	94.08%	–

参考: Mistral Small 3.1公式

日本語性能について

日本語タスクでの性能は、モデルによって大きく異なります。以下は日本語対応状況の目安です。

モデル	日本語対応	備考
Qwen2.5	◎	公式で日本語サポート、29言語対応
Gemma 3 / 3n	○	140言語対応、日本語も実用レベル
Llama 3.1	△	英語中心、日本語は限定的
Phi-4 / Phi-3	△	英語中心の学習、他言語は性能低下
Mistral	△	多言語対応だが英語が最も得意
DeepSeek-R1	○	中国語・英語中心だが日本語も対応

日本語を重視する場合: Qwen2.5やGemma 3がおすすめです。

実行環境の選択

ローカルLLMを動かすための主要なツールを紹介します。

Ollama

最も簡単にローカルLLMを動かせるツールです。

# インストール（macOS/Linux）
curl -fsSL https://ollama.com/install.sh | sh

# モデルのダウンロードと実行
ollama pull gemma3:4b
ollama run gemma3:4b

特徴

ワンコマンドでモデル実行
REST API対応
幅広いモデルサポート

参考: Ollama公式

LM Studio

GUIで操作できるデスクトップアプリケーションです。

特徴

直感的なUI
Hugging Faceから直接モデルダウンロード
チャットインターフェース付属

llama.cpp

最も軽量で柔軟性の高い実行環境です。

特徴

90MB未満の軽量実装
Vulkanサポート
CPU最適化

導入時の注意点

ローカルLLMを導入する際に注意すべきポイントをまとめます。

1. メモリ使用量の確認

量子化レベルによってメモリ使用量が大きく変わります。

量子化	メモリ削減率	品質への影響
FP16（なし）	–	なし
Q8	約50%	ほぼなし
Q4_K_M	約75%	軽微
Q4_0	約75%	やや影響あり

推奨: メモリが限られる場合はQ4_K_Mがバランスが良いです。

2. 初回起動時の遅延

モデルの初回ロードには数十秒〜数分かかる場合があります。これはモデルをメモリに展開する時間です。一度ロードすれば、以降の応答は高速になります。

3. 発熱と消費電力

LLM推論はCPU/GPUに高負荷をかけるため、ノートPCでは以下に注意してください。

冷却: 長時間使用時は冷却パッドの使用を推奨
電源: バッテリー駆動では性能が制限される場合あり
サーマルスロットリング: 高温時に自動的に性能が低下

4. ストレージ容量

モデルファイルは数GB〜数十GBのサイズがあります。

モデルサイズ	目安容量（Q4量子化）
1B〜2B	1〜2GB
7B〜8B	4〜6GB
14B	8〜10GB
70B	40〜50GB

5. 生成内容の信頼性

ローカルLLMも、クラウドLLMと同様に以下の制限があります。

ハルシネーション: 事実と異なる情報を生成する可能性
知識のカットオフ: 学習データ以降の情報は持っていない
バイアス: 学習データに含まれるバイアスを反映

重要: 生成された内容は必ず検証してから使用してください。

6. ライセンスの確認

モデルによってライセンスが異なります。商用利用を検討する場合は必ず確認してください。

ライセンス	商用利用	代表的なモデル
MIT	○	Phi-4, DeepSeek-R1
Apache 2.0	○	Qwen2.5, Mistral, SmolLM2
Llama License	△（条件付き）	Llama 3.1
Gemma License	△（条件付き）	Gemma 3

用途別おすすめモデル

最後に、用途別のおすすめモデルをまとめます。

用途	おすすめモデル	理由
とにかく軽く動かしたい	SmolLM2 1.7B	超軽量、4GBメモリで動作
日本語チャット	Qwen2.5 7B	公式日本語サポート
コード補助	Phi-4 / DeepSeek-R1	STEM・コード特化
画像も扱いたい	Gemma 3 4B / Gemma 3n	マルチモーダル対応
省メモリでマルチモーダル	Gemma 3n E4B	3GBメモリで画像・音声対応
バランス重視	Llama 3.1 8B	エコシステムが充実
最高性能（ノートPC限界）	Mistral Small 3.1	RTX 4090で動作、高性能

まとめ

2025年12月時点で、ノートPCでも実用的に使えるローカルLLMが多数存在します。

選び方のポイント

スペック確認: 自分のPCのメモリ・GPUに合ったモデルサイズを選ぶ
用途の明確化: コード、日本語、マルチモーダルなど、目的に合ったモデルを選ぶ
ライセンス確認: 商用利用する場合は必ずライセンスを確認
量子化の活用: メモリが足りない場合は量子化版を検討

まずはOllamaをインストールして、Gemma 3 4BやQwen2.5 7Bあたりから試してみることをおすすめします。

参考リンク

ご覧いただきありがとうございます！この投稿はお役に立ちましたか？

役に立った役に立たなかった

11人がこの投稿は役に立ったと言っています。

ローカルLLMとは？なぜ今注目されているのか

必要なスペック目安

主要モデル比較一覧

軽量モデル（1B〜4B）

中規模モデル（7B〜8B）

大規模モデル（14B〜24B）

各モデル詳細解説

Gemma 3（Google DeepMind）

Gemma 3n（Google DeepMind）

Phi-4 / Phi-3-mini（Microsoft Research）

Qwen2.5（Alibaba）

Llama 3.1（Meta）

DeepSeek-R1（DeepSeek）

SmolLM2（Hugging Face）

Mistral Small 3.1（Mistral AI）

日本語性能について

実行環境の選択

Ollama

LM Studio

llama.cpp

導入時の注意点

1. メモリ使用量の確認

2. 初回起動時の遅延

3. 発熱と消費電力

4. ストレージ容量

5. 生成内容の信頼性

6. ライセンスの確認

用途別おすすめモデル

まとめ

参考リンク

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル