ノートPCで動くローカルLLM完全ガイド【2025年12月版】

こんにちは、サイオステクノロジーの遠藤です。

クラウドAPIを使わず、手元のノートPCでLLMを動かしたいと思ったことはありませんか?

2025年現在、軽量で高性能なモデルが続々と登場し、一般的なノートPCでも実用的なLLMを動かせるようになりました。本記事では、ノートPCで動作する主要なローカルLLMモデルを公式ソースをもとに徹底比較し、導入時の注意点まで解説します。

ローカルLLMとは?なぜ今注目されているのか

ローカルLLMとは、クラウドサービスを介さず、自分のPC上で直接動作させる大規模言語モデルのことです。利用することで以下のようなメリットを得ることが出来ます。

  • プライバシー保護: データが外部サーバーに送信されない
  • オフライン利用: インターネット接続なしで利用可能
  • コスト削減: API利用料が発生しない
  • カスタマイズ性: ファインチューニングや独自の設定が可能
  • レイテンシ: ネットワーク遅延がない

必要なスペック目安

ローカルLLMを動かすために必要なスペックは、モデルサイズによって大きく異なります。

モデルサイズ最低メモリ(RAM/VRAM)推奨CPU/GPU用途
1B〜2B4GB8世代以降のIntel Core / Apple M1簡単なチャット、軽い要約
3B〜4B8GBRTX 3060 / Apple M2一般的な質問応答、コード補助
7B〜8B16GBRTX 4060 / Apple M2 Pro本格的な開発支援、文章生成
14B32GBRTX 4090 / Apple M3 Max高度な推論、複雑なタスク

CPUのポイント: AVX2/AVX512命令セットに対応したCPU(Intel 第11世代以降、AMD Zen4以降)が推奨されます。これらの命令セットはLLMの行列演算を高速化します。

主要モデル比較一覧

2025年12月時点で、ノートPCで動作する主要なローカルLLMを公式情報をもとにまとめました。

軽量モデル(1B〜4B)

モデルパラメータコンテキスト長ライセンス特徴
Gemma 3 4B4B128KGemma Licenseマルチモーダル対応、140言語サポート
Gemma 3n E4B8B(実効4B)32KGemma License超省メモリ設計、3GBで動作可能
Phi-3-mini3.8B4K/128KMIT数学・推論に強い、合成データで学習
SmolLM21.7BApache 2.011兆トークンで学習、命令追従性が高い
Qwen2.50.5B〜3B131KApache 2.029言語対応、構造化データに強い
TinyLlama1.1B2KApache 2.0Llama 2互換、3兆トークンで学習

中規模モデル(7B〜8B)

モデルパラメータコンテキスト長ライセンス特徴
Llama 3.1 8B8B128KLlama LicenseMeta製、幅広いエコシステム
Qwen2.5 7B7.6B131KApache 2.0日本語含む29言語、JSON出力対応
Mistral 7B7B32KApache 2.0高効率、商用利用可能
DeepSeek-R1 8B8B(蒸留版)128KMIT推論特化、RL学習

大規模モデル(14B〜24B)

モデルパラメータコンテキスト長ライセンス特徴
Phi-414B16KMITSTEM・推論でトップクラス性能
Mistral Small 3.124B128KApache 2.0RTX 4090単体で動作、マルチモーダル
Qwen2.5 14B14B131KApache 2.0バランスの取れた性能

各モデル詳細解説

Gemma 3(Google DeepMind)

Googleが開発した軽量オープンモデルで、Geminiと同じ技術基盤を持ちます。

公式スペック

  • パラメータ: 1B / 4B / 12B / 27B
  • コンテキスト長: 128Kトークン
  • ライセンス: Gemma License(商用利用可、要規約確認)

主な特徴

  • マルチモーダル対応: テキストと画像の両方を入力可能(4B以上)
  • 140言語サポート: 日本語を含む多言語に対応
  • 効率的なアーキテクチャ: ラップトップでのデプロイを想定した設計

ベンチマーク(4Bモデル)

ベンチマークスコア
MMLU(5-shot)59.6
GSM8K(8-shot)38.4
HumanEval36.0

参考: Gemma公式サイト


Gemma 3n(Google DeepMind)

Google I/O 2025で発表された、モバイル・エッジデバイス向けに最適化された最新モデルです。

公式スペック(E4Bモデル)

  • パラメータ: 8B(実効4B相当のメモリ使用量)
  • コンテキスト長: 32Kトークン
  • 最小メモリ: 約3GB
  • ライセンス: Gemma License

主な特徴

  • 超省メモリ設計: Per-Layer Embeddings(PLE)技術により、8Bパラメータながら4B相当のメモリで動作
  • MatFormerアーキテクチャ: マトリョーシカ人形のように、大きなモデル内に小さなモデルを内包する設計
  • マルチモーダル対応: テキスト、画像、動画、音声の入力に対応
  • 140言語サポート: Gemma 3と同様の多言語対応

ベンチマーク

  • LMArenaスコア: 1300以上(10B未満のモデルで初めて達成)

注目ポイント: ノートPCやモバイルデバイスで高性能なマルチモーダルLLMを動かしたい場合の最有力候補です。

参考: Gemma 3n公式ドキュメント


Phi-4 / Phi-3-mini(Microsoft Research)

Microsoftが開発した、合成データを活用した推論特化モデルです。

公式スペック(Phi-4)

  • パラメータ: 14B
  • コンテキスト長: 16Kトークン
  • 学習トークン: 9.8兆トークン
  • ライセンス: MIT

公式スペック(Phi-3-mini)

  • パラメータ: 3.8B
  • コンテキスト長: 4K / 128K
  • ライセンス: MIT

主な特徴

  • 合成データ学習: 高品質な合成データセットで学習し、教師モデルを上回る性能を実現
  • STEM特化: 数学、コーディング、推論タスクで特に高い性能
  • 軽量かつ高性能: 同サイズのモデルと比較して優れたベンチマーク結果

ベンチマーク比較(Phi-4 vs Phi-3)

ベンチマークPhi-4(14B)Phi-3(14B)
MMLU84.877.9
GPQA56.131.2
MATH80.444.6
HumanEval82.667.8

注意点: 英語中心の学習のため、他言語での性能は低下する可能性があります。

参考: Phi-4 Technical Report


Qwen2.5(Alibaba)

Alibabaが開発した多言語対応モデルで、日本語を含む29言語をサポートします。

公式スペック(7Bモデル)

  • パラメータ: 7.61B(非埋め込み層: 6.53B)
  • コンテキスト長: 131,072トークン
  • 出力長: 最大8,000トークン
  • ライセンス: Apache 2.0

主な特徴

  • 29言語対応: 日本語、中国語、韓国語、英語など幅広くサポート
  • 構造化データ対応: テーブルやJSONの理解・生成に強い
  • 長文生成: 8,000トークン以上の長文出力に対応
  • GQA採用: Grouped Query Attentionによる効率的な推論

対応言語(一部)
日本語、中国語、英語、韓国語、ベトナム語、タイ語、アラビア語、フランス語、スペイン語、ドイツ語、ロシア語など

参考: Qwen2.5公式ブログ


Llama 3.1(Meta)

Metaが開発したオープンソースLLMで、最も広いエコシステムを持ちます。

公式スペック

  • パラメータ: 8B / 70B / 405B
  • コンテキスト長: 128Kトークン
  • ライセンス: Llama License(商用利用可、要規約確認)

主な特徴

  • 幅広いエコシステム: 多くのツールやライブラリが対応
  • 事前学習/指示調整版: 用途に応じて選択可能
  • 活発なコミュニティ: ファインチューニング済みモデルが豊富

参考: Llama公式サイト


DeepSeek-R1(DeepSeek)

強化学習(RL)を活用した推論特化モデルで、蒸留版が軽量環境で利用可能です。

公式スペック

  • パラメータ: 671B(フル版)、蒸留版: 1.5B〜70B
  • コンテキスト長: 128Kトークン
  • ライセンス: MIT

蒸留モデルラインナップ

ベースモデルサイズ
Qwen系1.5B / 7B / 14B / 32B
Llama系8B / 70B

主な特徴

  • 純粋なRL学習: 教師なし微調整なしで推論能力を獲得
  • 高い推論性能: 32B蒸留版がOpenAI o1-miniを一部ベンチマークで上回る
  • オープンライセンス: MITライセンスで商用利用可能

参考: DeepSeek-R1 GitHub


SmolLM2(Hugging Face)

Hugging Faceが開発した超軽量モデルで、オンデバイス実行に最適化されています。

公式スペック

  • パラメータ: 135M / 360M / 1.7B
  • 学習トークン: 11兆トークン
  • ライセンス: Apache 2.0

主な特徴

  • 超軽量: 135Mから利用可能で、リソースが限られた環境に最適
  • 11兆トークン学習: 小型ながら豊富なデータで学習
  • 関数呼び出し対応: ツール使用のワークフローに対応

ベンチマーク(1.7B Instructモデル)

ベンチマークSmolLM2-1.7BLlama-1BQwen2.5-1.5B
IFEval56.753.547.4
GSM8K48.226.842.8

参考: SmolLM2 Hugging Face


Mistral Small 3.1(Mistral AI)

Mistral AIが開発した中規模モデルで、RTX 4090単体で動作可能です。

公式スペック

  • パラメータ: 24B
  • コンテキスト長: 128Kトークン
  • 推論速度: 150トークン/秒
  • ライセンス: Apache 2.0

主な特徴

  • RTX 4090で動作: 32GB RAM搭載Macでも動作可能
  • マルチモーダル: テキストと画像の入力に対応
  • 高い汎用性能: GPT-4o Miniを上回るベンチマーク結果

ベンチマーク

ベンチマークMistral Small 3.1Gemma 3 27B
GPQA Diamond45.96%42.4%
HumanEval88.41%
DocVQA94.08%

参考: Mistral Small 3.1公式

日本語性能について

日本語タスクでの性能は、モデルによって大きく異なります。以下は日本語対応状況の目安です。

モデル日本語対応備考
Qwen2.5公式で日本語サポート、29言語対応
Gemma 3 / 3n140言語対応、日本語も実用レベル
Llama 3.1英語中心、日本語は限定的
Phi-4 / Phi-3英語中心の学習、他言語は性能低下
Mistral多言語対応だが英語が最も得意
DeepSeek-R1中国語・英語中心だが日本語も対応

日本語を重視する場合: Qwen2.5やGemma 3がおすすめです。

実行環境の選択

ローカルLLMを動かすための主要なツールを紹介します。

Ollama

最も簡単にローカルLLMを動かせるツールです。

# インストール(macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# モデルのダウンロードと実行
ollama pull gemma3:4b
ollama run gemma3:4b

特徴

  • ワンコマンドでモデル実行
  • REST API対応
  • 幅広いモデルサポート

参考: Ollama公式

LM Studio

GUIで操作できるデスクトップアプリケーションです。

特徴

  • 直感的なUI
  • Hugging Faceから直接モデルダウンロード
  • チャットインターフェース付属

llama.cpp

最も軽量で柔軟性の高い実行環境です。

特徴

  • 90MB未満の軽量実装
  • Vulkanサポート
  • CPU最適化

導入時の注意点

ローカルLLMを導入する際に注意すべきポイントをまとめます。

1. メモリ使用量の確認

量子化レベルによってメモリ使用量が大きく変わります。

量子化メモリ削減率品質への影響
FP16(なし)なし
Q8約50%ほぼなし
Q4_K_M約75%軽微
Q4_0約75%やや影響あり

推奨: メモリが限られる場合はQ4_K_Mがバランスが良いです。

2. 初回起動時の遅延

モデルの初回ロードには数十秒〜数分かかる場合があります。これはモデルをメモリに展開する時間です。一度ロードすれば、以降の応答は高速になります。

3. 発熱と消費電力

LLM推論はCPU/GPUに高負荷をかけるため、ノートPCでは以下に注意してください。

  • 冷却: 長時間使用時は冷却パッドの使用を推奨
  • 電源: バッテリー駆動では性能が制限される場合あり
  • サーマルスロットリング: 高温時に自動的に性能が低下

4. ストレージ容量

モデルファイルは数GB〜数十GBのサイズがあります。

モデルサイズ目安容量(Q4量子化)
1B〜2B1〜2GB
7B〜8B4〜6GB
14B8〜10GB
70B40〜50GB

5. 生成内容の信頼性

ローカルLLMも、クラウドLLMと同様に以下の制限があります。

  • ハルシネーション: 事実と異なる情報を生成する可能性
  • 知識のカットオフ: 学習データ以降の情報は持っていない
  • バイアス: 学習データに含まれるバイアスを反映

重要: 生成された内容は必ず検証してから使用してください。

6. ライセンスの確認

モデルによってライセンスが異なります。商用利用を検討する場合は必ず確認してください。

ライセンス商用利用代表的なモデル
MITPhi-4, DeepSeek-R1
Apache 2.0Qwen2.5, Mistral, SmolLM2
Llama License△(条件付き)Llama 3.1
Gemma License△(条件付き)Gemma 3

用途別おすすめモデル

最後に、用途別のおすすめモデルをまとめます。

用途おすすめモデル理由
とにかく軽く動かしたいSmolLM2 1.7B超軽量、4GBメモリで動作
日本語チャットQwen2.5 7B公式日本語サポート
コード補助Phi-4 / DeepSeek-R1STEM・コード特化
画像も扱いたいGemma 3 4B / Gemma 3nマルチモーダル対応
省メモリでマルチモーダルGemma 3n E4B3GBメモリで画像・音声対応
バランス重視Llama 3.1 8Bエコシステムが充実
最高性能(ノートPC限界)Mistral Small 3.1RTX 4090で動作、高性能

まとめ

2025年12月時点で、ノートPCでも実用的に使えるローカルLLMが多数存在します。

選び方のポイント

  1. スペック確認: 自分のPCのメモリ・GPUに合ったモデルサイズを選ぶ
  2. 用途の明確化: コード、日本語、マルチモーダルなど、目的に合ったモデルを選ぶ
  3. ライセンス確認: 商用利用する場合は必ずライセンスを確認
  4. 量子化の活用: メモリが足りない場合は量子化版を検討

まずはOllamaをインストールして、Gemma 3 4BやQwen2.5 7Bあたりから試してみることをおすすめします。

参考リンク

ご覧いただきありがとうございます! この投稿はお役に立ちましたか?

役に立った 役に立たなかった

0人がこの投稿は役に立ったと言っています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です