CH10 本地 AI 模型與對話平台

Part 4: 系統架構與模型選擇

深入理解本地 AI 系統,選擇最適合的模型

三層架構 API 端點 模型比較 選擇策略

系統架構全貌

本地 AI 對話平台由三個層次組成:

使用者介面層 (Frontend)
HTML/CSS/JavaScript 網頁 | Ollama GUI | CLI 命令列
↓ HTTP/REST API (localhost:11434) ↓
API 服務層 (Ollama)
接收請求 | 載入模型 | 執行推理 | 回傳結果
↓ 模型載入與推理 ↓
模型層 (AI Models)
Llama 3 | Mistral | Gemma | Phi | 更多開源模型

三層架構詳解

使用者介面層

功能:提供互動介面

  • Ollama GUI:官方圖形介面
  • 自建網頁:可客製化
  • CLI:命令列操作
  • 第三方應用:Open WebUI 等

API 服務層

Ollama 核心職責:

  • 管理模型下載與更新
  • 啟動 HTTP 伺服器
  • 處理 API 請求
  • 執行 AI 推理運算
  • 優化運算效能

模型層

模型運作方式:

  • GGUF 格式儲存
  • 載入到 RAM 執行
  • 支援 GPU 加速
  • 支援量化技術
  • 可同時載入多模型

Ollama API 端點

端點 方法 功能 使用情境
/api/generate POST 生成回應 發送問題,取得 AI 回答
/api/chat POST 多輪對話 保留對話歷史的連續對話
/api/tags GET 列出模型 查詢已下載的模型清單
/api/pull POST 下載模型 透過 API 下載新模型
/api/embeddings POST 產生向量 將文字轉換為向量(RAG 應用)
基礎 URL:http://localhost:11434

本地 AI vs 雲端 AI

本地 AI (Ollama)

  • 完全免費
  • 100% 隱私保護
  • 離線可用
  • 無使用限制
  • 可客製化
VS

雲端 AI (OpenAI)

  • 按量計費
  • 資料傳雲端
  • 需要網路
  • 有 API 配額
  • 品質最頂尖

全面比較表

比較項目 本地 AI 雲端 AI
費用 完全免費(僅硬體成本) $0.5-$20/百萬 tokens
隱私 100% 本機,絕不外洩 資料傳送到雲端
回應速度 1-10 秒(取決於硬體) 1-3 秒
模型品質 中等至良好 最頂尖
硬體需求 8-64GB RAM 僅需能上網
長文本 2K-8K tokens 128K-1M tokens

選擇建議:什麼情況用哪個?

選擇本地 AI

  • 學生練習:免費無限使用
  • 企業內部:保護機密資料
  • 高頻使用:每天 >100 次
  • 離線環境:無網路可用
  • 創意寫作:無限次生成
  • 程式開發:Code Copilot 替代

選擇雲端 AI

  • 頂尖品質:GPT-4、Claude
  • 偶爾使用:每天 <10 次
  • 多語言:翻譯需求
  • 長文本:處理大量文字
  • 低硬體:設備配置不足
  • 最新功能:視覺、語音等

主流模型介紹:Llama 3

Llama 3 (Meta)

8B / 70B 參數 4.7GB / 40GB Meta 官方

優勢

  • Meta 官方支援,更新頻繁
  • 8B 版本輕量執行快速
  • 程式碼生成能力強
  • 英文對話品質頂尖

效能測試

問題:Write a Python sort function
回應時間:1.8 秒(8B)
程式碼正確性:★★★★★
中文支援:★★★☆☆
注意:繁體中文支援較弱,有時會混用簡體字。主要使用英文場景推薦。

主流模型介紹:Mistral

Mistral (Mistral AI)

7B 參數 4.1GB 速度最快

優勢

  • 檔案小,下載快
  • 執行速度極快
  • 效能超越同級模型
  • 適合硬體較弱的電腦

效能測試

問題:解釋什麼是量子電腦
回應時間:1.2 秒
回答品質:★★★★☆
速度表現:★★★★★
推薦場景:需要快速回應、硬體配置較低、或作為測試用的首選模型。

輕量級模型:Gemma & Phi

Gemma (Google)

2B / 7B 1.6GB / 4.9GB
  • Google 開發,品質有保證
  • 2B 版本超輕量
  • 適合入門學習
  • 指令遵循能力佳

Phi (Microsoft)

2.7B 1.6GB
  • 微軟研究團隊開發
  • 極致輕量化設計
  • 低資源需求(4GB RAM)
  • 適合嵌入式應用
適用場景:記憶體不足、老舊電腦、或需要快速回應但對品質要求不高的場景。

模型選擇決策指南

你的 RAM 有多少?

  • 4-8GB → Phi、Gemma:2b
  • 8-16GB → Llama3:8b、Mistral
  • 16-32GB → Llama3:8b + 進階功能
  • 32GB+ → 可考慮 70B 模型

主要用途是什麼?

  • 程式碼 → Llama 3
  • 中文對話 → Llama 3、Mistral
  • 快速回應 → Mistral
  • 學習測試 → Gemma、Phi

硬碟空間?

  • <5GB → Phi (1.6GB)
  • 5-10GB → Mistral (4.1GB)
  • 10-20GB → Llama3 (4.7GB)
  • 50GB+ → 多模型並存

有獨立顯卡嗎?

  • NVIDIA GPU → 大幅加速
  • AMD GPU → 部分支援
  • Apple Silicon → 優秀支援
  • 僅 CPU → 選擇小模型

效能優化建議

硬體升級

  • 增加 RAM 是最有效的
  • SSD 比 HDD 快很多
  • 獨顯可加速 5-10 倍
  • Apple M 系列效能佳

軟體調整

  • 關閉不需要的程式
  • 使用量化版模型
  • 調低 Context Length
  • 啟用 GPU 加速

使用技巧

  • 首次載入較慢屬正常
  • 保持 Ollama 背景運行
  • 問題越簡短越快
  • 避免同時跑多任務
最佳實踐:16GB RAM + SSD + 獨顯 = 流暢的本地 AI 體驗

Part 4 總結

系統架構

  • 三層架構清晰分工
  • Ollama 作為核心服務
  • REST API 標準介面

模型選擇

  • Llama 3:全能首選
  • Mistral:速度優先
  • Gemma/Phi:輕量入門

下一步

在 Part 5,我們將透過5 個實戰案例,展示如何將本地 AI 應用在真實場景中!

記住:根據你的硬體配置、使用場景、語言需求,選擇最適合的模型。
沒有最好的模型,只有最適合的模型!