CH10 本地 AI 模型與對話平台

Part 4: 系統架構與模型選擇

深入理解本地 AI 系統，選擇最適合的模型

三層架構 API 端點模型比較選擇策略

系統架構全貌

本地 AI 對話平台由三個層次組成：

使用者介面層 (Frontend)
HTML/CSS/JavaScript 網頁 | Ollama GUI | CLI 命令列

↓ HTTP/REST API (localhost:11434) ↓

API 服務層 (Ollama)
接收請求 | 載入模型 | 執行推理 | 回傳結果

↓ 模型載入與推理 ↓

模型層 (AI Models)
Llama 3 | Mistral | Gemma | Phi | 更多開源模型

三層架構詳解

使用者介面層

功能：提供互動介面

Ollama GUI：官方圖形介面
自建網頁：可客製化
CLI：命令列操作
第三方應用：Open WebUI 等

API 服務層

Ollama 核心職責：

管理模型下載與更新
啟動 HTTP 伺服器
處理 API 請求
執行 AI 推理運算
優化運算效能

模型層

模型運作方式：

GGUF 格式儲存
載入到 RAM 執行
支援 GPU 加速
支援量化技術
可同時載入多模型

Ollama API 端點

端點	方法	功能	使用情境
`/api/generate`	POST	生成回應	發送問題，取得 AI 回答
`/api/chat`	POST	多輪對話	保留對話歷史的連續對話
`/api/tags`	GET	列出模型	查詢已下載的模型清單
`/api/pull`	POST	下載模型	透過 API 下載新模型
`/api/embeddings`	POST	產生向量	將文字轉換為向量（RAG 應用）

基礎 URL：http://localhost:11434

本地 AI vs 雲端 AI

本地 AI (Ollama)

完全免費
100% 隱私保護
離線可用
無使用限制
可客製化

VS

雲端 AI (OpenAI)

按量計費
資料傳雲端
需要網路
有 API 配額
品質最頂尖

全面比較表

比較項目	本地 AI	雲端 AI
費用	完全免費（僅硬體成本）	$0.5-$20/百萬 tokens
隱私	100% 本機，絕不外洩	資料傳送到雲端
回應速度	1-10 秒（取決於硬體）	1-3 秒
模型品質	中等至良好	最頂尖
硬體需求	8-64GB RAM	僅需能上網
長文本	2K-8K tokens	128K-1M tokens

選擇建議：什麼情況用哪個？

選擇本地 AI

學生練習：免費無限使用
企業內部：保護機密資料
高頻使用：每天 >100 次
離線環境：無網路可用
創意寫作：無限次生成
程式開發：Code Copilot 替代

選擇雲端 AI

頂尖品質：GPT-4、Claude
偶爾使用：每天 <10 次
多語言：翻譯需求
長文本：處理大量文字
低硬體：設備配置不足
最新功能：視覺、語音等

主流模型介紹：Llama 3

Llama 3 (Meta)

8B / 70B 參數 4.7GB / 40GB Meta 官方

優勢

Meta 官方支援，更新頻繁
8B 版本輕量執行快速
程式碼生成能力強
英文對話品質頂尖

效能測試

問題：Write a Python sort function
回應時間：1.8 秒（8B）
程式碼正確性：★★★★★
中文支援：★★★☆☆

注意：繁體中文支援較弱，有時會混用簡體字。主要使用英文場景推薦。

主流模型介紹：Mistral

Mistral (Mistral AI)

7B 參數 4.1GB 速度最快

優勢

檔案小，下載快
執行速度極快
效能超越同級模型
適合硬體較弱的電腦

效能測試

問題：解釋什麼是量子電腦
回應時間：1.2 秒
回答品質：★★★★☆
速度表現：★★★★★

推薦場景：需要快速回應、硬體配置較低、或作為測試用的首選模型。

輕量級模型：Gemma & Phi

Gemma (Google)

2B / 7B 1.6GB / 4.9GB

Google 開發，品質有保證
2B 版本超輕量
適合入門學習
指令遵循能力佳

Phi (Microsoft)

2.7B 1.6GB

微軟研究團隊開發
極致輕量化設計
低資源需求（4GB RAM）
適合嵌入式應用

適用場景：記憶體不足、老舊電腦、或需要快速回應但對品質要求不高的場景。

模型選擇決策指南

你的 RAM 有多少？

4-8GB → Phi、Gemma:2b
8-16GB → Llama3:8b、Mistral
16-32GB → Llama3:8b + 進階功能
32GB+ → 可考慮 70B 模型

主要用途是什麼？

程式碼 → Llama 3
中文對話 → Llama 3、Mistral
快速回應 → Mistral
學習測試 → Gemma、Phi

硬碟空間？

<5GB → Phi (1.6GB)
5-10GB → Mistral (4.1GB)
10-20GB → Llama3 (4.7GB)
50GB+ → 多模型並存

有獨立顯卡嗎？

NVIDIA GPU → 大幅加速
AMD GPU → 部分支援
Apple Silicon → 優秀支援
僅 CPU → 選擇小模型

效能優化建議

硬體升級

增加 RAM 是最有效的
SSD 比 HDD 快很多
獨顯可加速 5-10 倍
Apple M 系列效能佳

軟體調整

關閉不需要的程式
使用量化版模型
調低 Context Length
啟用 GPU 加速

使用技巧

首次載入較慢屬正常
保持 Ollama 背景運行
問題越簡短越快
避免同時跑多任務

最佳實踐：16GB RAM + SSD + 獨顯 = 流暢的本地 AI 體驗

Part 4 總結

系統架構

三層架構清晰分工
Ollama 作為核心服務
REST API 標準介面

模型選擇

Llama 3：全能首選
Mistral：速度優先
Gemma/Phi：輕量入門

下一步

在 Part 5，我們將透過5 個實戰案例，展示如何將本地 AI 應用在真實場景中！

記住：根據你的硬體配置、使用場景、語言需求，選擇最適合的模型。
沒有最好的模型，只有最適合的模型！