本地 AI 對話平台由三個層次組成:
功能:提供互動介面
Ollama 核心職責:
模型運作方式:
| 端點 | 方法 | 功能 | 使用情境 |
|---|---|---|---|
/api/generate |
POST | 生成回應 | 發送問題,取得 AI 回答 |
/api/chat |
POST | 多輪對話 | 保留對話歷史的連續對話 |
/api/tags |
GET | 列出模型 | 查詢已下載的模型清單 |
/api/pull |
POST | 下載模型 | 透過 API 下載新模型 |
/api/embeddings |
POST | 產生向量 | 將文字轉換為向量(RAG 應用) |
http://localhost:11434
| 比較項目 | 本地 AI | 雲端 AI |
|---|---|---|
| 費用 | 完全免費(僅硬體成本) | $0.5-$20/百萬 tokens |
| 隱私 | 100% 本機,絕不外洩 | 資料傳送到雲端 |
| 回應速度 | 1-10 秒(取決於硬體) | 1-3 秒 |
| 模型品質 | 中等至良好 | 最頂尖 |
| 硬體需求 | 8-64GB RAM | 僅需能上網 |
| 長文本 | 2K-8K tokens | 128K-1M tokens |
問題:Write a Python sort function 回應時間:1.8 秒(8B) 程式碼正確性:★★★★★ 中文支援:★★★☆☆
問題:解釋什麼是量子電腦 回應時間:1.2 秒 回答品質:★★★★☆ 速度表現:★★★★★
在 Part 5,我們將透過5 個實戰案例,展示如何將本地 AI 應用在真實場景中!