📷

AI Agent 自主代理三王實戰

CH8 | 龍蝦也會看圖和自拍

龍蝦不只會讀文字，還有一雙「眼睛」——傳照片讓它辨識、分析，甚至讓它「自拍」回傳給你

📋 本章學習目標

了解龍蝦的圖片辨識（Vision）能力，知道哪些模型支援
實際傳照片給龍蝦，體驗各種辨識場景
安裝 Clawra 自拍功能，讓龍蝦擁有虛擬外貌
學會自拍功能的各種玩法和客製化方式

1 / 10

8.1 龍蝦看得懂照片 — Vision 功能

Vision（視覺辨識）是現代 AI 模型的內建能力。你傳一張照片給龍蝦，AI 模型會分析圖片裡的內容——辨識物品、讀取文字、理解場景——然後告訴你它看到了什麼。

不需要額外安裝，只要你用的 AI 模型有支援 Vision，龍蝦就天生看得懂圖片。

AI 模型	支援 Vision	備註
Gemini 3 Flash	✅ 支援	免費、速度快，推薦
Gemini 3.1 Pro	✅ 支援	辨識更精準
GPT-5.2	✅ 支援	強大的圖片理解能力
Claude Sonnet 4.6	✅ 支援	文字提取特別強
Claude Opus 4.6	✅ 支援	最強的分析能力
Ollama — llama3.1	❌ 不支援	純文字模型
Ollama — llava	✅ 支援	Ollama 上的視覺模型
Ollama — llama3.2-vision	✅ 支援	較新的視覺模型

💡 Ollama 用戶注意：預設的 llama3.1 看不懂圖片，需另外下載視覺模型：ollama pull llava

怎麼用？——就是傳照片

打開 LINE 或 Telegram，傳一張照片給龍蝦，然後附上問題。就這樣。先傳照片再打字，或照片和文字一起傳都行。

2 / 10

8.2 Vision 實戰：10 種好用的辨識場景（上）

🔍 辨識物品

拍一張桌上的東西，問「這張照片裡有什麼？」龍蝦會列出所有物品，甚至辨認品牌型號。

🍳 食材辨識 + 食譜

打開冰箱拍一張，問「這些食材可以煮什麼菜？」龍蝦會推薦菜色和詳細作法。

🖥️ 錯誤訊息分析

截圖電腦上的錯誤訊息，問「怎麼解決？」不用打字描述問題，直接截圖就好。

🌍 翻譯外文

拍外文菜單、路標、說明書，問「幫我翻成中文」。出國旅遊神器，比翻譯 App 更方便。

📄 文件摘要

拍課本、白板筆記、投影片，問「幫我整理重點」。龍蝦自動讀取內容做摘要。

3 / 10

8.2 Vision 實戰：10 種好用的辨識場景（下）

🌸 植物 / 動物辨識

拍一朵花、一棵樹、一隻昆蟲，問「這是什麼？」龍蝦會辨認種類並分享有趣的小知識。

👔 穿搭建議

拍你今天的穿搭，問「去面試適合嗎？」龍蝦會分析配色和場合適合度。

📐 數學題 / 作業

拍一道數學題，問「幫我解這一題」。龍蝦會一步步解題給你看。

🛒 商品比價

拍商品包裝或標籤，問「CP 值高嗎？」龍蝦根據品牌規格給你建議。

📊 圖表分析

傳一張報表或圖表，問「幫我解讀重點」。龍蝦幫你分析趨勢和關鍵數據。

✅ 這些功能在 LINE 和 Telegram 上都能用，操作方式完全一樣——傳照片 + 附上問題。

4 / 10

8.3 圖片辨識的限制與注意事項

龍蝦的視覺能力很強，但有幾個限制要知道：

📸 照片品質很重要

模糊、太暗、角度太歪的照片都會降低準確度。拍的時候盡量：

對焦清楚
光線充足
目標物佔主要位置
文字盡量正面拍攝

🔒 隱私考量

雲端 AI 模型（Gemini、GPT、Claude）會將照片送到 AI 公司伺服器處理。

敏感資訊（身分證、銀行帳單、醫療紀錄）請三思再傳。

在意隱私可用 Ollama 的 llava——照片完全在本地處理。

⚠️ 不是 100% 準確

AI 視覺辨識有時會出錯，特別是：

小字體或手寫字
很相似的物品
需要專業知識的內容

把辨識結果當作參考，重要決策交給專業人士。

5 / 10

8.4 龍蝦會自拍 — 認識 Clawra

Clawra 是 OpenClaw 社群開發的自拍技能。裝了之後，龍蝦就擁有「虛擬外貌」——你可以指定穿搭、場景、動作，它會用 AI 繪圖生成照片回傳。

Clawra 運作流程

💬

你說「拍張自拍」

🧠

龍蝦理解請求，提取關鍵字

🎨

送給 fal.ai 搭配角色參考圖

🖼️

AI 繪圖服務生成照片

📲

龍蝦回傳到你的聊天室

整個過程通常在 5-10 秒內完成

8.5 安裝 Clawra — 先申請 fal.ai API Key

前往 https://fal.ai/dashboard/keys
用 Google 或 GitHub 帳號一鍵登入
點擊「Create」按鈕，產生 API Key
複製 API Key，存到帳號清單裡

💡 fal.ai 有免費額度，足夠學習和日常使用。每個月重置。偶爾讓龍蝦自拍，免費額度綽綽有餘。

6 / 10

8.5 安裝 Clawra（續）

一鍵安裝

# 一鍵安裝 Clawra
npx clawra@latest

# 安裝完成後重啟龍蝦
openclaw gateway restart

安裝程式會自動：檢查 OpenClaw → 要求你輸入 fal.ai API Key → 安裝技能 → 修改設定檔 → 更新 SOUL.md。

如果一鍵安裝失敗——手動安裝

# 手動步驟 1：下載 Clawra 技能
git clone https://github.com/SumeLabs/clawra $env:USERPROFILE\.openclaw\skills\clawra-selfie

# 手動步驟 2：修改 openclaw.json，在 skills.entries 加入：
"clawra-selfie": {
  "enabled": true,
  "env": { "FAL_KEY": "你的fal.ai API Key" }
}

# 手動步驟 3：更新 SOUL.md，加入 Clawra 自拍能力描述

# 手動步驟 4：重啟 Gateway
openclaw gateway restart

✅ 試試看：安裝完成後，在 LINE 或 Telegram 傳訊息給龍蝦：「拍張自拍給我看」

7 / 10

8.7 自拍功能玩法大全

Clawra 能根據你的描述，生成各種不同場景、穿搭、表情的照片。你說得越具體，結果越貼近想像。

🤳 基本自拍

你說的話	龍蝦做什麼
拍張自拍	基本自拍照
讓我看看你	自拍照回傳
Send me a selfie	英文也通

👗 指定穿搭和造型

你說的話	龍蝦會拍
穿牛仔外套自拍一張	牛仔外套全身照
戴墨鏡拍一張帥的	戴墨鏡的酷照
穿西裝打領帶	正式穿搭照

🏖️ 指定場景和地點

你說的話	龍蝦會拍
在咖啡廳拍一張	咖啡廳場景照
在海邊自拍	海灘場景照
在東京街頭拍一張	東京街景背景照

🎭 組合技

你說的話	龍蝦會拍
穿白色洋裝在花園裡	白洋裝 + 花園
戴棒球帽在球場比讚	帽子 + 球場 + 比讚
穿雨衣撐傘在雨天街頭	雨衣 + 雨天街景

💡 龍蝦會自動判斷你的描述偏向穿搭還是場景，選擇最合適的拍照模式。你不需要手動選擇。

8 / 10

8.8 拍照模式與客製化外貌

兩種拍照模式

模式	什麼時候觸發	效果	觸發關鍵字
Mirror（鏡像模式）	描述穿搭、造型時	全身照，重點在衣服和整體造型	穿、戴、outfit、wearing、fashion
Direct（直拍模式）	描述地點、表情時	特寫或半身照，重點在場景和表情	在...、smile、portrait、cafe、beach

客製化龍蝦的外貌

你可以修改 SOUL.md 來改變龍蝦拍照時的外貌設定：

🤖 科技龍蝦風格

帥氣的科技龍蝦，機械外殼、發光藍色眼睛、未來科技感。

💃 活潑角色風格

活潑、可愛、愛撒嬌的角色。親暱語氣、表情符號。

💼 專業助手風格

簡約商務風格的 AI 助手，乾淨俐落、保持專業形象。

改變繪圖風格

風格關鍵字	效果
`anime style`	日系動漫風格
`photorealistic`	超寫實照片風格
`pixel art`	像素復古風格
`watercolor painting`	水彩畫風格
`cyberpunk style`	賽博龐克科幻風格

⚠️ Clawra 常見問題速查
超時沒回應 → fal.ai 伺服器忙碌，稍後再試；檢查 API Key 是否有效
生成失敗 → API Key 格式錯誤 / 免費額度用完 / 描述觸發安全過濾
照片畸形（手指不對、臉部扭曲） → AI 繪圖已知限制，避免手部特寫、多試幾次、用 anime style 較不易出錯

9 / 10

8.10 小結與展望

👁️ Vision 辨識

龍蝦能辨識照片中的物品、文字、場景。傳照片 + 問問題就搞定。

📸 十種實用場景

食材辨識、翻譯外文、錯誤分析、穿搭建議、圖表解讀⋯⋯日常生活超好用。

🤳 Clawra 自拍

龍蝦擁有虛擬外貌，指定穿搭、場景、動作，5-10 秒生成照片。

🎨 客製化外貌

修改 SOUL.md 和參考圖，打造獨一無二的龍蝦形象。

📖 下一章預告：CH9 三種介面，任你操控
到目前為止你和龍蝦的互動都是透過聊天室。其實龍蝦還有一套完整的管理介面——TUI（終端機介面）、CLI（指令列工具）和 Dashboard（網頁儀表板），讓你的掌控力再上一個層次！

前往 CH9 ➡️

10 / 10