AI Agent 自主代理三王實戰
龍蝦不只會讀文字,還有一雙「眼睛」——傳照片讓它辨識、分析,甚至讓它「自拍」回傳給你
Vision(視覺辨識)是現代 AI 模型的內建能力。你傳一張照片給龍蝦,AI 模型會分析圖片裡的內容——辨識物品、讀取文字、理解場景——然後告訴你它看到了什麼。
不需要額外安裝,只要你用的 AI 模型有支援 Vision,龍蝦就天生看得懂圖片。
| AI 模型 | 支援 Vision | 備註 |
|---|---|---|
| Gemini 3 Flash | ✅ 支援 | 免費、速度快,推薦 |
| Gemini 3.1 Pro | ✅ 支援 | 辨識更精準 |
| GPT-5.2 | ✅ 支援 | 強大的圖片理解能力 |
| Claude Sonnet 4.6 | ✅ 支援 | 文字提取特別強 |
| Claude Opus 4.6 | ✅ 支援 | 最強的分析能力 |
| Ollama — llama3.1 | ❌ 不支援 | 純文字模型 |
| Ollama — llava | ✅ 支援 | Ollama 上的視覺模型 |
| Ollama — llama3.2-vision | ✅ 支援 | 較新的視覺模型 |
llama3.1 看不懂圖片,需另外下載視覺模型:ollama pull llava
打開 LINE 或 Telegram,傳一張照片給龍蝦,然後附上問題。就這樣。先傳照片再打字,或照片和文字一起傳都行。
2 / 10
拍一張桌上的東西,問「這張照片裡有什麼?」龍蝦會列出所有物品,甚至辨認品牌型號。
打開冰箱拍一張,問「這些食材可以煮什麼菜?」龍蝦會推薦菜色和詳細作法。
截圖電腦上的錯誤訊息,問「怎麼解決?」不用打字描述問題,直接截圖就好。
拍外文菜單、路標、說明書,問「幫我翻成中文」。出國旅遊神器,比翻譯 App 更方便。
拍課本、白板筆記、投影片,問「幫我整理重點」。龍蝦自動讀取內容做摘要。
拍一朵花、一棵樹、一隻昆蟲,問「這是什麼?」龍蝦會辨認種類並分享有趣的小知識。
拍你今天的穿搭,問「去面試適合嗎?」龍蝦會分析配色和場合適合度。
拍一道數學題,問「幫我解這一題」。龍蝦會一步步解題給你看。
拍商品包裝或標籤,問「CP 值高嗎?」龍蝦根據品牌規格給你建議。
傳一張報表或圖表,問「幫我解讀重點」。龍蝦幫你分析趨勢和關鍵數據。
龍蝦的視覺能力很強,但有幾個限制要知道:
模糊、太暗、角度太歪的照片都會降低準確度。拍的時候盡量:
雲端 AI 模型(Gemini、GPT、Claude)會將照片送到 AI 公司伺服器處理。
敏感資訊(身分證、銀行帳單、醫療紀錄)請三思再傳。
在意隱私可用 Ollama 的 llava——照片完全在本地處理。
AI 視覺辨識有時會出錯,特別是:
把辨識結果當作參考,重要決策交給專業人士。
Clawra 是 OpenClaw 社群開發的自拍技能。裝了之後,龍蝦就擁有「虛擬外貌」——你可以指定穿搭、場景、動作,它會用 AI 繪圖生成照片回傳。
你說「拍張自拍」
龍蝦理解請求,提取關鍵字
送給 fal.ai 搭配角色參考圖
AI 繪圖服務生成照片
龍蝦回傳到你的聊天室
整個過程通常在 5-10 秒內完成
https://fal.ai/dashboard/keys# 一鍵安裝 Clawra npx clawra@latest # 安裝完成後重啟龍蝦 openclaw gateway restart
安裝程式會自動:檢查 OpenClaw → 要求你輸入 fal.ai API Key → 安裝技能 → 修改設定檔 → 更新 SOUL.md。
# 手動步驟 1:下載 Clawra 技能
git clone https://github.com/SumeLabs/clawra $env:USERPROFILE\.openclaw\skills\clawra-selfie
# 手動步驟 2:修改 openclaw.json,在 skills.entries 加入:
"clawra-selfie": {
"enabled": true,
"env": { "FAL_KEY": "你的fal.ai API Key" }
}
# 手動步驟 3:更新 SOUL.md,加入 Clawra 自拍能力描述
# 手動步驟 4:重啟 Gateway
openclaw gateway restart
7 / 10
Clawra 能根據你的描述,生成各種不同場景、穿搭、表情的照片。你說得越具體,結果越貼近想像。
| 你說的話 | 龍蝦做什麼 |
|---|---|
| 拍張自拍 | 基本自拍照 |
| 讓我看看你 | 自拍照回傳 |
| Send me a selfie | 英文也通 |
| 你說的話 | 龍蝦會拍 |
|---|---|
| 穿牛仔外套自拍一張 | 牛仔外套全身照 |
| 戴墨鏡拍一張帥的 | 戴墨鏡的酷照 |
| 穿西裝打領帶 | 正式穿搭照 |
| 你說的話 | 龍蝦會拍 |
|---|---|
| 在咖啡廳拍一張 | 咖啡廳場景照 |
| 在海邊自拍 | 海灘場景照 |
| 在東京街頭拍一張 | 東京街景背景照 |
| 你說的話 | 龍蝦會拍 |
|---|---|
| 穿白色洋裝在花園裡 | 白洋裝 + 花園 |
| 戴棒球帽在球場比讚 | 帽子 + 球場 + 比讚 |
| 穿雨衣撐傘在雨天街頭 | 雨衣 + 雨天街景 |
| 模式 | 什麼時候觸發 | 效果 | 觸發關鍵字 |
|---|---|---|---|
| Mirror(鏡像模式) | 描述穿搭、造型時 | 全身照,重點在衣服和整體造型 | 穿、戴、outfit、wearing、fashion |
| Direct(直拍模式) | 描述地點、表情時 | 特寫或半身照,重點在場景和表情 | 在...、smile、portrait、cafe、beach |
你可以修改 SOUL.md 來改變龍蝦拍照時的外貌設定:
帥氣的科技龍蝦,機械外殼、發光藍色眼睛、未來科技感。
活潑、可愛、愛撒嬌的角色。親暱語氣、表情符號。
簡約商務風格的 AI 助手,乾淨俐落、保持專業形象。
| 風格關鍵字 | 效果 |
|---|---|
anime style | 日系動漫風格 |
photorealistic | 超寫實照片風格 |
pixel art | 像素復古風格 |
watercolor painting | 水彩畫風格 |
cyberpunk style | 賽博龐克科幻風格 |
anime style 較不易出錯
龍蝦能辨識照片中的物品、文字、場景。傳照片 + 問問題就搞定。
食材辨識、翻譯外文、錯誤分析、穿搭建議、圖表解讀⋯⋯日常生活超好用。
龍蝦擁有虛擬外貌,指定穿搭、場景、動作,5-10 秒生成照片。
修改 SOUL.md 和參考圖,打造獨一無二的龍蝦形象。
📖 下一章預告:CH9 三種介面,任你操控
到目前為止你和龍蝦的互動都是透過聊天室。其實龍蝦還有一套完整的管理介面——TUI(終端機介面)、CLI(指令列工具)和 Dashboard(網頁儀表板),讓你的掌控力再上一個層次!