📷

AI Agent 自主代理三王實戰

CH8 | 龍蝦也會看圖和自拍

龍蝦不只會讀文字,還有一雙「眼睛」——傳照片讓它辨識、分析,甚至讓它「自拍」回傳給你

📋 本章學習目標

  • 了解龍蝦的圖片辨識(Vision)能力,知道哪些模型支援
  • 實際傳照片給龍蝦,體驗各種辨識場景
  • 安裝 Clawra 自拍功能,讓龍蝦擁有虛擬外貌
  • 學會自拍功能的各種玩法和客製化方式
1 / 10

8.1 龍蝦看得懂照片 — Vision 功能

Vision(視覺辨識)是現代 AI 模型的內建能力。你傳一張照片給龍蝦,AI 模型會分析圖片裡的內容——辨識物品、讀取文字、理解場景——然後告訴你它看到了什麼。

不需要額外安裝,只要你用的 AI 模型有支援 Vision,龍蝦就天生看得懂圖片。

AI 模型支援 Vision備註
Gemini 3 Flash✅ 支援免費、速度快,推薦
Gemini 3.1 Pro✅ 支援辨識更精準
GPT-5.2✅ 支援強大的圖片理解能力
Claude Sonnet 4.6✅ 支援文字提取特別強
Claude Opus 4.6✅ 支援最強的分析能力
Ollama — llama3.1❌ 不支援純文字模型
Ollama — llava✅ 支援Ollama 上的視覺模型
Ollama — llama3.2-vision✅ 支援較新的視覺模型
💡 Ollama 用戶注意:預設的 llama3.1 看不懂圖片,需另外下載視覺模型:ollama pull llava

怎麼用?——就是傳照片

打開 LINE 或 Telegram,傳一張照片給龍蝦,然後附上問題。就這樣。先傳照片再打字,或照片和文字一起傳都行。

2 / 10

8.2 Vision 實戰:10 種好用的辨識場景(上)

Vision 辨識範例

🔍 辨識物品

拍一張桌上的東西,問「這張照片裡有什麼?」龍蝦會列出所有物品,甚至辨認品牌型號。

🍳 食材辨識 + 食譜

打開冰箱拍一張,問「這些食材可以煮什麼菜?」龍蝦會推薦菜色和詳細作法。

🖥️ 錯誤訊息分析

截圖電腦上的錯誤訊息,問「怎麼解決?」不用打字描述問題,直接截圖就好。

🌍 翻譯外文

拍外文菜單、路標、說明書,問「幫我翻成中文」。出國旅遊神器,比翻譯 App 更方便。

📄 文件摘要

拍課本、白板筆記、投影片,問「幫我整理重點」。龍蝦自動讀取內容做摘要。

3 / 10

8.2 Vision 實戰:10 種好用的辨識場景(下)

🌸 植物 / 動物辨識

拍一朵花、一棵樹、一隻昆蟲,問「這是什麼?」龍蝦會辨認種類並分享有趣的小知識。

👔 穿搭建議

拍你今天的穿搭,問「去面試適合嗎?」龍蝦會分析配色和場合適合度。

📐 數學題 / 作業

拍一道數學題,問「幫我解這一題」。龍蝦會一步步解題給你看。

🛒 商品比價

拍商品包裝或標籤,問「CP 值高嗎?」龍蝦根據品牌規格給你建議。

📊 圖表分析

傳一張報表或圖表,問「幫我解讀重點」。龍蝦幫你分析趨勢和關鍵數據。

✅ 這些功能在 LINE 和 Telegram 上都能用,操作方式完全一樣——傳照片 + 附上問題。
4 / 10

8.3 圖片辨識的限制與注意事項

龍蝦的視覺能力很強,但有幾個限制要知道:

📸 照片品質很重要

模糊、太暗、角度太歪的照片都會降低準確度。拍的時候盡量:

  • 對焦清楚
  • 光線充足
  • 目標物佔主要位置
  • 文字盡量正面拍攝

🔒 隱私考量

雲端 AI 模型(Gemini、GPT、Claude)會將照片送到 AI 公司伺服器處理。

敏感資訊(身分證、銀行帳單、醫療紀錄)請三思再傳。

在意隱私可用 Ollama 的 llava——照片完全在本地處理。

⚠️ 不是 100% 準確

AI 視覺辨識有時會出錯,特別是:

  • 小字體或手寫字
  • 很相似的物品
  • 需要專業知識的內容

把辨識結果當作參考,重要決策交給專業人士。

5 / 10

8.4 龍蝦會自拍 — 認識 Clawra

Clawra 是 OpenClaw 社群開發的自拍技能。裝了之後,龍蝦就擁有「虛擬外貌」——你可以指定穿搭、場景、動作,它會用 AI 繪圖生成照片回傳。

Clawra 運作流程

💬

你說「拍張自拍」

🧠

龍蝦理解請求,提取關鍵字

🎨

送給 fal.ai 搭配角色參考圖

🖼️

AI 繪圖服務生成照片

📲

龍蝦回傳到你的聊天室

整個過程通常在 5-10 秒內完成

8.5 安裝 Clawra — 先申請 fal.ai API Key

fal.ai API Key
  1. 前往 https://fal.ai/dashboard/keys
  2. 用 Google 或 GitHub 帳號一鍵登入
  3. 點擊「Create」按鈕,產生 API Key
  4. 複製 API Key,存到帳號清單裡
💡 fal.ai 有免費額度,足夠學習和日常使用。每個月重置。偶爾讓龍蝦自拍,免費額度綽綽有餘。
6 / 10

8.5 安裝 Clawra(續)

一鍵安裝

# 一鍵安裝 Clawra
npx clawra@latest

# 安裝完成後重啟龍蝦
openclaw gateway restart

安裝程式會自動:檢查 OpenClaw → 要求你輸入 fal.ai API Key → 安裝技能 → 修改設定檔 → 更新 SOUL.md。

如果一鍵安裝失敗——手動安裝

# 手動步驟 1:下載 Clawra 技能
git clone https://github.com/SumeLabs/clawra $env:USERPROFILE\.openclaw\skills\clawra-selfie

# 手動步驟 2:修改 openclaw.json,在 skills.entries 加入:
"clawra-selfie": {
  "enabled": true,
  "env": { "FAL_KEY": "你的fal.ai API Key" }
}

# 手動步驟 3:更新 SOUL.md,加入 Clawra 自拍能力描述

# 手動步驟 4:重啟 Gateway
openclaw gateway restart
試試看:安裝完成後,在 LINE 或 Telegram 傳訊息給龍蝦:「拍張自拍給我看」
Clawra 自拍 7 / 10

8.7 自拍功能玩法大全

Clawra 能根據你的描述,生成各種不同場景、穿搭、表情的照片。你說得越具體,結果越貼近想像

🤳 基本自拍

你說的話龍蝦做什麼
拍張自拍基本自拍照
讓我看看你自拍照回傳
Send me a selfie英文也通

👗 指定穿搭和造型

你說的話龍蝦會拍
穿牛仔外套自拍一張牛仔外套全身照
戴墨鏡拍一張帥的戴墨鏡的酷照
穿西裝打領帶正式穿搭照

🏖️ 指定場景和地點

你說的話龍蝦會拍
在咖啡廳拍一張咖啡廳場景照
在海邊自拍海灘場景照
在東京街頭拍一張東京街景背景照

🎭 組合技

你說的話龍蝦會拍
穿白色洋裝在花園裡白洋裝 + 花園
戴棒球帽在球場比讚帽子 + 球場 + 比讚
穿雨衣撐傘在雨天街頭雨衣 + 雨天街景
💡 龍蝦會自動判斷你的描述偏向穿搭還是場景,選擇最合適的拍照模式。你不需要手動選擇。
8 / 10

8.8 拍照模式與客製化外貌

兩種拍照模式

模式什麼時候觸發效果觸發關鍵字
Mirror(鏡像模式)描述穿搭、造型時全身照,重點在衣服和整體造型穿、戴、outfit、wearing、fashion
Direct(直拍模式)描述地點、表情時特寫或半身照,重點在場景和表情在...、smile、portrait、cafe、beach

客製化龍蝦的外貌

你可以修改 SOUL.md 來改變龍蝦拍照時的外貌設定:

🤖 科技龍蝦風格

帥氣的科技龍蝦,機械外殼、發光藍色眼睛、未來科技感。

💃 活潑角色風格

活潑、可愛、愛撒嬌的角色。親暱語氣、表情符號。

💼 專業助手風格

簡約商務風格的 AI 助手,乾淨俐落、保持專業形象。

改變繪圖風格

風格關鍵字效果
anime style日系動漫風格
photorealistic超寫實照片風格
pixel art像素復古風格
watercolor painting水彩畫風格
cyberpunk style賽博龐克科幻風格
⚠️ Clawra 常見問題速查
超時沒回應 → fal.ai 伺服器忙碌,稍後再試;檢查 API Key 是否有效
生成失敗 → API Key 格式錯誤 / 免費額度用完 / 描述觸發安全過濾
照片畸形(手指不對、臉部扭曲) → AI 繪圖已知限制,避免手部特寫、多試幾次、用 anime style 較不易出錯
9 / 10

8.10 小結與展望

👁️ Vision 辨識

龍蝦能辨識照片中的物品、文字、場景。傳照片 + 問問題就搞定。

📸 十種實用場景

食材辨識、翻譯外文、錯誤分析、穿搭建議、圖表解讀⋯⋯日常生活超好用

🤳 Clawra 自拍

龍蝦擁有虛擬外貌,指定穿搭、場景、動作,5-10 秒生成照片

🎨 客製化外貌

修改 SOUL.md 和參考圖,打造獨一無二的龍蝦形象。

📖 下一章預告:CH9 三種介面,任你操控
到目前為止你和龍蝦的互動都是透過聊天室。其實龍蝦還有一套完整的管理介面——TUI(終端機介面)、CLI(指令列工具)和 Dashboard(網頁儀表板),讓你的掌控力再上一個層次!

前往 CH9 ➡️
10 / 10