Part 3 Image to Music

圖片生成音樂

Lyria 3 最令人驚豔的功能——看圖作曲，上傳一張照片就能自動配樂

視覺分析情緒感知自動配樂多模態 AI

運作原理：AI 如何「看圖聽音」？

Gemini 運用多模態理解能力，從三個維度深度分析你上傳的圖片，再由 Lyria 3 模型將分析結果轉化為 30 秒的完整音樂。

👁️

視覺元素辨識

偵測圖片中的場景（海灘、森林、城市）、人物表情、動物、天氣狀況等具體物件，建立「畫面語意」。

🎨

色彩與光線分析

暖色調（橙、紅、黃）傾向歡快溫暖；冷色調（藍、灰、黑）傾向沉靜憂鬱；高對比則偏向戲劇性與張力。

💜

情緒綜合判斷

結合場景語意與色彩資訊，判定圖片傳達的情緒：寧靜、興奮、浪漫、神秘、壯闊等，以此決定曲風、節奏與配器。

📷 上傳圖片

➔

🧠 Gemini 視覺分析

➔

🎶 情緒 → 音樂參數

➔

🎵 Lyria 3 生成 30 秒音樂

💡 Gemini 不只是辨識「圖片裡有什麼」，更能理解整張圖的構圖美學與敘事氛圍，因此同樣是海灘照，夕陽和正午會產出截然不同的配樂。

Step 1 & 2：準備圖片並上傳

1 準備一張圖片

選擇你想要配樂的圖片，以下類型都可以：

風景照片（山、海、草原、城市）
旅遊照、生活紀錄
寵物照片、人物肖像
藝術作品、插畫
任何有情緒感的照片

⚠️ 圖片建議：選擇情緒明確、主題清晰的圖片，效果會比雜亂的截圖或低解析度照片好很多。

2 上傳到 Gemini

在 Gemini 對話介面中，點擊輸入框旁的「附件」或「+」按鈕，選擇你的圖片上傳。

Step 3 & 4：輸入指令並取得結果

3 加上音樂指令

上傳圖片後，在輸入框中搭配音樂相關的提示文字，然後一起送出。

中文提示

根據這張圖片的氛圍，幫我創作一首配樂

英文提示（效果更佳）

Look at this photo and create a music track that captures its mood and atmosphere

4 試聽結果

Gemini 分析圖片後，會自動生成一段 30 秒的配樂。你可以：

▶️ 播放試聽——確認是否符合期待
📥 下載儲存——保存到本機使用
🔗 分享連結——傳給朋友一起聽
🔄 重新生成——不滿意可以繼續調整

✅ 如果對結果不滿意，可以追加文字修改需求，例如：節奏再慢一點，換成鋼琴為主

圖片配樂情境對照表

不同類型的圖片，Gemini 會自動匹配不同的音樂風格與樂器配置：

圖片類型	可能的音樂風格	典型樂器	情緒關鍵字
🌅 海邊夕陽	環境音樂 (Ambient)	合成器、海浪音效、輕柔鋼琴	平靜、遼闊、治癒
🎂 生日派對	流行舞曲 (Pop/Dance)	電子鼓、合成器、歡快人聲	歡樂、活力、慶祝
🌲 森林小徑	民謠 (Folk)	木吉他、口琴、長笛、自然音效	清新、寧靜、自在
🌃 城市夜景	電子爵士 (Electro Jazz)	薩克斯風、電子節拍、貝斯	都會、時尚、微醺
🏔️ 雪山壯景	管弦樂 (Orchestral)	弦樂、銅管、定音鼓、豎琴	壯闊、磅礡、史詩
🐶 可愛寵物	小品音樂 (Light Music)	烏克麗麗、木琴、口哨、手拍	俏皮、溫馨、可愛
🌁 秋天楓葉	古典鋼琴 (Classical)	鋼琴、大提琴、小提琴	懷舊、溫暖、詩意
🎆 跨年煙火	電子舞曲 (EDM)	合成器、電子鼓、低音	興奮、熱烈、震撼

💡 以上只是 AI 的「常見傾向」，實際結果會因圖片細節（光線、構圖、色彩飽和度）而有所不同。你也可以透過文字指令來覆蓋 AI 的判斷。

進階技巧：圖片 + 文字混合提示

只上傳圖片時，AI 會「自由發揮」；加上文字描述後，你可以精確控制輸出的風格、樂器、節奏。

📷

圖片提供

場景氛圍、色彩基調、整體情緒方向——讓 AI 知道「感覺」。

✍️

文字補充

指定曲風、樂器、速度、人聲偏好——讓 AI 知道「要求」。

🎹

結果產出

AI 綜合兩者資訊，產出更精確、更符合需求的 30 秒音樂。

範例指令 A — 秋天楓葉照

根據這張秋天楓葉的照片，創作一首帶有鋼琴和大提琴的輕柔古典風配樂，速度慢一些，情緒偏向溫暖懷舊

範例指令 B — 海邊旅遊照（英文，效果更佳）

Based on this beach photo, create an upbeat tropical pop track with ukulele, steel drums, and hand claps. Cheerful and carefree summer vibes. 110 BPM.

✅ 秘訣：混合模式的效果通常比「純圖片」或「純文字」都更好，因為圖片提供了文字難以描述的氛圍細節。

混合提示的進階範例

不同的文字描述會讓同一張圖片產出完全不同的音樂。以下以「城市夜景照」為例：

附加文字指令	預期風格	主要差異
`Jazz piano, smooth and mellow`	爵士鋼琴	慢節奏、溫暖、微醺感
`Energetic EDM with heavy bass`	電子舞曲	快節奏、激昂、派對感
`Cinematic orchestral, dramatic`	電影配樂	壯闊、史詩、有張力
`Lo-fi beats, cozy and chill`	Lo-fi	慢拍、放鬆、有溫度

⚠️ 注意事項：

圖片解析度越高、主題越明確，AI 分析越準確
含有大量文字的截圖（如網頁截圖）效果較差，AI 可能會誤讀
帶有強烈情緒的照片（夕陽、暴風雨、嬰兒微笑）效果最好
如果生成結果偏離預期，嘗試用英文提示詞獲取更佳效果

實戰應用場景

圖片生成音樂功能在以下場景中特別實用：

🎥

旅遊 Vlog 配樂

上傳旅行照片，為每一段旅程自動生成符合當地氛圍的背景音樂，無需苦惱配樂選擇。

📷

社群貼文配樂

Instagram、TikTok 短影音搭配照片生成的原創音樂，讓內容更有個人風格。

🏫

教學簡報配樂

為課堂簡報的每個章節頁面配上對應情緒的背景音樂，讓教學更有感染力。

📚

電子相簿

為家庭相簿、婚禮回憶、畢業紀念等製作專屬配樂，讓回憶更有溫度。

✅ 小結：圖片生成音樂讓「不會形容音樂」的人也能輕鬆配樂——選張照片就好，其餘交給 AI！想要更精準的結果，就加上文字補充說明。

下一章：Part 4 Gem 機器人 ➜