Part 3 Image to Music

圖片生成音樂

Lyria 3 最令人驚豔的功能——看圖作曲,上傳一張照片就能自動配樂

視覺分析 情緒感知 自動配樂 多模態 AI

運作原理:AI 如何「看圖聽音」?

Gemini 運用多模態理解能力,從三個維度深度分析你上傳的圖片,再由 Lyria 3 模型將分析結果轉化為 30 秒的完整音樂

👁️

視覺元素辨識

偵測圖片中的場景(海灘、森林、城市)、人物表情、動物、天氣狀況等具體物件,建立「畫面語意」。

🎨

色彩與光線分析

暖色調(橙、紅、黃)傾向歡快溫暖;冷色調(藍、灰、黑)傾向沉靜憂鬱;高對比則偏向戲劇性與張力。

💜

情緒綜合判斷

結合場景語意與色彩資訊,判定圖片傳達的情緒:寧靜、興奮、浪漫、神秘、壯闊等,以此決定曲風、節奏與配器。

📷 上傳圖片
🧠 Gemini 視覺分析
🎶 情緒 → 音樂參數
🎵 Lyria 3 生成 30 秒音樂
💡 Gemini 不只是辨識「圖片裡有什麼」,更能理解整張圖的構圖美學敘事氛圍,因此同樣是海灘照,夕陽和正午會產出截然不同的配樂。

Step 1 & 2:準備圖片並上傳

1 準備一張圖片

選擇你想要配樂的圖片,以下類型都可以:

  • 風景照片(山、海、草原、城市)
  • 旅遊照、生活紀錄
  • 寵物照片、人物肖像
  • 藝術作品、插畫
  • 任何有情緒感的照片
⚠️ 圖片建議:選擇情緒明確、主題清晰的圖片,效果會比雜亂的截圖或低解析度照片好很多。

2 上傳到 Gemini

在 Gemini 對話介面中,點擊輸入框旁的「附件」或「+」按鈕,選擇你的圖片上傳。

上傳按鈕位置示意

Step 3 & 4:輸入指令並取得結果

3 加上音樂指令

上傳圖片後,在輸入框中搭配音樂相關的提示文字,然後一起送出。

中文提示

根據這張圖片的氛圍,幫我創作一首配樂

英文提示(效果更佳)

Look at this photo and create a music track that captures its mood and atmosphere
上傳圖片後加上文字指令

4 試聽結果

Gemini 分析圖片後,會自動生成一段 30 秒的配樂。你可以:

  • ▶️ 播放試聽——確認是否符合期待
  • 📥 下載儲存——保存到本機使用
  • 🔗 分享連結——傳給朋友一起聽
  • 🔄 重新生成——不滿意可以繼續調整
圖片音樂生成完成的結果
✅ 如果對結果不滿意,可以追加文字修改需求,例如:節奏再慢一點,換成鋼琴為主

圖片配樂情境對照表

不同類型的圖片,Gemini 會自動匹配不同的音樂風格與樂器配置:

圖片類型可能的音樂風格典型樂器情緒關鍵字
🌅 海邊夕陽環境音樂 (Ambient)合成器、海浪音效、輕柔鋼琴平靜、遼闊、治癒
🎂 生日派對流行舞曲 (Pop/Dance)電子鼓、合成器、歡快人聲歡樂、活力、慶祝
🌲 森林小徑民謠 (Folk)木吉他、口琴、長笛、自然音效清新、寧靜、自在
🌃 城市夜景電子爵士 (Electro Jazz)薩克斯風、電子節拍、貝斯都會、時尚、微醺
🏔️ 雪山壯景管弦樂 (Orchestral)弦樂、銅管、定音鼓、豎琴壯闊、磅礡、史詩
🐶 可愛寵物小品音樂 (Light Music)烏克麗麗、木琴、口哨、手拍俏皮、溫馨、可愛
🌁 秋天楓葉古典鋼琴 (Classical)鋼琴、大提琴、小提琴懷舊、溫暖、詩意
🎆 跨年煙火電子舞曲 (EDM)合成器、電子鼓、低音興奮、熱烈、震撼
💡 以上只是 AI 的「常見傾向」,實際結果會因圖片細節(光線、構圖、色彩飽和度)而有所不同。你也可以透過文字指令來覆蓋 AI 的判斷。

進階技巧:圖片 + 文字混合提示

只上傳圖片時,AI 會「自由發揮」;加上文字描述後,你可以精確控制輸出的風格、樂器、節奏。

📷

圖片提供

場景氛圍、色彩基調、整體情緒方向——讓 AI 知道「感覺」。

✍️

文字補充

指定曲風、樂器、速度、人聲偏好——讓 AI 知道「要求」。

🎹

結果產出

AI 綜合兩者資訊,產出更精確、更符合需求的 30 秒音樂。

範例指令 A — 秋天楓葉照

根據這張秋天楓葉的照片,創作一首帶有鋼琴和大提琴的輕柔古典風配樂,速度慢一些,情緒偏向溫暖懷舊

範例指令 B — 海邊旅遊照(英文,效果更佳)

Based on this beach photo, create an upbeat tropical pop track with ukulele, steel drums, and hand claps. Cheerful and carefree summer vibes. 110 BPM.
秘訣:混合模式的效果通常比「純圖片」或「純文字」都更好,因為圖片提供了文字難以描述的氛圍細節。

混合提示的進階範例

不同的文字描述會讓同一張圖片產出完全不同的音樂。以下以「城市夜景照」為例:

附加文字指令預期風格主要差異
Jazz piano, smooth and mellow爵士鋼琴慢節奏、溫暖、微醺感
Energetic EDM with heavy bass電子舞曲快節奏、激昂、派對感
Cinematic orchestral, dramatic電影配樂壯闊、史詩、有張力
Lo-fi beats, cozy and chillLo-fi慢拍、放鬆、有溫度
⚠️ 注意事項:
  • 圖片解析度越高、主題越明確,AI 分析越準確
  • 含有大量文字的截圖(如網頁截圖)效果較差,AI 可能會誤讀
  • 帶有強烈情緒的照片(夕陽、暴風雨、嬰兒微笑)效果最好
  • 如果生成結果偏離預期,嘗試用英文提示詞獲取更佳效果

實戰應用場景

圖片生成音樂功能在以下場景中特別實用:

🎥

旅遊 Vlog 配樂

上傳旅行照片,為每一段旅程自動生成符合當地氛圍的背景音樂,無需苦惱配樂選擇。

📷

社群貼文配樂

Instagram、TikTok 短影音搭配照片生成的原創音樂,讓內容更有個人風格。

🏫

教學簡報配樂

為課堂簡報的每個章節頁面配上對應情緒的背景音樂,讓教學更有感染力。

📚

電子相簿

為家庭相簿、婚禮回憶、畢業紀念等製作專屬配樂,讓回憶更有溫度。

小結:圖片生成音樂讓「不會形容音樂」的人也能輕鬆配樂——選張照片就好,其餘交給 AI!想要更精準的結果,就加上文字補充說明。
下一章:Part 4 Gem 機器人 ➜