跳至主要內容
ESC
Study Jam:Gemini 專業應用 — 第 7/7 篇

Gemini + Imagen 打造實際 AI 應用

GCP

課程概述

Gemini 擅長多模態理解,圖片、影片、文字它都能分析;Imagen 則專精於高品質圖片生成。把這兩個模型湊在一起,就能做出一條龍的 AI 應用:從「搞懂使用者要什麼」一路接到「產出視覺內容」。這門課會帶你從架構設計走到生產部署,學會用 Vertex AI 上的 Gemini 與 Imagen 做出真正能上線的多模態應用。

你將學到

  • 理解 Gemini 與 Imagen 各自的定位與互補關係
  • 在 Vertex AI 平台上呼叫 Imagen API 生成與編輯圖片
  • 設計結合 Gemini 文字理解與 Imagen 圖片生成的應用架構
  • 使用 Cloud Run 部署多模態 AI 應用到生產環境
  • 掌握負責任 AI(Responsible AI)在圖片生成中的實踐

核心概念

Gemini vs Imagen:各司其職

面向GeminiImagen
核心能力多模態理解與推理高品質圖片生成與編輯
輸入文字、圖片、影片、音訊文字描述(prompt)或參考圖片
輸出文字(含分析、摘要、程式碼)圖片
典型用途內容分析、對話、程式碼生成產品圖片、行銷素材、設計原型
API 存取Vertex AI Gemini APIVertex AI Imagen API

兩者搭起來厲害在哪?Gemini 負責讀懂使用者意圖、產出結構化的 prompt,Imagen 再根據這個 prompt 產出符合需求的圖片。

Imagen API 核心功能

Imagen 在 Vertex AI 上提供多種圖片操作:

  • 文字轉圖片(Text-to-Image) — 根據文字描述生成全新圖片,支援多種風格與尺寸
  • 圖片編輯(Image Editing) — 指定圖片中的區域進行修改,例如更換背景、移除物件
  • 圖片放大(Upscaling) — 提升圖片解析度而不損失品質
  • 風格轉換(Style Transfer) — 將一張圖片的風格套用到另一張圖片上

多模態應用架構設計

一個典型的 Gemini + Imagen 應用架構包含以下元件:

  1. 前端介面 — 接收使用者的文字描述或上傳圖片(可用 Streamlit、Gradio 或自訂前端)
  2. Gemini 處理層 — 分析使用者意圖、優化 prompt、進行安全檢查
  3. Imagen 生成層 — 根據最佳化後的 prompt 生成或編輯圖片
  4. 後處理與儲存 — 將結果儲存到 Cloud Storage,並提供下載連結
  5. Cloud Run 部署 — 以容器化方式部署,自動擴展處理流量

Gemini 作為 Prompt 優化器

直接把使用者的原始描述丟給 Imagen,效果通常不怎麼樣。拿 Gemini 當中間層先把 prompt 優化過一輪,是很關鍵的一招:

  • 使用者輸入:「幫我做一張公司產品的廣告圖」
  • Gemini 優化後:「A professional product advertisement photo of [product], studio lighting, clean white background, commercial photography style, 4K quality, centered composition」
  • 加入負面 prompt:「blurry, low quality, distorted, watermark, text overlay」

這個 prompt 精煉的流程,能讓 Imagen 的輸出品質明顯變好。

負責任 AI 實踐

在圖片生成這類應用裡,負責任 AI 這件事很重要:

面向實踐方式
安全過濾Imagen 內建安全過濾器,自動阻擋有害或不當內容
浮水印使用 SynthID 技術在生成圖片中嵌入數位浮水印
使用限制遵守 Google Cloud 的 Acceptable Use Policy
偏見防範測試不同人群的描述,確保輸出多元且無歧視
透明度在應用中明確標示「此圖片由 AI 生成」

實作重點

  • Imagen API 呼叫需先在專案中啟用 Vertex AI API,並申請 Imagen 存取權限
  • 使用 google-genai SDK 可同時呼叫 Gemini 與 Imagen,統一管理認證與設定
  • Cloud Run 部署時建議設定最低 1 個實例(--min-instances=1)以避免冷啟動延遲
  • 圖片生成的回應時間通常在 5-15 秒,前端需設計適當的載入動畫
  • 常見錯誤:未設定 Cloud Run 的記憶體上限而導致 OOM——圖片處理建議至少配置 1 GiB 記憶體
  • 每張生成的圖片大小約 1-5 MB,建議搭配 Cloud CDN 快取靜態圖片以降低延遲與成本

Skill Badge 指引

Lab 連結Build Real World AI Applications with Gemini and Imagen — Google Cloud Skills Boost

延伸學習

Study Jam:Gemini 專業應用 — 7/7 完成 查看系列全覽 →

留言討論

徽章解鎖!