Gemini + Imagen 打造實際 AI 應用
GCP
課程概述
Gemini 擅長多模態理解,圖片、影片、文字它都能分析;Imagen 則專精於高品質圖片生成。把這兩個模型湊在一起,就能做出一條龍的 AI 應用:從「搞懂使用者要什麼」一路接到「產出視覺內容」。這門課會帶你從架構設計走到生產部署,學會用 Vertex AI 上的 Gemini 與 Imagen 做出真正能上線的多模態應用。
你將學到
- 理解 Gemini 與 Imagen 各自的定位與互補關係
- 在 Vertex AI 平台上呼叫 Imagen API 生成與編輯圖片
- 設計結合 Gemini 文字理解與 Imagen 圖片生成的應用架構
- 使用 Cloud Run 部署多模態 AI 應用到生產環境
- 掌握負責任 AI(Responsible AI)在圖片生成中的實踐
核心概念
Gemini vs Imagen:各司其職
| 面向 | Gemini | Imagen |
|---|---|---|
| 核心能力 | 多模態理解與推理 | 高品質圖片生成與編輯 |
| 輸入 | 文字、圖片、影片、音訊 | 文字描述(prompt)或參考圖片 |
| 輸出 | 文字(含分析、摘要、程式碼) | 圖片 |
| 典型用途 | 內容分析、對話、程式碼生成 | 產品圖片、行銷素材、設計原型 |
| API 存取 | Vertex AI Gemini API | Vertex AI Imagen API |
兩者搭起來厲害在哪?Gemini 負責讀懂使用者意圖、產出結構化的 prompt,Imagen 再根據這個 prompt 產出符合需求的圖片。
Imagen API 核心功能
Imagen 在 Vertex AI 上提供多種圖片操作:
- 文字轉圖片(Text-to-Image) — 根據文字描述生成全新圖片,支援多種風格與尺寸
- 圖片編輯(Image Editing) — 指定圖片中的區域進行修改,例如更換背景、移除物件
- 圖片放大(Upscaling) — 提升圖片解析度而不損失品質
- 風格轉換(Style Transfer) — 將一張圖片的風格套用到另一張圖片上
多模態應用架構設計
一個典型的 Gemini + Imagen 應用架構包含以下元件:
- 前端介面 — 接收使用者的文字描述或上傳圖片(可用 Streamlit、Gradio 或自訂前端)
- Gemini 處理層 — 分析使用者意圖、優化 prompt、進行安全檢查
- Imagen 生成層 — 根據最佳化後的 prompt 生成或編輯圖片
- 後處理與儲存 — 將結果儲存到 Cloud Storage,並提供下載連結
- Cloud Run 部署 — 以容器化方式部署,自動擴展處理流量
Gemini 作為 Prompt 優化器
直接把使用者的原始描述丟給 Imagen,效果通常不怎麼樣。拿 Gemini 當中間層先把 prompt 優化過一輪,是很關鍵的一招:
- 使用者輸入:「幫我做一張公司產品的廣告圖」
- Gemini 優化後:「A professional product advertisement photo of [product], studio lighting, clean white background, commercial photography style, 4K quality, centered composition」
- 加入負面 prompt:「blurry, low quality, distorted, watermark, text overlay」
這個 prompt 精煉的流程,能讓 Imagen 的輸出品質明顯變好。
負責任 AI 實踐
在圖片生成這類應用裡,負責任 AI 這件事很重要:
| 面向 | 實踐方式 |
|---|---|
| 安全過濾 | Imagen 內建安全過濾器,自動阻擋有害或不當內容 |
| 浮水印 | 使用 SynthID 技術在生成圖片中嵌入數位浮水印 |
| 使用限制 | 遵守 Google Cloud 的 Acceptable Use Policy |
| 偏見防範 | 測試不同人群的描述,確保輸出多元且無歧視 |
| 透明度 | 在應用中明確標示「此圖片由 AI 生成」 |
實作重點
- Imagen API 呼叫需先在專案中啟用 Vertex AI API,並申請 Imagen 存取權限
- 使用
google-genaiSDK 可同時呼叫 Gemini 與 Imagen,統一管理認證與設定 - Cloud Run 部署時建議設定最低 1 個實例(
--min-instances=1)以避免冷啟動延遲 - 圖片生成的回應時間通常在 5-15 秒,前端需設計適當的載入動畫
- 常見錯誤:未設定 Cloud Run 的記憶體上限而導致 OOM——圖片處理建議至少配置 1 GiB 記憶體
- 每張生成的圖片大小約 1-5 MB,建議搭配 Cloud CDN 快取靜態圖片以降低延遲與成本
Skill Badge 指引
Lab 連結:Build Real World AI Applications with Gemini and Imagen — Google Cloud Skills Boost
延伸學習
- Gemini API 動手做 — 仔細看看 Gemini API 的各種進階用法
- Prompt Engineering 技巧 — 學會把 prompt 設計得更精準
- GCP PCA 課程:AI/ML 與 Vertex AI — 搞懂 Vertex AI 平台的完整功能與 MLOps 流程
Study Jam:Gemini 專業應用 — 7/7 完成
查看系列全覽 →