Gemini + Imagen 打造實際 AI 應用

2025-11-07 2min Bobo Chen

課程概述

Gemini 擅長多模態理解，圖片、影片、文字它都能分析；Imagen 則專精於高品質圖片生成。把這兩個模型湊在一起，就能做出一條龍的 AI 應用：從「搞懂使用者要什麼」一路接到「產出視覺內容」。這門課會帶你從架構設計走到生產部署，學會用 Vertex AI 上的 Gemini 與 Imagen 做出真正能上線的多模態應用。

你將學到

理解 Gemini 與 Imagen 各自的定位與互補關係
在 Vertex AI 平台上呼叫 Imagen API 生成與編輯圖片
設計結合 Gemini 文字理解與 Imagen 圖片生成的應用架構
使用 Cloud Run 部署多模態 AI 應用到生產環境
掌握負責任 AI（Responsible AI）在圖片生成中的實踐

核心概念

Gemini vs Imagen：各司其職

面向	Gemini	Imagen
核心能力	多模態理解與推理	高品質圖片生成與編輯
輸入	文字、圖片、影片、音訊	文字描述（prompt）或參考圖片
輸出	文字（含分析、摘要、程式碼）	圖片
典型用途	內容分析、對話、程式碼生成	產品圖片、行銷素材、設計原型
API 存取	Vertex AI Gemini API	Vertex AI Imagen API

兩者搭起來厲害在哪？Gemini 負責讀懂使用者意圖、產出結構化的 prompt，Imagen 再根據這個 prompt 產出符合需求的圖片。

Imagen API 核心功能

Imagen 在 Vertex AI 上提供多種圖片操作：

文字轉圖片（Text-to-Image） — 根據文字描述生成全新圖片，支援多種風格與尺寸
圖片編輯（Image Editing） — 指定圖片中的區域進行修改，例如更換背景、移除物件
圖片放大（Upscaling） — 提升圖片解析度而不損失品質
風格轉換（Style Transfer） — 將一張圖片的風格套用到另一張圖片上

多模態應用架構設計

一個典型的 Gemini + Imagen 應用架構包含以下元件：

前端介面 — 接收使用者的文字描述或上傳圖片（可用 Streamlit、Gradio 或自訂前端）
Gemini 處理層 — 分析使用者意圖、優化 prompt、進行安全檢查
Imagen 生成層 — 根據最佳化後的 prompt 生成或編輯圖片
後處理與儲存 — 將結果儲存到 Cloud Storage，並提供下載連結
Cloud Run 部署 — 以容器化方式部署，自動擴展處理流量

Gemini 作為 Prompt 優化器

直接把使用者的原始描述丟給 Imagen，效果通常不怎麼樣。拿 Gemini 當中間層先把 prompt 優化過一輪，是很關鍵的一招：

使用者輸入：「幫我做一張公司產品的廣告圖」
Gemini 優化後：「A professional product advertisement photo of [product], studio lighting, clean white background, commercial photography style, 4K quality, centered composition」
加入負面 prompt：「blurry, low quality, distorted, watermark, text overlay」

這個 prompt 精煉的流程，能讓 Imagen 的輸出品質明顯變好。

負責任 AI 實踐

在圖片生成這類應用裡，負責任 AI 這件事很重要：

面向	實踐方式
安全過濾	Imagen 內建安全過濾器，自動阻擋有害或不當內容
浮水印	使用 SynthID 技術在生成圖片中嵌入數位浮水印
使用限制	遵守 Google Cloud 的 Acceptable Use Policy
偏見防範	測試不同人群的描述，確保輸出多元且無歧視
透明度	在應用中明確標示「此圖片由 AI 生成」

實作重點

Imagen API 呼叫需先在專案中啟用 Vertex AI API（Imagen 已正式推出，啟用 API 即可使用，毋須額外申請存取權限）；不過 Google Cloud 已建議將舊版 Imagen GA 端點遷移到 Gemini 原生圖片生成模型 gemini-2.5-flash-image，動手做 Lab 前建議先確認目前可用的端點版本
使用 google-genai SDK 可同時呼叫 Gemini 與 Imagen，統一管理認證與設定
Cloud Run 部署時建議設定最低 1 個實例（--min-instances=1）以避免冷啟動延遲
圖片生成的回應時間通常在 5-15 秒，前端需設計適當的載入動畫
常見錯誤：未設定 Cloud Run 的記憶體上限而導致 OOM——圖片處理建議至少配置 1 GiB 記憶體
每張生成的圖片大小約 1-5 MB，建議搭配 Cloud CDN 快取靜態圖片以降低延遲與成本

Skill Badge 指引

Lab 連結：Build Real World AI Applications with Gemini and Imagen — Google Cloud Skills Boost

延伸學習

Gemini API 動手做 — 仔細看看 Gemini API 的各種進階用法
Prompt Engineering 技巧 — 學會把 prompt 設計得更精準
GCP PCA 課程：AI/ML 與 Vertex AI — 搞懂 Vertex AI 平台的完整功能與 MLOps 流程

Study Jam：Gemini 專業應用 — 7/7 完成查看系列全覽 →

經典架構拆解 · 01 — Netflix 全球串流架構

經典架構拆解 · 02 — Uber 即時派單架構

經典架構拆解 · 03 — Stripe API 冪等性設計

Gemini + Imagen 打造實際 AI 應用

課程概述

你將學到

核心概念

實作重點

Skill Badge 指引

延伸學習

留言討論

歡迎來到登雲學院

你的雲端經驗？

你的目標認證？

每天能學多久？

你的學習計畫準備好了！

課程概述

你將學到

核心概念

實作重點

Skill Badge 指引

延伸學習

相關文章

Gemini + Imagen 打造實際 AI 應用

Gemini 輔助資安工程師

Gemini 輔助 DevOps 工程師

相關學習資源

留言討論