跳至主要內容
ESC
Study Jam:GenAI 開發者實戰 — 第 12/29 篇

圖片生成技術導論

GCP

課程概述

圖片生成大概是生成式 AI 裡最吸睛的應用了,畢竟結果直接用眼睛就看得到。這堂課帶你看看圖片生成技術一路怎麼演進,仔細認識目前的主流架構 Diffusion Model,還有 Google 的 Imagen 模型怎麼在 Vertex AI 上提供企業級的圖片生成能力。

你將學到

  • 追溯圖片生成技術的演進:從 GAN 到 VAE 再到 Diffusion Model
  • 解釋 Diffusion Model 的正向擴散與逆向去噪過程
  • 理解文字到圖片(Text-to-Image)的技術架構
  • 掌握 Google Imagen 在 Vertex AI 上的使用方式與限制

核心概念

圖片生成的三代技術

圖片生成技術主要走過三個世代。第一代是 GAN(生成對抗網路),靠生成器跟判別器互相對抗來訓練、產生圖片,問題是訓練不穩定,又容易出現模式崩潰。第二代是 VAE(變分自編碼器),把圖片編碼到潛在空間再解碼回來,訓練是穩了,但生成品質就有限。第三代就是 Diffusion Model(擴散模型),也是現在的主流架構,生成品質明顯把前兩代甩在後面。

Diffusion Model 的運作原理

Diffusion Model 的核心概念,意外地簡單。正向過程(Forward Process)就是一步步在圖片上加高斯噪聲,加到整張變成純隨機噪聲為止。逆向過程(Reverse Process)則是訓練一個神經網路,學會每一步「去掉一點噪聲」,從純噪聲一路還原出清晰的圖片。再加上文字條件(Text Conditioning),模型就能照著文字描述產生對應的圖片。

Text-to-Image 的技術架構

一個典型的文字到圖片系統,主要有三個組件:文字編碼器(像 CLIP 或 T5)負責把文字描述轉成語義向量;Diffusion Model 在潛在空間裡照著文字條件去噪、生成;解碼器(Decoder)再把潛在空間的表徵轉回像素空間的高解析度圖片。這三者配合得好不好,直接決定了生成的圖片跟文字描述對不對得上。

Google Imagen 的特色

Imagen 是 Google 的旗艦圖片生成模型,在 Vertex AI 上提供服務。跟其他模型比,Imagen 在文字-圖片對齊、照片寫實度,還有複雜場景的構圖上都表現得很好。它同時支援圖片生成(Text-to-Image)、圖片編輯(Inpainting / Outpainting)、風格轉換,還有超解析度放大這些功能。企業版本則內建安全篩選,擋掉不當內容。

實作重點

  • 在 Vertex AI Studio 中使用 Imagen 模型進行文字到圖片的生成實驗
  • 嘗試不同風格的 Prompt(寫實照片、插畫、3D 渲染),觀察模型的風格適應能力
  • 測試 Negative Prompt(排除不想要的元素)對生成結果的影響
  • 了解 Imagen 的使用限制:不生成特定人物的面孔、內建版權保護機制

Lab 導讀

Lab 連結Introduction to Image Generation — Google Cloud Skills Boost

這個 Lab 以技術原理講解為主,搭配視覺化的演示來說明 Diffusion Model 怎麼運作。測驗重點包括 GAN、VAE、Diffusion Model 三者的比較,還有 Forward / Reverse Process 的概念。建議特別搞懂一件事:Diffusion Model 為什麼在品質上贏過 GAN?關鍵就在於它訓練過程比較穩,多樣性也更好。

延伸學習

Study Jam:GenAI 開發者實戰 — 12/29 完成 查看系列全覽 →

留言討論

徽章解鎖!