跳至主要內容
ESC
跳到課程內容
基礎架構管理與 AI/ML AI/ML 架構與 Vertex AI
0%
10 / 25 進階 30 分鐘 00:00

AI/ML 架構與 Vertex AI

掌握 Vertex AI 平台、Gemini 模型、Agent Builder 與 Model Armor,理解 PCA v6.1 新增的 AI/ML 考試領域

2026年3月13日 Updated: 2026年3月20日

v6.1 的重大更新:AI/ML 成為正式考試領域

PCA v6.1 考試指南最引人注目的變更,就是 AI/ML 從「加分題」升格為正式考試領域。這意味著架構師不能再把 AI 當作「以後再學」的選修課題。但請注意——PCA 考的不是讓你手刻模型或調參數,而是 設計 AI/ML 架構的能力:選擇正確的平台、規劃推論服務的擴縮策略、確保 AI 安全與合規。

這一課將完整走過 GCP AI/ML 技術棧,讓你具備架構師視角的 AI 決策能力。

Vertex AI 平台架構

Vertex AI 是 Google Cloud 的統一 AI/ML 平台,整合了從資料準備到模型部署的完整生命週期。對架構師而言,理解它的核心元件比會寫訓練程式碼更重要:

元件功能架構師關注點
AutoML無程式碼模型訓練(表格、影像、文字、影片)適合缺乏 ML 團隊的企業快速起步
Custom Training自訂訓練容器,支援 TensorFlow、PyTorch 等需規劃 GPU/TPU 資源與分散式訓練策略
Vertex AI PipelinesML 工作流程編排(基於 Kubeflow / TFX)確保可重現性和 CI/CD 整合
Feature Store集中管理 ML 特徵,支援線上/離線服務避免特徵重複計算,確保訓練與推論一致性
Model Registry統一版本管理所有模型模型治理、A/B 測試和回滾策略
Prediction Endpoints線上推論(即時)與批次推論線上推論需考慮延遲 SLA,批次推論關注吞吐量和成本

💡 考試小提示:當題目描述「團隊沒有 ML 專業背景,但需要建立預測模型」,答案幾乎一定是 AutoML。而「需要完整控制訓練流程和演算法選擇」則指向 Custom Training

Gemini 與基礎模型

Gemini 是 Google 最新的多模態基礎模型家族,是 Vertex AI 生態系的核心。截至 2026 年 3 月,最新版本為 Gemini 3.1

模型定位適用場景成本考量
Gemini 3.1 Pro旗艦級,最強推理複雜多步驟推理、大型程式碼庫、研究分析最高(100 萬 tokens 上下文,1M)
Gemini 3.1 Flash速度與智慧平衡企業級應用、對話系統、內容生成中等(推薦大部分場景)
Gemini 2.5 Flash高性價比大量請求處理、原生音訊、批次任務較低
Gemini 2.0 Flash輕量快速超低延遲場景、聊天機器人最低,適合大規模部署

Gemini 的多模態能力(文字、圖像、音訊、影片、程式碼)讓單一 API 就能處理過去需要多個專用模型的任務。架構師的決策重點在於:

  • 何時使用預訓練 Gemini — 通用任務,直接呼叫 API,零訓練成本
  • 何時微調(Fine-tuning) — 需要領域專業知識或特定格式輸出時,在 Vertex AI 上對 Gemini 進行監督式微調
  • 成本控制 — 按 input/output token 計費,架構設計應考慮 prompt 長度最佳化和 context caching

Agent Builder

Vertex AI Agent Builder 讓你快速建構 AI 代理(Agent)和對話式應用,是企業部署生成式 AI 最直接的途徑:

核心能力

  • RAG(Retrieval Augmented Generation) — 將企業資料(PDF、網頁、資料庫)轉為向量索引,讓模型回答時引用內部知識,大幅降低幻覺(hallucination)
  • Grounding(接地) — 將模型回答與 Google Search 或企業資料來源連結,確保回答有事實根據
  • Vertex AI Search — 提供企業級搜尋引擎,支援結構化與非結構化資料,可整合至 Agent

架構師思考

Agent Builder 的關鍵設計決策是資料來源的選擇與安全控管——哪些資料可以被 RAG 索引?誰有權存取這些 Agent?如何確保敏感資訊不會透過 AI 回答洩漏?

💡 考試小提示:題目提到「讓員工用自然語言查詢內部文件」或「建立客服聊天機器人並引用公司知識庫」,優先想到 Agent Builder + RAG

Model Garden

Model Garden 是 Vertex AI 的模型市集,提供 150+ 個 Google、開源和第三方模型:

  • Google 模型 — Gemini、Imagen(圖片生成)、Chirp(語音辨識)
  • 開源模型 — Llama、Mistral、Stable Diffusion 等,可一鍵部署至 Vertex AI Endpoint
  • 模型評估 — 內建評估框架,比較不同模型在你的任務上的表現

架構師應善用 Model Garden 的一鍵部署能力來快速原型驗證,再決定是否需要微調或自訓練模型。

Model Armor:AI 安全防線

Model Armor 是 GCP 的 AI 安全護欄(guardrail)服務,這是 PCA 考試中負責任 AI(Responsible AI) 議題的核心:

防護面向功能架構師責任
內容過濾偵測並封鎖有害、暴力、色情內容根據業務場景設定適當的安全等級
Prompt Injection 防護阻擋惡意提示注入攻擊在所有使用者可輸入的 AI 介面前部署
PII 偵測識別並遮蔽個人資訊醫療、金融等受規管產業必備
安全評分(Safety Ratings)量化內容風險分數設計降級策略——高風險回答自動轉人工

架構師在設計 AI 系統時,Model Armor 不是選配,而是必要元件。任何面向使用者的生成式 AI 應用,都必須有安全護欄的設計。

💡 考試小提示:當題目涉及「AI 安全」「防止不當內容」「PII 保護」時,Model Armor 是關鍵答案。記住:負責任 AI 是架構設計的一部分,不是事後補救。

AI Hypercomputer:ML 基礎設施

AI Hypercomputer 是 Google 專為 AI/ML 工作負載打造的基礎設施架構,整合了最新加速器(TPU v6e Trillium、A3 Ultra H200)、開放軟體框架和動態工作負載排程:

加速器定位最佳場景
TPU v6e(Trillium)最新一代 Google 自研張量處理器大規模 LLM 訓練與推論、最佳性價比
TPU v5p上一代旗艦 TPU超大規模訓練(數萬 chip)
A3 Ultra GPU VM(H200)最新 NVIDIA GPU,較 H100 記憶體翻倍超大模型訓練、長上下文推論
A3 GPU VM(H100)高階 NVIDIA GPU多框架 ML 訓練、推論、HPC
G2 GPU VM(L4)推論最佳化 GPU成本效益推論、影片轉碼

GPU vs TPU 選擇指南

  • 選 TPU — 使用 TensorFlow/JAX、超大規模訓練(數千個加速器)、Google 生態系深度整合(v6e Trillium 同時適合訓練與推論)
  • 選 GPU — PyTorch 為主、需要多框架相容性、推論服務、已有 CUDA 程式碼(H200 適合需要大量 HBM 記憶體的場景)

BigQuery ML:SQL 中的機器學習

BigQuery ML(BQML) 讓資料分析師直接在 SQL 中建立和執行 ML 模型,無需搬移資料:

  • 快速原型 — 用 CREATE MODEL 語句在分鐘內建立迴歸、分類、時間序列模型
  • Vertex AI 整合 — 將 BQML 模型匯出至 Model Registry,部署為線上推論端點
  • 典型場景 — 客戶流失預測、需求預測、異常偵測,資料已在 BigQuery 中時特別高效

💡 考試小提示:題目描述「資料已在 BigQuery、分析團隊熟悉 SQL、需要快速建立預測模型」,BigQuery ML 是最佳答案。如果需要更複雜的模型或自訂訓練,才升級到 Vertex AI。

AI/ML 架構決策框架

面對考試中的 AI/ML 架構題,使用以下決策矩陣快速收斂答案:

需求情境推薦方案理由
使用現成 AI 能力,不訓練模型Gemini API / Pre-trained APIs零訓練成本,直接呼叫
有結構化資料,快速建模AutoML 或 BigQuery MLAutoML 適合圖片/文字,BQML 適合表格資料
需要完整控制模型架構和訓練Vertex AI Custom Training自訂容器、分散式訓練、超參數調整
即時回應(< 100ms)線上推論端點常駐 endpoint,低延遲
大量資料批次預測批次推論成本更低,無需常駐資源
使用開源模型Model Garden → Vertex AI Endpoint一鍵部署,託管基礎設施
建立 AI 對話應用Agent Builder + RAG企業知識整合,減少幻覺
資料已在 BigQuery,團隊懂 SQLBigQuery ML無需搬移資料,學習曲線最低

ML 工作負載成本優化

  • 訓練階段 — Spot VM 相較隨需價可省 60-91% 成本,先占式 TPU 同樣可大幅降低成本
  • 推論階段 — 根據流量模式選擇自動擴縮至零(Cloud Run + GPU)或常駐端點
  • 模型選擇 — 小任務用 Gemini Flash 而非 Pro,token 成本差數倍
  • Context Caching — 重複使用相同 prompt 前綴時啟用快取,減少 token 消耗

實戰情境

情境一:Cymbal Retail 商品推薦系統

背景:Cymbal Retail 是一家全通路零售商,擁有 5000 萬件商品資料和每日千萬級的用戶互動紀錄。他們希望建立個人化商品推薦引擎,同時為客服中心部署 AI 助手。

架構決策

  • 推薦引擎 — 使用 Vertex AI Custom Training 訓練協同過濾模型,搭配 Feature Store 管理用戶行為特徵和商品特徵,確保線上推論時取得最新特徵值
  • 線上推論 — 部署至 Vertex AI Prediction Endpoint(GPU 加速),設定自動擴縮應對促銷流量高峰
  • 客服 AI 助手 — 使用 Agent Builder 建構 RAG 應用,將退換貨政策、商品目錄和常見問題索引為知識庫,搭配 Model Armor 確保回答不含不當內容
  • 快速 A/B 測試 — 透過 Model Registry 管理多版本推薦模型,使用流量分割進行線上實驗

情境二:KnightMotives 預測性維護

背景:KnightMotives Automotive 在全球 12 座工廠部署了 IoT 感測器,每秒產生大量設備數據。他們需要預測設備故障以避免非計劃停機。

架構決策

  • 資料匯集 — IoT 數據透過 Pub/Sub 串流至 BigQuery,作為統一的分析資料湖
  • 快速原型 — 先用 BigQuery ML 建立時間序列異常偵測模型,驗證預測可行性
  • 正式模型 — 確認可行後,使用 Vertex AI Custom TrainingA3 GPU VM 上訓練更精確的深度學習模型
  • 邊緣推論 — 將模型匯出為 TensorFlow Lite,部署至工廠邊緣節點實現毫秒級故障預警
  • 批次分析 — 每日執行 批次推論 產出設備健康報告,推送至維護團隊的儀表板

重點整理

  • AI/ML 是 PCA v6.1 的正式考試領域——架構師需要理解 ML 架構設計,而非模型開發細節
  • Vertex AI 是統一平台,涵蓋 AutoML、Custom Training、Pipelines、Feature Store、Model Registry 和 Prediction Endpoints
  • Gemini 模型家族按效能分層(Pro > Flash),根據任務複雜度和成本需求選擇
  • Agent Builder + RAG 是企業生成式 AI 應用的標準架構,搭配 Grounding 減少幻覺
  • Model Armor 是必要的安全設計,不是事後補救——內容過濾、Prompt Injection 防護、PII 偵測
  • BigQuery ML 是「資料在 BigQuery + 團隊懂 SQL」場景的最佳選擇,學習曲線最低
  • TPU 適合大規模訓練(TensorFlow/JAX)GPU 適合多框架相容和推論服務
  • 成本優化三招:訓練用 Spot VM、推論按需擴縮、模型選擇 right-sizing

下一步

在下一課中,我們將探討基礎設施即程式碼與自動化,掌握 Terraform、Cloud Build 與 GCP 開發工具鏈的架構最佳實踐。

徽章解鎖!