v6.1 的重大更新:AI/ML 成為正式考試領域
PCA v6.1 考試指南最引人注目的變更,就是 AI/ML 從「加分題」升格為正式考試領域。這意味著架構師不能再把 AI 當作「以後再學」的選修課題。但請注意——PCA 考的不是讓你手刻模型或調參數,而是 設計 AI/ML 架構的能力:選擇正確的平台、規劃推論服務的擴縮策略、確保 AI 安全與合規。
這一課將完整走過 GCP AI/ML 技術棧,讓你具備架構師視角的 AI 決策能力。
Vertex AI 平台架構
Vertex AI 是 Google Cloud 的統一 AI/ML 平台,整合了從資料準備到模型部署的完整生命週期。對架構師而言,理解它的核心元件比會寫訓練程式碼更重要:
| 元件 | 功能 | 架構師關注點 |
|---|---|---|
| AutoML | 無程式碼模型訓練(表格、影像、文字、影片) | 適合缺乏 ML 團隊的企業快速起步 |
| Custom Training | 自訂訓練容器,支援 TensorFlow、PyTorch 等 | 需規劃 GPU/TPU 資源與分散式訓練策略 |
| Vertex AI Pipelines | ML 工作流程編排(基於 Kubeflow / TFX) | 確保可重現性和 CI/CD 整合 |
| Feature Store | 集中管理 ML 特徵,支援線上/離線服務 | 避免特徵重複計算,確保訓練與推論一致性 |
| Model Registry | 統一版本管理所有模型 | 模型治理、A/B 測試和回滾策略 |
| Prediction Endpoints | 線上推論(即時)與批次推論 | 線上推論需考慮延遲 SLA,批次推論關注吞吐量和成本 |
💡 考試小提示:當題目描述「團隊沒有 ML 專業背景,但需要建立預測模型」,答案幾乎一定是 AutoML。而「需要完整控制訓練流程和演算法選擇」則指向 Custom Training。
Gemini 與基礎模型
Gemini 是 Google 最新的多模態基礎模型家族,是 Vertex AI 生態系的核心。截至 2026 年 3 月,最新版本為 Gemini 3.1:
| 模型 | 定位 | 適用場景 | 成本考量 |
|---|---|---|---|
| Gemini 3.1 Pro | 旗艦級,最強推理 | 複雜多步驟推理、大型程式碼庫、研究分析 | 最高(100 萬 tokens 上下文,1M) |
| Gemini 3.1 Flash | 速度與智慧平衡 | 企業級應用、對話系統、內容生成 | 中等(推薦大部分場景) |
| Gemini 2.5 Flash | 高性價比 | 大量請求處理、原生音訊、批次任務 | 較低 |
| Gemini 2.0 Flash | 輕量快速 | 超低延遲場景、聊天機器人 | 最低,適合大規模部署 |
Gemini 的多模態能力(文字、圖像、音訊、影片、程式碼)讓單一 API 就能處理過去需要多個專用模型的任務。架構師的決策重點在於:
- 何時使用預訓練 Gemini — 通用任務,直接呼叫 API,零訓練成本
- 何時微調(Fine-tuning) — 需要領域專業知識或特定格式輸出時,在 Vertex AI 上對 Gemini 進行監督式微調
- 成本控制 — 按 input/output token 計費,架構設計應考慮 prompt 長度最佳化和 context caching
Agent Builder
Vertex AI Agent Builder 讓你快速建構 AI 代理(Agent)和對話式應用,是企業部署生成式 AI 最直接的途徑:
核心能力
- RAG(Retrieval Augmented Generation) — 將企業資料(PDF、網頁、資料庫)轉為向量索引,讓模型回答時引用內部知識,大幅降低幻覺(hallucination)
- Grounding(接地) — 將模型回答與 Google Search 或企業資料來源連結,確保回答有事實根據
- Vertex AI Search — 提供企業級搜尋引擎,支援結構化與非結構化資料,可整合至 Agent
架構師思考
Agent Builder 的關鍵設計決策是資料來源的選擇與安全控管——哪些資料可以被 RAG 索引?誰有權存取這些 Agent?如何確保敏感資訊不會透過 AI 回答洩漏?
💡 考試小提示:題目提到「讓員工用自然語言查詢內部文件」或「建立客服聊天機器人並引用公司知識庫」,優先想到 Agent Builder + RAG。
Model Garden
Model Garden 是 Vertex AI 的模型市集,提供 150+ 個 Google、開源和第三方模型:
- Google 模型 — Gemini、Imagen(圖片生成)、Chirp(語音辨識)
- 開源模型 — Llama、Mistral、Stable Diffusion 等,可一鍵部署至 Vertex AI Endpoint
- 模型評估 — 內建評估框架,比較不同模型在你的任務上的表現
架構師應善用 Model Garden 的一鍵部署能力來快速原型驗證,再決定是否需要微調或自訓練模型。
Model Armor:AI 安全防線
Model Armor 是 GCP 的 AI 安全護欄(guardrail)服務,這是 PCA 考試中負責任 AI(Responsible AI) 議題的核心:
| 防護面向 | 功能 | 架構師責任 |
|---|---|---|
| 內容過濾 | 偵測並封鎖有害、暴力、色情內容 | 根據業務場景設定適當的安全等級 |
| Prompt Injection 防護 | 阻擋惡意提示注入攻擊 | 在所有使用者可輸入的 AI 介面前部署 |
| PII 偵測 | 識別並遮蔽個人資訊 | 醫療、金融等受規管產業必備 |
| 安全評分(Safety Ratings) | 量化內容風險分數 | 設計降級策略——高風險回答自動轉人工 |
架構師在設計 AI 系統時,Model Armor 不是選配,而是必要元件。任何面向使用者的生成式 AI 應用,都必須有安全護欄的設計。
💡 考試小提示:當題目涉及「AI 安全」「防止不當內容」「PII 保護」時,Model Armor 是關鍵答案。記住:負責任 AI 是架構設計的一部分,不是事後補救。
AI Hypercomputer:ML 基礎設施
AI Hypercomputer 是 Google 專為 AI/ML 工作負載打造的基礎設施架構,整合了最新加速器(TPU v6e Trillium、A3 Ultra H200)、開放軟體框架和動態工作負載排程:
| 加速器 | 定位 | 最佳場景 |
|---|---|---|
| TPU v6e(Trillium) | 最新一代 Google 自研張量處理器 | 大規模 LLM 訓練與推論、最佳性價比 |
| TPU v5p | 上一代旗艦 TPU | 超大規模訓練(數萬 chip) |
| A3 Ultra GPU VM(H200) | 最新 NVIDIA GPU,較 H100 記憶體翻倍 | 超大模型訓練、長上下文推論 |
| A3 GPU VM(H100) | 高階 NVIDIA GPU | 多框架 ML 訓練、推論、HPC |
| G2 GPU VM(L4) | 推論最佳化 GPU | 成本效益推論、影片轉碼 |
GPU vs TPU 選擇指南
- 選 TPU — 使用 TensorFlow/JAX、超大規模訓練(數千個加速器)、Google 生態系深度整合(v6e Trillium 同時適合訓練與推論)
- 選 GPU — PyTorch 為主、需要多框架相容性、推論服務、已有 CUDA 程式碼(H200 適合需要大量 HBM 記憶體的場景)
BigQuery ML:SQL 中的機器學習
BigQuery ML(BQML) 讓資料分析師直接在 SQL 中建立和執行 ML 模型,無需搬移資料:
- 快速原型 — 用
CREATE MODEL語句在分鐘內建立迴歸、分類、時間序列模型 - Vertex AI 整合 — 將 BQML 模型匯出至 Model Registry,部署為線上推論端點
- 典型場景 — 客戶流失預測、需求預測、異常偵測,資料已在 BigQuery 中時特別高效
💡 考試小提示:題目描述「資料已在 BigQuery、分析團隊熟悉 SQL、需要快速建立預測模型」,BigQuery ML 是最佳答案。如果需要更複雜的模型或自訂訓練,才升級到 Vertex AI。
AI/ML 架構決策框架
面對考試中的 AI/ML 架構題,使用以下決策矩陣快速收斂答案:
| 需求情境 | 推薦方案 | 理由 |
|---|---|---|
| 使用現成 AI 能力,不訓練模型 | Gemini API / Pre-trained APIs | 零訓練成本,直接呼叫 |
| 有結構化資料,快速建模 | AutoML 或 BigQuery ML | AutoML 適合圖片/文字,BQML 適合表格資料 |
| 需要完整控制模型架構和訓練 | Vertex AI Custom Training | 自訂容器、分散式訓練、超參數調整 |
| 即時回應(< 100ms) | 線上推論端點 | 常駐 endpoint,低延遲 |
| 大量資料批次預測 | 批次推論 | 成本更低,無需常駐資源 |
| 使用開源模型 | Model Garden → Vertex AI Endpoint | 一鍵部署,託管基礎設施 |
| 建立 AI 對話應用 | Agent Builder + RAG | 企業知識整合,減少幻覺 |
| 資料已在 BigQuery,團隊懂 SQL | BigQuery ML | 無需搬移資料,學習曲線最低 |
ML 工作負載成本優化
- 訓練階段 — Spot VM 相較隨需價可省 60-91% 成本,先占式 TPU 同樣可大幅降低成本
- 推論階段 — 根據流量模式選擇自動擴縮至零(Cloud Run + GPU)或常駐端點
- 模型選擇 — 小任務用 Gemini Flash 而非 Pro,token 成本差數倍
- Context Caching — 重複使用相同 prompt 前綴時啟用快取,減少 token 消耗
實戰情境
情境一:Cymbal Retail 商品推薦系統
背景:Cymbal Retail 是一家全通路零售商,擁有 5000 萬件商品資料和每日千萬級的用戶互動紀錄。他們希望建立個人化商品推薦引擎,同時為客服中心部署 AI 助手。
架構決策:
- 推薦引擎 — 使用 Vertex AI Custom Training 訓練協同過濾模型,搭配 Feature Store 管理用戶行為特徵和商品特徵,確保線上推論時取得最新特徵值
- 線上推論 — 部署至 Vertex AI Prediction Endpoint(GPU 加速),設定自動擴縮應對促銷流量高峰
- 客服 AI 助手 — 使用 Agent Builder 建構 RAG 應用,將退換貨政策、商品目錄和常見問題索引為知識庫,搭配 Model Armor 確保回答不含不當內容
- 快速 A/B 測試 — 透過 Model Registry 管理多版本推薦模型,使用流量分割進行線上實驗
情境二:KnightMotives 預測性維護
背景:KnightMotives Automotive 在全球 12 座工廠部署了 IoT 感測器,每秒產生大量設備數據。他們需要預測設備故障以避免非計劃停機。
架構決策:
- 資料匯集 — IoT 數據透過 Pub/Sub 串流至 BigQuery,作為統一的分析資料湖
- 快速原型 — 先用 BigQuery ML 建立時間序列異常偵測模型,驗證預測可行性
- 正式模型 — 確認可行後,使用 Vertex AI Custom Training 在 A3 GPU VM 上訓練更精確的深度學習模型
- 邊緣推論 — 將模型匯出為 TensorFlow Lite,部署至工廠邊緣節點實現毫秒級故障預警
- 批次分析 — 每日執行 批次推論 產出設備健康報告,推送至維護團隊的儀表板
重點整理
- AI/ML 是 PCA v6.1 的正式考試領域——架構師需要理解 ML 架構設計,而非模型開發細節
- Vertex AI 是統一平台,涵蓋 AutoML、Custom Training、Pipelines、Feature Store、Model Registry 和 Prediction Endpoints
- Gemini 模型家族按效能分層(Pro > Flash),根據任務複雜度和成本需求選擇
- Agent Builder + RAG 是企業生成式 AI 應用的標準架構,搭配 Grounding 減少幻覺
- Model Armor 是必要的安全設計,不是事後補救——內容過濾、Prompt Injection 防護、PII 偵測
- BigQuery ML 是「資料在 BigQuery + 團隊懂 SQL」場景的最佳選擇,學習曲線最低
- TPU 適合大規模訓練(TensorFlow/JAX),GPU 適合多框架相容和推論服務
- 成本優化三招:訓練用 Spot VM、推論按需擴縮、模型選擇 right-sizing
下一步
在下一課中,我們將探討基礎設施即程式碼與自動化,掌握 Terraform、Cloud Build 與 GCP 開發工具鏈的架構最佳實踐。