Vertex AI MLOps 模型評估

2025-11-03 2min Bobo Chen

課程概述

把 AI 模型做出來只是起點，真正麻煩的是後面：怎麼持續評估、改進，還要能穩穩地部署上線。MLOps（Machine Learning Operations）就是把軟體工程那套 DevOps 實踐搬進機器學習，讓模型不只在開發環境跑得漂亮，到了生產環境也能持續可靠地運作。這一整段流程，從模型評估到 Pipeline 自動化，Vertex AI 都有對應的工具可以接。

你將學到

理解 MLOps 的核心原則與成熟度模型
掌握 Vertex AI Model Evaluation 的關鍵指標
使用 Vertex AI Pipelines 建構自動化 ML 工作流
在 Model Registry 中管理模型版本與元數據
設計 A/B 測試實驗比較模型效能

核心概念

MLOps 成熟度等級

Google 定義了 MLOps 的三個成熟度等級：

等級	特徵	自動化程度
Level 0	手動流程	手動訓練、手動部署、無監控
Level 1	ML Pipeline 自動化	自動訓練、自動驗證、持續訓練（CT）
Level 2	CI/CD + CT	程式碼變更自動觸發 Pipeline、模型自動部署

模型評估指標

不同類型的模型需要不同的評估指標：

分類模型：

Precision（精確率） — 預測為正的案例中，真正為正的比例
Recall（召回率） — 所有正案例中，被模型正確識別的比例
F1 Score — Precision 和 Recall 的調和平均數
AUC-ROC — 模型區分正負類別的整體能力

生成式 AI / Agent 評估：

Groundedness（有據性） — 回答是否基於提供的上下文
Relevance（相關性） — 回答是否切中問題
Coherence（連貫性） — 回答的邏輯是否通順
Safety（安全性） — 回答是否包含有害或偏見內容

Vertex AI Pipelines

Vertex AI Pipelines 用的是 Kubeflow Pipelines 或 TFX 框架，把整個 ML 工作流定義成一張 DAG（有向無環圖），每個步驟都是獨立的容器化元件：

資料準備 — 從 BigQuery / Cloud Storage 擷取與前處理
訓練 — 在 Vertex AI Training 上執行模型訓練
評估 — 自動計算評估指標，與基準模型比較
條件部署 — 只有在指標優於基準時才自動部署
監控 — 部署後持續監控模型效能與資料漂移

Model Registry

Model Registry 就是統一放模型的地方。同一個模型可以有好幾個版本，每個版本都會記下：

訓練時使用的資料集與參數
評估指標結果
部署狀態（哪些 endpoint 正在使用此版本）
標籤與描述（方便搜尋與分類）

A/B 測試（Traffic Split）

Vertex AI Endpoints 支援流量分流。你可以將 90% 的流量導向現有模型，10% 導向新模型，比較兩者在真實環境中的表現。當新模型確認優於舊模型後，再逐步切換全部流量。

實作重點

Pipeline 定義檔使用 Python SDK（kfp 或 google-cloud-aiplatform）撰寫
評估步驟應定義「通過閾值」——例如 F1 Score > 0.85 才允許部署
Model Registry 的版本命名建議使用語意化版號（v1.0.0）加上日期標籤
A/B 測試至少運行一週，確保樣本量足以做出統計顯著的結論
常見陷阱：只看離線評估指標，忽略了線上指標（延遲、throughput、使用者滿意度）

Lab 導讀

Lab 連結：MLOps with Vertex AI: Model Evaluation — Google Cloud Skills Boost

這個 Lab 會帶你做一條端到端的 MLOps Pipeline。你會在 Vertex AI Pipelines 裡定義訓練、評估、部署的自動化流程，用 Model Evaluation 服務算指標，再到 Model Registry 管理模型版本。看的時候特別留意一件事：評估這一步，是怎麼變成自動部署的「品質閘門」的。

延伸學習

部署多代理系統 — Agent 部署到 Agent Engine 的託管實踐
AI 世界的安全導論 — 模型部署的安全考量與風險管控
Agent Development Kit 智能代理開發 — 回顧 Agent 基礎，結合 MLOps 建構完整流程

Study Jam：AI Agent 與 MLOps — 8/9 完成查看系列全覽 →

經典架構拆解 · 01 — Netflix 全球串流架構

經典架構拆解 · 02 — Uber 即時派單架構

經典架構拆解 · 03 — Stripe API 冪等性設計

Vertex AI MLOps 模型評估

課程概述

你將學到

核心概念

實作重點

Lab 導讀

延伸學習

留言討論

歡迎來到登雲學院

你的雲端經驗？

你的目標認證？

每天能學多久？

你的學習計畫準備好了！

課程概述

你將學到

核心概念

實作重點

Lab 導讀

延伸學習

相關文章

Vertex AI MLOps 模型評估

AI 世界的安全導論

Data Store Agent 虛擬 FAQ

相關學習資源

留言討論