GenAI 的 MLOps 實踐

2025-10-29 2min Bobo Chen

課程概述

把 GenAI 應用推上生產，其實只是開始，後面持續維運才是真正麻煩的地方。模型效能會慢慢衰退，使用者需求會變，新版模型上線又得確保不出包。這堂課把傳統 MLOps 那套成熟做法，跟 GenAI 自己的特殊需求接起來，帶你做出一套可靠、看得見狀況、又能持續演進的 GenAI 生產系統。

你將學到

描述 GenAI MLOps 與傳統 MLOps 的關鍵差異
使用 Vertex AI Model Registry 管理模型版本
建構 Vertex AI Pipelines 自動化 GenAI 的評估與部署流程
設定 Model Monitoring 監控生產環境中的模型品質
設計 GenAI 應用的 A/B 測試與漸進式上線策略

核心概念

GenAI MLOps vs 傳統 MLOps

傳統 MLOps 主要在處理模型的訓練、部署跟監控。GenAI MLOps 則多了幾個新面向：Prompt 管理——Prompt 其實算是「模型設定」的一部分，一樣要做版本控制跟評估。模型選擇——你不是自己訓練模型，而是在好幾個基礎模型之間挑一個來用。輸出評估——生成式任務要評品質，比傳統分類任務難搞很多。安全護欄——得持續盯著模型，看它會不會產生有害或有偏差的輸出。

Vertex AI Model Registry

你可以把 Model Registry 想成模型的「版本控制系統」。每次模型有更新（不管是換模型版本，還是改 Prompt 模板），都會被記成一個版本，連同元資料一起存（訓練資料版本、超參數、評估指標）。生產環境一出問題，就能快速回滾到上一個已知穩定的版本。如果是 GenAI 應用，建議把 Prompt 模板跟模型版本綁在一起管。

GenAI 的評估挑戰

傳統 ML 模型用精確度、召回率這類單一指標就能評估。但 GenAI 的輸出品質得從好幾個面向看：正確性——回答的事實對不對。相關性——有沒有真的回應到使用者的問題。安全性——回答裡有沒有夾帶有害內容。一致性——同樣的輸入問好幾次，品質穩不穩。Google 提出了 AutoSxS（Auto Side-by-Side）框架，拿另一個 LLM 來當評審，自動幫你評回答品質。

Vertex AI Pipelines 自動化

Vertex AI Pipelines（底層是 Kubeflow Pipelines）可以把 GenAI 的評估跟部署流程自動化。一條典型的 GenAI pipeline 大概長這樣：載入評估資料集、對多個 Prompt 版本或模型版本跑推論、算評估指標、跟基準線比一比、再自動決定要不要部署新版本。每跑一次 pipeline 都會留下完整的追蹤紀錄，所以結果可以重現、也能拿來稽核。

生產監控與告警

GenAI 應用上線之後，有三個層面要盯：效能指標——回應延遲、錯誤率、Token 使用量。品質指標——使用者回饋（按讚/倒讚比例）、Safety Filter 觸發頻率、Grounding 引用率。成本指標——API 呼叫量、Token 消耗量、運算資源使用量。Vertex AI Model Monitoring 可以設自動告警，指標一超過閾值就通知團隊。

實作重點

在 Model Registry 中建立一個 GenAI 模型的版本，記錄 Prompt 版本與評估結果
建構一條 Vertex AI Pipeline：載入測試集、執行推論、計算評估分數、比較基準線
設定 Model Monitoring 的告警規則，當安全篩選觸發率超過 5% 時發送通知
設計一個 A/B 測試方案：將流量按比例分配到舊版與新版 Prompt，比較使用者回饋
建立 GenAI 應用的 SLO（Service Level Objectives）：定義可接受的延遲、錯誤率與品質標準

Lab 導讀

Lab 連結：Machine Learning Operations (MLOps) for Generative AI — Google Cloud Skills Boost

這個 Lab 是整條學習路徑的最後一課，把前面學過的概念全串了起來。你會走過一輪完整的 GenAI MLOps 流程，從模型選擇、Prompt 設計、評估、部署一路到監控。測驗重點有這幾項：GenAI MLOps 特有的挑戰、Pipeline 怎麼設計、評估指標怎麼選，還有生產監控的最佳實踐。建議拿這門課當整個課程的總複習。

延伸學習

Gemini 貫穿軟體開發生命週期 — AI 在開發流程中的整合
負責任 AI：隱私與安全 — 在 MLOps 管線中整合安全檢查
Vertex AI Studio 入門 — 回顧 Vertex AI 的核心工具
建構 GenAI 應用 — 從開發到部署的完整流程回顧

Study Jam：GenAI 開發者實戰 — 29/29 完成查看系列全覽 →

經典架構拆解 · 01 — Netflix 全球串流架構

經典架構拆解 · 02 — Uber 即時派單架構

經典架構拆解 · 03 — Stripe API 冪等性設計

GenAI 的 MLOps 實踐

課程概述

你將學到

核心概念

實作重點

Lab 導讀

延伸學習

留言討論

歡迎來到登雲學院

你的雲端經驗？

你的目標認證？

每天能學多久？

你的學習計畫準備好了！

課程概述

你將學到

核心概念

實作重點

Lab 導讀

延伸學習

相關文章

GenAI 的 MLOps 實踐

負責任 AI：可解釋性與透明度

負責任 AI：隱私與安全

相關學習資源

留言討論