跳至主要內容
ESC
Study Jam:GenAI 開發者實戰 — 第 29/29 篇

GenAI 的 MLOps 實踐

GCP

課程概述

把 GenAI 應用推上生產,其實只是開始,後面持續維運才是真正麻煩的地方。模型效能會慢慢衰退,使用者需求會變,新版模型上線又得確保不出包。這堂課把傳統 MLOps 那套成熟做法,跟 GenAI 自己的特殊需求接起來,帶你做出一套可靠、看得見狀況、又能持續演進的 GenAI 生產系統。

你將學到

  • 描述 GenAI MLOps 與傳統 MLOps 的關鍵差異
  • 使用 Vertex AI Model Registry 管理模型版本
  • 建構 Vertex AI Pipelines 自動化 GenAI 的評估與部署流程
  • 設定 Model Monitoring 監控生產環境中的模型品質
  • 設計 GenAI 應用的 A/B 測試與漸進式上線策略

核心概念

GenAI MLOps vs 傳統 MLOps

傳統 MLOps 主要在處理模型的訓練、部署跟監控。GenAI MLOps 則多了幾個新面向:Prompt 管理——Prompt 其實算是「模型設定」的一部分,一樣要做版本控制跟評估。模型選擇——你不是自己訓練模型,而是在好幾個基礎模型之間挑一個來用。輸出評估——生成式任務要評品質,比傳統分類任務難搞很多。安全護欄——得持續盯著模型,看它會不會產生有害或有偏差的輸出。

Vertex AI Model Registry

你可以把 Model Registry 想成模型的「版本控制系統」。每次模型有更新(不管是換模型版本,還是改 Prompt 模板),都會被記成一個版本,連同元資料一起存(訓練資料版本、超參數、評估指標)。生產環境一出問題,就能快速回滾到上一個已知穩定的版本。如果是 GenAI 應用,建議把 Prompt 模板跟模型版本綁在一起管。

GenAI 的評估挑戰

傳統 ML 模型用精確度、召回率這類單一指標就能評估。但 GenAI 的輸出品質得從好幾個面向看:正確性——回答的事實對不對。相關性——有沒有真的回應到使用者的問題。安全性——回答裡有沒有夾帶有害內容。一致性——同樣的輸入問好幾次,品質穩不穩。Google 提出了 AutoSxS(Auto Side-by-Side)框架,拿另一個 LLM 來當評審,自動幫你評回答品質。

Vertex AI Pipelines 自動化

Vertex AI Pipelines(底層是 Kubeflow Pipelines)可以把 GenAI 的評估跟部署流程自動化。一條典型的 GenAI pipeline 大概長這樣:載入評估資料集、對多個 Prompt 版本或模型版本跑推論、算評估指標、跟基準線比一比、再自動決定要不要部署新版本。每跑一次 pipeline 都會留下完整的追蹤紀錄,所以結果可以重現、也能拿來稽核。

生產監控與告警

GenAI 應用上線之後,有三個層面要盯:效能指標——回應延遲、錯誤率、Token 使用量。品質指標——使用者回饋(按讚/倒讚比例)、Safety Filter 觸發頻率、Grounding 引用率。成本指標——API 呼叫量、Token 消耗量、運算資源使用量。Vertex AI Model Monitoring 可以設自動告警,指標一超過閾值就通知團隊。

實作重點

  • 在 Model Registry 中建立一個 GenAI 模型的版本,記錄 Prompt 版本與評估結果
  • 建構一條 Vertex AI Pipeline:載入測試集、執行推論、計算評估分數、比較基準線
  • 設定 Model Monitoring 的告警規則,當安全篩選觸發率超過 5% 時發送通知
  • 設計一個 A/B 測試方案:將流量按比例分配到舊版與新版 Prompt,比較使用者回饋
  • 建立 GenAI 應用的 SLO(Service Level Objectives):定義可接受的延遲、錯誤率與品質標準

Lab 導讀

Lab 連結Machine Learning Operations (MLOps) for Generative AI — Google Cloud Skills Boost

這個 Lab 是整條學習路徑的最後一課,把前面學過的概念全串了起來。你會走過一輪完整的 GenAI MLOps 流程,從模型選擇、Prompt 設計、評估、部署一路到監控。測驗重點有這幾項:GenAI MLOps 特有的挑戰、Pipeline 怎麼設計、評估指標怎麼選,還有生產監控的最佳實踐。建議拿這門課當整個課程的總複習。

延伸學習

Study Jam:GenAI 開發者實戰 — 29/29 完成 查看系列全覽 →

留言討論

徽章解鎖!