跳至主要內容
ESC
Study Jam:數據與 AI 基礎 — 第 6/12 篇

Vertex AI 機器學習解決方案

GCP

課程概述

Vertex AI 是 Google Cloud 的統一 ML 平台,從資料準備、模型訓練、評估、部署到監控,整個生命週期都包在裡面。當預訓練 API 或 BigQuery ML 已經不夠用,需要自己做模型時,Vertex AI 就有一整套工具可以用。這門課會帶你走一遍 Vertex AI 的核心功能,從 AutoML 自動建模一路到自訂訓練。

你將學到

  • 使用 AutoML 建立影像分類與表格預測模型
  • 設定 Vertex AI 自訂訓練 Job 執行 TensorFlow / PyTorch 程式碼
  • 將訓練好的模型部署到 Endpoint 提供線上預測
  • 使用 Vertex AI Pipelines 自動化 ML 工作流
  • 透過 Vertex AI Model Registry 管理模型版本

核心概念

Vertex AI 在 ML 光譜中的定位

Google Cloud 的 ML 工具大致是一條從簡單到複雜的光譜:

預訓練 API → BigQuery ML → AutoML → 自訂訓練(Vertex AI)
   最簡單      用 SQL       無程式碼     最大彈性

Vertex AI 把 AutoML 和自訂訓練兩端都涵蓋進來,而且共用同一套管理介面。

AutoML vs 自訂訓練

面向AutoML自訂訓練
適合對象ML 初學者、快速驗證ML 工程師、研究人員
所需技能不需寫程式碼Python + ML 框架
模型彈性Google 自動選擇最佳架構完全自訂架構與超參數
訓練時間通常 1-8 小時依模型複雜度而定
支援類型影像、文字、表格、影片任何框架與模型類型

Vertex AI Pipelines

Pipelines 讓你把 ML 工作流寫成一個可以重複跑的 DAG(有向無環圖)。一個典型的 Pipeline 大概長這樣:

  1. 資料驗證 — 檢查資料品質與分佈
  2. 資料預處理 — 特徵工程與資料轉換
  3. 模型訓練 — 執行訓練 Job
  4. 模型評估 — 計算效能指標並與基線比較
  5. 模型部署 — 通過品質門檻後自動部署到 Endpoint

Endpoint 與線上預測

把模型部署到 Vertex AI Endpoint 之後,就能透過 REST API 發即時預測請求了。Endpoint 支援:

  • 流量分割 — 在多個模型版本之間分配流量(A/B 測試)
  • 自動擴縮 — 根據請求量自動增減節點
  • 模型監控 — 偵測資料漂移(Data Drift)與模型效能下降

實作重點

  • AutoML 影像分類每個標籤至少需要 10 張圖片,Google 建議每個標籤 100 張以上、1,000 張左右可獲得較好效果
  • 自訂訓練 Job 需指定容器映像檔,可使用 Google 預建容器或自訂 Docker 映像
  • Endpoint 的最低機器類型為 n1-standard-2,按部署時間計費(即使無請求也會收費)
  • 常見錯誤:Pipeline 中的元件未正確設定輸入 / 輸出的資料類型,導致 DAG 執行失敗
  • 成本控制:開發階段使用較小的機器類型,驗證流程正確後再擴大規模

Skill Badge 指引

Lab 連結Build and Deploy Machine Learning Solutions on Vertex AI — 完成此 lab 可獲得 Skill Badge

延伸學習

Study Jam:數據與 AI 基礎 — 6/12 完成 查看系列全覽 →

留言討論

徽章解鎖!