Vertex AI 機器學習解決方案
GCP
課程概述
Vertex AI 是 Google Cloud 的統一 ML 平台,從資料準備、模型訓練、評估、部署到監控,整個生命週期都包在裡面。當預訓練 API 或 BigQuery ML 已經不夠用,需要自己做模型時,Vertex AI 就有一整套工具可以用。這門課會帶你走一遍 Vertex AI 的核心功能,從 AutoML 自動建模一路到自訂訓練。
你將學到
- 使用 AutoML 建立影像分類與表格預測模型
- 設定 Vertex AI 自訂訓練 Job 執行 TensorFlow / PyTorch 程式碼
- 將訓練好的模型部署到 Endpoint 提供線上預測
- 使用 Vertex AI Pipelines 自動化 ML 工作流
- 透過 Vertex AI Model Registry 管理模型版本
核心概念
Vertex AI 在 ML 光譜中的定位
Google Cloud 的 ML 工具大致是一條從簡單到複雜的光譜:
預訓練 API → BigQuery ML → AutoML → 自訂訓練(Vertex AI)
最簡單 用 SQL 無程式碼 最大彈性
Vertex AI 把 AutoML 和自訂訓練兩端都涵蓋進來,而且共用同一套管理介面。
AutoML vs 自訂訓練
| 面向 | AutoML | 自訂訓練 |
|---|---|---|
| 適合對象 | ML 初學者、快速驗證 | ML 工程師、研究人員 |
| 所需技能 | 不需寫程式碼 | Python + ML 框架 |
| 模型彈性 | Google 自動選擇最佳架構 | 完全自訂架構與超參數 |
| 訓練時間 | 通常 1-8 小時 | 依模型複雜度而定 |
| 支援類型 | 影像、文字、表格、影片 | 任何框架與模型類型 |
Vertex AI Pipelines
Pipelines 讓你把 ML 工作流寫成一個可以重複跑的 DAG(有向無環圖)。一個典型的 Pipeline 大概長這樣:
- 資料驗證 — 檢查資料品質與分佈
- 資料預處理 — 特徵工程與資料轉換
- 模型訓練 — 執行訓練 Job
- 模型評估 — 計算效能指標並與基線比較
- 模型部署 — 通過品質門檻後自動部署到 Endpoint
Endpoint 與線上預測
把模型部署到 Vertex AI Endpoint 之後,就能透過 REST API 發即時預測請求了。Endpoint 支援:
- 流量分割 — 在多個模型版本之間分配流量(A/B 測試)
- 自動擴縮 — 根據請求量自動增減節點
- 模型監控 — 偵測資料漂移(Data Drift)與模型效能下降
實作重點
- AutoML 影像分類每個標籤至少需要 10 張圖片,Google 建議每個標籤 100 張以上、1,000 張左右可獲得較好效果
- 自訂訓練 Job 需指定容器映像檔,可使用 Google 預建容器或自訂 Docker 映像
- Endpoint 的最低機器類型為
n1-standard-2,按部署時間計費(即使無請求也會收費) - 常見錯誤:Pipeline 中的元件未正確設定輸入 / 輸出的資料類型,導致 DAG 執行失敗
- 成本控制:開發階段使用較小的機器類型,驗證流程正確後再擴大規模
Skill Badge 指引
Lab 連結:Build and Deploy Machine Learning Solutions on Vertex AI — 完成此 lab 可獲得 Skill Badge
延伸學習
- Gemini API 搭配 Vertex AI 探索 GenAI — 在 Vertex AI 上使用最新的生成式 AI 模型
- BigQuery ML 建模實戰 — 用 SQL 快速建模的替代方案
- GCP GenAI 課程 — 動手呼叫 Gemini API 的完整教學
Study Jam:數據與 AI 基礎 — 6/12 完成
查看系列全覽 →