跳至主要內容
ESC
Study Jam:數據與 AI 基礎 — 第 4/12 篇

基礎 Data、ML 與 AI 任務

GCP

課程概述

這門課是 Google Cloud 資料與 AI 的綜合入門,一次帶你碰三個核心服務:用 BigQuery 做大規模資料分析、用 Dataflow 做資料處理管線、用 Speech-to-Text API 把語音轉成文字。跑完這門課,你對 Google Cloud 整套資料與 AI 生態系會有個全面的概念,後面要接進階課程也比較不會卡。

你將學到

  • 在 BigQuery 中執行 SQL 查詢並分析公開資料集
  • 使用 Dataflow 建立批次與串流資料處理管線
  • 呼叫 Cloud Speech-to-Text API 進行語音辨識
  • 理解 Google Cloud 資料生命週期的各階段
  • 選擇正確的服務來匹配不同的資料處理需求

核心概念

Google Cloud 資料生命週期

Google Cloud 的資料處理,走的是一條很清楚的生命週期:

  1. 擷取(Ingest) — Pub/Sub、Cloud Storage、Transfer Service
  2. 儲存(Store) — Cloud Storage、BigQuery、Cloud SQL、Bigtable
  3. 處理(Process) — Dataflow、Dataproc、Cloud Functions
  4. 分析(Analyze) — BigQuery、Looker、Connected Sheets
  5. ML/AI — Vertex AI、AutoML、預訓練 API

BigQuery 基礎

BigQuery 是無伺服器架構,你不用管叢集、也不用自己調容量。它用的是列式儲存(Columnar Storage)格式,跑分析型查詢特別快:

  • 公開資料集 — BigQuery 提供數百個免費公開資料集,包含氣象、GitHub 活動、維基百科等
  • Standard SQL — BigQuery 支援 ANSI SQL:2011 標準,熟悉 SQL 的人可以直接上手
  • 巢狀與重複欄位 — BigQuery 支援 STRUCT 和 ARRAY 類型,適合半結構化資料

Dataflow 與 Apache Beam

Dataflow 是 Google Cloud 的全代管資料處理服務,基於 Apache Beam SDK:

  • 批次模式 — 處理有界(Bounded)資料集,例如每日 ETL
  • 串流模式 — 處理無界(Unbounded)資料流,例如即時事件處理
  • 自動擴縮 — Dataflow 會根據資料量自動調整 worker 數量

Cloud Speech-to-Text API

Speech-to-Text API 將語音轉換為文字,支援超過 125 種語言:

  • 同步辨識 — 短音訊(< 1 分鐘)即時回傳結果
  • 非同步辨識 — 長音訊(最長 480 分鐘)背景處理
  • 串流辨識 — 即時語音辨識,適合即時字幕場景

實作重點

  • BigQuery 查詢前先用 SELECT * FROM dataset.table LIMIT 10 預覽資料結構
  • Dataflow 的 Job 需要指定暫存位置(--temp_location gs://bucket/temp
  • Speech-to-Text 支援多種音訊格式:FLAC、WAV、MP3、OGG
  • 常見錯誤:Dataflow Job 因 IAM 權限不足而失敗,需確認服務帳戶有 dataflow.worker 角色
  • 成本控制技巧:BigQuery 查詢前先使用 dry run 估算掃描量(--dry_run flag)

Skill Badge 指引

Lab 連結Perform Foundational Data, ML, and AI Tasks in Google Cloud — 完成此 lab 可獲得 Skill Badge

延伸學習

Study Jam:數據與 AI 基礎 — 4/12 完成 查看系列全覽 →

留言討論

徽章解鎖!