Gemini 多模態 RAG 文件檢索

2025-10-21 1min Bobo Chen

課程概述

真實世界的企業文件，很少只有純文字，裡面通常還夾著圖表、表格、流程圖跟照片。傳統的 RAG 系統碰到這種「富文件」就有點吃力。這堂課會帶你結合 Gemini 的多模態能力跟 Vertex AI Search（已更名為 Agent Search），做出一套能看懂、也能檢索各種格式文件的進階 RAG 系統。

你將學到

解釋 RAG 架構的核心流程：檢索、增強、生成
理解多模態 RAG 與傳統文字 RAG 的架構差異
運用 Gemini 處理包含圖片與表格的文件問答
設計 Agent Search 的 Data Store 與索引策略

核心概念

RAG 架構回顧

RAG（Retrieval-Augmented Generation）就是把大型語言模型的生成能力，跟外部知識庫的檢索能力綁在一起。流程分三步：先把使用者的問題轉成查詢向量，去知識庫裡撈出相關文件（Retrieval）。再把撈到的內容當成上下文塞進 Prompt（Augmentation）。最後讓 LLM 根據這些上下文回答（Generation）。這樣做能明顯降低模型幻覺，讓回答有可靠的資料來源撐著。

多模態 RAG 的挑戰

傳統 RAG 只看得懂文字，但企業文件裡很多關鍵資訊其實藏在圖表、表格跟圖片裡。像是財報的營收圖表、技術手冊的架構圖、醫療報告的影像。所以多模態 RAG 多了三個要處理的問題：怎麼從非文字的元素裡把結構化資訊抽出來、怎麼把不同模態的內容建成同一套索引，還有生成回答時怎麼把多模態的上下文整合進去。

Gemini 的多模態理解能力

Gemini 原生就吃文字、圖片、影片跟音訊這幾種多模態輸入，可以直接看懂圖片裡的圖表、認出表格結構，連影片裡的場景都能分析。在多模態 RAG 裡，Gemini 可以當文件理解層（把圖表轉成結構化的描述），也可以當最後的生成層（根據多模態上下文產出回答）。

Agent Search 與 Document AI 的協作

Agent Search 是一套全代管的 RAG 基礎設施，幫你搞定文件的自動分割（Chunking）、索引建立跟語義搜尋。Document AI 則專門做文件的結構化解析，從 PDF 裡抽表格、認出表單欄位、判斷文件的版面配置。兩個搭起來用，企業就能很快做出能消化大量複雜文件的 RAG 系統。

實作重點

準備一組包含圖表與表格的 PDF 文件，透過 Agent Search 建立 Data Store
測試純文字問題與需要圖表理解的問題，比較回答品質的差異
調整 Chunking 策略（按頁面、按段落、按語義），觀察對檢索準確度的影響
使用 Gemini API 直接傳入圖片進行問答，體驗原生多模態 vs RAG 的差異

Lab 導讀

Lab 連結：Inspect Rich Documents with Gemini Multimodality and Multimodal RAG — Google Cloud Skills Boost

這個 Lab 動手操作蠻多的，你會親手做出一套能處理富文件的 RAG 系統。做的時候特別留意文件前處理那幾步，Document AI 解析得好不好，會直接影響後面檢索準不準。建議拿自己準備的中文文件多測幾次，看看多語言文件處理起來效果如何。

延伸學習

向量搜尋與嵌入技術 — 回顧 Vector Search 的基礎
Gemini 開發者指南 — 學習更多 Gemini API 的進階用法
RAG 架構 — 登雲學院 GenAI Leader 課程的 RAG 全面解析

Study Jam：GenAI 開發者實戰 — 14/29 完成查看系列全覽 →

經典架構拆解 · 01 — Netflix 全球串流架構

經典架構拆解 · 02 — Uber 即時派單架構

經典架構拆解 · 03 — Stripe API 冪等性設計

Gemini 多模態 RAG 文件檢索

課程概述

你將學到

核心概念

實作重點

Lab 導讀

延伸學習

留言討論

歡迎來到登雲學院

你的雲端經驗？

你的目標認證？

每天能學多久？

你的學習計畫準備好了！

課程概述

你將學到

核心概念

實作重點

Lab 導讀

延伸學習

相關文章

Gemini 多模態 RAG 文件檢索

Vertex AI Studio 入門

GenAI 驅動網站現代化

相關學習資源

留言討論