Gemini 多模態 RAG 文件檢索
課程概述
真實世界的企業文件,很少只有純文字,裡面通常還夾著圖表、表格、流程圖跟照片。傳統的 RAG 系統碰到這種「富文件」就有點吃力。這堂課會帶你結合 Gemini 的多模態能力跟 Vertex AI Search,做出一套能看懂、也能檢索各種格式文件的進階 RAG 系統。
你將學到
- 解釋 RAG 架構的核心流程:檢索、增強、生成
- 理解多模態 RAG 與傳統文字 RAG 的架構差異
- 運用 Gemini 處理包含圖片與表格的文件問答
- 設計 Vertex AI Search 的 Data Store 與索引策略
核心概念
RAG 架構回顧
RAG(Retrieval-Augmented Generation)就是把大型語言模型的生成能力,跟外部知識庫的檢索能力綁在一起。流程分三步:先把使用者的問題轉成查詢向量,去知識庫裡撈出相關文件(Retrieval)。再把撈到的內容當成上下文塞進 Prompt(Augmentation)。最後讓 LLM 根據這些上下文回答(Generation)。這樣做能明顯降低模型幻覺,讓回答有可靠的資料來源撐著。
多模態 RAG 的挑戰
傳統 RAG 只看得懂文字,但企業文件裡很多關鍵資訊其實藏在圖表、表格跟圖片裡。像是財報的營收圖表、技術手冊的架構圖、醫療報告的影像。所以多模態 RAG 多了三個要處理的問題:怎麼從非文字的元素裡把結構化資訊抽出來、怎麼把不同模態的內容建成同一套索引,還有生成回答時怎麼把多模態的上下文整合進去。
Gemini 的多模態理解能力
Gemini 原生就吃文字、圖片、影片跟音訊這幾種多模態輸入,可以直接看懂圖片裡的圖表、認出表格結構,連影片裡的場景都能分析。在多模態 RAG 裡,Gemini 可以當文件理解層(把圖表轉成結構化的描述),也可以當最後的生成層(根據多模態上下文產出回答)。
Vertex AI Search 與 Document AI 的協作
Vertex AI Search 是一套全代管的 RAG 基礎設施,幫你搞定文件的自動分割(Chunking)、索引建立跟語義搜尋。Document AI 則專門做文件的結構化解析,從 PDF 裡抽表格、認出表單欄位、判斷文件的版面配置。兩個搭起來用,企業就能很快做出能消化大量複雜文件的 RAG 系統。
實作重點
- 準備一組包含圖表與表格的 PDF 文件,透過 Vertex AI Search 建立 Data Store
- 測試純文字問題與需要圖表理解的問題,比較回答品質的差異
- 調整 Chunking 策略(按頁面、按段落、按語義),觀察對檢索準確度的影響
- 使用 Gemini API 直接傳入圖片進行問答,體驗原生多模態 vs RAG 的差異
Lab 導讀
Lab 連結:Inspect Rich Documents with Gemini Multimodality and Multimodal RAG — Google Cloud Skills Boost
這個 Lab 動手操作蠻多的,你會親手做出一套能處理富文件的 RAG 系統。做的時候特別留意文件前處理那幾步,Document AI 解析得好不好,會直接影響後面檢索準不準。建議拿自己準備的中文文件多測幾次,看看多語言文件處理起來效果如何。
延伸學習
- 向量搜尋與嵌入技術 — 回顧 Vector Search 的基礎
- Gemini 開發者指南 — 學習更多 Gemini API 的進階用法
- RAG 架構 — 登雲學院 GenAI Leader 課程的 RAG 全面解析