跳至主要內容
ESC
Study Jam:GenAI 開發者實戰 — 第 14/29 篇

Gemini 多模態 RAG 文件檢索

GCP

課程概述

真實世界的企業文件,很少只有純文字,裡面通常還夾著圖表、表格、流程圖跟照片。傳統的 RAG 系統碰到這種「富文件」就有點吃力。這堂課會帶你結合 Gemini 的多模態能力跟 Vertex AI Search,做出一套能看懂、也能檢索各種格式文件的進階 RAG 系統。

你將學到

  • 解釋 RAG 架構的核心流程:檢索、增強、生成
  • 理解多模態 RAG 與傳統文字 RAG 的架構差異
  • 運用 Gemini 處理包含圖片與表格的文件問答
  • 設計 Vertex AI Search 的 Data Store 與索引策略

核心概念

RAG 架構回顧

RAG(Retrieval-Augmented Generation)就是把大型語言模型的生成能力,跟外部知識庫的檢索能力綁在一起。流程分三步:先把使用者的問題轉成查詢向量,去知識庫裡撈出相關文件(Retrieval)。再把撈到的內容當成上下文塞進 Prompt(Augmentation)。最後讓 LLM 根據這些上下文回答(Generation)。這樣做能明顯降低模型幻覺,讓回答有可靠的資料來源撐著。

多模態 RAG 的挑戰

傳統 RAG 只看得懂文字,但企業文件裡很多關鍵資訊其實藏在圖表、表格跟圖片裡。像是財報的營收圖表、技術手冊的架構圖、醫療報告的影像。所以多模態 RAG 多了三個要處理的問題:怎麼從非文字的元素裡把結構化資訊抽出來、怎麼把不同模態的內容建成同一套索引,還有生成回答時怎麼把多模態的上下文整合進去。

Gemini 的多模態理解能力

Gemini 原生就吃文字、圖片、影片跟音訊這幾種多模態輸入,可以直接看懂圖片裡的圖表、認出表格結構,連影片裡的場景都能分析。在多模態 RAG 裡,Gemini 可以當文件理解層(把圖表轉成結構化的描述),也可以當最後的生成層(根據多模態上下文產出回答)。

Vertex AI Search 與 Document AI 的協作

Vertex AI Search 是一套全代管的 RAG 基礎設施,幫你搞定文件的自動分割(Chunking)、索引建立跟語義搜尋。Document AI 則專門做文件的結構化解析,從 PDF 裡抽表格、認出表單欄位、判斷文件的版面配置。兩個搭起來用,企業就能很快做出能消化大量複雜文件的 RAG 系統。

實作重點

  • 準備一組包含圖表與表格的 PDF 文件,透過 Vertex AI Search 建立 Data Store
  • 測試純文字問題與需要圖表理解的問題,比較回答品質的差異
  • 調整 Chunking 策略(按頁面、按段落、按語義),觀察對檢索準確度的影響
  • 使用 Gemini API 直接傳入圖片進行問答,體驗原生多模態 vs RAG 的差異

Lab 導讀

Lab 連結Inspect Rich Documents with Gemini Multimodality and Multimodal RAG — Google Cloud Skills Boost

這個 Lab 動手操作蠻多的,你會親手做出一套能處理富文件的 RAG 系統。做的時候特別留意文件前處理那幾步,Document AI 解析得好不好,會直接影響後面檢索準不準。建議拿自己準備的中文文件多測幾次,看看多語言文件處理起來效果如何。

延伸學習

Study Jam:GenAI 開發者實戰 — 14/29 完成 查看系列全覽 →

留言討論

徽章解鎖!