📁

Open NotebookLLM 教學系列

Part 4: 來源管理與 RAG 搜尋

上傳文件、建立知識庫、智能檢索

多格式支援 向量嵌入 混合搜尋

📄 支援的來源類型

類型說明支援格式
📄 PDFPDF 文件解析.pdf
📝 Text純文字文件.txt, .md
📋 WordWord 文件.docx, .doc
📊 Excel試算表.xlsx, .xls, .csv
🌐 Web網頁內容擷取URL
🎬 YouTube影片字幕YouTube URL
🎤 音檔語音轉文字.mp3, .wav, .m4a

🔄 RAG 處理流程

1. 上傳文件
2. 解析內容
3. 分割 Chunks
4. 向量嵌入
5. 存入資料庫
Chunk 分割:將長文件分割成小塊(約 500-1000 字),方便檢索和傳給 LLM。

🔍 三種搜尋模式

全文搜尋

SQLite FTS5 全文索引

快速、精確關鍵字匹配

向量搜尋

語意相似度搜尋

理解語意、找相關內容

混合搜尋 (推薦)

全文 + 向量結合

RRF 融合演算法

🚀 進階 RAG 技術

RRF 融合

Reciprocal Rank Fusion 演算法,結合多種搜尋結果的排名。

Query Expansion

LLM 自動擴展查詢,生成同義詞和相關詞。

LLM Reranking

使用 LLM 對搜尋結果進行智能重排序。

去重機制

自動識別並合併重複的搜尋結果。

💬 RAG 對話流程

用戶提問
向量化問題
搜尋相關內容
組合 Prompt
LLM 回答
效果:AI 回答基於你的資料,減少幻覺,並附上來源引用!

🎤 音檔處理 (STT)

OpenAI Whisper

高品質、多語言支援

需要 OpenAI API Key

Groq Whisper (推薦)

超高速、有免費額度

申請:console.groq.com

本地 Whisper

完全離線使用

需下載 3GB 套件

🎯 Part 4 總結

多格式支援

PDF、Word、Excel、網頁、YouTube、音檔

RAG 流程

上傳 → 解析 → 分割 → 嵌入 → 儲存

混合搜尋

全文 + 向量 + RRF 融合

智能回答

基於來源、減少幻覺

下一步:Part 5 將詳解工作室的各種輸出功能!
➡️ 前往 Part 5:工作室功能詳解