# DeckSmith - AI 智慧簡報重構系統 (PDF to PPTX) **DeckSmith** 是一款基於 Google Gemini 生成式 AI 的高階簡報還原工具。 不同於傳統轉檔工具僅將 PDF 頁面視為背景圖片,DeckSmith 具備「視覺理解」與「影像修復」能力: 1. **OCR 文字辨識**:精準抓取文字內容、位置、大小、顏色與字重。 2. **AI 影像去字 (Inpainting)**:利用 AI 將原始版面上的文字「擦除」,並自動填補背景紋理,還原成乾淨的底圖。 3. **PPTX 重組**:將乾淨的背景圖與可編輯的文字方塊在 PowerPoint 中重新組合。 --- ## 📖 操作手冊 (User Manual) ### 網頁網址 https://decksmith.biobank.org.tw/ ### 第一步:登入系統 啟動後您會看到登入畫面,請輸入以下資訊: 1. **Invitation Code**:輸入 `ai4all`。 2. **Google API Key**:貼上您的 Gemini API Key (以 `AIza` 開頭)。 * *隱私說明:您的 API Key 僅儲存在瀏覽器本地端 (Local Storage),用於直接與 Google 伺服器通訊,不會傳送至任何第三方伺服器。* 3. **Keep me logged in**:勾選後下次無須重新輸入。 ![image](https://hackmd.io/_uploads/Sy7R8A6N-e.png) > **圖一:登入畫面** DeckSmith 系統登入介面,使用者需輸入 Invitation Code 與 Google Gemini API Key 才能開始使用。 ### 第二步:上傳與參數設定 登入後進入主畫面,在開始處理前,您可以在 **Initial Configuration (初始設定)** 面板調整全域參數: #### ⚙️ 關鍵參數說明 | 參數名稱 | 建議值 | 功能說明 | | :--- | :--- | :--- | | **Render Scale (渲染比例)** | `2.5x` | 決定 PDF 轉圖片的解析度。數值越高,文字越清晰,AI 辨識越準確,但處理速度變慢。若遇到小字辨識失敗,請調高此值。 | | **Removal Padding (去字範圍)** | `20px` | AI 在擦除文字時,向外擴張的像素範圍。若發現去字後有殘留筆畫 (Ghosting),請調大此值。 | | **OCR Model** | `Flash` | 選擇文字辨識模型。`Flash` 速度快且便宜;`Pro` 推理能力強,適合複雜排版。 | | **Cleaning Model** | `Pro` | 選擇影像修復模型。建議常駐 `Nano Banana Pro` 以獲得最佳的背景填補效果。 | 設定完成後,將 PDF 檔案拖曳至 **Upload Zone** 即可 (建議單次處理 20 頁以內)。 ![image](https://hackmd.io/_uploads/ryfXwRpNZg.png) > **圖二:主畫面與初始設定** 登入後的主畫面,可於 Initial Configuration 區域設定處理參數並上傳 PDF 檔案。 ### 第三步:工作區操作 上傳後,頁面會以卡片形式呈現。 1. **選擇頁面**:點擊卡片或勾選框來選擇要處理的頁面 (預設全選)。 2. **開始處理**:點擊上方工具列的 **"PROCESS SELECTED"** 按鈕。 * **OCR SCANNING**:AI 正在閱讀文字結構。 * **INPAINTING**:AI 正在清除背景上的文字。 * **READY**:處理完成,準備匯出。 ![image](https://hackmd.io/_uploads/Hy-5P0pVbe.png) > **圖三:頁面卡片工作區** 上傳 PDF 後,系統以卡片方式顯示各頁面,供使用者選擇處理範圍。 ![image](https://hackmd.io/_uploads/SJuAwCTVZg.png) > **圖四:處理單一頁面** 可單獨處理單頁面進行 OCR Scanning、Inpainting 或 Ready。 ### 第四步:檢視與微調 (Fine-Tuning) 這是最關鍵的步驟。處理完成後,將滑鼠游標移至頁面縮圖上: * **View Original / Cleaned**:切換檢視「原始 PDF」與「去字後的乾淨背景」,檢查文字是否已乾淨移除。 * **Tune (微調)**:若發現 AI 處理不完美 (例如漏字、去字不乾淨),請點擊此按鈕進入編輯模式。 ![image](https://hackmd.io/_uploads/rJWid06Ebl.png) > **圖五:處理狀態顯示** 顯示每一頁目前的 AI 處理狀態,如 OCR Scanning、Inpainting 或 Ready。 #### 🛠️ Tune 編輯模式 在此模式下,您可以針對**單一頁面**重新設定參數並重跑: 1. **調整 Render Scale**:若小字沒抓到,嘗試調高到 `3.0x` 或 `3.5x`。 2. **調整 Padding**:若文字邊緣有殘影,將數值調大 (例如 `30px`)。 3. **切換模型**:嘗試改用 `Pro` 模型進行更強力的推理。 4. 點擊 **"APPLY & REPROCESS"**,系統將僅針對此頁面重新運算。 ![image](https://hackmd.io/_uploads/rJ2CdAp4-e.png) > **圖六:原始與去字背景檢視與Tune 微調模式** 可切換檢視原始 PDF 與去字後的乾淨背景,用於檢查處理結果。 單頁微調介面,可重新設定解析度、去字範圍與模型後再次處理。 ### 第五步:匯出簡報 確認所有頁面狀態皆為 **READY** 後,點擊工具列上的 **"DOWNLOAD"** 按鈕。 * 系統將生成一個 `.pptx` 檔案。 * 打開 PPT,您會發現文字已經變成可編輯的文字方塊,而背景則是乾淨的圖片。 ![image](https://hackmd.io/_uploads/rJtMFR6EZg.png) > **圖七:簡報匯出操作** 所有頁面完成後,可透過下載功能匯出重構完成的 PPTX 檔案。 --- ## 📂 歷史紀錄 (Project History) 點擊左上角的 **漢堡選單 (≡)** 或是時鐘圖示,可開啟側邊欄: * **自動儲存**:系統會自動記錄您的工作進度。 * **切換專案**:點擊列表中的項目可載入之前的 PDF 進度。 * **刪除專案**:滑鼠懸停在專案名稱上,點擊垃圾桶圖示可刪除。 * *注意:若清除瀏覽器快取,歷史紀錄將會消失。* ![image](https://hackmd.io/_uploads/SyG8YC6Vbl.png) > **圖八:專案歷史紀錄** 側邊欄顯示歷史專案列表,可切換或刪除先前處理過的 PDF 專案。 --- ## ⚠️ 常見問題與限制 1. **複雜向量圖形**:若文字與複雜的插圖重疊,AI 在去字時可能會誤刪一小部分插圖細節,建議透過微調 Padding 來平衡。 2. **直排文字**:目前模型對直排文字 (Vertical Text) 的支援度取決於 Gemini 模型的版本,建議使用 `Pro` 模型以獲得較佳效果。 3. **處理速度**:由於包含高解析度渲染與兩階段 AI 處理 (OCR + 繪圖),每頁處理約需 5-15 秒,請耐心等候。 4. **記憶體用量**:若設定 `Scale 3.0x` 以上且頁數眾多,瀏覽器可能會耗用大量記憶體。若發生卡頓,請重新整理頁面並分批處理。 --- ## 🛡️ 資料隱私 * **Client-Side Processing**:PDF 解析與圖片裁切皆在瀏覽器端完成。 * **Direct API Call**:圖片數據直接從您的瀏覽器傳送至 Google API,不經過任何中間伺服器。 * **Local Storage**:您的 API Key 與專案圖片僅儲存在您的電腦中 (IndexedDB)。 --- *Powered by NCHC GenAI Team*