From Audio to Actionable Knowledge：用 ADK + Gemini 打造會議記錄助手

# From Audio to Actionable Knowledge：用 ADK + Gemini 打造會議記錄助手 > 📌 Slido 📌 > https://app.sli.do/event/f7qcvn7T7bL3dsU8njBEDu > 共筆請從這裡開始 ### 會議記錄 #### 速記恐慌 - 一心二用，漏掉關鍵字，跟不上語速。 #### 重聽地域 - 一小時會議紀錄花三小時整理成文字，耗費時間成本高。 #### 資訊死水 - 沒人看整理好的紀錄，回溯決策時無從找起。典型的"Write Only Memory" ### V1(Scripting):CoLab+Whisper - 準確度高，但操作繁瑣，需要手動執行腳本 - 本質上只是一個純粹的語音轉文字(STT)工具 > 缺點：無法知道講者是誰[name=講者] ### The Magic Momenet 朱騏的post解決會議記錄問題 >Threads: chi_digital_writing 2025-08-01 >https://www.threads.com/@chi_digital_writing/post/DMzCXs6Sljt?xmt=AQF0I2mfOT1KWUTtW2Mw01tzDeKTOLj07CvmyEcMG4dMqQ ### V2(GUI)：Google AI Studio / Web App >2分鐘生成 - 優點 - 支援人聲辨識(可以判對誰在說話) - 可直接得到會議紀錄 - 可針對會議內容追問，協助分析與賄人員立場/背景/後續推盡可能等 - 缺點 - 不能分段處理 - 少了一點agent感 ### V3(Agentic)：ADK+Gemini - The Framework(智慧骨架)：Google ADK > 職責：負責定義工作流程的結構。 - 定義工具集（Tools）：例如檔案處理、API呼叫。 - 流程控制（Flow Control）：決定任務執行的順序與遏輯。 - 狀態管理（State Management）：追蹤對話的上下文與進度。 - The brain(多模態大腦 >職責：負責真正的「理解」與「生成」。 - 多模態推理（Multi-modal Reasoning）：直接「聽懂」音訊，無需先轉成文字。 - 生成摘要與回答（Generation）：根據理解的內容產出高品質的回應。 - 核心流程 1. User Input - 開發者提供本地音訊檔案路徑。。 2. ADK Triggers Flow - ADK接收路徑，啟動預先定義好的處理流程。 3. Gemini Listens Gemini 宜接處自訊 Token - Audio Token Processing），總過了得統的 STT（Speech-to Text）步驟。 4. Interactive Q&A - 處理完成後，Agent 進入待命狀態，隨盼準被與使用者問答。 ### Works on my Machine! - Honest Tech：目前原型採用本地端運行模式。這讓我們能專注於核心Agent邏輯，並確保穩定性，暫時避開雲端部署語觸發機制的複雜問題 ### 核心價值：存"閱讀靜態報告"到"進行動態對話" - 靜態報告(Static Report) - 你只能被動接收資訊 - 動態互動(Dynamic Interaction) - 你可以主動提問、追問、探索資訊。會議記錄從一份"死"文件變成一個"活"的知識庫 - 關鍵能力 - 脈絡理解(Contextual Understanding)。Agent知道你的問題是機ue2剛剛處理玩的那場會議 ### 為什麼選擇Agent Development Kit(ADK)？ 1. 原生生態系整合(Native Ecosystem Integration) 與Gemini的多模態輸入(如原生音訊)無縫接軌,發揮模型最大潛力。雖然ADK仍處於早期階段,但它提供了對LLM行為最細粒度的控制權,這是其他高階框架難以比擬的。 2. 強大的流程編排 (Flexible Orchestration) ADK Sequential Parallel Loop Workflow Agents,讓開發者能像寫軟體一樣,定義出可預測、可管理的複雜工作流。這對於處理長音檔的切割與分段摘要至關重要。 3. 為部署而生 (Deployment Ready) 我們的目標是將這個 Agent 部署到 Cloud Run,成為團隊共享的服務。ADK的設計從一開始就考慮了容器化與部署,支援 Docker、Cloud Run、GKE,為從原型到產品鋪平了道路。 ### 我們的路線圖：從本機走向雲端自動化 >職責:負責真正的「理解」與「生成」。 - 多模態推理(Multi-modall Reasoning):直接「聽懂」音訊, 無需先轉成文字。 - 生成摘要與回答(Generation) 根據理解的內容產出高品質的回應。 ### 給開發者的三個關鍵takeaway 1. Native Audio > STT (原生聽力> 轉文字) Gemini 的原生多模態能力,讓我們能繞過傳統的「語音轉文字-> 文字摘要」流程。這不僅更更有效率,更能保留語氣、停頓等非文字的上下文資訊,讓理解更深入。 2. Interaction > Documentation (互動> 文件) 真正的價值不在於產出一份又一份的靜態文件,而在於建立一個可以「與之對話」的知識系統。思考模要從「我如何產出報告?」轉變為「我如何賦能對話?」。 3. ADK is Powerful (ADK的強大控制力) 承認它有學習曲線,甚至在早期版本會遇到 Bug。但ADK賦予開發者對LLM Agent 流程的精控制力,這是在打造穩準定、可維護的Agentic 系統時,不可或缺 ## QA 講者: > 可以多考慮ADK框架 > agent clone到本機、ADK一小時內完成