# From Audio to Actionable Knowledge:用 ADK + Gemini 打造會議記錄助手
> 📌 Slido 📌
> https://app.sli.do/event/f7qcvn7T7bL3dsU8njBEDu
> 共筆請從這裡開始
### 會議記錄
#### 速記恐慌
- 一心二用,漏掉關鍵字,跟不上語速。
#### 重聽地域
- 一小時會議紀錄花三小時整理成文字,耗費時間成本高。
#### 資訊死水
- 沒人看整理好的紀錄,回溯決策時無從找起。典型的"Write Only Memory"
### V1(Scripting):CoLab+Whisper
- 準確度高,但操作繁瑣,需要手動執行腳本
- 本質上只是一個純粹的語音轉文字(STT)工具
> 缺點:無法知道講者是誰[name=講者]
### The Magic Momenet
朱騏的post解決會議記錄問題
>Threads: chi_digital_writing 2025-08-01
>https://www.threads.com/@chi_digital_writing/post/DMzCXs6Sljt?xmt=AQF0I2mfOT1KWUTtW2Mw01tzDeKTOLj07CvmyEcMG4dMqQ
### V2(GUI):Google AI Studio / Web App
>2分鐘生成
- 優點
- 支援人聲辨識(可以判對誰在說話)
- 可直接得到會議紀錄
- 可針對會議內容追問,協助分析與賄人員立場/背景/後續推盡可能等
- 缺點
- 不能分段處理
- 少了一點agent感
### V3(Agentic):ADK+Gemini
- The Framework(智慧骨架):Google ADK
> 職責:負責定義工作流程的結構。
- 定義工具集(Tools):例如檔案處理、API呼叫。
- 流程控制(Flow Control):決定任務執行的順序與遏輯。
- 狀態管理(State Management):追蹤對話的上下文與進度。
- The brain(多模態大腦
>職責:負責真正的「理解」與「生成」。
- 多模態推理(Multi-modal Reasoning):直接「聽懂」音訊,無需先轉成文字。
- 生成摘要與回答(Generation):根據理解的內容產出高品質的回應。
- 核心流程
1. User Input
- 開發者提供本地音訊檔案路徑。。
2. ADK Triggers Flow
- ADK接收路徑,啟動預先定義好的處理流程。
3. Gemini Listens Gemini 宜接處 自訊 Token
- Audio Token Processing),總過了得統的 STT(Speech-to Text)步驟。
4. Interactive Q&A
- 處理完成後,Agent 進入待命狀態,隨盼準被與使用者問答。
### Works on my Machine!
- Honest Tech:目前原型採用本地端運行模式。這讓我們能專注於核心Agent邏輯,並確保穩定性,暫時避開雲端部署語觸發機制的複雜問題
### 核心價值:存"閱讀靜態報告"到"進行動態對話"
- 靜態報告(Static Report)
- 你只能被動接收資訊
- 動態互動(Dynamic Interaction)
- 你可以主動提問、追問、探索資訊。會議記錄從一份"死"文件變成一個"活"的知識庫
- 關鍵能力
- 脈絡理解(Contextual Understanding)。Agent知道你的問題是機ue2剛剛處理玩的那場會議
### 為什麼選擇Agent Development Kit(ADK)?
1. 原生生態系整合(Native Ecosystem Integration)
與Gemini的多模態輸入(如原生音訊)無縫接軌,發揮模型最 大潛力。雖然ADK仍處於早期階段,但它提供了對LLM行為最 細粒度的控制權,這是其他高階框架難以比擬的。
2. 強大的流程編排 (Flexible Orchestration)
ADK Sequential Parallel Loop Workflow Agents,讓開發者能像寫軟體一樣,定義出可預測、可管理的 複雜工作流。這對於處理長音檔的切割與分段摘要至關重要。
3. 為部署而生 (Deployment Ready)
我們的目標是將這個 Agent 部署到 Cloud Run,成為團隊共享 的服務。ADK的設計從一開始就考慮了容器化與部署,支援 Docker、Cloud Run、GKE,為從原型到產品鋪平了道路。
### 我們的路線圖:從本機走向雲端自動化
>職責:負責真正的「理解」與「生 成」。
- 多模態推理(Multi-modall Reasoning):直接「聽懂」音訊, 無需先轉成文字。
- 生成摘要與回答(Generation) 根據理解的內容產出高品質的回 應。
### 給開發者的三個關鍵takeaway
1. Native Audio > STT (原生聽力> 轉文字)
Gemini 的原生多模態能 力,讓我們能繞過傳統 的「語音轉文字-> 文字 摘要」流程。這不僅更 更有效率,更能保留語 氣、停頓等非文字的上 下文資訊,讓理解更深 入。
2. Interaction > Documentation (互動> 文件)
真正的價值不在於產出一 份又一份的靜態文件,而 在於建立一個可以「與之 對話」的知識系統。思考 模要從「我如何產出報 告?」轉變為「我如何賦 能對話?」。
3. ADK is Powerful (ADK的強大控制力)
承認它有學習曲線,甚至在早期版本會遇到 Bug。但ADK賦予開發 者對LLM Agent 流程的 精控制力,這是在打造穩 準定、可維護的Agentic 系統時,不可或缺
## QA
講者:
> 可以多考慮ADK框架
> agent clone到本機、ADK一小時內完成