這邊假設你已經成功啟動dify的服務
Whisper Asr Webservice是一個很方便的工具,因為作者已經幫忙把語音轉文字的服務API化,對於應用端來說只要做常規的API呼叫就可以滿足應用上的需求。
啟動服務最快的方法就是docker:
不過要注意自己的cuda版本是否有對應,如果最新版的無法啟動的話就要降版,這取決於你的硬體設備。
成功啟動docker container之後,可以直接連接到應網頁,http://你的ip:9000/docs 沒意外的話你會看到下圖:
點擊上圖紅框處的openapi.json
,系統會開立一個新的視窗,一堆的json格式的字串,複製出來之後,拿到你喜歡的平台去做排版,排版之後我們要做兩個處理,這樣才能成功在dify中引用:
在info
與path
的中間加入servers
修正requestBody
中的content-type
,原本是multipart/form-data
,修正為multipart/form-data; boundary=----WebKitFormBoundarydzemBAPhdeDfTCfR
更多關於模型的選擇與細部配置請自行參考Whisper Asr Webservice官方文件說明。
進入Dify之後,我們就可以自定義工具,首先點擊工具:
點擊自定義之後,點擊建立自定義工具:
自己定義名稱,然後將剛剛調整的openapi貼上,就可以成功建立一個自定義工具:
現在,你已經可以直接在dify的workflow中取用自定義的語音轉文字的工具:
把一些參數設置一下:
測試應用:
把取到的文字再弄成問答集:
有興趣的話,可以再把問答集轉成主持人與來賓的對話,那就是一個podcast了。
如果是公司會議記錄,就可以讓與會人員每天聽聽老闆愛的盯寧了。