Try   HackMD

期末專題一頁報告

Table of Contents

1. 題目

聲音辨識簡報PPT控制器

2. 發想

由於現在是聲音辨識完成日常的控制當道的時代,如小米同學,siri等,uv,不須透過手動操作,只要用聲音就能完成任務,非常之方便,也是未來智慧家庭智慧城市等重要推手,所以本組按此思路與之結合並開發在公司學校領域最常用到的工具上,Power Point控制上面,透過聲控的方式,達到不動手即可完美呈現PPT報告與演講,是一種附有科技感與實用性的工具。

3. 功能

本組開發功能分兩為專案期限內與未來規劃部份
專案期限內:

  1. 手動按下錄音按鍵(APP),即會將錄音的結果傳至server進行聲音辨別
  2. server辨別聲音的指令後,會傳至下方兩個部份
    • APP端—顯示辨識後的指令
    • PC端-控制PPT動作

未來規劃:導入語音助理功能,如呼喊siri就能控制ppt,不須在透過手動按下錄音按鍵

4. 與相似APP差異

參考此APP,是用手機APP取代一般ppt簡報控制的裝置,但非聲控
本組規劃使用聲控為目標,這是最大的不同處

5. 開發工具

  1. APP部份:

    • IDE:Android Studio
    • 開發語言:Kotlin
  2. PPT控制部份:

    • IDE:VIM and Vscode
    • 開發語言:Python
  3. RestfulAPI部份:

    • IDE:VScode
    • 開發語言:Python
  4. Deep Learning聲音辨識部份:

    • IDE:VScode
    • 開發語言:Python
  5. 所用到的系統:

    • 行動裝置:Android
    • 後端伺服器:Debian

6. 分工

  1. 王文鴻(108368530):

    1. APP部份:
      • [80%]與後端server之傳輸與接收
      • [70%]錄音功能
    2. 後端Server:
      • [100%]Deep Learning聲音辨識模型
      • [100%]RESTful API
    3. [40%]虛擬按鍵控制PPT部份
    4. [50%]文件整合與撰寫
    5. [20%]Github架設與管理
    6. [40%]微影片剪輯
  2. 余俊賢(108368505):

    1. APP部份:
      • [20%]與後端Server之傳輸與接收
      • [30%]錄音功能
    2. [60%]虛擬按鍵控制PPT部份
    3. [50%]文件整合與撰寫
    4. [80%]Github架設與管理
    5. [60%]微影片剪輯

7. 目前進度

  1. APP部份:

    • [100%] 與後端server之傳輸與接收
    • [100%] 錄音功能
    • 優化部份:
      • [100%]為了降低延遲在需在APP端就先將聲音轉成wav格式(目前由後端轉換格式.pcm=>.wav)
      • [0%]錄音後上傳改成自動(目前須手動選擇錄音檔案)
  2. 後端Server:

    • [100%]Deep Learning聲音辨識模型
    • [100%]RESTful API
  3. 虛擬按鍵控制PPT部份-尚有部的PPT控制尚未完成,已完成部份:

    • [100%]上一頁
    • [100%]下一頁
    • [95%]回首頁
    • [95%]到最尾頁
  4. 文件部份

    • [0%] 期末ppt文件撰寫
    • [0%] 期末報告文件撰寫
  5. [0%] 微影片部份

7. 微影片