# Location privacy Results以及分析鋪路 --- 執行面: 先找實驗室上enhance過的音檔 -> 再找metrics -> 再找假設和理論。 可以試著用現有的noise metrics來講述為什麼我們acoustic scene會比較好。 --- 首先是fwSNRseg,這個量的是就是把**有聲音的部份權重調比較重**的SNR而已  可以發現在MSP-PODCAST, IEMOCAP,LibriSpeech_clean上面的fwSNRseg值都是正的,儘管在設計時實驗的時候調的SNR目標有0, -5, -10。唯有LibriSpeech_other的fwSNRseg忠實地有負值 WAD的效能在MSP-PODCAST, IEMOCAP都沒什麼影響,可是到了兩個librispeech的subset就比DEMUCS好了 PESQ是由聲音轉成人耳頻譜之後的 BarkSpectrumDifference(原始,預測)  看起來也是在librispeech上WAD會稍微好一點,然後在四個資料庫上這個趨勢沒都可以說是WAD>DEMUCS>No STOI 是用correlation-based的方式計算degraded speech的distortion。  可能是因為degraded speech有經過normalize,而且只是算correlation 所以No, DEMUCS,WAD之間的差別才不會像另外幾個那麼大。 scale-invariant SDR(SI-SDR) 只是用乘/除一個scaling factor的方式避免算出來的SNR隨著這個scale而改變  # 總結以及下個策略 可以看出有以下困難點: 1. 每個noise metrics都是用各種「相似度」算法來算degraded speech 跟original speech間的不管是距離還是correlation,都很難直接看出跟acoustic scene或是speech task的關聯。不然就只能從每一項noise metrics設計上的小巧思來間接推斷跟acoustic scene會有什麼關係。 2. 可以看出每一張圖的趨勢各不同,目前這幾張圖跟acoustic scene圖的比較還沒看到趨勢比較像的 %% acoustic scene   %% ASR task  # **策略**: 或許可以速大量地製造分析圖,找到相似處,再回去找原因 ### MSP-Podcast  ### IEMOCAP  ### LibriSpeech  Q: 哪些location容易被辨識? A: Transportation最容易被辨識,再來是outdoor, 再來是indoor Q: 哪些location
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up