---
# System prepended metadata

title: Location privacy Results以及分析鋪路

---

# Location privacy Results以及分析鋪路
---


執行面：
先找實驗室上enhance過的音檔 -> 再找metrics -> 再找假設和理論。




可以試著用現有的noise metrics來講述為什麼我們acoustic scene會比較好。
---

首先是fwSNRseg，這個量的是就是把**有聲音的部份權重調比較重**的SNR而已

![](https://i.imgur.com/miOT6af.png)


可以發現在MSP-PODCAST, IEMOCAP，LibriSpeech_clean上面的fwSNRseg值都是正的，儘管在設計時實驗的時候調的SNR目標有0, -5, -10。唯有LibriSpeech_other的fwSNRseg忠實地有負值

WAD的效能在MSP-PODCAST, IEMOCAP都沒什麼影響，可是到了兩個librispeech的subset就比DEMUCS好了



PESQ是由聲音轉成人耳頻譜之後的 BarkSpectrumDifference(原始，預測)

![](https://i.imgur.com/YHaQCWc.png)

看起來也是在librispeech上WAD會稍微好一點，然後在四個資料庫上這個趨勢沒都可以說是WAD>DEMUCS>No



STOI 是用correlation-based的方式計算degraded speech的distortion。

![](https://i.imgur.com/tK47tPN.png)

可能是因為degraded speech有經過normalize，而且只是算correlation 所以No, DEMUCS，WAD之間的差別才不會像另外幾個那麼大。


scale-invariant SDR（SI-SDR） 只是用乘/除一個scaling factor的方式避免算出來的SNR隨著這個scale而改變

![](https://i.imgur.com/LWIiD9V.png)


# 總結以及下個策略

可以看出有以下困難點：

1. 每個noise metrics都是用各種「相似度」算法來算degraded speech 跟original speech間的不管是距離還是correlation，都很難直接看出跟acoustic scene或是speech task的關聯。不然就只能從每一項noise metrics設計上的小巧思來間接推斷跟acoustic scene會有什麼關係。

2. 可以看出每一張圖的趨勢各不同，目前這幾張圖跟acoustic scene圖的比較還沒看到趨勢比較像的


%% acoustic scene
![](https://i.imgur.com/ZELW82P.png)
![](https://i.imgur.com/61WFmVI.png)


%% ASR task
![](https://i.imgur.com/bOks11n.png)


# **策略**： 或許可以速大量地製造分析圖，找到相似處，再回去找原因


### MSP-Podcast
![](https://i.imgur.com/16T0fq5.png)
### IEMOCAP
![](https://i.imgur.com/YZ63UWA.png)
### LibriSpeech
![](https://i.imgur.com/Z0picA7.png)

Q: 哪些location容易被辨識？
A: Transportation最容易被辨識，再來是outdoor, 再來是indoor

Q: 哪些location