# 音樂生成式AI ## 網站 資料 >https://medium.com/存在指南-way-to-exist/tts-introduce-audiolm-musiclm-vall-e-c59554241489 > >https://jimmy-huang.medium.com/mfcc梅爾頻譜-eff74c80cba7 > >https://blog.csdn.net/zouxy09/article/details/9156785/ 生成音樂 >輸文字 >>https://mubert.com/render >>一個月25首 >>https://huggingface.co/spaces/facebook/MusicGen >>只有十五秒 > >選風格 >>https://boomy.com/sign-in/?redirectFrom=%2Flibrary >> >>https://creators.aiva.ai/login ## Text To Speech Synthesis 我們打出一段字,電腦可以說出這段字,又或者是,電腦可以自己說出其所顯示的文字 ## Concatenative Synthesis(拼接式合成) 預先錄製好語音,將語音依分段並存入資料庫,當需要使用時,尋找與輸入的prompt特徵相似的元素,重新拼湊並轉成類比訊號輸出,資料庫中包含音訊及文字  * 優點:簡單的運算、快速生成人易懂的語音 * 缺點:費時費力、不順暢、語句長時說不清楚 * 例子:siri小姐 ## parametric speech synthesis參數式合成 根據語音合成模型和參數來直接生成語音輸出,擷取音樂的特徵,量化成數值儲存,像是二進位之類的,需要時再轉化成類比訊號輸出,而無需事先錄製大量的語音片段,這些參數可能包括聲道模型、基頻、語速等  * 優點:不需要龐大的資料庫、生成的語音較彈性、省力 * 缺點:需要龐大的運算及複雜點算法 ### 頻譜分析法 這樣的方式並不盡理想,聲音並不自然且不連貫、順暢。  #### 頻譜分析(梅爾頻譜) * 聲譜圖 將語音分為很多幀,每一幀對應一種頻譜,頻譜表示頻率跟能量的關係  首先將頻譜依座標表示,接著將圖旋轉90°,最後再將振幅高的地方標示為黑色,振幅小的標示為白色,將每一幀頻譜依時間變化結合起來,便得到一張聲譜圖⬇️  * 倒數頻譜(取log) 圖中的最大值(峰頂)即為共振峰,他攜帶了聲音的特徵,可以用它識別不同聲音,因此把重要的共振峰提取出來,便可以得出由共振峰連成的曲線包絡線  * 梅爾頻率分析 由於人類對聲音的感受只在特定頻率區間,像是對於部分低頻,人類耳朵會將其忽略,因此梅爾分析則是將包絡線轉換成人類耳朵適應的頻譜 1. 對語音分幀、加窗(切小塊、去掉極端值) 2. 透過FFT(傅立葉轉換)轉換成頻譜,簡單來說就是把聲音轉換成不同的頻率,並且可以得知其中的音調、聲音變化 3. 對頻譜圖使用梅爾分析 4. 接著對其使用倒譜分析(取log),最終得出聲音的特徵  ### 轉化成代碼法 將聲音的模擬當成一個必須存儲的 Task ,而為了達成這個 Task ,須將聲音數位化,在這個過程中,會有許多量化器,分別負責諸如捕捉聲音表徵、細膩化音訊等等  
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up