# 未踏AI草案 ## テーマ 深層変換モデルを用いたAny-to-Anyリアルタイム音声変換 ## 背景 現在、深層学習を用いた音声変換モデルの開発が盛んに行われている。 この背景としてVRの普及がある。一部のVR(VRChatやオンラインゲーム)ではアバターのモデルを操作し、そのキャラクターになりきったり、バーチャルな個性としてロールプレイを行ったりしている。その際、見た目のVRアバターに対し声のVRアバターとしてボイスチェンジャーが用いられる。 しかし、現状では「深層学習を用いた音声変換」を用いたボイスチェンジャーはあまり利用されていない。その要因として、リアルタイムのコミュニケーションが困難であることが一番の原因ではないかと考える。 その課題を乗り越えることでボイスチェンジャーの普及と活用につながると考える。 ## 提案内容 ### タイトル CycleGAN-VC3を用いたパラレルデータの拡張とVQ-VAEを用いた音素の埋め込み表現化を使ったリアルタイム音声変換 - 現在のAny-to-Any,Any-to-Oneは声A->音素(onehot)->声Bと音声認識+音声合成と無駄の多いこうせい - 音素のOnehotではなく、抽象的なベクトル(行列)の方が無駄が少ないのでは? - VQ-VAEを用いた音声認識手法がある(https://github.com/swasun/VQ-VAE-Speech) - 以下のようにパラレル音声->(VQ-VAE)->パラレル音声でVQ-VAEのVQの部分に音素の抽象ベクトル(行列)が出てくるかも?(VQ-VAEのデコーダはwavenet等が一般的、これだとリアルタイムはむり) ![](https://i.imgur.com/882Z508.png) - 大量のパラレルデータ作成のためにCycleGAN-VC3を用いる - to-AnyはAutoVCのようにする(RelGANではうまくいかなかった) - この手法だと人の手いじれないので簡単に操作できるようにする。 ### 新規性 以前から用いられている一度テキストや音素のOnehotに直すやり方ではなく音素の成分を表すベクトル(行列)を用いることでリアルタイムな音声変換を実現する。