音声情報処理

###### tags: `lab` # 音声情報処理 2019年度の音声情報処理です。今年は寝ずに全部メモって来年度TAができるレベルにする予定です。 [TOC] ## 第1回 (6月3日) ### 聴覚が作り上げた世界 - 人間が手に入れる情報, 視覚7割, 聴覚2割 - 視覚は、目を塞げば0になるが、聴覚は常に聞こえる。 - > 人間は普段思っている以上に聴覚から情報を得ている。 - 人間が聞いている音、聞こえている音 - 【波】 - 特定の周波数バンド(周波数帯域)だけ聞こえるという器官を持ち合わせている。 - スマートフォン等の発する電波はコウモリや犬猫が聞こえている可能性がある。 ### 聴覚と言語 ![](https://i.imgur.com/tlGZzdX.png　=x200) - 人間は音をコミュニケーションの手段として使用してきた。 - 言葉というのは文字を持たない。ので音声と同義。 - ハワイ: 文字を持たないので、踊りやダンスで物語として表現。これらを歴史,分化を伝承している。 - 日本も戦争に負けた時に、文字を捨てる運動があったがなんとか抑えた。 - 韓国はあっさり捨てて、ハングル文字を導入した。 - 言葉として伝わる条件 - 可聴周波数範囲に適合した音源 - 人間の周波数分解能と時間分解能に適合した符号長 - 短期記憶として保持できるレベルの長さであるか - 「とうきょう」という文字を話されて知覚できるのは、それらを覚えているから。 - 動物の言語 - インコはとても長い符号長で簡単な言語で話している。 ### 聴覚と認知 ![](https://i.imgur.com/ErRkMZp.png) - 「痛覚圏」を超えた場合細胞が死ぬらしい…。 ### 認知に至るまで(聴覚器官) ![](https://i.imgur.com/C235MMa.png) - 耳小骨にある蝸牛の中の神経細胞が脳に直結している。がその先はどのように認識していいるか分からない。図の中にある経路は「分析器」であると考えられている。このあたりはコンピューターで実現ができてきている。 ### サンウンドスケー ![](https://i.imgur.com/OLMQbM6.png) - 環境音楽 - ただ単純に音を鳴らすのではなく、その環境にあった音が存在する。 - >横浜ランドマークタワー周辺に環境音楽なるものがある。 - 色々な音がそのシーン(情景)を作り上げている ### 言語と言語音 ![](https://i.imgur.com/tvmpyCi.png) - 人間は管楽器 - 声帯はリードのような役割をしている。 - 人間の管は「鼻」と「口」に分かれている。 - 人間の口は「ベル」。 - 人間がとランペットとトロンボーンを聞き分けるのと同じように。 - 音声 = (言語音 + 非言語音) - 音韻: 人間が言語として認識できるもの。 - のちのち詳しく ### なぜ人は調音ができるのか。咽頭降下 ![](https://i.imgur.com/uUd23wP.png) - 人間の新生児が泳いでいるように見えるのは、口からの呼吸ができない。また、重力方向に体の向きが垂直であるのなら、鼻から空気が入らない?ので、誤飲はしない。 - Cooingは意図して出す音である。 - 咽頭の下降 - 喉の奥に空洞ができる。 - 人間は舌を使用して、空洞の大きさを調整して「管」の大きさの調整ができる。 - 何故咽頭の下降が起きたのか - 分からない…。サルは起きないらしい。 ### 楽器の種類 ![](https://i.imgur.com/9K6UqJC.png) - これらの「構成される部品」と「音を鳴らす方法」で分類されている。 - 擦弦(さつげん)がっき - 弦を擦る(こする)楽器。 - 近代の楽器は産業革命と関係が深い。 - ピストン・バルブ - トランペット - ピアノの弦 - ものすごい張力がかかる。 - ロータローバルブ - ホルン - これ以降に、新しい楽器はあまり登場していない…。 - コンピューターと関係する製品があるくらい ### 音の分析 ![](https://i.imgur.com/l03PuHS.png) - 音声と音楽の対応関係 | 音楽 | 音声 | | ---------- | ------------------------------- | | 音色 | 音韻 | | 音高 | 韻律(イントネーション) | | 音の持続長 | 音韻の持続長(あまり重要ではない) | | 音の強さ | 音の強さ | - 音の分析が難しい - 音声の場合 - 生物なので==揺らぎ==が大きい - 長音結合 - 異なる音色が時間的に滑らかに接続している(チョーキング: ギター)ので区切れ目が分からない。 - 持続長が極端に短い音がある - 「p」 - 音楽の場合 - できるだけ離散的になっている - ピアノ等は連続的に引く事はできない。 - 同時に複数の音が混在する=分離が困難 ### 音の分析(音声) ![](https://i.imgur.com/awtZpQU.png) - あんまりうまくいかない…周波数解析器 ### 音楽の分析 ![](https://i.imgur.com/dCTsVtE.png) - 音高が広い - 今世紀に入ってから、音楽の分析が盛んになってきた - コンピュターの能力向上のため - RAMを大量に使うので。 - コンピュターの精度向上により、 - デジタル上で合成ができた - ハードウェアに直接録音ができた。 ### 音の合成 ![](https://i.imgur.com/H9ElHTU.png) - 波形接続合成 - 単語や文節を連結して音声を合成(駅構内放送) - Diphone合成 - > 黒柳徹子の声生成器 - ターゲットとなる言語の音のつながりをすべてもつ。「あ」「い」...とうではなく「あう」という音の様々な音の高さのものを保管している。数万に及ぶユニットが得られる。 - これらが適切につながるようにつながるように、データーベースを検索する。 - これらの探索技術の向上がこの合成方法を生み出せた。 - コーパスベース合成 - Diphone合成の進化 - パラメトリック合成 - 精度は悪い - 女の人の声のほうが楽。逆に男性の声を合成するのは難しい(ボーカロイド) - 逆に男性の声の認識は楽だが、女の人の声の認識は男性より簡単。 - フォルマント合成 - アナログ時代からある。 ### - 方法論は大量にある。ただこれらは新しい方法ですぐに塗り替えられる。 - なので変わらない部分を学ぶという事が大事(教養) - 何を使ってどうゆう技術で成立しているんは変わっている ## 第2回 (6月13日) - 音 1. 発声するほう 2. 受容する側 1、２の2つが成立して音は伝わる成立例 1. こうもりに反応する犬 #### p3の話人の対話は発声する音を己れの耳にフィードバックして、調整して発信しているなのでこのフィードバックがとぎれると話せなくなる DAF(聴覚遅延フィードバック) 音が遅れて返ってきたら反応できないという実験 <実験> 0.5(s)は論外喋れるやつもいるが・・・・ <個人談> 1.5sぐらいの遅れから違和感を感じる #### 音の種類 - 複合音の騒音騒音は何を聞き取りたいのか似よって決まる。いる音いらない音いらない音はノイズ + AM 振幅変調(画像の上) + FM 周波数変調(画像の下) 周波数方向に変調する粗密波を作っている仕組み人間に対する情報処理する人は周波数解析しろ (FFT,フィルターバンク、) →人の耳は音の高さの聞き分け機能がある(蝸牛が人間の周波数解析器) - 三半規管物理的仕組みはジャイロ - 耳介前方、後方の知覚は、音波のとどいた時間差これを後天的に人は学習している。耳介の形の性質上後ろからきた音は高周波数の成分を削られるのでこれで判断している #### p10 Q　蝸牛前に骨3つあるこれなんだ？ →インピーダンス変換器 #### p11 蝸牛の話左の黄色い画像について #### 伝えたいこと - 蝸牛の入り口は高い振動が伝わっている - 蝸牛の奥は低い振動が伝わっている - どの周波数の音が鳴っているのかこの蝸牛の揺れによって周波数解析している！以上から人の聴覚に関する研究は周波数解析が必須である #### いろんな聴覚実験 - 音を知覚するとはなんか音が鳴っているぐらいの感覚(音の種類までは分別していない) - 頻度説神経は反応時電子パルスを発することから提案 p.15の話この説は比較的納得できる部分も多いが 400Hz,410Hzの識別できる人が説明できない #### 音の強さ(復習) - ベル b 何桁違うかの尺度 - logの左が - 20 振幅 - 10 エネルギーを表している <2章 p26まで完了> ## 第3回 (6月17日) ### 前回までのあらすじ #### 音の知覚 ![](https://i.imgur.com/sadcqZs.jpg =450x) 10倍違ったら(1桁違ったら)10dBとして表現 - 蝸牛等の適当な器官が物理法則に乗っとるわけが無いよね。 #### 音の大きさの知覚(1): ウェイバーの法則 ![](https://i.imgur.com/9qeZ2Cw.jpg =450x) - 周波数を下げていくと、同じ音の大きさに聞こえるためには、どんどん音の大きさを上げていく必要がある。 - このグラフの縦横は物理量、描かれてる曲線は心理量。 - 曲線の上に書いてある数字は`phon`という。 ![](https://i.imgur.com/243IITf.jpg =450x) - 脳をかちわる事ができないので、昔から心理的な方法で音の解析を行っている。 - ==弁別閾== - ２つの音の周波数や大きさに対して、識別ができるかどうかを定義したもの - この法則は史劇が中程度の場合に近似的に成立することに過ぎない - 例: 1億円の車が5000万円引く #### 音の大きさの知覚(2): フェフナーの法則 ![](https://i.imgur.com/F6TIjdv.jpg =450x) ウェイバーの法則とはちょっとちがう。 - log: でっかくなると感覚は変わらないよ! #### 音の大きさの知覚(3): スティーブンスの法則 ![](https://i.imgur.com/zLjUfV4.jpg =450x) - (1) ~ (3)までの法則が定義されたが、まず観測した後にどの法則に当てはまるかの検討が行われる。(心理量なので色々な事が提唱されている) - 大体これらのうちのどれかに乗る。 - べき関数: 大きくなると、感覚量は致命的に大きくなるよ! #### 音の大きさの知覚(4): ソン ![](https://i.imgur.com/WPHPYDo.jpg =450x) - フォンとの違い - 等感曲線内部では心理量はphonで知覚可能だが、他の線との関係は`dB`(物理量)で定義されているためそれらを拡張したものがソン。 - `1000Hz 40dB SPLの純音 = 1sone` - この値のみを定義して他はすべて主観的(心理量的に定義する) - 図を見るとわかるが、20-40Hzでは直線的であるが、それ以外ではその通りに乗っていない。 #### 音の高さの知覚(1): メル ![](https://i.imgur.com/XO8L0V7.jpg =450x) - 人間の主観的な音の高さの定義 - `1000Hz, 40phon`の純音を`1000mel`と一つだけ定義 - 音楽が移調すると曲の感じが変わる - オクターブは完全に２倍の周波数であるが、人間は心理的に二倍の位置に感じる事ができないので。 #### 音の高さの知覚(2): ローピッチ ![](https://i.imgur.com/92iTAKF.jpg =450x) - missing fundamental現象 - これが変わって聞こえてしまうと、電話で本人確認等が取る事ができなくなってしまう。 #### 音源定位(1): 聴空間 ![](https://i.imgur.com/Q6sNrLr.jpg =450x) - 方向知覚 - 左右: - 人間の耳は横についているので、左右の音の判別は得意。 - 上下 - これは完全に学習 - スリッパの音がした-> 下からなるであろう - 蚊の音が聞こえる => 上からなるであろう - エアコンの音が聞こえる => 上から聞こえる - なので上からスリッパの音を鳴らすとしたから聞こえているようになる。 - 前後 - 耳介が在ることにより、高周波域は減衰する。これらの学習をして、前後の判断をする(後天的) - #### 音源定位(2): 時間差と強度差 ![](https://i.imgur.com/bKT6qNf.jpg =450x) - ミキサーの「Pan」を使用して、左右の音の出力レベルを変える - 強度差 - 昔のアナログ機器はこっちでのレコーディングしかできなかった。(コンデンサーやコイルで位相が生じてしまうので) - 時間差 - デジタルレコーディングで可能になった。ただし、再生するためにもお高めな機器が必要。 - どっちが影響しやすいの? - 両方共使用している。 - time-intensity trading #### 音源定位(3): 最小弁別角度 ![](https://i.imgur.com/DcEwCVw.jpg =500x) - 最小弁別角度 - 音の到来方向の知覚できる最小角度 - 音楽の倍音の知覚ができる1000Hz当たりの知覚差が大きいゾ(だから?-->聞きそびれ) #### 音源定位(4): 音源の距離知覚 ![](https://i.imgur.com/suQ2jJd.jpg =450x) - 本来この大きさは知覚できない。 - 音の大きさでやってるの？ - 例: マイクを通した例 - 相手が生音だと過程した場合近づいた時に、大きくなれば距離が近づいてると思えるが、マイクを通した時にはそれは知覚されない。 - スペクトルでは知覚できるの? - 高周波は減衰するけど、そこまで影響しないと思われる。 - 音の前後、上下の知覚がでいるので結局 - 距離知覚は経験による学習 - ==ガードナー(Gardner, 1969)== --- #### マスキング: マスキング ![](https://i.imgur.com/I8BByUE.jpg =450x) - マスクする音: **マスカー(masker)** - マスクされる音: **マスキー(maskee)** - マスキングには - 周波数マスキング #### マスキング(1): 純音同士のマスキング ![](https://i.imgur.com/0SKYUFG.jpg =450x) - 縦軸マスキング量 - マスクされる方の音を鳴らした後に、マスクする音を鳴らす - 圧縮音源はこの現象を使用している - mp3等 - これらは人間のみの現象。他の動物では聞こえる可能性がある #### マスキング(2): スペクトルマスキング ![](https://i.imgur.com/zFhz9Ud.jpg =450x) - (1)の図の統計をまとめている。 - Masker(A音)の音が大きいほど、マスクされる周波数の帯域幅は広い #### マスキング(3): スペクトルマスキングの仕組み - 低い周波数は奥に届く ![](https://i.imgur.com/SFXlEJ1.jpg =450x) #### マスキング(4): 雑音によるマスキング ![](https://i.imgur.com/67qi4Tm.jpg =450x) - ホワイトノイズがある純音をマスクする時? - デジタル信号処理を読め。後ろの方に書いてある ==未完成: まだまとめられる== #### マスキング(5): 雑音によるマスキング #### マスキング(2.1): 継時マスキング ![](https://i.imgur.com/gkXjs07.jpg =450x) 時間方向のマスキング - 在る大きい音がなると、時間的にその近傍にある音が消える - 順向マスキング: ==耳の仕掛け(物理)上生じる== - 大きな音Aの後になった音Bは知覚する事ができない。 - Aで蝸牛が震えてるでの知覚する事ができない - 逆向マスキング: ==脳の中の処理で生じる== - 最初になった音Bは、後からなった大きな音Aにより、音Bが聞こえなくなる。 - 例: 話している時に、大声で話しかけられると最初の話しが消し飛ぶ　 - 逆向マスキングのほうがマスキング量が大きい。 #### マスキング(2.2): 両耳マスキング料の変化 ![](https://i.imgur.com/Z2af8bZ.jpg =450x) - 音像の位置がマスカーとマスキーで異なっていたら？ - マスクされにくいのです。 - mp3はこれも考慮している。 #### マスキング(3.1): 音楽におけるマスキング ![](https://i.imgur.com/n2ZmCbG.jpg =450x) 音楽においてもこれらのマスキング関係が成り立つよ！ #### マスキング(4.1): 認知マスキング ![](https://i.imgur.com/YFDtwvm.jpg =450x) - 何の音なのか認識するため ## 第4回 (6月20日) #### 郡化 ![](https://i.imgur.com/DYi9J5h.jpg =450x) - 束に見える$(e)$以降から塊のように、見える間隔が違うだけだが、 #### 郡化: 近接の要因 ![](https://i.imgur.com/VwkJGMX.jpg =450x) - 「音の高さ」「音の大きさ」「時間敵に連続」「周波数が」近接していると、 - 音の流れは一つにまとまりやすい。 ##### **どれくらい離れていたら、二つの音だと認識するの？** 2つの音$A$, $B$の、音の２つの音の速さを早くして行く。 - これらの事から、作曲をする時あまり音をあまり離すべきでは無い。 - とても早いパッセージだが、一つの流れのように聞こえるようにしている。 #### 郡化: 類同の要因、良い連続の要因 - ![](https://i.imgur.com/VzmpQt7.jpg =450x) - オーケストラの場合、バイオリンで同じような音程で弾くと、分離はできない。が、バイオリン、ビオラ等で同じ音程で弾いても人間は切り分ける事ができる。 - 良い連続の要因 - 急激に変化する音は、注目してしまう? - スペクトル変化が急激なもの - 音色の変化と同義 #### 郡化: 共通運命の要因 ![](https://i.imgur.com/skNnEqo.jpg =450x) ##### 人間がどのように音を脳がまとめていくのか。機械もこのように似ている振動をまとめる事ができる。 #### 郡化: 閉合の要因 ![](https://i.imgur.com/uhj74w4.jpg =450x) - 聴覚の錯覚のようなもの。 - 脳が勝手に音を補完する。 #### 聴覚における順応 ![](https://i.imgur.com/1A72714.jpg =450x) - 例: エアコンの音 - 気になると聞こえてくる。ただし、他の事をし始めると忘れてくる。 - あるバックグラウンドで一定の音を流してるときに起こる - 神経が疲れてくる。ので、脳がズルをするイメージ。 #### まとめ ![](https://i.imgur.com/WVrKLGg.jpg =450x) 今までの話は、==聴覚情景分析(Bregman, 1990)== の本から引用された知識である。 #### 音楽的な高さ ![](https://i.imgur.com/gjpMceQ.jpg =450x) - 音楽に関わる音の高さは2種類 - 音色的高さ(tone height) - 心理的に - 音楽的高さ(tone chroma) - 連続的に知覚される。 - > ド　レ　ミ　ファ - 8度類似性 - 循環的性質を持っているこれらの２つの高さを図示した人が2人いる。 #### ラックミックの音の釣り鐘 ![](https://i.imgur.com/CzpQ5OW.jpg =450x) - 音楽の音の高さは、限界がある。 #### シェパードの単純螺旋 ![](https://i.imgur.com/Gd5B2BP.jpg =450x) - ラックミックのは優れているが、 - 転調 - 下の円盤を回す事で表現できる #### クロマ固着 ![](https://i.imgur.com/9SEvpBC.jpg =450x) - 音楽は`6000Hz`を超えると、`tone chroma(ドレミファ)`が知覚できない - 人間の耳はもっと高い周波数の音は聞けるのにね.... - 低い方にも生じるが高い方が生じやすい #### 音程(度) ![](https://i.imgur.com/tePxtVy.jpg =450x) - ２つの音の隔たりを表している。 - 完全系 - #### 音程(cent) ![](https://i.imgur.com/EEmIzM7.jpg =450x) - 平均律では - $2^{\frac{1}{12}}$で定義される - 一オクターブを均等に分けている - 在る音の周波数ととなりの #### 協和音程と不協和音程 ![](https://i.imgur.com/uIjYAyB.jpg =450x) - ２つの音の周波数比が簡単であるほど協和と感じる。 - 左の数字が小さいのから順に比率を決めてみる。 #### 音階: 古代 ![](https://i.imgur.com/SPtJUbX.jpg =450x) - ピタゴラス音階 - 中世期頃まで使用されている - 純正律それぞれ、比率が違うので移調ができない。 #### 音階: 現代 ![](https://i.imgur.com/IXrc0Pf.jpg =450x) - 半音程の周波数比は無理数になる - すなわち完全に協和した響きは得られない。 - しかし、移調や転調はをしても均質な響きが得られるので最も普及している。現代でも、 - ギター、合唱等でも純正律でチューニングすると、とても良い。ただし、ピアノはいい加減。弦がたくさん貼ってあるのでそもそも、ハーモニーを作るのは厳しい。 #### 無限音階 ![](https://i.imgur.com/PjQQYBz.jpg =450x) - 一度に同じ音を鳴らしているが強くする音を変えている。 - 一オクターブ類似性を逆手に使用しただまし絵的なもの #### 音感 ![](https://i.imgur.com/8wTe9Df.jpg =450x) - Tone Heightにおける音感 - いわゆる周波数弁別能力 - ウェーバーの法則がこれにあたる - Tone Cormaにおける - 絶対音感 - 相対音感 #### 絶対音感と総体音感 ![](https://i.imgur.com/ekH3KwN.jpg =450x) - 絶対音感は - > すべてがクロマ上に乗っていしまうので、少しでもズレがあると気持ち悪いらしい。 - 臨界期 - 人間の能力獲得には - 言語音韻の音韻 - 10ヶ月 - > 日本人は「L」と「R」の発音をききわける事ができない。 - 絶対音階の獲得 - 5歳から7歳まで - 数カ月に渡る特殊な訓練が必要 - スポーツの臨界期 - 28歳まで - この年を過ぎると、体が動作になれても、疲弊してしまう。 - 論理構造の臨界期 - 25歳まで - それを過ぎると、それまでの蓄えでしかものを考えられなくなる。 #### 絶対音感と総体音感の記憶様式 ![](https://i.imgur.com/FqtYwS7.jpg =450x) - カテゴリー知覚は歳をとってからでもできる。 ##### 能力獲得のための要因 - 環境条件は抱負なほうがいい - >英語を学びたい時に、日本にいてはダメ。語学の教室に通うよりは、日本語を話さない空間に行くべき。 - 人間は生の刺激のほうが大事 - >中国語の部屋: 中国語をビデオで学ぶか、会話等の直接的なアクションを通して学ぶかで学習率が異なる。 - 可能性の顕在化する比率これらは発達心理学的な考え方 ##### 心理的オクターブ ![](https://i.imgur.com/nnIZwpu.jpg =450x) - 1000Hz-2000Hz - 1000Hz-2030Hz ばらつきはあるが、どちらもオクターブに聞こえる。これらはアーティストが、語尾をちょっと挙げるテクニックにも応用されている。 ==ただし、1000Hz-1970Hz==のように下げると変に聞こえる(心理的)なので、下げる人はいない。 ## 第5回 (6月24日) #### 音声と言語音 ![](https://i.imgur.com/5MpKDXH.jpg =450x) - エネルギーは`横隔膜`の上下する力 - これだけだと空気が抜けて終わり... - 声帯振動 - `声帯`という膜(笛と同じ役割)が閉じたり開いたりして音を出す。 - 破裂 - 唇で息が出てくるのを抑えてそれらを開放する事で、破裂音おｗ再現する。 - 調音 - 楽器で音色に相当するもの。口が楽器のベルに相当する。 - 言語音と非言語音 - 言語音: 日本語、英語 - 非言語音: "ギャー"、"ニャー"等 - 音韻 - 言語音に限る #### 言語音の分類と種類 ![](https://i.imgur.com/N3YI37h.jpg =450x) - 有声音、無声音 - 声帯が震えているかいないかの違い - 無声音は少ないと思われるが結構在る「s」から始まる「さしすせそ」等はその例。あえて「で”す゛”」とあえて言う人はいない #### 母音と調音関係 ![](https://i.imgur.com/yMQxoSI.jpg =450x) - 人間の聞こえ方が変わる - 学習で獲得 - 「R」と「L」を聞き分けできない等 - ○がついてるのは日本語で使用している母音 #### 子音の調音点 ![](https://i.imgur.com/EWFleJl.jpg =450x) - 舌でせき止めている場所が違うだけで破裂音に差異ができる。 - それらに言語シンボルを割り当てて言語として認識 - 人間の子音の調音 - "ŋ"は「んが」という音 - p-b-mの違いは？ - 口の動きは全く同じ - p:「口が破裂した後に声帯が振動」 - b:「口が破裂する前に声帯が振動」 - いずれも5ms以内の音 - m:「破裂する前に鼻から音が漏れている状態」 - 破裂系はこれらの3つの音を使用している。 - 世界的に見ると喉の奥で調音する言葉もある「咳に近いのかね?」 #### 子音: ![](https://i.imgur.com/wguNw4x.jpg =450x) #### 子音: ![](https://i.imgur.com/xoK3haj.jpg =450x) - LD - f: 乱流の後に声帯が震える - v: 乱流と同時に声帯を震わせる - 右が側が同じ #### 子音: 半母音 ![](https://i.imgur.com/BC3HELO.jpg =450x) - 渡り音 - や　　= いあ - わ　　＝　うあこれらは存在しない音。「いあ」を早口(早く発音すると)「や」に聞こえる。 - 日本語の五十音表は実際の音とは違う部分がかなりある。 | 発音記号 | | Sha | shi | shu | se | so | | -------- | ---- | ---- | ---- | ---- | ---- | ---- | | 五十音表 | 誤り | さ |==し== | す | せ | そ | | 正しい音 | 正 | さ | ==せぃ== | す | せ | そ | - 日本語のらりるれろ - 「r」というより「l」: 舌を唇の裏につけているので | 発音記号 | | la | li | lu | le | lo | | -------- | ---- | ---- | ---- | ---- | ---- | ---- | | 五十音表 | 誤り | ら | り | る | れ | ろ | #### モーラ(mora) ![](https://i.imgur.com/DyeLsQB.jpg =450x) - 一般モーラ=音節に近い #### 有声音における声道の共鳴 ![](https://i.imgur.com/zC0JGLz.jpg =450x) - 肺からの圧力に耐えられなくて声帯が開く閉まるを繰り返す - 三角形の形「ノコギリ波」に近いので - 倍音構造になる。 - 調波構造=櫛形 - - 基本周波数(ピッチ周波数) - (右下のグラフ)の一番最初のbin - or - (右下のグラフ)の間隔 (右下のグラフ)が入力 (その上のグラフ)がフィルタの掛け合わせ #### 基本周波数 ![](https://i.imgur.com/ymnTYiK.jpg =450x) #### フォルマント ![](https://i.imgur.com/ogj9XaB.jpg =450x) - 口の開け方によって、共振する周波数が変わる - それらの低いほうから順番に第一(f1)、第二(f2)、第三(f3)フォルマントと呼ぶ。 - 第一フォルマントと第二フォルマントは人間が母音を識別するために使用しているもの - それらのピークがどの変にあるのかという事を知覚している。 - フォルマント周波数が音韻(母音)の識別に関わっている。 #### フォルマント周波数と舌の位置 ![](https://i.imgur.com/G5y7NJN.jpg =450x) - a-e-i-u-o-a - これらは巡回して発音できるので発音しやすい。 - これらの舌の位置や前後は言語によってばらつきがある。 - 「i」「u」はずれない傾向にある? - 調音点は随分と異なる - これらは後天的に学習する。 #### 母音の正規化 ![](https://i.imgur.com/3lOL6SU.jpg =450x) - 図のように明らかに違うところにマッピングされているのに、母音は認識されないのでは？ - 例: 子供の声を一瞬聞いただけでは、識別できない時があるが、しばらく離すと脳が勝手に識別している。==この脳での処理はよくわかっていない== #### 子音の知覚 ![](https://i.imgur.com/oOYsSW8.jpg =450x) - 平らな部分が伸びている母音の部分 - 斜めになっているところが、子音成分であるが、これらのどこをとっても「でぃ」のように聞こえるので昔の研究者は頭を悩ませた(今も) #### VOT - 「ぱ」と「ば」の違い - 第二フォルマントと第三フォルマントの関係 - タイムラグのおな話 #### 調音結合 ![](https://i.imgur.com/XGmEdBQ.jpg =450x) - 連続音声 - 筋肉なので、機械のようにカクカク動く事ができない - > 例: 一気に調音点にまで持ってく事ができたら綺麗に発声する事ができる。 - 日本人が上手に英語を発音できない理由 - 調音筋が発達していない。 - 逆に: 日本語はちゃんと口を動かさんくても、それっぽく聞こえる。 - 筋肉がなめらかに変化するので筋肉がサボる - 近似したところを遷移する!?(調音結合) #### 弁別と同定 ![](https://i.imgur.com/IfZzq09.jpg =450x) - 弁別: 差異の認知 - 同定: 特定する - 弁別できる音の数 >> 同定できる音の数 - カテゴリー知覚 - 同定が先に行われると、細かいところの区別(弁別)ができなくなる現象 #### カテゴリー知覚の例 ![](https://i.imgur.com/W2Aevgf.jpg =450x) - 母音はカテゴリー知覚して無い!! =>　次の実験でわかる #### 同定と弁別実験 ![](https://i.imgur.com/G8LTAzn.jpg =450x) #### カクテルパーティー効果 ![](https://i.imgur.com/8sUUUo9.jpg =450x) - 選択的注意 - 雑踏の中でも二人で会話できる - > 仮説:友達等の自分の記憶に無い人とは会話をする事はできない。 - 二人の人から同時に話しかけられても、片方だけに注目していれば片方が認知できる - > 仮説:上の仮説と同じで記憶を頼りにしている。 - パーティーで名前を呼ばれると認知できる - > 仮説:自分の名前のスペクトル変化を記憶している。 - ==なんでできているか分からない== - 「選択フィルター」は学習された結果できているもの。明示的ではない　 #### 視覚的捕獲: 腹話術効果 ![](https://i.imgur.com/V6AzXfE.jpg =450x) - 視覚的捕獲 - 聴覚情報よりも視覚情報を優先してしまう - 腹話術的効果 - テレビの映像とスピーカ ##### マガーク効果視覚と聴覚にあるDelayはどのような優位があるのか？ ## 第7回　(7月1日) #### #### フレーム分析 ![](https://i.imgur.com/6qMdBoA.jpg =450x) - 短い定常的信号が繰り返される => 非定常信号 - フレーム分析は、現在のスタンダード - ==準定常== - 定常に近い非定状信号と過程する。 - フレーム長さ = 分析長 - フレーム周期 = フレームインターバル #### フレーム長 ![](https://i.imgur.com/kXBEfYE.jpg =450x) - フレーム長を長くすると、 - 平均的なスペクトルしか求まらない。 - フレーム長さを短くすると - 周期的な信号じゃなければ、問題ない(破裂音) - フレームには窓をかけるので、端は0に近づく。ので、中央の部分を中心的に解析する。窓の中心に最低1周期は入ってほしいという目論見 - なので==周期的な信号の振る舞いを観測したいなら、数周期(3 ~5)はフレーム内に含まなければならない。== - > これらは経験則であり、証明されていないので、教科書には乗ってない。しかし、10万円払うようなセミナーではよく聞く。信号処理の当たり前のノウハウ - 1024,2048等で==複数回==解析を行うのが当たり前 #### Frame長さと分解能 ![](https://i.imgur.com/wbAnNGq.jpg =450x) - 左のほうが周波数分解能がよくシャープに見えるゾ. #### Frame周期 ![](https://i.imgur.com/NrgCHLM.jpg =450x) - 以上の理由より、$\frac{1}{4}$ - これらは一次の窓については良い(ハミング窓等) - 二次の窓(ブラックマン窓)等には使えない。 #### なんで ![](https://i.imgur.com/XbDqN2D.jpg =450x) - 数学的には$\frac{1}{2}$でも問題無いが今回は人が聞く。人は振幅ではなく、エネルギーで聞く。 - $振幅^2 = エネルギー$ - そうすると、frame周期$\frac{1}{2}$の時は横軸0.7周辺はエネルギーが0.2くらいしかない。 - frame周期$\frac{1}{3}$ではかろうじて0.5を超える。 - 1を超えるぶんには代わりはない。 #### Pre-Emphasis(高域強調) ![](https://i.imgur.com/iCTeYo1.jpg =450x) - 人間の耳は$3000 ~ 4000Hz$では感度が敏感。 - なので縦軸は$dB$で表記する。 - 人間の声はノコギリ波に近いので、スペクトルは全体的に右肩下がりに傾斜する。 - 高域強調フィルタ - 微分する。引き算するだけ。(に近い) - $x_n' = x_n - \alpha x_{n-1}(この項はひどい時は1に近いこともある)$ - 低音が下がるので結果的に高域が強調される。 #### STFT ![](https://i.imgur.com/K6K3L1Z.jpg =450x) - 短時間フーリエ変換 - **短時間**の**フーリエ変換**を**繰り返し行う**: 操作のこと - 特に注意書きがなければ、この操作を行っていると考えて良い。 - この図を書くと三次元になる。 #### スペクトログラム ![](https://i.imgur.com/hMP7BM9.jpg =450x) - STFTの三次元マップを二次元で見たいので、上から見た結果がこのスペクトログラム。 - 周波数の強さは色で表されている。ヒートマップ。 - この図は「あいうえお」と話しているゾ - 昔はこの図を==声紋==と呼んだ。(50年以上前) #### 改めてフーリエ変換の確認 ![](https://i.imgur.com/lHxRhj4.jpg =450x) - 振幅スペクトル解析をしない理由。人間の心理尺度に合わないから。 - なので、通常はパワースペクトル$S(f) = |X(f)|^2$を用いる。 --- ここに補足分のtyporaを入れる。 --- ## ?回 (7月15日) ## 線形予測分析の詳細版 ### おさらい ![](https://i.imgur.com/9iHw76s.jpg =450x) ### おさらい2 ![](https://i.imgur.com/tYyZMTJ.jpg =450x) - $時間域の畳み込み = 周波数領域での積$ - 相変わらず「線形だと仮定」して話しが進行している。 - このようにモデリング ### おさらい3 ![](https://i.imgur.com/VxqIO3G.jpg =450x) - $S(\omega) $ ### おさらい4 ### 相関法による線形予測係数の推定 ![](https://i.imgur.com/cXydRhA.jpg =450x) - $\alpha_i$を求める。 - 最小二乗法で解く - 微分した値を$0$と置くこと - 定常性を仮定すると(もともと似たような形の周期をもった部分を切り取っているので、) - シフトをしているだけ。 - このとき掛け算は、自己相関関数を表している。 $r$だけを左辺に残して移項 ### 相関法による線形予測係数の推定(2) ![](https://i.imgur.com/NOzasbf.jpg) - 一次連立方程式で解く事ができる。 - これで$\alpha$を求めたい場合、左側のでかい$r$行列の逆行列を求めて上げればいい。 - 正定値であれば(過去の資料に書いてある) - マゼンタ色の - フーリエ変換 - 逆数 - 対数 ### 分析フィルタ ![](https://i.imgur.com/kSdMB7z.jpg =450x) - $\alpha$が求まったので、予測残差信号を作ってみる。 - FIRフィルタと同じ図がそのまま載っている。 - 残差信号とは予測と本当の信号がどれだけあっているかあらわしている　。 - 滑らかに変化する部分(減衰)するときは小さな値をとり、声道が破裂する時は大きなあたい　をとる。 ### 合成フィルタ ![](https://i.imgur.com/xHcuznk.jpg =450x) - ごうせいしんごう　$y_n$が作りたい - IIRフィルタの形になる。 ### 分析合成系 ![](https://i.imgur.com/jqBP8gv.jpg =450x) - 残差信号をいかに圧縮するか、 - $\alpha$をどれだけ圧縮するのかに携帯電話の性能が... ### 残差信号とスペクトル ![](https://i.imgur.com/PUnW4gI.jpg =450x) - ① - ② 残差信号のスペクトル - 顕著な極が無い。 - カスだから、①,で顕著な極が取られたから。 - ここに顕著な極みが残っていると、分析次数が足りていない事を表現している。 - 平らになっている事がキモ。大事 - ③ - ②の残差信号(時間域信号) - 横軸は時間 ### 残差信号を用いたピッチ抽出 ![](https://i.imgur.com/MtSSrHb.jpg =450x) - 残差信号の自己相関関数 => ぴっち周期 - かなり綺麗に見えている。 - のでプログラム的には観測された出力された値の最大値がそのままピッチ周波数になる。 - ケプストラム法 - 0付近にスペクトラムの包絡の情報が入っているのでこの辺が大事。 ### Z変換 ![](https://i.imgur.com/brzMG2i.jpg =450x) **Z変換 = 離散ラプラス変換って呼べばいいのにね。** - ラプラス変換のデジタル版 - ラプラス変換とは、 - システムの安定性を調べるために使用されるもの - ラプラス変換はフーリエ変換を包含している。 - sの部分はなにに置き換えてもいい。らしい。 - ラプラス変換の$t$が連続。その部分を離散化する事でそれがZ変換と呼ばれるものになる。 - $e^{sT_s}$は定数なので$Z$とおける　 ### Z変換とフーリエ変換の関係 ![](https://i.imgur.com/8y7dvJo.jpg =450x) そもそもZって? - $e^{j\omega T_s}$: 時刻が$\omega T_s$だけ位相の遅れと捉える事ができる。 - デジタル信号処理 - $D = Z^{-1}$として表記されるべき。 - Dはディレイ(遅れ)の略 - $Z変換 = 離散フーリエ変換とほぼ同義$ - Zを解くと、位相の遅れ等がわかる。 - $n$あるふぁ　を求めた時のzを知りたい。 - 0になる云々はラプラス変換の事をしらいないといけない。 ### 分析合成フィルあtの安定 ![](https://i.imgur.com/NDAF4NI.jpg) - ラプラス変換だと$S$平面。制御の話しを復習してね。 - zがわかると、 - 共振周波数と帯域幅を知る事ができる。 ### LPC係数と極 ![](https://i.imgur.com/hnZMP51.jpg =450x) - x軸を基準に対象になる。 - 角度と周波数の関係性。 - $\pi$で6000Hzなので、$0 < \omega < 180$の範囲で。下乳部分は対象系なので、意味が無い。 - x,y平面と帯域幅の関係 - 0に近いほど、なだらかなものになる。 - 帯域が広すぎるのは嘘 - なので、1607, 1200, 734はふるい落とす。 - 発振する - 円にぴたっとくっついてる点 - ### LPC分析とPARCOR分析 ![](https://i.imgur.com/Uo90wWf.jpg =450x) - LPC分析はかなりの欠点があったので、それの改善として、PARCOR分析が登場した。 - Yule-Walker方程式は遅い - 自己相関は計算量が必要とする。 - LPCアナログの世界(量子化しない世界)では最強だった。 ### 概念 ![](https://i.imgur.com/W0iBGoG.jpg =450x) - 相関係数を使うと$+-1$の範囲に収まる。 - 予測の評価の仕方を考えたものがPARCOR分析 ### 前向き線形予測 ![](https://i.imgur.com/y9DUhzv.jpg =450x) - 青: 前向き - 赤: 後ろ向き - 数字の増え方が逆1,2,3,4,5,6,7,8 ### PARCORの求め方 ![](https://i.imgur.com/4sVL5Yu.jpg =450x) - 漸化式 - この漸化式を求めているだけで、LPC係数もPARCOR係数もわかる。 ### 格子法(itakura) ![](https://i.imgur.com/qzFQ0Rf.jpg =450x) ![](https://i.imgur.com/7EJrplr.jpg =450x) - 発振する方法、 - 捨てている$B_p(z)$の信号をInputに戻して、フィードバックループを作る。 - プラスマイナスの2種類で戻す。 ### 声道断面積比 ![](https://i.imgur.com/8HqPYE1.jpg =450x) 一番したの波形 - 唇 → 声道声道がどのようなおおきさかがわかる。 ### 線スペクトルモデル ![](https://i.imgur.com/rpR6Pgb.jpg =450x) - 声道の無損失化 → 声道フィルタ発振 → 線スペクトル - 合成のところの$B_p(z)$と同じ。 ### 線スペクトルモデル ![](https://i.imgur.com/IcuupFo.jpg =450x) - 色が違うのがペア ### 分析合成系 ![](https://i.imgur.com/2eQGYoL.jpg =450x) - 鼻に抜ける音 - 口を開けてしっかりと開けて話さないので、共振特性が取れていない - さっきの円の話しで、中心によりすぎている。 - なので、円にぴたっとくっつける処理をしている。 - 駆動音源 - 無声音 →無声音、有声音→パルス列。 - ピッチ周波数 - この間隔を一定にすると、ロボットみたいな声になる - サンプリングしゅうはすうがわからないと分からない。 ![](https://i.imgur.com/dEcet3V.jpg) - 両方共単位はHz - 極が大きいもの - しきい値を自分で求める。 - この配列は$order /2$個ある。なので、Order = 14なので、配列の長さは7である。 (高域強調する事をお忘れなく) ### 日本語formant周波数 ## ??回(7月22日) ### 音声認識の話し ### コンピュータが音声を聞けるメリット ![](https://i.imgur.com/a41S8wb.jpg =450x) - 日本人は、読み書きはできるけど、喋れない。 - 外国人は読めないけど、喋れる。 - つまり、喋る事。相手に自分の意思を伝えることの重要さ - 言葉が便利。 - 昔から、ディスプレイの無いカーナビを作って欲しい。 - 車も目を持ち始めたので。 - 今の車は「速度制限」等の標識を見ることができる。 ### 音声を使うデメリット ![](https://i.imgur.com/bZl8N2w.jpg =450x) - NTT: 10人が一斉に喋るのを分離する研究 - 想定: 食堂の注文時。ただし、なかなか10人の人が同時に話す事はない。 - コミュニケーションになっていない。 ### 音声言語の階層化 ![](https://i.imgur.com/lZcYH1f.jpg =450x) ### 音声認識の難しさ ![](https://i.imgur.com/Wkwbabz.jpg =450x) 声の信号の中には色々な情報が含まれている。 ### 音声認識のむずかしさ(パターンの多様性) ![](https://i.imgur.com/izDqwdm.jpg =450x) - 2 寒い地方ではあまり口を開かない等 - 3 機械のようにカクカクとして、動かないので、決して同じ音を出す事はできない。 - 5. 口を楽器として、見ると発声機構がちがう　これらを一つの認識機構でおこなう　のは難しい ### 連続音声認識のむずかしさ ![](https://i.imgur.com/9vSI39J.jpg =450x) - 万国共通で難しい。 - 英語日本語のスペーシングは関係ない。 - I ==_== have ==_== a ==_== pen. - 私はペンをもっている。 - 人間でも認識できない。 - ==音韻== 認識率 - 人間でも、音韻に区切った場合は、いくつか認識できないものがある。 - 前後の文法情報を用いて埋めてしまう。 ### 発音の難しさ ![](https://i.imgur.com/ZSn1HAw.jpg =450x) 英語と同じように、音がくっつく事がある。 ### 間投詞、特有表現 ![](https://i.imgur.com/Tvcemvk.jpg =450x) この部分は音声認識では不必要な情報である。 ### 音声認識の種類 ![](https://i.imgur.com/GnAh46M.jpg =450x) - この分野は日本が最も進んで研究をしていた。 - 音声認識 - 形式 - 特定話者、孤立発声、朗読発声のほうが楽。 - タスク - 単音声認識 - 「お、ん、せ、い、に、ん、し、き、」 - 単語認識 - 「音声、認識、いやだ」 - 音声理解 - ただ、単語を聞けても理解できないのでは意味がない。機械に意味をわからせる。 - (key) word Spotting - Alexsa, Siri等はそのキーワードをずーっと探している。 - 言語認識 - 意味は考えていない。なんとなく、中国語、英語ってわかるのが言語認識 - 話者認識 - 形態 - テキスト依存 - タスク - 話者照合 - ひみつの合言葉を知っていて、合言葉を知っている。 - 話者識別 - yes or no ### 音声認識・理解仮定の階層構造 ![](https://i.imgur.com/sTIHjqZ.jpg =450x) - 得られる波形に色々な情報が入っている。 - 情報を絞り込んでいくフィルタリング - 今の音声処理は、「検索」をしているだけ。意味を理解しているわけでは無い。 ### 発話スタイルによる音響的特徴の相違 ![](https://i.imgur.com/JZr83TN.jpg =450x) - 母音間の時間が離れると滑舌が良く聞こえる - 子音をサボると他の音になる。 - フレーム数/母音 => 発話速度 - どうでもいい部分は早く話す。大事な部分はゆっくりと話す。 - 人に何かを伝えるときは早くなったり遅くなったりする。 - 抑揚を付けること　が大事。催眠術の誘導テクニック。 - 自然発話になると母音が致命的に短くなる。サボる。 - 自然発話はでは発話速度が早くなうる。文章の中のコンテキスト、文脈を使っての認識を行うのは難しい。 ### 音声認識の方法論 ![](https://i.imgur.com/opYF7Hu.jpg =450x) 1. 音声生成機構 - 人間の聴感特性を理解して設計を行う。 2. 音声情報伝達 - そこに信号があるんだから、何かしら伝播しているだろう。 - 現在のAI 3. 1と同じ。 ### 音声認識の手法 ![](https://i.imgur.com/pw2t759.jpg =450x) - 意味理解が入って初めて人工知能と呼べる。 - なので、今主流の認識はただの神経回路ベースのモデル ### 特徴パラメータとその特性 ![](https://i.imgur.com/o0pBqhI.jpg =450x) ### スペクトルマッチング距離 ![](https://i.imgur.com/8LWJ6kM.jpg =450x) - いたくら、さいとう距離とうのもある。 ### 単語音声認識手法の分類 ![](https://i.imgur.com/wXjn5cf.jpg =450x) 音素類似度マトリクス総組み合わせで単語の類似度計算 ### 連続音声認識システムの構成 ![](https://i.imgur.com/BU5KOCI.jpg =450x) ユーザーモデル(想定外)等の設定。 ### 3次元空間による仮説の表現 ![](https://i.imgur.com/FM4V3v4.jpg =450x) 一気に絞り込まない。単語のレベルでは、仮説の縮退としてやっていく。確率モデル。検索に基づくようなものでししかできていない。