# 事例研究テーマ
:::info
**最終更新日**
2020年 12月 17日 木曜日 00:16:16 JST
:::
[TOC]
## 全体スケジュール
`2020年 12月 15日 火曜日 16:06:18 JST`現在
| 回次 | 曜日 | 内容 |
| ------ | -------- | ------------------ |
| 第2回 | 10月20日(火)5限 | 上級生研究内容発表(1/2) |
| 第3回 | 10月27日(火)5限 | 上級生研究内容発表(2/2) |
| 第4回 | 11月3日(火) 5限 | Deepラーニングは怖くない(CIFIR10編)|
| 第5回 | 11月10日(火)5限 | Deepラーニングは怖くない(CIFIR10編)2|
| -- | 11月17日(火) | 試験期間 |
| 第6回 | 11月24日(火)5限 | Alexさんによる人の声を対象にしたWave-net |
| 第7回 | 12月1日(火) 5限 | 竹田さんによる楽器音を対象にしたWave-net |
| 第8回 | 12月8日(火) 5限| 佐藤+上松によるDCGANは怖くない|
| 第9回 | 12月15日(火) 5限| 選択課題提示 |
| 第10回 | 12月22日(火) 5限| 進捗報告1 |
| --- | ==20日間== | 自主作業期間💪 |
| 第11回 | 1月12日(火) 5限| 進捗報告2 |
| 第12回 | 1月19日(火) 5, 6限| 発表会 |
## 課題割り振り
| No | ID | 課題 | 氏名 | mentor |mentor|
| --- | --- | --------------------------------------- | ----------- | ------ | --- |
| 1 | ZZ | Unetを用いた旋律抽出にOctConvを導入する | 山本 航平 |木野 真由美|竹田 舜|
| 2 | C2 | VGG, ResNet, Xeptionの追試&まとめ | 阿久津 海斗 |古嶋 拓人|佐藤 文哉|
| 3 | B4 | Octave convolution | 井上 魁 |大田 悠介|安藤 大鬼|
| 4 | B3 | 事前学習モデルによる音源分離 | 岡住 早希子 |石黒 凜|古嶋 拓人|
| 5 | C3 | SHGによるポーズ推定 | 折田 汐凪 |木野 真由美|$上松 \\{\cal D} \\和史$|
| 6 | C1 | 自動音声タグ付け | 倉内 桃花 |田中 大雅|竹田 舜|
| 7 | B5 | AlexNet: 完全理解者 | 河野 瑞歩 |佐藤 文哉|安藤 大鬼|
| 8 | C4 | コード進行推定 by Transformer | 齋藤 瑠偉 |伊藤 威|山脇 捷|
| 9 | B6 | 最新の音源分離 | 坂藤 隆我 |石黒 凜|佐藤 文哉|
| 10 | E1 | 画像超解像度化 | 竹川 瑛洋 |$上松 \\{\cal D} \\和史$|伊藤 威|
| 11 | D1 | ESPNetを使用したText to Speech | 嶋﨑 あかり |山脇 捷|田中 大雅|
## 課題一覧
### 【A1】A Wavenet for Speech Denoising
- 提案された学会: 【ICASSP 2018】
- https://paperswithcode.com/paper/a-wavenet-for-speech-denoising
- `ノイズ除去`,
- - 動作環境
- Keras 1.2,Theano 0.9.0
- データセット CSTR→ https://github.com/drethage/speech-denoising-wavenet
- 責任者 : 田中
---
### 【B1】Conditional LSTM-GAN for Melody Generation from Lyrics
- 提案された学会: 【面白いけどない】
> いわゆる”旋律生成”です.LMDのデータセットがあればいいで.GPUが怪しいか?2019夏発表だし多分回ると思うけど...
- https://paperswithcode.com/paper/conditional-lstm-gan-for-melody-generation
-`旋律生成`, `音楽情報検索`
- 使用するデータセット:LMD
- 責任者 : 石黒
- いけそう度 : 3/5
### 【B2】Training Generative Adversarial Networks with Limited Data
> STYLEGAN2です.どうしてもGANがやりたかったらやってみてもいいんじゃない...?GANを限られたデータで学習してみよう!魅力的な響きですね.GPUはcolabで回るね.Gitのページがすこぶる親切.
- 提案された学会: 【NeurIPS 2020】
- https://paperswithcode.com/paper/training-generative-adversarial-networks-with-2
- `画像処理`, `GAN`
- 使用するデータセット:CIFAR10
- 責任者 : 石黒
- いけそう度 : 4/5
---
### 【B3】Spleeter: A Fast And State-of-the Art Music Source Separation Tool With Pre-trained Models
> 音源分離の事前学習モデルです.そんなのあるんだぁ.どの程度のレベルで”事前学習済み”なのかは不明.再学習はできないんじゃ...難易度低めのチャレンジとしては,インストールして環境作って実装するって意味ではいいんじゃないかな?ちゃんとやるなら他モデル(これまでの演習だとUnet?)との比較,事前学習モデルと他組み合わせて云々等(できるのかはわからないけど)検証して欲しいポイントはままある.
- 提案された学会: 【ISMIR 2019】
- https://paperswithcode.com/paper/spleeter-a-fast-and-state-of-the-art-music
- 分野: `音源分離の事前学習モデル`
- 使用するデータセット:musdb18
- 責任者 : 石黒
- いけそう度 : 2~10/5
---
### 【B4】Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution
> https://qiita.com/koshian2/items/0e40a5930f1aa63a66b9
> ↑を参考に.ご存知CNNのメモリ削減です.CIFAR10でやってみるのが一番簡単なんだろうね.ぶっちゃけこれそのものがタスク生んだりはしないと思いますが,実際にやった知見持った人がいるのは役に立つんだろう.日本語解説あるし.
- 提案された学会: 【ICCV 2019】
- https://paperswithcode.com/paper/drop-an-octave-reducing-spatial-redundancy-in
- 分野: `CNNのメモリ削減,拡張`
- 使用するデータセット:CIFAR10他
- 責任者 : 石黒
- いけそう度 : 5/5
---
### 【B5】ImageNet Classification with Deep Convolutional Neural Networks
> https://qiita.com/ornew/items/8ca914d222ce068158c4
> https://qiita.com/_uran_0831/items/ea2bfc8f7ba2fc858de3
> ↑を参考に.ご存知Alexnetです.犬猫とCIFAR10.丁寧すぎる解説付き.難易度は低いけど基礎の基礎なので.
- 提案された学会: 【NIPS 2012】
- paper : https://papers.nips.cc/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html
- 分野: `画像処理`
- 使用するデータセット:CIFAR10,Dogs vs. Cats Redux: Kernels Edition
- 責任者 : 石黒
- いけそう度 : 4.5/5
### 【B6】Music Source Separation in the Waveform Domain
>挑戦者求むって感じだなぁ.Facebookが発表した波形をそのまま操作するタイプの音源分離です.データセットも入手しやすいですが,GPUが16GBとかつかつなのでcolabでも様々パラメータいじる必要があることが一番のネックかも.Gitはとにかく親切.比較的新しいネットワークなので発見もあって面白いとは思う.
https://paperswithcode.com/paper/music-source-separation-in-the-waveform-1
- 使用するデータセット: MUSDB18
- 分野: `音源分離`
- 責任者 : 石黒
- いけそう度 : 2/5
---
ぐろりん<一応"動かせそう,未来がありそう"基準でいくつか並べたけど.
---
### 【C1】Audio tagging with noisy labels and minimal supervision
> 深層学習モデルをベースとした, 自動音声タグ付けの研究に関する論文です. 「今なっている音が、赤ちゃんの声なのか, サルの鳴き声なのかを識別, 分類します」比較的最近提案されたので、テクニックが満載です(故にRes-Netだとか, Attentionだとか色々とついてごちゃごちゃしていますが). データセットも比較的用意に手に入りそうです.
> by 伊藤
- DCASE2019
- https://paperswithcode.com/paper/audio-tagging-with-noisy-labels-and-minimal
- 分野: `自動音声ダク付`, `音声情報処理`
- [半Official](https://github.com/lRomul/argus-freesound)
- 動作環境
- pytorch 1.5
- 2080ti@CUDA10 x 1枚
- 32GB RAM
- データセットへのリンク[FSDKaggle2019](https://zenodo.org/record/3612637#.X9ayYtj7SUl)
- 責任者 : 伊藤
---
### 【C2】VGGNet, ResNet, Inceptionの変化を追っていこう!
2015年に発案されたモデル。有名過ぎて訓練済みモデルやモデルそのものがKeras等のライブラリ内に関数として登録されています。なので、最新の論文を追うというよりかは、今の画像処理界隈でスタンダートに使われているモデルの生い立ちを追って勉強することができます。
- [ICLR 2015](https://iclr.cc/archive/www/doku.php%3Fid=iclr2015:main.html)
- [元論文](https://arxiv.org/abs/1409.1556)
- [ImageNet: VGGNet, ResNet, Inception, and Xception with Keras](https://www.pyimagesearch.com/2017/03/20/imagenet-vggnet-resnet-inception-xception-keras/)
- この記事を参考に動かしてみる.
- 動作環境
- ローカル環境で動く
- ImageNet(ILSVRC2012)
- 責任者 : 伊藤
### 【D1】ESPnet
> End-to-End音声処理ツールキット.
> ASR, TTS など実装が充実しているので, トレンンドを少し試すには良いのではないでしょうか.
> 僕は使ったことはないですが...
> 詳しくは [Contributor による紹介記事](https://qiita.com/kan-bayashi/items/536acaf165344a6d6460) を参照してください.
>
> レシピが提供されているので, 良くも悪くも「実行するだけ」かもしれないです.
- 論文: https://arxiv.org/abs/1804.00015
- repo: https://github.com/espnet/espnet
- 分野 : 音声認識、音声合成、などなど
- ==動作環境==
- pytorch
- 提案者 : B4 山脇
### 【C3】Stacked Hourglass Networks for Human Pose Estimation
> Stacked Hourglass Networks(Encoder-Decoderモデル)でポーズ推定を行う研究です。
- https://github.com/bearpaw/pytorch-pose
- `ポーズ推定`, `画像処理`
- 動作環境
- PyTorch 0.4.0
- データセット : https://cocodataset.org/#keypoints-2017 等
- 責任者 : 伊藤
### 【E1】Fast and Accurate Image Super Resolution by Deep CNN with Skip Connection and Network in Network
https://github.com/jiny2001/dcscn-super-resolution
https://paperswithcode.com/paper/fast-and-accurate-image-super-resolution-by
- 分野:`画像`
SISR(single image super resolution)という, 画像の解像度を上げる(画像をきれいにする)タスク
- 動作環境
- python >=3.5
- tensorflow >=2.0.0https://paperswithcode.com/paper/fast-and-accurate-image-super-resolution-by
- その他の環境についてはgithubに記載あり
- GPU
- 不明
- すごいちっちゃいCPUバージョンもあるらしい
- データセット
- githubの中に全部入ってます
- 提案者 : 上松
### 【C4】A Bi-directional Transformer for Musical Chord Recognition
> コード進行推定に関する研究です。RNN(Recurrent Neural Network)等では、コード進行長期依存性の捕捉に限界があるので、その部分を自然言語処理の翻訳タスク等で用いられているSelf-Attentionで解決しています。
> **注意点**データセットの整形で時間が取られるので少し大変です。
- 分野:`コード進行推定`
- ISMIR2019
- https://paperswithcode.com/paper/a-bi-directional-transformer-for-musical
- [GitHubリンク](https://github.com/jayg996/BTC-ISMIR19)
- 動作環境
- pytorch
---
### 【ZZ】自由課題(やりたい,動きそう,やってみたいのがあれば相談してみよう)
---
<!-- ### Parallel Stacked Hourglass Network for Music Source Separation -->
<!-- 闇に葬り去ります -->
<!-- ## フォーマット
↓ フォーマット(==2020年 12月 13日 日曜日 22:48:42 JST==更新)
---
### タイトル
- 提案された学会: 例【ISMIR2019】
- `paper with code`のリンク
- 分野 : 例【画像分類】
- ==動作環境==
- ==ライブラリ==
- ==GPU==
- データセット(比較的入手しやすいデータセットであること)
- 提案者 : 例【田中】
---
-->
B1
B3
B5
B6
C1
C2
C4
D1
A1
B2
B4
C3
E1
ZZ