Crownn: Human-in-the-loop Network with Crowd-generated Inputs

# Crownn: Human-in-the-loop Network with Crowd-generated Inputs ###### tags: `paper` ###### description: 読んだ論文まとめ記事 ## 論文情報 ### 著者 Yusuke Sakata(京都大学)Yukino Baba(筑波大学)Hisashi Kashima(京都大学) ### 雑誌 IEEE(2019) ## 読み損じた箇所(3/3解決) 1. ワーカーの重み付けαはどのように計算したか →CROWNNでは，誤差逆伝播法を用いている →文書内での具体的な記述はなし 2. ニューラルネットワークのパラメータθはどこで使われているか →CROWNNでは，誤差逆伝播法を用いている →文書内での具体的な記述はなし 3. training と testの違いがわかっていない →training dataset：N個のインプットとアウトプット test dataset：N個のインプット ## 概要 CROWNNと呼ばれるnovel neural network modelを提案．畳み込みニューラルネットワークの畳み込みの段階で，クラウドソーシングのワーカーの特徴抽出と，ニューラルネットワークの識別子の重み付けを学習する． 4つのタスクを用いて，提案手法の適用性と効率性を調査．( identification of painters, detection of spontaneous smiles, finding fake hotel reviews, and estimating news publicity) バイナリーデータを出力する分類器を作成 ## 関連研究 ### 有益な特徴の定義についての研究 8， 9:4つのバイナリー分類タスク「AdaFlock: Adaptive Feature Discovery for Human-in-the-loop Predictive Modeling」 →特徴の定義は重要なタスクだが，特徴の定義は利用可能で，特徴量抽出のみに焦点を絞る →有益な特徴を得るためのアルゴリズムであるAdaFlockを提唱(AdaBoostに影響を受けた) →誤って分類されたサンプルの重み付けを修正する．繰り返すアルゴリズム →それぞれのAdaFlockの繰り返しにおいて，現在の分類器では判別を誤った例を提示し，ワーカーは正しい分類に有益な特徴を加える →特徴量をクラウドソーシングを用いて作成する． https://openreview.net/forum?id=ByWWsTldbS ### ワーカーの結果に対する重み付けの統計モデルについての研究ワーカーの能力と勤勉さとタスクの難易度で結果が変化する． →冗長性を持たせて，信頼性をあげる →多数決を用いることが多いが，より洗練された統計モデルも提案されている．以下にあげる． 4:Dawid-Skene model 「Maximum Likelihood Estimation of Observer Error‐Rates Using the EM Algorithm」 →ワーカーの能力のパラメーターを含める https://rss.onlinelibrary.wiley.com/doi/abs/10.2307/2346806 5:GLAD model 「Whose Vote Should Count More: Optimal Integration of Labels from Labelers of Unknown Expertise」 →タスクの難易度を考慮する https://proceedings.neurips.cc/paper/2009/hash/f899139df5e1059396431415e770c6dd-Abstract.html 12:Welinder et al 「The Multidimensional Wisdom of Crowds」 →4,5のモデルでワーカーとタスクの親和性を考慮する https://proceedings.neurips.cc/paper/2010/file/0f9cafd014db7a619ddb4276af0d692c-Paper.pdf 13:Raykar et al 「Learning From Crowds」 →クラスラベルと同様に，予測モデルを見積もる https://www.jmlr.org/papers/volume11/raykar10a/raykar10a.pdf ### スパムワーカーの検知についての研究 14:スパムワーカーの検知にフォーカス「Eliminating spammers and ranking annotators for crowdsourced labeling tasks」 →ランダム性やバイアスを元に https://dl.acm.org/doi/abs/10.5555/2188385.2188401 ### クラウドソーシングを用いたニューラルネットワークのモデルについての研究 15:ニューラルネットワークのモデル「Learning from the Crowd with Neural Network」 https://ieeexplore.ieee.org/abstract/document/7424400 16:ニューラルネットワークのモデル「Deep learning from crowds」 →多くのラベルが必要になってきた →ラベルの質に注目 https://arxiv.org/abs/1709.01779 今回はニューラルネットワークのモデルを採用既存研究との違いは，従来のものがクラウドが生成する出力(バイナリの結果)に注目していたところを，クラウドが生成した特徴量に注目しているところ →これは異なるアーキテクチャモデルが必要 ## 背景 whether or not a painting has a positive atmosphere, or whether or not a person laughs　shaking by sobsなどのタスクは抽象的だが人間が判定できる特徴クラウドソーシングの質の問題に対処するために一般的に用いられる手法は，冗長性(同じタスクを複数のワーカーに振ってより信頼性の高い結果を得る)シンプルな方法は，多数決だが，それだとワーカーの能力の多様性を考慮できない．また，spam workers and malicious workerも注意する．ほとんどのラベルデータには正解データが付与されていない．提案手法でも，正解のラベルは提供できないが，正解の分類ラベルは提供できる．そこで，ワーカーの能力とラベル分類を同時に考慮する． ## 手法 ![](https://i.imgur.com/baEpC6G.png) 本実験ではworker convolution layerを持ち，そこで，ワーカーの能力を判断+フィルタリングする．従来の研究は，一番右のアウトプットに焦点を当てているものが多いが，本実験では，画像の特徴量を抽出する段階(左から2番目)に焦点を当てている提案手法のモデルは以下である ![](https://i.imgur.com/kaTZNyD.png) **キーアイディアは，畳み込みニューラルネットワークの概念をワーカーの能力と分類モデルの学習に同時に用いること．** α = (α1,...,αJ)を用いて，Worker convolution layerを導入 αjはj番目のクラウドワーカーの能力(重み付け) Worker convolution layerは特徴量を以下のように得る ![](https://i.imgur.com/qVJnoPu.png) これは，J人のワーカーから，iのインスタンスのkの特徴に対しての特徴量である αとニューラルネットワークのパラメータθを学習するために，誤差逆伝播法を用いるワーカーの能力とモデルのパラメータを**同時に**学習していることが従来の実験と違うところ →CROWNNは特徴量を抽出するワーカーが1人でも機能する特徴量抽出では，ワーカーの答えによって，![](https://i.imgur.com/4IKXWtg.png) を変更する Yesなら，1 Noか無回答なら，0 →特徴量の抽出において，Noはそこまで重要ではないので，無回答と同じ扱いとしている ## 実験 ### 実験で測定する観点 - 提案手法の効率性 - spam crowdworkersやmalicious workers に対しての堅牢性 ### 実験手順 4つのバイナリー分類タスク[9] 1. 絵の作者がClaude Monet or Alfred Sisley 2. ビデオで人間の笑顔が作り笑いかどうか 3. 与えられたホテルのレビューが本物かどうか 4. 与えられた記事がニュースメディアをハイライトにすべきかどうかそれぞれのインスタンスは，200個ずつのポジネガのデータである．それぞれに対して，100個の特徴を定義した． 10人のワーカーをLANCERSで．提出された結果の数に基づいてワーカーを並べる →上3人の特徴量を用いるスパムワーカーと有害なワーカーも作成して，結果をみた →スパムワーカーは1,2,3,6人で検証既存手法との比較を行った MEAN：単純に特徴量の平均を用いる DAWID&SKENE(D&S)[4]：それぞれのワーカーの能力を推定する，標準的な統計モデルワーカーの答えは，訓練データの中で，ワーカーの信頼性を推定することのみに用いた．つまりテストデータのための正しい答えを推定するのに用いた． ## 結果 4つのデータセットを用いて提案手法を用いると，既存手法より優れていた．スパムワーカーに対して堅牢なシステムでもあり，特に故意に特徴量をflipした有害なワーカーに対して効果が出た． ⬇️分類結果 ![](https://i.imgur.com/1QXa4te.png) ⬇️スパムワーカーを入れた際の結果 ![](https://i.imgur.com/vcznlpD.png) ⬇️malicousワーカーを入れた際の結果 ![](https://i.imgur.com/93EtRck.png) ## 考察スパムワーカーに対しては，CROWNNがクラス分類への貢献に基づいて，ワーカーの重み付けをしているので，結果が良い →2/3がスパムワーカーとしても，一貫性のある結果を示していることがすごい malicious workerについては，30%をそのワーカーとして計測 ## 議論提案したモデルは，同じ参加者がトレーニング段階とテスト段階のどちらにも参加していたと想定される．これは，現実的な想定に即していない．具体的には，オンライン学習に場合で，これにも対応するように拡張していくのが，今後の研究である．