# Everyone wants to do the model work, not the data work ###### tags : `Study Meeting` `研究の進め方` ## :cat: Paper Info Conference : SIGCHI Paper : [PDF](https://storage.googleapis.com/pub-tools-public-publication-data/pdf/0d556e45afc54afeb2eb6b51a9bc1827b9961ff4.pdf) Refs : <br> ## :palm_tree: Abstract AI系の研究者はデータの扱いとかの裏方的作業ではなく,モデルの構築に注力しがち. ハイリスクなタスク(人名に関わる等)においてAI適用を実装したエンジニア53人にアンケートを取った結果を掲載. そこからデータの大事さ,データを軽視することによって生じるカスケードを回避する方法について考察している. <br> ## :fireworks: Method 4つのPrimary Cascades ### 1: 環境要因 環境差によって生じる異変 ### 2: 分野の知識が全くない状態でプロジェクトを進める 毎回毎回のプロセスの中で専門家の意見を聞くわけではない AI Practicorが勝手に判断するとこのCascadeがおこる →GroundTruthの勝手な定義,Finding Representive Data(分布の偏り) ### 3: Conflicting reward system データ収集に対するRewardが低い →モチベーションのないデータ収集 データを収集してもらう点に価値が置かれていない ### 4: 文章化されていない 言語化不足によって生じるミスコミュニケーション,データの収集ミス <br> ## :bar_chart: Discussion データ収集は面倒くさいものだと捉えられているけど,重要な要素 →もっと重要視していくべき - データの品質自体を具体的に評価する指標が必要 - データ作成に関するインセンティブを上げていく必要がある - データコレクションの段階から教育すべき <br> ## :ledger: Memo <br>