Multi-view検討：行動ラベルの整理

# Multi-view検討：行動ラベルの整理 ## 人の行動 ### 一人の行動 'PC操作': 73, '電話で会話': 21, '着席': 32, '入室': 17, '電話をかける': 6, '応答する': 5, '退室': 8, '離席': 4, '電話会議を準備': 4, '電話会議を片付ける': 4, 'レジ袋から取り出す': 3, '席を移動する': 3, '資料確認': 3, 'Web会議を準備': 3, 'Web会議を片付ける': 3, '荷物を開封する': 2, '書庫まで歩く': 2, 'PC起動': 1, 'PC終了': 1, '書庫内を探す': 1, '書庫から物品を取り出す': 1, '食事をする': 1, '荷物を置く': 1 ### 多人数の行動 #### 物を用いる '飲み物を渡す': 6, '飲み物を受け取る': 6, '会話をしながら食事をする': 5, '昼食を渡す': 3, '昼食を受け取る': 3, '電話を渡す': 2, '電話を受け取る': 2, '荷物を渡す': 1, '荷物を受け取る': 1 #### 物を用いない '会話をする': 10, '集合会議で会話': 5, '挨拶': 4, '要件を伝える': 3, '伝言する': 1 ## 人の行動ではない '電話が鳴る': 6 # 再整理-1 対となる行動は一つにまとめてみる ## 人の行動 ### 一人の行動 'PC操作': 73, '電話で会話': 21, -> こんなに多い？/電話をかけるor応答するより多いのはおかしいような... '着席': 32, '入室': 17, '電話をかける': 6, x'応答する': 5, -> 曖昧/来訪者がきたときの応答/これは含めなくて良さそう '退室': 8, '離席': 4, '電話会議を準備': 4, ->曖昧/何をする？ '電話会議を片付ける': 4, -> 曖昧/何をする？ 'レジ袋から取り出す': 3, -> 曖昧/何を？ x'席を移動する': 3, '資料確認': 3, -> 曖昧 'Web会議を準備': 3, -> 曖昧/何をする？ 'Web会議を片付ける': 3, -> 曖昧/何をする？ '荷物を開封する': 2, '書庫まで歩く': 2, 'PC起動': 1, 'PC終了': 1, '書庫内を探す': 1, '書庫から物品を取り出す': 1, '食事をする': 1, '荷物を置く': 1 ### 多人数の行動 #### 物を用いる '飲み物の受け渡し': 6, '会話をしながら食事をする': 5, -> 食事をすると依存関係がありそう '昼食の受け渡し': 3, '電話の受け渡し': 2, '荷物の受け渡し': 1 -> 曖昧/昼食は荷物ではない？ #### 物を用いない '会話をする': 10, '集合会議で会話': 5, '挨拶': 4, '要件を伝える': 3, -> 要件とは？会話との違いは？ ->　会話で良い '伝言する': 1 -> 要件を伝えるとの違いは？ -> 会話相手が訪ねた人と異なる場合 ## 人の行動ではない '電話が鳴る': 6 # 再整理-2 実際に映像を見ながら曖昧な行動を分割or再定義するシーン1:出社 * 入室の後に手指の消毒が入りそうシーン2:退社 * PC終了の後に帰り支度が入りそうシーン3:電話 * 電話まで歩くは含まれているが，電話から自席に歩くは含まれていない * 携帯電話の場合/固定電話の場合 * 電話を取り次ぐ場合/自分で話す場合 * 電話がかかってくる場合/電話をかける場合シーン4:遠隔会議 * R-talkに運んできた固定電話を挿してむこうから電話がかかってくるのを待って通話するというかなり込み入ったシーン * 電話をするといっても普通の電話と一緒くたにするのは無理がありそう * 準備の半分ぐらいで通話が終わる... * Webex的なミーティングもある/こちらも電話で会話のラベル * シーン3と4の違いは？/使う機器の違い/それならR-talkとWebexも違う -> 3人以上を許容しうるかというのはありそうシーン5:集合会議 * 会議前に会議召集が入る * 着席は複数人ほぼ同時だが，どう扱うかシーン6:飲食物の持込 * 一人の場合，行動ラベルが出社とほぼ同じになる (飲食物要素がない) * 〜を持っている状態というものを行動に含められていないことが原因シーン7:人を訪ねてくる * 伝言の場合と，訪ねた人が居た場合で (要件を伝える/伝言する) と違うラベルがついているが必要か？ * そういうコンテキストをこそ必要という考えもありそう * そういうものは会話をキャプチャしてASRして記録してから意味理解した方が良いような気もするシーン8:会話する * 他のシーンの会話との重なりが気になる... * 会話を呼び掛けるという行動が入りそう * 席を移動する/しないは位置がわかれば自明なのでとらなくて良さそうシーン9:ご飯を食べる * 食事を取り出す行動が含まれるシーン10:書庫を探す * 離席する * ドアを開ける * ドアを閉めるシーン11:荷物を持ち込むその他: * 移動系は含まれていたりいなかったりして微妙．次の行動の位置がわかっているなら，移動というActionに統合して良さそう * MILで学習するならあるBagにしかないラベルが2つ以上あると無理=> Instance level (Action level)の分類をもっと上位化する必要がある． * 上位化した行動でもシーンがわかればより詳細な行動もおのずと(ルールベースレベルでも)確定するはず ## 行動の上位分類 * 二分木ベースで組み立て直してみる * 欲しいのは行動の詳細というよりは，コミュニケーションに関わる分類 * 人の行動・イベント * 介入すべきではない * 介入しても良い * 積極的に介入すべき * 人以外のイベント * 認知すべきではない * 認知しても良い * 積極的に認知すべき * 詳細な行動は場所などの文脈によって(またはシーン分類を組み合わせることで)自ずから確定する (見るのは人であるとすれば) * 上記の考え方を元にした上位分類： 1. Desk work (b.g.) 2. Free (e.g. eat) 3. Tele 4. Chat 5. Meeting 6. Call 7. Move to distination 8. Move in operation 9. Infomative sound * この9分類にシーンを条件づけることでより詳細な行動として認識することも可能