# IBISML2023 10/30(Mon.) ## Vision and Languageの最前線 (栗田さんパート) **画像と言語の対応づけ** 画像キャプション生成(IC)と画像質問応答(VQA)の二大タスクが存在 **これらのタスクよりも細かく画像中の物体とテキストの対応づけを行うことはできるか?** 画像と言語を対応づけるとは何か 1. 物体検出 2. 属性抽出 3. 物体間の関係抽出 の3stepで構成される - 参照表現理解 - テキスト表現で参照された物体のbboxを推測する - MDETRモデル - データセット: MSCOCO, Visual Genome, Flicker30k - GLIPv2モデル - 改良版 - 画像内部の対象学習(MDETR)と他の画像との対照学習(CLIP) - OFA - 複数のデータセット、タスクを1modelにまとめる - **bboxの座標を言語モデルとして予測する** - Microsoft KOSMOS-2 - 入出力テキスト中にbboxへの参照を含められる - 90M画像のGRITで学習 - 画像と言語の対照学習と基盤モデル - CLIP - 既存のDenseなアノテーションをpretrainで使用していない - 細部同士の対応をとる用途には向いていない - V&Lの対照学習はbag-of-wordsのように振る舞う - 単語間の細かい順序関係を考慮しないことのアナロジー - 事前学習データセットの物体クラスラベル数の制限があった - 参照表現理解 - テキストで参照された物体を画像から見つける物体検出 - CLIPでは捉えにくいような比較的長めのテキスト表現に強い - オープン語彙物体検出 - 学習時には未知だったラベルクラスの表現を推論時に与えられたラベルテキストからクラス分類する物体検出 - ある種のout-of-domain object-class物体検出 - 物体認識的なテキスト表現に強い - ViLD - zero-shot object detectionというより検出済みbboxをCLIPを用いて新規ラベルと対応づける - 動画に対する参照表現理解 - 動画クリップからテキストで参照された物体を探す - 既存データセットはあまり実用的ではない - RefEgo
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up