# 論文サーベイ ## CookGAN: Meal Image Synthesis from Ingredients #### URL [本文](https://arxiv.org/pdf/2002.11493.pdf) [日本語訳](https://drive.google.com/file/d/1lmHgmbzp5K3XcBTVPthidDx9TjLTCdLD/view?usp=sharing) <iframe src="https://drive.google.com/file/d/1lmHgmbzp5K3XcBTVPthidDx9TjLTCdLD/preview" width="640" height="480" allow="autoplay"></iframe> #### Who:著者名、所属 #### Where, When:論文の書誌情報(学会名、発行年) #### Why:なぜその研究をするのか、する必要があるのか(背景)、What:なにをしようとしているのか(目的) コンピュータ食品分析(CFA)は、栄養健康のために重要。食事画像から成分やカロリーを 含む食品を抽出できれば、日々の栄養摂取量の監視や 食事管理に役立てることができる。また、CFAは、食品摂取量の記録だけでなく、食材の機能的類似性の学習と評価、食事の嗜好予測、計算による食事の準備と 計画にも重要な役割を果たすことができる。 本研究では特定の食材から食事画像を生成することに焦点をあてる テキストから画像を生成するためには CooKGANはattentionに基づく食材と画像の関連モデルを構築し、それを食事画像の合成を目的とするGANの条件付けに用いる。さらに、画質の向上や見た目の制御のためにサイクル一貫性損失を追加する。 サイクル一貫性損失:「変換後のイメージから入力データを復元したイメージ」と「元の入力データ」を比較することで損失を算出 #### How:どのように目的を達成しようとしたか(提案手法) attentionに基づく連想モデルとstackGANを組み合わせ、食材から食事の画像を生成する。サイクル一貫性損失を追加することで画質の向上、食材を追加することで画像の制御を行う #### How:達成できたことをどのように証明したか(評価実験) ##### 実験1:定量的に評価 既存手法と提案手法のレシピ検索の精度をMedRと再現率で評価 MedRは全データの良い検索順位の中央値を表す指標 再現率とは、全データの検索において、1位、5位、10位以内の正解データの割合を示す指標 ##### 実験2:食事画像の生成 サラダ、クッキー、マフィンというよく身荒れる3カテゴリに含まれる特定タイプの食品を対象とし、食材を変更することで食事画像を操作する。ISとFIDで評価 ##### 実験3:コンポーネント分析 ある食材をテキストから消した際の画像の変化を確認する #### 結果 ##### 実験1:定量的に評価 テストセットサイズ10kの場合はすべて、1kの場合はMedRと一位の再現率において既存手法を上回った。 ##### 実験2:食事画像の生成 3つの損失によってより検索精度が向上した。いずれの損失もクロスモーダル検索の性能向上に有効だと言える また、2段階の学習のみを行なったところ、モデルの学習が失敗し、2段階の学習が必要だとわかった。 ##### 実験3:コンポーネント分析 #### 問題点 クロスモーダルレシピ検索の性能を維持したまま、合成される料理画像の品質とサイズの両方を向上させる予定 #### 感想(難しい用語、改善・応用できそうなこと) 畳み込みニューラルネットワークやその他技術についての知識が足りないと感じた 何をやっているのかはなんとなくわかってきたがどうやっているのかのイメージがつかない状態のためもっと技術について調べたり実際に触ってみることが必要 #### 節ごとの詳細 3.1. Attention-based Association Model:食事と画像の関連性のモデル化 * (1):d[p+,q+]:アンカーとP画像の距離、近い方が良い、d[p+,q-]:アンカーとNの距離 これが負の時はNのほうがアンカーに近いということなので損失が発生、正の時は正しいので損失は0 成分エンコーダEpとそれぞれ * (2):ガウス分布としてモデル化 softmax:入力ベクトルの各成分を0~1の確率値に変換するもの、この関数によって出力されるベクトルの各成分の合計は1.0 出力を確率とみなすことで分類が可能 ai: N:レシピに含まれる材料の数 u:文脈ベクトル * (3) P+:テキスト特徴 Fca:条件付き拡張ネットワーク up+:エンコードする材料の平均 Σp+:エンコードする材料の共分散 材料外観係数 c の分布 p(c|p+) p+ にノイズが導入され、モデルは FoodSpace での小さな変動に対して堅牢になります。 生成食事画像ネットワークは、材料リストを入力として受け取り、対応する食事画像を生成します。基本モデル StackGAN-v2 [27] には、3 つのブランチが積み重ねられています。各ブランチは特定のスケールで画像を生成する役割を担い、各ブランチにはそのスケールで画像を区別する役割を担う独自の識別器があります。フレームワークを図 2 に示します。 * (5) cはガウスノイズ(正規分布と等しい確率密度を持つ統計的雑音)z∼N(o,I)で拡張 h0:最初のブランチの潜在的特徴 * (6) 正しくペアリングされたv+を本物 誤ってペアリングされたv-を偽物 生成された画像v˜+を偽物 Pdi:実際の画像分布 Pgi:生成された画像分布 Gi:生成器ブランチ Di:i番目のスケールの識別器 (6):最大化(7)最小化で最適化 ここで、λuncond は無条件損失の重み、λca は条件付き拡張損失の重みです。交差検証により、λuncond = 0.5、λca = 0.02 を経験的に設定しました。 * (7) 正しく生成された食事画像には、条件付けされた材料が「含まれている」必要がある。 サイクル一貫性を導入し、生成画像が実際の画像と文脈的に類似したものになります。 q+:FoodSpace 座標 FoodSpace 座標 q+ の実際の画像 v+ と、q˜+ で生成された対応する v˜+ の場合、サイクル一貫性正規化は、異なるスケールでのコサイン類似度 LCi = cos [q+, q˜+] を最大化することを目指します λcycle はサイクル一貫性項の重みであり
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up