Machine Learning Application Ranking

--- lang: ja-jp tags: Survey title: Machine Learning Application Ranking --- # Machine Learning Application Ranking - [Ranking SVM](#Ranking-SVM) - [LambdaMART](#LambdaMART) ## Notation 基本的には[Cheat Sheet#Notation](https://hackmd.io/@moriaki3193/B1tSleeqr#Notation)に従う。 ## Ranking SVM - `RankSVM`と呼ばれる場合もある ### Loss function & Risk #### Remark - 損失関数は**listwise**に設定される - 一つのクエリとドキュメント集合に対して得られるランキングについて*Kendall's tau*を最大にするようにモデルを学習する - 観測されたランキングを$r^{\ast}$ - モデルが予測する出力するランキングを$r_{f\left(q\right)}$ - *Kendall's tau*を最大化するよう学習したモデルは、Average Precisionの下限を保証することが知られている - 実際には最小化問題として最適化を行うため、損失関数は$l_{\tau}\left( q^{\left(i\right)} \right) = - \tau \left( r^{\ast}, f\left( q^{\left(i\right)} \right) \right)$として設定される #### 汎化損失（Generalized Risk） - $\rho$: クエリとそれに対するランキングの生成分布 $$ J=-\tau_{P(f)}=-\int \tau\left(r_{f(q)}, r^{*}\right) d \operatorname{Pr}\left(q, r^{*}\right) $$ #### 経験損失（Empirical Risk）汎化損失を訓練事例から評価することは不可能であるため、次のような経験損失を考える。 $$ J_{emp}=-\tau_{S}(f)=-\frac{1}{n} \sum_{i=1}^{n} \tau\left(r_{f\left(q_{i}\right)}, r_{i}^{*}\right) $$ ### Datasets - $n \in \mathbb{N}$: クエリ数 - $\phi\left(q, d\right) \in \mathbb{R}^{m}$: クエリとドキュメントの組から抽出される特徴ベクトル - memo kernel $\mathbb{R}^{m^{\prime}}$に射影するとあとで表記する #### Labeling click-through data ## LambdaMART