<div>
<style>
/* basic design */
.reveal h1, .reveal h2, .reveal h3, .reveal h4, .reveal h5, .reveal h6,
.reveal section, .reveal table, .reveal li, .reveal blockquote, .reveal th, .reveal td, .reveal p {
font-family: 'Georgia', 'Yu Gothic', 'Meiryo UI', 'Source Sans Pro', Helvetica, sans-serif, 'Helvetica Neue', 'Helvetica', 'Arial', 'Hiragino Sans', 'ヒラギノ角ゴシック';
text-align: left;
line-height: 1.6;
letter-spacing: normal;
text-shadow: none;
word-wrap: break-word;
color: #444;
}
.reveal h1, .reveal h2, .reveal h3, .reveal h4, .reveal h5, .reveal h6 {font-weight: bold;}
.reveal h1, .reveal h2, .reveal h3 {color: #2980b9;}
.reveal th {background: #DDD;}
.reveal section img {background:none; border:none; box-shadow:none; max-width: 95%; max-height: 95%;}
.reveal blockquote {width: 90%; padding: 0.5vw 3.0vw;}
.reveal table {margin: 1.0vw auto;}
.reveal code {line-height: 1.2;}
.reveal p, .reveal li {padding: 0vw; margin: 0vw;}
.reveal .box {margin: -0.5vw 1.5vw 2.0vw -1.5vw; padding: 0.5vw 1.5vw 0.5vw 1.5vw; background: #EEE; border-radius: 1.5vw;}
/* table design */
.reveal table {background: #f5f5f5;}
.reveal th {background: #444; color: #fff;}
.reveal td {position: relative; transition: all 300ms;}
.reveal tbody:hover td { color: transparent; text-shadow: 0 0 3px #aaa;}
.reveal tbody:hover tr:hover td {color: #444; text-shadow: 0 1px 0 #fff;}
/* blockquote design */
.reveal blockquote {
width: 90%;
padding: 0.5vw 0 0.5vw 6.0vw;
font-style: italic;
background: #f5f5f5;
}
.reveal blockquote:before{
position: absolute;
top: 0.1vw;
left: 1vw;
content: "\f10d";
font-family: FontAwesome;
color: #2980b9;
font-size: 3.0vw;
}
/* font size */
.reveal h1 {font-size: 5.0vw;}
.reveal h2 {font-size: 4.0vw;}
.reveal h3 {font-size: 2.8vw;}
.reveal h4 {font-size: 2.6vw;}
.reveal h5 {font-size: 2.4vw;}
.reveal h6 {font-size: 2.2vw;}
.reveal section, .reveal table, .reveal li, .reveal blockquote, .reveal th, .reveal td, .reveal p {font-size: 2.2vw;}
.reveal code {font-size: 1.6vw;}
/* new color */
.red {color: #EE6557;}
.blue {color: #16A6B6;}
/* split slide */
#right {left: -18.33%; text-align: left; float: left; width: 50%; z-index: -10;}
#left {left: 31.25%; text-align: left; float: left; width: 50%; z-index: -10;}
</style>
</div>
<div>
<style>
/* specific design */
.reveal h2 {
padding: 0 1.5vw;
margin: 0.0vw 0 2.0vw -2.0vw;
border-left: solid 1.2vw #2980b9;
border-bottom: solid 0.8vw #d7d7d7;
}
</style>
</div>
<!-- --------------------------------------------------------------------------------------- -->
#### Understanding Machine Learning
# chapter 03: <br> A Formal Learning Model
###### 2020-03-13 kubokawa
---
## この章の目標
これまで,元になる $\cal{D, f}$ に対してサンプルが十分に大きければ,ERMに基づいて出力される有限仮説クラス $\cal{H}$ は確率的におおよそ正しいことを見てきた.
<br>
#### 目標:
有限仮説クラス $\cal{H}$ から **形式的な学習モデルを定義する・それを拡張すること**
---
## Definition 3.1: PAC laernability
#### PAC = *確率的におおよそ正しく*
次の2条件を満たすとき, ++仮説クラス $\cal{H}$ は, **PAC Learnable** である++ .
1. $m_{\cal{H}} \colon (0, 1)^2 \rightarrow \mathbb{N}$ となる関数 $m_{\cal{H}}$ (後述)が存在する.
2. 次の性質を満たす学習アルゴリズムを持つ.
<br>
<br>
- すべての $\epsilon, \delta \in (0, 1)$ , $\cal{X}$ の分布である $\cal{D}$ , ラベリング関数 $f \colon \cal{X} \rightarrow \{ 0, 1 \}$ について,
- 実現可能性の仮定が $\cal{H, D, f}$ に関して固定されており,
- $\cal{D}$ によって生成され $f$ でラベル付けされたサンプル数 $m \geq m_{H} (\epsilon, \delta)$ で学習が実行され,
- 少なくとも確信度 $1 - \delta$ の確率で, $L_{(\cal{D,f})}(h) \leq \epsilon$ となるように仮説 $h$ を返す.
---
## 2つの近似パラメタ
- 精度パラメタ $\epsilon$ : 出力が最適な分類器からどれだけ離れているかを定義する
- "Approximately Correct" に関連する
- 確信度パラメタ $\delta$ : 分類器がどれくらい精度要件に合致しそうであるかを示す
- "Probably" に関連する
<br>
<br>
これまで見てきた「データにアクセスするモデル」に於いては,このような近似は避けられない.
→ ++標本複雑性++ という概念を導入する
---
## *Sample Complexity*
#### 標本複雑性(多様性):
「確率的のおおよそ正しい」結果を保証するために必要なサンプル数 を決定する関数
$$
m_{\cal{H}} (\epsilon, \delta) \leq \lceil \frac{\log (|\cal{H}| / \delta)}{\epsilon} \rceil
$$
ただし,$m_{\cal{H}} \colon (0, 1)^2 \rightarrow \mathbb{N}$ .
標本複雑性(多様性)は精度 $(\epsilon)$ と 確信度 $(\delta)$ という2つのパラメタからなる.
また,この関数は仮説クラス $\cal{H}$ の性質にも依存している.
(有限クラス $\cal{H}$ の大きさに対数をとったものに依存している)
---
## A more general learning model
#### より一般化したモデル
以下の2つの観点でさらに拡張して一般化する.
<br >
<br >
1. 実現可能性の仮定~(次ページ参照)~をなくす
2. 二値分類以外にも使えるようにする
---
## (復習)定義:実現可能性の仮定
#### DEFINITION 2.1 (The realizability Assumption)
$$
h^* \in {\cal{H}} \; \; s.t. \; \; L_{({\cal{D, f}})} (h^*) \: = \: 0
$$
上記のような $h^*$ が存在すると仮定する.すなわち,
<!-- - 確率1のランダムサンプリングで訓練データセット $S$ が抽出され,
- 確率分布 $\cal{D}$ で訓練データセット $S$ のインスタンス点群が抽出され,
- ラベリング関数 $f$ でそのインスタンス点群がラベル付けされる. -->
(memo: $S$ の説明だけあればいいのかも)
<br>
<br>
このとき,「$L_S(h^*) = 0$ (エラーがゼロ)となる $h^*$ が存在する」 ことを意味している.
---
## 拡張 (1/2) : 実現可能性の仮定をなくす
学習を進めていくにあたって,実現可能性の仮定は強すぎる.
(実践的な状況においては現実的ではない)
<br>
<br>
実現可能性の仮定に依らない ++*Agnostic*++ なPACモデルを考えたい.
> *Agnostic* とは,本来は「不可知論者」「不可知的」といった意味の語.
> 転じて ++「~に依存しない」++ , ++「~に捉われない」++ , ++「~は分かりかねる」++ という意味.
> → この文脈においては, “ ==実現可能性の仮定に依らない== ” とか “ ==実現可能性を仮定せずに~== ” というニュアンス.
---
## 拡張 (2/2) : 二値分類以外にも使えるようにする
また,これまで見てきた話題は「美味しい」「不味い」といったウラオモテの状況しか存在しなかった.
しかし,実際には ++実数値を予測++ したり, ++より多くのラベルによって分別++ したい.
<br>
<br>
これらの問題は,**損失関数の多様性** によって汎用性を担保しうる.
(次の次の節 3.3.2において考察する)
---
## *Agnostic* PAC learning
###### 3.2.1 Releasing the Realizability Assumption
まずは,(拡張その1)ラベルを確率分布から生成させることで,実現可能性の仮定を緩和しよう.
<br>
$\cal{X} \times \cal{Y}$ であるような $\cal{D}$ を $joint \; distribution$ とする.
- $\cal{D}_x$
- $\cal{D} \left( (x, y) | x \right)$
上記の2つの部分から構成される.
---
## *Agnostic* PAC learning: 構成の詳細 (1/2)
#### $\cal{D}_x$
- ラベル付けされていないドメインの点群が抽出される確率
- "marginal distribution" (周辺分布) とも呼ばれる.
#### $\cal{D} \left( (x, y) | x \right)$ :
- 各ドメイン点群が与えられたときのラベルの生成確率
- "conditional probability" (条件付き確率) とも呼ばれる
---
## *Agnostic* PAC learning: 構成の詳細 (2/2)
パパイヤの例でいえば,
- $\cal{D}_x$ がどのパパイヤを選択するかを決める
- $\cal{D} \left( (x, y) | x \right)$ がパパイヤの美味しさを決める.
実際に,このようなモデルを用いることで, ++同じ色・形のパパイヤに於いても異なる美味しさを持つようなモデル++ を定義できる.
---
## the Empirical and the True Error Revised
#### 経験的エラーと真のエラーを改めて考えてみる (1/2)
$$
\begin{eqnarray}
L_{\cal{D}} (h)
&\stackrel{\mathrm{def}}{=}& \mathbb{P} _{(x, y) \sim \cal{D}} \left[ h(x) \neq y \right] \\
&\stackrel{\mathrm{def}}{=}& \cal{D} \left( \{ (x,y) \colon h(x) \neq y \} \right) \\
\end{eqnarray}
$$
それぞれのエラーを最小化するような予測器(仮説) $h$ を見つけたい.
しかし,学習器はどのようにデータが生成されているか知らない.
(学習器がアクセスできるのは訓練データセット $S$ だけである)
---
## the Empirical and the True Error Revised
#### 経験的エラーと真のエラーを改めて考えてみる (2/2)
$$
L_S(h) \stackrel{\mathrm{def}}{=} \frac{\left| \{ i \in [m] \colon h(x_i) \neq y_i \} \right|} {m}
$$
訓練データ $S$ が与えられる時,学習器はいかなる仮説 $h$ についても $L_S(h)$ を計算する.
(※ $L_S(h) = L_{{\cal{D}}(\rm{uniform \; over} \; S)}(h)$ であることに注意)
(※ 偏りがないぐらいの意味?)
<br>
###### 目標:
$\cal{X} \rightarrow \cal{Y}$ への写像(ラベリング)における「真のリスク」(の関数である $L_{\cal{D}}(h)$) を最小化できるようないくつかの仮説 $h$ をみつけること.
---
## the Empirical and the True Error Revised
#### the Bayes Optimal Predictor: ベイズ最適予測器 (1/2)
$\cal{X} \times \{ 0, 1 \}$ をもとにして確率分布 $\cal{D}$ が与えられた時,最良の予測器は $f_{\cal{D}}(x)$ で表される.
$$
f_{\cal{D}}(x) =
\left\{
\begin{array}{ll}
1 & \rm{if} \; \mathbb{P} \left[ \cal{y = 1 |x} \right] \geq \frac{1}{2} \\
0 & \rm{otherwise}
\end{array}
\right.
$$
- $x$ が与えられているときに $y=1$ となる確率が $1/2$ 以上である場合, $f_{\cal{D}}(x) = 1$
- → それ以外ならば,$f_{\cal{D}}(x) = 0$
---
## the Empirical and the True Error Revised
#### the Bayes Optimal Predictor: ベイズ最適化予測器 (2/2)
いくつかの予測器のうち,より少ないエラーを持つ予測器 $g$ が他に存在しなければ $f_{\cal{D}}(x)$ が最適と言える.
- つまり,すべての予測器について $L_{\cal{D}}(f_{\cal{D}}) \leq L_{\cal{D}}(g)$
<br>
<br>
ここで学習器は $\cal{D}$ を知らないので,真の $f_{\cal{D}}(x)$ も不明.
++学習器は訓練データセットだけを見て,より良い予測器を選択していく.++
---
## ここまでのまとめ:
#### PAC と *Agnostic* PAC
「$L_S(h^*) = 0$ (エラーがゼロ)となる $h^*$ が存在する」という仮定を,ベイズ最適化をもとにした ${\cal{D}}_{x}$ と $\cal{D} \left( (x, y) | x \right)$ としてラベリング関数をつくり,より良さそうな予測器を探す.
<br>
<br>
これで,*Agnostic* PACモデルの形式的な定義を提示できた.
---
## 予測器を見つける要件
- *Agnostic* PACでの学習は,「ベイズ最良予測器の取りうる最小限のエラーよりも小さなエラーを持つ仮説」を見つけられない.
- いったんデータ生成分布に関する事前の仮定ができなくなってしまえば,どんなアルゴリズムもベイズ最適化と同等の予測器を見つけると保証されない.
<br>
<br>
その代わりに,学習アルゴリズムが,与えられたベンチマーク仮説クラスでの予測器の ++最善の誤差よりも誤差があまり大きくない予測器を見つけること++ を必要条件とすればよい.
(次ページで形式的に定義する)
---
## DEFINITION 3.3
#### Agnostic PAC Learnability
1. $m_{\cal{H}} \colon (0, 1)^2 \rightarrow \mathbb{N}$
2. 以下の性質を持つ学習アルゴリズムが存在する
> すべての $\epsilon , \delta \in (0, 1)$ , $\cal{D} \sim \cal{X} \times \cal{Y}$ について,学習アルゴリズムが $\cal{D}$ によって`i.i.d` に(独立同一に) 生成され $m \geq m_{\cal{H}} (\epsilon , \delta)$ で実行されているとき,そのアルゴリズムは少なくとも $1 - \delta$ の確率で次の式を満たして,仮説 $h$ を返す.
もし上記の条件を満たせば,仮説クラス $\cal{H}$ は `Agnostic` に `PAC Learnable` である.
$$
L_{\cal{D}}(h) \leq \min_{h^{\prime} \in \cal{H}} L_{\cal{D}}(h^{\prime}) + \epsilon
$$
---
## *Agnostic* PAC の まとめ
実現可能性の仮定がある場合
- *Agnostic* PAC も 単なる PAC も同じ
- そういう意味で、PAC を一般化したものが *Agnostic PAC*
++実現可能性の仮定が無い++ 場合
- PAC では、学習器が小さなエラーを任意に保証できない
- にもかかわらず、*Agnostic* PAC の定義に於いては、そのエラーが仮説クラス $\cal{H}$ による予測器で得られる(最も小さな)エラーよりもわずかに大きいくらいであれば、まだ学習が成功していると見做せる
<!-- 疑問を解決して,進 -->
##### Agnostic PAC Learning の特徴
- 学習器それ自体がある小さなエラーまで到達する(エラーをある程度まで小さく抑える)ことが必要
<!-- 2. ~~仮説クラスが取りうる最小のエラーとは関連がない~~ -->
---
## The Scope of Learning Problems Modeled
モデルを拡張することで様々な学習タスクに適用されうる
→ 他の例を考えてみよう!
<br>
<br>
- 多値分類 (Multi classification)
- 回帰 (Regression)
---
## 多値分類 (Multi classification) (1/3)
分類は何も常に *Binary* である必要はない
文書分類を例に多値分類を考えてみよう
<br>
<br>
目的: 文書をあるトピックごとに分類できるプログラムをつくる
要件: 以下の3つ
1. **正しく分類された**文書群にアクセスできること
2. 新たな文書を入力として受け取ること
3. その文書のトピックを出力として返すこと
---
## 多値分類 (Multi classification) (2/3)
ドメイン集合: 潜在的に存在するすべての文書の集合である
- 文書中のキーワードごとの出現数
- 文書の大きさ(単語数など)
- その他、文書に由来するあらゆるものすべて
これらを文書の「特徴」の集合として文書を表現したい
---
## 多値分類 (Multi classification) (3/3)
このタスクにおける「ラベル」の集合は、文書を振り分けるためのトピックの集合である
(だから $\cal{Y}$ はたかだか有限の集合となる)
これまで考えてきた枠組みで言えば、一度ラベル集合を決めてしまえば、他の構成要素はまさしくパパイヤのときと同じようなものである
- 訓練サンプル: 「特徴ベクトル」とラベルの組
- 学習器の出力: ドメイン集合からラベル集合への関数(写像)
#### 学習の成功判定
文書とトピックの組をもとにして、この++予測器が悪いラベルを提示する事象の起こる確率++を学習の成功判定に利用できる
---
## 回帰 (Regression) (1/2)
このタスクにおける望みとは、いくつかのシンプルなパターンをデータの中から見つけることである
言い換えれば、++$\cal{X}$ と $\cal{Y}$ というデータの構成部分間での機能的関連性を見つけることである++
> 例:エコー調査によって得られた「頭の円周」「腹の円周」「太腿の円周」という3つのデータから赤子の出生時体重を予測する線形関数を見つける
>(ドメイン集合が $\mathbb{R}^3$ (頭、腹、太腿) とすれば、ラベル集合は赤子の出生時体重の実数値全体ということになる)
※この文脈に於いて、 $\cal{Y}$ は「標的集合(target set)」呼ぶのが適切
---
## 回帰 (Regression) (2/2)
しかし、その学習が成功しているかどうか測定するのは難しい
→ "真のラベル" と "予測されたラベル" との間にある平均二乗誤差(expected square difference) によって、仮説関数 $h$ の質を評価する
$$
L_{\cal{D}}(h) \stackrel{\mathrm{def}}{=} \underset{(x,y) \sim \cal{D}}{\mathbb{E}} \left( h(x) - y \right)^2
$$
- $h(x)$ : 予測されたラベル
- $y$ : 真のラベル
→ 差分を取って、それを二乗している
---
## 学習の成否を一般化して測る
広範に学習タスクをカバーできるように、学習の成否を測定する形式的な方法を以下のように一般化する
- なんらかの集合 $\cal{H}$
- 仮説やモデルとしての役割を果たす
- いくつかのドメイン $\cal{Z}$
が与えられたとき、$\ell$ を $\ell \colon \cal{H} \times \cal{Z} \rightarrow \mathbb{R}_{+}$ とする
※ $\ell$ は $\cal{H} \times \cal{Z}$ を負ではない実数値の集合へと移すなんらかの関数(写像)
→ これを**損失関数**と呼ぶ
---
## 一般の損失関数
今回のような予測の問題においては、$\cal{Z}$ は $\cal{X} \times \cal{Y}$ で表している
<br>
<br>
一方で、この損失関数の表記法はどんな予測タスクでも一般化されうる
→ ゆえに、実数値の集合 $\cal{Z}$ はどのようなドメインの集合であってもよい
---
## 期待損失 と 経験損失
さらに、この実数値の集合 $\cal{Z}$ をもとにした確率分布 $\cal{D}$ に関しての分類器 $h$ の**期待損失** となるためのリスク関数も定義する
すなわち、$\cal{D}$ によって無作為に選び取られたオブジェクト $z$ をもとにした $h$ の損失の期待を考慮している
$$
L_{\cal{D}}(h) \stackrel{\mathrm{def}}{=} \underset{\cal{Z} \sim \cal{D}}{\mathbb{E}} \left[ \ell (h, z) \right]
$$
同様にして、与えられたサンプル $S$ をもとにした期待される損失とするために**経験損失**も定義する
$$
L_S(h) \stackrel{\mathrm{def}}{=} \frac{1}{m} \sum_{i=1}^{m} \ell (h, z_i)
$$
---
## 損失関数についての具体例
前述の多値分類と回帰のタスクの例において使われていた損失関数は以下の通りである
- **0-1 Loss**
- **Square Loss**
---
## 損失関数: 0-1 Loss (1/2)
ランダム変数 $z$ は $\cal{X} \times \cal{Y}$ をもとにしており、その損失関数は以下であらわされる
$$
\ell_{0-1} \left( h, (x, y) \right)
\stackrel{\mathrm{def}}{=}
\begin{cases}
0 & \rm{if} \; \cal{h(x) = y} \\
1 & \rm{if} \; \cal{h(x) \neq y}
\end{cases}
$$
この損失関数は二値分類においても多値分類においても使われる
---
## 損失関数: 0-1 Loss (2/2)
0か1を取るランダム変数 $\alpha$ について、$\mathbb{E}_{\alpha \sim \cal{D}} \left[ \alpha \right] = \mathbb{P}_{\alpha \sim \cal{D}} \left[ \alpha = 1 \right]$ であることに留意
その結果、「0-1 Loss」として
- 期待損失:
$$
L_{\cal{D}}(h) \stackrel{\mathrm{def}}{=} \underset{\cal{Z} \sim \cal{D}}{\mathbb{E}} \left[ \ell (h, z) \right]
$$
$$
\begin{eqnarray}
L_{\cal{D}} (h)
&\stackrel{\mathrm{def}}{=}& \mathbb{P} _{(x, y) \sim \cal{D}} \left[ h(x) \neq y \right] \\
&\stackrel{\mathrm{def}}{=}& \cal{D} \left( \{ (x,y) \colon h(x) \neq y \} \right) \\
\end{eqnarray}
$$
の二つで与えられた $L_D(h)$ の定義は一致する
---
## 損失関数: Square Loss
ランダム変数 $z$ は $\cal{X} \times \cal{Y}$ をもとにしており、その損失関数は以下であらわされる
$$
\ell_{sq} \left( h, (x, y) \right) \stackrel{\mathrm{def}}{=} \left( h(x) - y \right)^2
$$
この損失関数は回帰問題において使われる
- $h(x)$ : 予測されたラベル
- $y$ : 真のラベル
→ 差分を取って、それを二乗している
※ また、この本では、もっとあとでより多くの役に立つ損失関数の具体例を見ていく予定である
---
## Definition 3.4
*Agnostic* PAC における一般的な損失関数に対する学習可能性を形式的に以下のように定義できる
#### *Agnostic* PAC Learnability for General Loss Function
次の項目が存在するとき、ある仮説クラス $\cal{H}$ は、任意の集合 $\cal{Z}$ と 関数 $\ell \colon \cal{h} \times \cal{Z} \rightarrow \mathbb{R}_{+}$ に関して「(何者にもとらわれず)確率的におおよそ正しい」と言える
- 関数 $m_{\cal{H}} \colon \left(0, 1 \right)^2 \rightarrow \mathbb{N}$
- 過学習を防ぐ目的で仮説クラス $\cal{H}$ に導入された複雑性を担保するための最小限の整数値
- 次の条件を満たす学習アルゴリズム:
- すべての $\epsilon, \delta \in (0,1)$ と $\cal{D} \sim \cal{Z}$ について
- $m \geq m_{\cal{H}} (\epsilon, \delta)$ で $\cal{D}$ によって 同一分布から独立に($i.i.d$) に生成されたとき
- 少なくとも $1 - \delta$ の確率で、予測 $h \in \cal{H}$ を返す
- この確率は訓練サンプルの $m$ の選択による
---
## Definition 3.4
このときの損失関数は、以下のようにあらわせる
$$
L_{\cal{D}}(h) \leq \underset{h^{\prime} \in \cal{H}}{min} \; L_{\cal{D}}(h^{\prime}) + \epsilon
$$
ただし、 $L_{\cal{D}}(h) = \mathbb{E}_{z \sim \cal{D}} \left[ \ell (h, z) \right]$
---
## Remark 3.1 (測定可能性について)
※速度論的な話?
前述の定義において、すべての $h \in \cal{H}$ で関数 $\ell \left( h, \cdot \right) \colon \cal{Z} \rightarrow \mathbb{R}_{+}$ を単なるランダム変数として見做し、$L_{\cal{D}}(h)$ をこのランダム変数の期待値として定義している
形式的に言えば、任意の集合 $\cal{Z}$ の部分集合として $\sigma$ 代数があるということを仮定している
その集合 $Z$ のもととなった確率分布 $\cal{D}$ は定義され、$\mathbb{R}_{+}$ におけるすべての初期切片の原像は、この $\sigma$ 代数の中にある
`0-1 loss` での二値分類の場合、$\sigma$ 代数は $\cal{x} \times \{ 0, 1 \}$ をもとにしており、$\ell$ における仮定は‘すべての $h$ について、集合 $\{ \left( x, h(x) \right) \colon x \in \cal{x} \}$ は $\sigma$ 代数に含まれる’という仮定に相当する
---
## Remark 3.2
前述の定義において、アルゴリズムは仮説クラス $\cal{H}$ から予測 $h$ 返すことが必要とされていた。
たいていの場合、$\cal{H}$ は $\cal{H}^{\prime}$ の部分集合である
そして損失関数は当然に $\cal{H}^{\prime} \times \cal{Z}$ から実数集合へと拡張されうる
この場合、$L_{\cal{D}}(h^{\prime}) \leq \underset{h \in \cal{H}}{min} \; L_{\cal{D}}(h) + \epsilon$ という要件を満たす限りは、アルゴリズムが予測 $h^{\prime} \in \cal{H}^{\prime}$ を返すのを許容できる
適切な学習はアルゴリズムが必ずや $\cal{H}$ から予測を出力せねばならないときに生じる一方で、アルゴリズムが $\cal{H}^{\prime}$ から予測を出力してもよいとすることは、`representation independent` な学習と呼ばれる
この学習法にはどこも不適切な部分はないが、時折「`improper leaarning`」とも呼ばれる
---
## 3章のまとめ
- `PAC` モデルを形式的に定義した
- この基礎的なモデルは `realizability assumption` に依存しているが、一方で `Agnostic` な変形はいかなる制限に於いても課されていない
- 任意の損失関数においても `PAC` モデル が使えるように拡張した
- 今後は最も一般化された単純なモデルとして`PAC` モデルと言及することもある
- いちいち「`Agnostic`」とかつけない
- 暗黙に前提としている損失関数については、読み手が文脈から推測せよ
---
## 反省会
- わかった気になって放置している(?)
- ものを学ぶ姿勢
- 目標:自分で問題を見つけて,論文にして解決できるようになりたい.
1. Understanding をつづける
2. Deep from Zero
3. 中川先生の本を読む
4. 論文を読む
5. 何もしない
- メタ的に理解するのが苦手
- その練習の題材として,本読み・論文読み.
- 伝えたことによる成功体験が欲しいので.
わからないところをわからないまま放置しない
じっくり止まって考える
訳すとやった気になってしまう
要約して,分かった気になってしまう.
わかるところ:すらすら読める,あんまり意味ない
わからなかったところ:知識の宝が埋まっているはず
自分で例を作ってみるとか,確認作業が必要.
トマトを一つ熟すたびに,反省点を示すとよいのかも.
自己解決を目指す,がそれでも理解が優先 → 聞くのが早い.
イテレーション回すほうがいいのでは?(私見)
→ 2章を回す方向で学習
もう一人の自分をつくっていない
メタ認知・客観性のなさ → 訓練?どうすればいいのか.
時間を置くと客観視できるようになるのでは…………?
リミッター解除の方向で考えよう
佐藤さんにコメダで講釈垂れる.
→ そこで,他人に見てもらう(客観視の練習)
書くことに集中しすぎて頭に残っていない?
→ これはあるかも
スライド作成と読むまでの間に,++ワンクッション必要++ ?
メモとってから,スライドに直すのをイテレーション.
タイプではなく,ペンで書く.
読みながらスライドは作らない.
{"metaMigratedAt":"2023-06-15T05:12:38.323Z","metaMigratedFrom":"YAML","title":"UML chapter 03","breaks":true,"lang":"ja-jp","GA":"UA-110561341-4","slideOptions":"{\"help\":true,\"navigationMode\":\"linear\",\"overview\":true,\"theme\":\"white\",\"touch\":true,\"transition\":\"fade\",\"slideNumber\":\"c/t\",\"center\":false,\"keyboard\":true,\"width\":\"93%\",\"height\":\"100%\"}","contributors":"[{\"id\":\"b4f3bbe0-936a-4516-a9bf-652fb6d3ed0a\",\"add\":24135,\"del\":11072}]"}