13. Задача оценивания текущего значения параметров линейной регрессии. Градиентные методы. Критерии, их свойства, различия.
Рассмотрим модель
$$y = \phi^T \theta^*,$$
где $y \in R^1, \phi \in R^m и \theta^* \in R^m, \theta^* = const$. Ставится задача идентификации параметров $\theta^*$ по измерениям $y$ и $\phi$.
Для подобной задачи подходят динамические методы идентификации, поскольку они позволяют обновлять оценку по мере поступления новых измерений. В дискретном времени динамическим методам соответствуют рекуррентные алгоритмы, позволяющие формировать оценку неизвестных параметров на основе ранее полученной оценки и новых данных ($\hat{\theta}(k)=F\{\hat{\theta}(k-1), \phi(k), y(k)\}$). В непрерывном времени динамические методы формируют оценку параметроа как решение дифференциального уравнения: $\frac{d\hat{\theta}(t)}{dt} = F\{\hat{\theta}(t), \phi(t), y(t)\}$. Обычно методы динамической идентификации строятся на минимизации некоторого критерия качества $J(\hat{\theta})$. Критерий качества представляет собой средние потери, которые чем меньше, тем выше качество идентификации (т.е. достигает своего минимального значения при $\hat{\theta} = \theta^*$). Минимизация критерия качества, соответствующая улучшению качества идентификации, осуществляется путем надлежащего выбора структуры модели и изменением значений её параметров, т.е. реализацией алгоритма идентификации.
Наиболее распространенные критерии качества - квадратичные, представляющие собой квадратичную ошибку. Реже применяются модульные критерии, но существуют и иные функции, отличные от квадратичных и модульных.
Рассмотрим квадратичный и интегральный квадратичный критерий (для непрерывного времени). Поскольку критерий - это функция потерь, т.е. функция ошибки, мы можем обозначить его как:
$$J(t)=\dfrac{1}{2}e^2 \; или \;J(t)=\int_{0}^{t} e^2(\tau) \,d\tau $$
На примере критерия квадратичной ошибки выразим его через наши измерения:
$$J(t)=\dfrac{1}{2}e^2(t)=\dfrac{1}{2}(y(t)-\hat{y}(t))^2=\dfrac{1}{2}(y(t)-\phi^T(t)\hat{\theta}(t))^2$$
Соответственно, квадратичный критерий для непрерывного и дискретного времени:
$$J_{SE}(t)=\dfrac{1}{2}(y(t)-\phi^T(t)\hat{\theta}(t))^2, \; J_{SE}(k)=\dfrac{1}{2}(y(k)-\phi^T(k)\hat{\theta}(k))^2$$
Что хорошего в квадратичном критерии? Как минимум, он дифференцируем в нуле, и удобен, если мы предполагаем, что ошибки всегда положительные. Это позволяет нам решить задачу с минимальной погрешностью, сводя градиент к нулю.
И интегральный квадратичный критерий для непрерывного и дискретного времени:
$$J_{ISE}(t)=\dfrac{1}{2}\int_{0}^{t} (y(\tau)-\phi^T(\tau)\hat{\theta}(\tau))^2 \,d\tau, \; J_{ISE}(t)=\dfrac{1}{2}\sum_{i=1}^{k} (y(i)-\phi^T(i)\hat{\theta}(k))^2$$
Стремясь минимизировать интегральный квадратичный критерий, фактически минимизируют наибольшие отклонения регулируемой величины, поэтому минимальные значения критерия всегда соответствуют колебательным процессам с малым затуханием. Интегральный квадратичный критерий, как и линейный, можно вычислить без построения переходного процесса по частотной характеристике замкнутой системы и преобразованию по Фурье от входного сигнала.
\\\\\\
.
$\displaystyle J(\hat{\theta}_1,\hat{\theta}_2) = \sum_{k=1}^N( \frac{1}{2}(y_k - \phi_k^T\hat{\theta})^T(y_k - \phi_k^T\hat{\theta}))$
где
<!-- $y^T = [y_1 \quad y_2 \quad \dots \qquad y_n]$
$\phi = \left[\begin{array}s \phi_{11}& \phi_{12} & \dots & \phi_{1n} \\\phi_{21}& \phi_{22} & \dots & \phi_{2n} \end{array}\right],$ -->
$y = \phi^T \theta$
Подставляем!
$\displaystyle J = \sum_{k=1}^N( \frac{1}{2}(\phi_k^T(\theta - \hat{\theta}))^T(\phi_k^T(\theta -\hat{\theta})) )= \sum_{k=1}^N( \frac{1}{2} (\theta - \hat{\theta})^T \phi_k\phi_k^T (\theta - \hat{\theta})) = \sum_{k=1}^N( \overline{\theta}^T D_k \overline{\theta})$
где
$\overline{\theta} = \theta - \hat{\theta}, \qquad D_k = \frac{1}{2}\phi_k\phi_k^T$
<!-- Пускай $\theta' \in \mathbb{R}^2$, $\theta \in \mathbb{R}^2$, $\phi \in \mathbb{R}^2$, -->
$\displaystyle D =\sum_{k=1}^N( \frac{\phi_{1k}^2 + \phi^2_{2k}}{2})$
$J(\hat{\theta_1}, \hat{\theta_2}) = D\overline{\theta}_1^2 + D\overline{\theta}_1^2$

Для одного измерения:
$$J_{SE}(t)=\dfrac{1}{2}(y(t)-\phi^T(t)\hat{\theta}(t))^2 = \dfrac{1}{2}(y(t)-\phi_1(t)\hat{\theta}_1(t)-\phi_2(t)\hat{\theta}_2(t))^2$$
$\displaystyle J(\hat{\theta}_1,\hat{\theta}_2) = \frac{1}{2}(y_k - \phi_k^T\hat{\theta})^T(y_k - \phi_k^T\hat{\theta})$
$$J=y^Ty - (\phi^T\hat{\theta})^Ty-y(\phi^T\hat{\theta})+(\phi^T\hat{\theta}\phi)$$
$$J=y_1^2-2\phi_1 y_1 \hat{\theta}_1 - 2\phi_2 y_1 \hat{\theta}_2 +2\phi_1\hat{\theta}_1\phi_2\hat{\theta}_2+\phi_1^2\hat{\theta_1}^2+\phi_2^2\hat{\theta}_2^2$$
