## Линейная регрессия
## Метод Наименьших квадратов
Пусть у нас есть $n$ пар наблюдений $(x_1, y_1), (x_2, y_2),...,(x_n, y_n)$.
Мы хотим найти единственное уравнение вида $y = a + bx$ которое наилучшим образом опишет все n наших двумерных точек.
У нас имеется n точек, подставим каждую из них в наше уравнение. Очень маловероятно, что хотя бы одна из наших реальных точек, будет лежать на нашей прямой (почему?). Расстояние от точки до прямой будет называться ошибкой и обозначаться $\epsilon_i$.
$$ y_i = \alpha + \beta x_i + \epsilon_i$$
где:
$y_i$ - значение y для наблюдения под номером $i$ (зависмая переменная),
$\alpha$ - константа (intercept),
$\beta$ - коэффициент при $x_i$,
$x_i$ - регрессор (независимая переменная),
$\epsilon_i$ - белый шум - случайная величина с нулевым матожиданием.
Таким образом мы имеем n уравнений:
$y_1 = \alpha + \beta x_1 + \epsilon_1$
$y_2 = \alpha + \beta x_2 + \epsilon_2$
...
$y_n = \alpha + \beta x_n + \epsilon_n$
Мы будем искать наилучшее уравнение линейной регрессии Методом Наименьших Квадратов. В этом методе мы будем минимизировать квадрат ошибки.
А о какой ошибке речь?
Мы предполагаем, что где-то в этой вселенной (генеральной совокупности) существует истинное уравнение: $y = \alpha + \beta x$. Однако мы не можем наблюдать всей генеральной совокупности. Это невозможно. Мы наблюдаем лишь n точек, о которых мы говорили в начале. Таким образом, на основе наших данных мы можем получить оценку реального уравнения, поэтому и записывать мы оцененное уравнение будем используя обозначения с крышечками.
$$\hat y_i = \hat \alpha + \hat \beta x_i$$
где:
$\hat y_i$ - значение модели, наша оценка реального значения $y_i$,
$\hat \alpha$ - оценка константы,
$\hat \beta$ - оцкенка коэффициента при $x_i$,
$x_i$ - регрессор (независимая переменная)
## Вывод МНК-оценок
Используя тот факт, что $y_i = \alpha + \beta x_i + \epsilon_i$ мы получаем:
$$\epsilon_i = y_i - (\alpha + \beta x_i)$$
где $\epsilon_i$ - это наша ошибка.
выпишем ошибки, для каждой из $n$ наших точек
$\epsilon_1 = y_1 - (\alpha + \beta x_1)$
$\epsilon_2 = y_2 - (\alpha + \beta x_2)$
...
$\epsilon_n = y_n - (\alpha + \beta x_n)$
Возьмем ошибки в квадрат (не зря же метод называется Наименьших Квадратов)
$\epsilon_1^2 = (y_1 - \alpha - \beta x_1)^2$
$\epsilon_2^2 = (y_2 - \alpha - \beta x_2)^2$
...
$\epsilon_n^2 = (y_n - \alpha - \beta x_n)^2$
Просуммируем все:
$\sum_{i =1}^n \epsilon_i^2 = \sum_{i =1}^n(y_i - \alpha - \beta x_i)^2$
Мы будем минимизировать квадраты ошибок по $\alpha$ и $\beta$
$\sum_{i =1}^n(y_i - \alpha - \beta x_i)^2 \rightarrow \min_{\alpha,\beta}$
Сначала по $\alpha$:
$\sum_{i =1}^n-2(y_i - \alpha - \beta x_i) = 0$
Разделим все на -2
$\sum_{i =1}^n(y_i - \alpha - \beta x_i) = 0$
Внесем знак суммы в скобки
$\sum_{i =1}^n y_i - n \alpha - \beta \sum_{i =1}^nx_i = 0$
Разделим все на n
$\frac{\sum_{i =1}^n y_i}{n} - \alpha - \beta \frac{\sum_{i =1}^n x_i}{n} = 0$
Заметим, что
$\frac{\sum_{i =1}^n y_i}{n} = \bar y$
$\frac{\sum_{i =1}^n x_i}{n} = \bar x$
Используя этот факт
$\bar y - \alpha - \beta \bar x = 0$
Отсюда получаем, что
$\alpha = \bar y - \beta \bar x$
Пока что запомним это и вернемся уже когда оптимизируем по $\beta$
$\sum_{i =1}^n(y_i - \alpha - \beta x_i)^2 \rightarrow \min_{\beta}$
Берем производную по $\beta$:
$\sum_{i =1}^n 2(y_i - \alpha - \beta x_i)(-x_i) = 0$
Делим на 2 и перемножаем скобки
$\sum_{i =1}^n (- x_i y_i + \alpha x_i + \beta x_i^2) = 0$
Внесем знак суммы в скобки
$- \sum_{i =1}^n x_i y_i + \alpha \sum_{i =1}^n x_i + \beta \sum_{i =1}^n x_i^2 = 0$
$- \sum_{i =1}^n x_i y_i + (\bar y - \beta \bar x) \sum_{i =1}^n x_i + \beta \sum_{i =1}^n x_i^2 = 0$
$- \sum_{i =1}^n x_i y_i + \bar y \sum_{i =1}^n x_i - \beta \bar x \sum_{i =1}^n x_i + \beta \sum_{i =1}^n x_i^2 = 0$
$- \sum_{i =1}^n x_i y_i + \bar y \sum_{i =1}^n x_i = \beta (\bar x \sum_{i =1}^n x_i - \sum_{i =1}^n x_i^2)$
Разделим обе части на $n$
$- \frac{\sum_{i =1}^n x_i y_i}{n} + \bar y \bar x = \beta (\bar x^2 - \frac{\sum_{i =1}^n x_i^2}{n})$
$\beta = \frac{\bar x \bar y - \overline{xy}}{\bar x^2 - \overline{x^2}} = \frac{\widehat{cov}(x,y)}{\widehat{var}(x)}$
$\hat \beta = \frac{\widehat{cov}(x,y)}{\widehat{var}(x)}$
имея это
$\hat \alpha = \bar y - \hat \beta \bar x$
## МНК-оценки коэффицикнтов
Уравнение линейной регрессии с коэффициентами, полученными методом наименьших квадратов имеет вид:
$$\hat y_i = \hat \alpha + \hat \beta x_i$$
где:
$\hat \alpha = \bar y - \hat \beta \bar x$
$\hat \beta = \frac{\widehat{cov}(x,y)}{\widehat{var}(x)}$
## Несколько регрессоров
Линейная регрессия с более чем одним регрессором
$y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + ... + \beta_k x_{ki} + \epsilon_i$
Линейная регрессия с бинарными переменнами (dummy variables)
$y_i = \beta_0 + \beta_1 x_{i} + \gamma_1 d_{i} + \epsilon_i$
Регрессия с квадратичной зависимостью
$y_i = \beta_0 + \beta_1 x_{i} + \beta_2 x_{i}^2 + \epsilon_i$
Логистическая регрессия logit
$p_i = \frac{1}{1 + e^{\beta_0 + \beta_1 x_{i} + \epsilon_i}}$
## Оценка качества модели
$R^2$ - это коэффициент, который показывает, насколько хорошо наша модель описывает реальность. Значения $R^2$ могут быть от 0 до 1.
$$ R^2 = 1 - \frac{RSS}{TSS}$$
где:
$RSS$ - Residuals Sum of Squares
$TSS$ - Total Sum of Squares
$$ R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat y_i)^2}{\sum_{i=1}^n (y_i - \bar y_i)^2}$$
Чем ближе к 1 $R^2$, тем лучше наша модель описывает реальность.
## Пример линейной регрессии
## Интерпретация эффектов