## Линейная регрессия ## Метод Наименьших квадратов Пусть у нас есть $n$ пар наблюдений $(x_1, y_1), (x_2, y_2),...,(x_n, y_n)$. Мы хотим найти единственное уравнение вида $y = a + bx$ которое наилучшим образом опишет все n наших двумерных точек. У нас имеется n точек, подставим каждую из них в наше уравнение. Очень маловероятно, что хотя бы одна из наших реальных точек, будет лежать на нашей прямой (почему?). Расстояние от точки до прямой будет называться ошибкой и обозначаться $\epsilon_i$. $$ y_i = \alpha + \beta x_i + \epsilon_i$$ где: $y_i$ - значение y для наблюдения под номером $i$ (зависмая переменная), $\alpha$ - константа (intercept), $\beta$ - коэффициент при $x_i$, $x_i$ - регрессор (независимая переменная), $\epsilon_i$ - белый шум - случайная величина с нулевым матожиданием. Таким образом мы имеем n уравнений: $y_1 = \alpha + \beta x_1 + \epsilon_1$ $y_2 = \alpha + \beta x_2 + \epsilon_2$ ... $y_n = \alpha + \beta x_n + \epsilon_n$ Мы будем искать наилучшее уравнение линейной регрессии Методом Наименьших Квадратов. В этом методе мы будем минимизировать квадрат ошибки. А о какой ошибке речь? Мы предполагаем, что где-то в этой вселенной (генеральной совокупности) существует истинное уравнение: $y = \alpha + \beta x$. Однако мы не можем наблюдать всей генеральной совокупности. Это невозможно. Мы наблюдаем лишь n точек, о которых мы говорили в начале. Таким образом, на основе наших данных мы можем получить оценку реального уравнения, поэтому и записывать мы оцененное уравнение будем используя обозначения с крышечками. $$\hat y_i = \hat \alpha + \hat \beta x_i$$ где: $\hat y_i$ - значение модели, наша оценка реального значения $y_i$, $\hat \alpha$ - оценка константы, $\hat \beta$ - оцкенка коэффициента при $x_i$, $x_i$ - регрессор (независимая переменная) ## Вывод МНК-оценок Используя тот факт, что $y_i = \alpha + \beta x_i + \epsilon_i$ мы получаем: $$\epsilon_i = y_i - (\alpha + \beta x_i)$$ где $\epsilon_i$ - это наша ошибка. выпишем ошибки, для каждой из $n$ наших точек $\epsilon_1 = y_1 - (\alpha + \beta x_1)$ $\epsilon_2 = y_2 - (\alpha + \beta x_2)$ ... $\epsilon_n = y_n - (\alpha + \beta x_n)$ Возьмем ошибки в квадрат (не зря же метод называется Наименьших Квадратов) $\epsilon_1^2 = (y_1 - \alpha - \beta x_1)^2$ $\epsilon_2^2 = (y_2 - \alpha - \beta x_2)^2$ ... $\epsilon_n^2 = (y_n - \alpha - \beta x_n)^2$ Просуммируем все: $\sum_{i =1}^n \epsilon_i^2 = \sum_{i =1}^n(y_i - \alpha - \beta x_i)^2$ Мы будем минимизировать квадраты ошибок по $\alpha$ и $\beta$ $\sum_{i =1}^n(y_i - \alpha - \beta x_i)^2 \rightarrow \min_{\alpha,\beta}$ Сначала по $\alpha$: $\sum_{i =1}^n-2(y_i - \alpha - \beta x_i) = 0$ Разделим все на -2 $\sum_{i =1}^n(y_i - \alpha - \beta x_i) = 0$ Внесем знак суммы в скобки $\sum_{i =1}^n y_i - n \alpha - \beta \sum_{i =1}^nx_i = 0$ Разделим все на n $\frac{\sum_{i =1}^n y_i}{n} - \alpha - \beta \frac{\sum_{i =1}^n x_i}{n} = 0$ Заметим, что $\frac{\sum_{i =1}^n y_i}{n} = \bar y$ $\frac{\sum_{i =1}^n x_i}{n} = \bar x$ Используя этот факт $\bar y - \alpha - \beta \bar x = 0$ Отсюда получаем, что $\alpha = \bar y - \beta \bar x$ Пока что запомним это и вернемся уже когда оптимизируем по $\beta$ $\sum_{i =1}^n(y_i - \alpha - \beta x_i)^2 \rightarrow \min_{\beta}$ Берем производную по $\beta$: $\sum_{i =1}^n 2(y_i - \alpha - \beta x_i)(-x_i) = 0$ Делим на 2 и перемножаем скобки $\sum_{i =1}^n (- x_i y_i + \alpha x_i + \beta x_i^2) = 0$ Внесем знак суммы в скобки $- \sum_{i =1}^n x_i y_i + \alpha \sum_{i =1}^n x_i + \beta \sum_{i =1}^n x_i^2 = 0$ $- \sum_{i =1}^n x_i y_i + (\bar y - \beta \bar x) \sum_{i =1}^n x_i + \beta \sum_{i =1}^n x_i^2 = 0$ $- \sum_{i =1}^n x_i y_i + \bar y \sum_{i =1}^n x_i - \beta \bar x \sum_{i =1}^n x_i + \beta \sum_{i =1}^n x_i^2 = 0$ $- \sum_{i =1}^n x_i y_i + \bar y \sum_{i =1}^n x_i = \beta (\bar x \sum_{i =1}^n x_i - \sum_{i =1}^n x_i^2)$ Разделим обе части на $n$ $- \frac{\sum_{i =1}^n x_i y_i}{n} + \bar y \bar x = \beta (\bar x^2 - \frac{\sum_{i =1}^n x_i^2}{n})$ $\beta = \frac{\bar x \bar y - \overline{xy}}{\bar x^2 - \overline{x^2}} = \frac{\widehat{cov}(x,y)}{\widehat{var}(x)}$ $\hat \beta = \frac{\widehat{cov}(x,y)}{\widehat{var}(x)}$ имея это $\hat \alpha = \bar y - \hat \beta \bar x$ ## МНК-оценки коэффицикнтов Уравнение линейной регрессии с коэффициентами, полученными методом наименьших квадратов имеет вид: $$\hat y_i = \hat \alpha + \hat \beta x_i$$ где: $\hat \alpha = \bar y - \hat \beta \bar x$ $\hat \beta = \frac{\widehat{cov}(x,y)}{\widehat{var}(x)}$ ## Несколько регрессоров Линейная регрессия с более чем одним регрессором $y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + ... + \beta_k x_{ki} + \epsilon_i$ Линейная регрессия с бинарными переменнами (dummy variables) $y_i = \beta_0 + \beta_1 x_{i} + \gamma_1 d_{i} + \epsilon_i$ Регрессия с квадратичной зависимостью $y_i = \beta_0 + \beta_1 x_{i} + \beta_2 x_{i}^2 + \epsilon_i$ Логистическая регрессия logit $p_i = \frac{1}{1 + e^{\beta_0 + \beta_1 x_{i} + \epsilon_i}}$ ## Оценка качества модели $R^2$ - это коэффициент, который показывает, насколько хорошо наша модель описывает реальность. Значения $R^2$ могут быть от 0 до 1. $$ R^2 = 1 - \frac{RSS}{TSS}$$ где: $RSS$ - Residuals Sum of Squares $TSS$ - Total Sum of Squares $$ R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat y_i)^2}{\sum_{i=1}^n (y_i - \bar y_i)^2}$$ Чем ближе к 1 $R^2$, тем лучше наша модель описывает реальность. ## Пример линейной регрессии ## Интерпретация эффектов