------
# Lista de Econometria
# Aluno: Luiz Alexandre Moreira
------
## 1. a)
\begin{align}
\begin{split}
l(y \beta) = \sum (y_i \log(F(X\beta)) + (1-y_i) log(1-F(X \beta))) \\
\dfrac{\partial ln(y \beta)}{\partial \beta} =0
\rightarrow \sum (y \dfrac{f(X\beta)}{F(X\beta)})X -(1-y_i)\dfrac{f(X\beta)}{1-F(X\beta)}X=0\\
\sum y_i \dfrac{f(X \beta)}{F(x\beta)}X = \sum (1-y_i) \dfrac{f(X\beta)}{1-F(X\beta)}X \\
\sum y_i - y_i F(X\beta) = \sum F(X\beta) -y_i F(X\beta) \\
\sum \dfrac{y_i}{n} = F(X\beta) \\
\bar{y} = F(X\beta)
\end{split}
\end{align}
## 1.b)
### I
Segundo Bagnoli e Bergstrom (2004), afirmaque, se a função de densidade for monotonica decrescente , então a função cumulativa tambem será decrescente, então $F$ é log-concava.
A prova para a seguinte afirmação é que desde que $F$ seja uma função cumulativa, Portanto, se $f$ é monotônica decrescente, isso implica que $\dfrac{f(x)}{F(x)}$ tambem é monotônica descrescente.
Logo se $(\dfrac{f(x)}{F(x)})'= log(F(x))''$, portanto a função é concava logaritima
### II
Conforme apresentado Bagnoli e Bergstrom (2004), considere uma função de distribuição cumulativa $F$ e o intervalo $(a, b)$. Esta distribuição pode ser usada para definir outra função de distribuição cumulativa $F∗$, com intervalo $(−b, −a)$, definindo $F*(x) = F̄(−x)= 1 - F (−x)$. A função $F∗$, assim definida, será chamada de “imagem-espelho” de $F$, pois os gráficos de suas funções de densidade serão imagens-espelho, refletidas em torno de $x = 0$.
**Teorema**: Sejam $F$ e $F∗$ uma função de distribuição cumulativa simetrica:
- Se a função de densidade para $F$ ou $F*$ for logcôncava (log-convexa), então também é a função de densidade para o outro.
- O c.d.f. para uma dessas funções é log-côncava se e somente se a função de confiabilidade da outra é log-côncava.
**Prova:**
- Dado que $F∗(x)=1-F(−x)=F̄(−x)$, deve ser que $F'∗(x)=F'(x)$. Portanto, onde $f∗$ e $f$ são as funções de densidade para $F∗$ e $F$, respectivamente, $f∗(x)$=$f(−x)$ para todo x.
Dado que $F∗(x)=F(−x)$, também segue que $F∗$ é log-côncavo (log-convexo) se e somente $F̄$ for log-côncavo
**Colorario:**
Se uma distribuição de probabilidade tem uma função de densidade que é simétrica em torno de zero, então:
- O c.d.f. será log-côncavo (log-convexo) se e somente se a confiabilidade função é log-côncava (log-convexa).
- A função da vantagem média sobre os inferiores será cada vez mais monótona se e somente se o tempo de vida residual médio é decrescente monótono.
## 3.
Seja $L(\theta)$ a função de verossimilhança avaliada em $\theta$, O teste da razão de verossimilhança será
\begin{align}
\begin{split}
H_0: \theta = \theta_0 \\
H_1: \theta \neq \theta_0
\end{split}
\end{align}
\begin{align}
\begin{split}
\lambda_{LR} = -2 ln\left[\dfrac{sup_{\theta \in \theta_0} L(\theta)}{sup_{\theta \in \theta} L(\theta)}\right] \\
\lambda_{LR} ~\chi_L^2
\end{split}
\end{align}
Sendo
- $\theta$: Espaço paramétrico
\begin{align}
\begin{split}
\lambda_{LR} = -2 ln\left[\dfrac{L(\theta)}{L(\theta_{ML})} \right]= 2[ln(L(\hat{\theta_{ml})})=ln(L(\theta_0))]\\
\end{split}
\end{align}
### Probit
- $y_i$ ~ Bernoull
Calculando a verossimilhança:
\begin{align}
\begin{split}
ln f(y_1,...,y_n) = \sum^n_{i=1} ln(p_i^{y_i}(1-p_i)^{1-y_i}) \\
\sum^{n}_{i=1} [y_iln(p_i) +(1-y_i)ln(1-p_i)]
\end{split}
\end{align}
Onde $p_i$ é função de beta $\rightarrow$ $L(\beta)$
\begin{align}
\begin{split}
\max L(\beta) \:\: p_0 = \sum^{n}_{i=1} \dfrac{y_i}{n} = \bar{y} \\
\theta = \mathbb{R*}; \beta \in \mathbb{R}^* \\
\theta_0 = \mathbb{R*} x {0}x....x{0}\\
\beta = [\alpha,\beta_1,\beta_2,....,\beta_{k-1}]
\end{split}
\end{align}
\begin{align}
\begin{split}
\max L(\beta) = \max_{L \in{\mathbb{R}}} L(\alpha,0,...,0) \\
\max_{L \in{\mathbb{R}}} L = ln L_0 \\
\end{split}
\end{align}
\begin{align}
\begin{split}
L_0 = \sum^{n}_{i=1} y_i ln(\bar{y}) + \sum^{n}_{i=1} (1-y_i)ln(1-\bar{y}) \\
= n \bar{y} ln(\bar{y}) + n ln(1-\bar{y}) - n \bar{y} (1-\bar{y}) \\
= n[\bar{y} + ln(1-\bar{y}) -\bar{y}ln(1-\bar{y})] \\
= n[\bar{y}ln(\bar{y}) +(1-\bar{y})ln(1-\bar{y})]
\end{split}
\end{align}
## 4.
Se $u_i$ segue i.i.d uma distribuição Gumbel (I)
\begin{align}
\begin{split}
f(u_{ii}) = e^{u_{ij}-e^{-u_ij}} \\
F(u_{ii}) = e^{-e^{u_{ij}}}
\end{split}
\end{align}
Para o caso de modelos logit temos a seguinte integral:
\begin{align}
\begin{split}
P_{ij} = \int_{\epsilon} I(u_{ik} - u_{ij} < V_{ij}-V_{ik}, \forall k \neq j) f(\epsilon) d(\epsilon)
\end{split}
\end{align}
Onde, $\epsilon$ é a distribuição conjunta de $\epsilon = u_{i1},u_{i1},...,u_{in}$
- Na integral, temos que a probabilidade que cada um dos termos aleatórios $u_{ik} - u_{ij} está abaixo das difeenças entre $V_ij- V_{ik}$
- Considerando que as diferenãs entre duas vaiáveis aleatórias que seguem uma distribuição Gumbel têm distribuição logistica:
\begin{align}
\begin{split}
u^*_{ij} = u_{ik} - u_{ij}\\
F(u^*_{ij}) = \dfrac{u^*_{ij}}{1+u^*_{ij}}
\end{split}
\end{align}
Sendo $P_{ij} = P(u_{ik} - u_{ij} < V_{ij}-V_{ik}, \forall k \neq j) = P(u_{ik} <u_{ij} +V_{ij}-V_{ik}, \forall k \neq j)$
- Se o $u_{ij}$ é considerado como dado, esta função nos dá a f.c.p para cada $u_{ik}$ avaliada e, $u_{ij}+V_{ij} -V_{ik}$
- A distribuição de gumbel será:
\begin{align}
\begin{split}
e^{-e^{-[u_{ij}+V_{ij}-V_ik]}}
\end{split}
\end{align}
- Dada independência dos elementos do vetor $\epsilon$, temos:
\begin{align}
\begin{split}
P_{ij} = \Pi_{k\neq j} e^{-e^{-[u_{ij}+V_{ij}-V_ik]}}
\end{split}
\end{align}
Assim, a probabilidade conjunta a integral do produtório com relação a todos os valores de $u_{ij}$
\begin{align}
\begin{split}
P_{ij} = \int^{\infty}_{-\infty} (\Pi_{k\neq j} e^{-e^{-[u_{ij}+V_{ij}-V_ik]}}) e^{-u_{ij}} e^{-e^{-u_{ij}}} d u_{ij} \\
P_{ij} = \int^{\infty}_{-\infty} (\Pi_{k} e^{-e^{-[u_{ij}+V_{ij}-V_ik]}}) e^{-u_{ij}} d u_{ij}
\end{split}
\end{align}
- Transformando o produtório em soma
\begin{align}
\begin{split}
P_{ij} = \int^{\infty}_{-\infty} e^{- \sum_{k} e^{-[u_{ij}+V_{ij}-V_ik]}}) e^{-u_{ij}} d u_{ij} \\
P_{ij} = \int^{\infty}_{-\infty} (e^{- e^{-u_{ij}} \sum e^{-[V_{ij}-V_ik]}}) e^{-u_{ij}} d u_{ij}
\end{split}
\end{align}
Logo
\begin{align}
\begin{split}
P{ij} = \int^{0}_{t=\infty} (\epsilon ^{-t \sum^{k} e^{-[V_{ij} - V_ik ]}}) - dt \\
P{ij} = \int^{\infty}_{t=0} (\epsilon ^{-t \sum^{k} e^{-[V_{ij} - V_ik ]})} dt \\
\dfrac{e^{-t \sum_{k} e^{-[V_{ij} - V_{ik}]} }}{\sum_k e ^{-[V_ij - V_ik]}} \\
= \dfrac{1}{\sum_k e^{-[V_{ij}-V_{ik}]}} = \dfrac{1}{e^{V_{ij}} \sum_k e^{V_{ik}}} = \dfrac{e^{v_ij}}{\sum_k e^{V_{ik}}}
\end{split}
\end{align}
## 5.
- Se o teste de indepêndencia de alternativas irrelevantes falhar, uma alternativa ao modelo logit multinomial será necessária.
- Uma alternativa é um modelo Probit Multivariado. Essa alternativa gera dificulades práticas de calcular a densidade multivariada.
Uma maneira de relaxar de relaxar a heterocedasticidade no modelo de logit condicional que também fornecer uma estrutura atraente é agrupar as alternativas em subgrupos que permitem que a variância seja heterogenea entre os grupos,mantendo a solução alternativa irrelevantes a falhar.
- Modelo Nested Logit
Suponha que as alternativas podem ser divididas em subgrupos $B$
\begin{align}
\begin{split}
[c_1,...c_i]=\sum[c_{1,i},...c_{1,i}] \\
\end{split}
\end{align}
O processo de escolha entre os conjuntos de escolha de $B$ e, em seguida , fazer a escolha específica dentro do conjunto escolhido
Portanto podemos derivar a forma matemática do modelo, cpmeçamos com a probabilidade incondicional
\begin{align}
\begin{split}
P(j,b) = P_{ijb} = \dfrac{e^{X_{ij\beta}\beta +Z'_{ib} \gamma}}{\sum \sum e^{x_{ijb} \beta +z_{ib} \gamma }}
\end{split}
\end{align}
Suponha também que os dados consistem uma observações sobre os atributos das escolhas $x_{ijb}$. Podemos escrever a probabilidade acima:
\begin{align}
\begin{split}
P_{ijb} = P_{ijb}*P_{b} = \\
(\dfrac{e^{x_{ijb \beta}}}{\sum e^{X_{ijb} \beta }})(\dfrac{e^{Z_{ijb \beta}}}{\sum e^{Z_{ijb} \beta }})( \dfrac{}{})
\end{split}
\end{align}
## 6.
\begin{align}
\begin{split}
E(Y|X) = \phi (\dfrac{X\beta}{\delta})*E(Y|y >\delta,X) \\
Z \rightarrow N(0,1) \:\:, \: E(z|z >c) = \dfrac{\phi(c)}{1-\phi(c)}
\end{split}
\end{align}
Que vem da definição
\begin{align}
\begin{split}
f(x|x>c) = \dfrac{f(x)}{1-F(c)}
\end{split}
\end{align}
Como $Y|X$ ~ $N(X \beta + \epsilon, \sigma^2)$, temos:
\begin{align}
\begin{split}
E(Y|X>0,X) = X\beta + E(\epsilon|\epsilon > -X \beta) = X \beta +\sigma E(\dfrac{\epsilon}{\sigma}| \dfrac{\epsilon}{\sigma} > -\dfrac{X\beta}{\sigma}) \\
X \beta + \sigma \dfrac{\phi(- \dfrac{X \beta}{\sigma})}{1-\phi(-\dfrac{X \beta}{\sigma})} = X \beta +\sigma \dfrac{\phi(\dfrac{X \beta}{\sigma})}{\phi(\dfrac{X \beta}{\sigma})} = X \beta + \sigma \lambda(\dfrac{X \beta}{\sigma})
\end{split}
\end{align}
- Como a função de densidade é simetrica
\begin{align}
\begin{split}
\phi(-c) = \phi(c) e 1-\phi(-c) = \phi(c)
\end{split}
\end{align}
- Razão invertida de Mills
\begin{align}
\begin{split}
\lambda(c) = \dfrac{\phi(c)}{\phi(c)}
\end{split}
\end{align}
Logo,
\begin{align}
\begin{split}
E(y|y>\delta, X) = X \beta + \sigma \lambda(\dfrac{X \beta}{\sigma})\\
\dfrac{\partial E(Y|Y>0,X)}{\partial x_j} = \beta_i + \sigma \dfrac{\partial \lambda(x)}{\partial c} \dfrac{\beta_i}{\sigma} = \beta_i[1+\dfrac{\partial \lambda(x)}{\partial(c)}] \\
\dfrac{\partial \lambda(c)}{\partial c} = \dfrac{\dfrac{ \partial \phi(c)}{\partial {c}}\phi(c) - \phi(c) \dfrac{\phi(c)}{\partial c}}{ [\phi(c)]²} \\
\dfrac{\partial \lambda (c)}{\partial(c)} = \dfrac{-c \phi(c) \phi (c) - \phi(c)\phi(c)}{[\phi(c)]²} \\
-\dfrac{\phi(c)}{\Phi(c)}[c+ \dfrac{\phi(c)}{\Phi(c)}] \\
= - \lambda(c)[c+ \lambda(c)]
\end{split}
\end{align}
Assim,
\begin{align}
\begin{split}
\lambda(c) = \dfrac{\phi(c)}{\phi(c)}
\end{split}
\end{align}
## 7.
O critério de informação bayesiano (Bic) tem como pressuposto a existência de um modelo verdadeiro que descreve a relação entre a variável dependente e os diversas variáveis explanatórias entre os diversos modelos sob seleção
Portanto,
\begin{align}
\begin{split}
Bic = l_i(\hat{\beta_i}) - 0.5 p_i ln(n)
\end{split}
\end{align}
Onde $p$ é o número de parâmetros livres no modelo, e $l(\hat{\beta})$ é a probabilidade maximizada
Logo seja $M_1$ o modelo corretamente especificado e $M_2$ o modelo mais parcimoniosos. Com isso, $P_2$ tem menos parâmetros que $P_1$.
Assim para comparar dois modelos $M_1$ e $M_2$, podemos calcular:
\begin{align}
\begin{split}
Plim_{n \rightarrow \infty} \dfrac{ln[L(\hat{p_1)}]}{n} > Plim_{n \rightarrow \infty} \dfrac{ln[L(\hat{\beta_2})]}{n}\\
Plim_{n \rightarrow \infty} \dfrac{1}{n}[l_1(\hat{\beta_1})-l_2(\hat{\beta_2})]>0
\end{split}
\end{align}
## 8
Primeiro será assumido que:
- $E(\epsilon_i|X)=1$
- $V(\epsilon_i|X)=\sigma^2$
\begin{align}
\begin{split}
E(Y_i|X) = E{(ax_i+b)e_i|X}\\
=(ax_i+b)E({\epsilon_i|x})\\
=(ax_i+b)1\\
=(ax_i+b)
\end{split}
\end{align}
\begin{align}
\begin{split}
V(Y_i|X)=V\{(ax_i+b)e_i|X\}\\
=(ax_i +b)^{2}V(e_i|X) \\
=(ax_i +b)^2 \sigma^2
\end{split}
\end{align}
O modelo de regressão linear tradicional que sofre com heterocedasticidade, é apresentada como
\begin{align}
\begin{split}
Y_i=ax_i+b+v_i\\
E(v_i|X) = 0 \\
V(v_i|X) = (ax_i+b)^2\sigma^2
\end{split}
\end{align}
Portanto o truque é tornar o modelo com o termo de erro $v$ que recebemos, forçando a ser da sefuinte forma:
\begin{align}
\begin{split}
Y_i = (ax_i+b)\epsilon_i \\
ax_i+b+[(ax_i+b)\epsilon_i -ax_i -b]
\end{split}
\end{align}
Assim para estimar o modelo pelo minimos quadrados ordinarios podemos escrever o seguinte modo:
\begin{align}
\begin{split}
[(ax_i+b)\epsilon_i -ax_i -b] = v_i
\end{split}
\end{align}
Assim para corrigir o problema de heterocedasticidade é necessario estimar o modelo pelo minimos quadrados ponderados ou através método generalizado dos momentos (GMM)
## 9
- **Teste Reset**
Se o modelo original é da seguinte forma:
\begin{align}
\begin{split}
y = \beta_1 +\beta_2 x_2 + \beta_3 x_3 +...+ \beta_k x_k + \epsilon
\end{split}
\end{align}
satisfazendo à suposição de que
\begin{align}
\begin{split}
E(\epsilon|x_2,x_3,...,x_k) = E(\epsilon) = 0
\end{split}
\end{align}
então, função nao lineares de variáveis independentes não devem ser relevantes quando acrescentadas acimas.
Ramsey (1969), encontra que a inclusão de termos quadráticos e cúbicos é bastante adequado em aplicações diversas de modelo. Logo a partir da equação expandida abaixo, poderemos testar se existem problemas de especificação na forma funcional:
\begin{align}
\begin{split}
y = \beta_1 + \beta_2 x_2 + \beta_3 x_3 +...+ \beta_k + \delta_1 ŷ^2 + \delta_2 ŷ^3 + \epsilon
\end{split}
\end{align}
Portanto o teste de hipótese será:
\begin{align}
\begin{split}
H_0: \delta_1 = \delta_2 = 0 \\
H_1: \delta_1 \neq \delta_2 \neq 0
\end{split}
\end{align}
Podemos rescrever a forma funcional da seguinte forma:
\begin{align}
\begin{split}
y = \beta_1 + \beta_2 x_2 + \beta_3 x_3 +...+ \beta_k + \delta_1 ŷ^2 + \delta_2 ŷ^3 + \epsilon \\
\delta_i = c_i * a \\
y =(X \beta) + ca(X\hat{\beta})
\end{split}
\end{align}
Assim podemos aplicar um simples teste $t$ de student:
\begin{align}
\begin{split}
H_0: c = 0 \\
H_1: c \neq 0
\end{split}
\end{align}
## 10.
**Teste Chow**
Objetivando verificar a igualdade de duas regressões lineares, Chow (1960) sugeriu um teste geral, cujo algoritmo segue os seguintes passos
- 1. Dadas as seguintes relações lineares:
\begin{align}
\begin{split}
Y_{1i} = a_1 +b_1x_{1i}+e_{1i} \\
Y_{2i} = a_2 +b_2x_{2i}+e_{2i}
\end{split}
\end{align}
- 2. Combinam-se todas as $n_1 + n_2$ observações e calcula-se a estimativa de quadrados mínimos de $a$ e $b$ na regressão combinada $y=a + bx+e$. Desta equação obtém-se a soma de quadrados de resíduo (S_1 ) com grau de liberdade igual a $n_1 +n_2 - p$, em que $p$ é o número de parâmetros a ser estimado. Neste caso, p = 2.
- 3. Obtém-se a soma de quadrados de resíduo para as duas equações, ou seja, $S_2$ e $S_3$ , com os graus de liberdade $n_1 - p$ e $n_2 -p$, respectivamente. Somam-se estas duas somas de quadrados de resíduo, isto é, $S_4 = S_2 +S_3$ e seus graus de liberdade $n_1+n_2 -2p$
- 4. Obtém-se $S_5 = S_1 - S_4$
- 5. Calcula-se a estatística F como:
\begin{align}
\begin{split}
F_c = \dfrac{S_{5}/p}{S_4/(n_1+n_2-2p)}
\end{split}
\end{align}
Logo:
\begin{align}
\begin{split}
SSR_1 = Y_1'M_1y_1 \rightarrow M_1 = I-X_1(x_1'x_1')^{-1}x_1' \\
SSR_2 = Y_2M_2Y_2 \rightarrow M_2 = I-X_2(X_2'X_2)^{-1}x_2 \\
SRR = y'My = \begin{array}{|c|} y_1\\y_2 \end{array}'* \begin{array}{|c|} M_1\\M_2 \end{array} * \begin{array}{|c|} Y_1 \\ Y_2 \end{array} \\
Y'_1M_1Y_1 + Y'_2M_2Y_2 = SSR_1 +SSR_2
\end{split}
\end{align}
## 11.a)
Considerando que os dados possuem uma distribuição iid. e:
- i) $E[g_i(\beta)]= 0$ se e somente se $\beta= \beta_0$ (identificação);
- ii) A minimização do GMM ocorre sobre um conjunto compacto B contendo $\beta_0$;
- iii) $g_i(\beta)$ é contínuo em cada $\beta$ com probabilidade um e $E[sup_{\beta \in B} ||G_i(\beta)k||]$ é finito;
- iv) $Â \rightarrow A$ um definido positivo; então $\beta \rightarrow \beta$.
Seguindo a prova em Newey e McFadden(1994):
\begin{align}
\begin{split}
ĝ(\beta_0) \rightarrow 0 \:\: \text{Pela lei dos grandes numeros}\\
ĝ(\beta_0)'Âg(\beta_0)
g(\hat{\beta})'Âg(\hat{\beta})\rightarrow 0
\end{split}
\end{align}
Tambem
\begin{align}
\begin{split}
ĝ(\hat{\beta})'Âĝ(\hat{\beta}) \leq ĝ(\beta_0)'Âg(\beta_0) \\
ĝ(\hat{\beta})'Âĝ(\hat{\beta})
\end{split}
\end{align}
O único modo isso pode acontecer é se $\hat{\beta} \rightarrow \beta_0$
## 11.b)
Segundo Newey and McFadden (1994) para a prova:
\begin{align}
\begin{split}
Ĝ = \dfrac{\partial ĝ(\beta)}{\partial \beta}
\end{split}
\end{align}
Portanto as condições são:
\begin{align}
\begin{split}
0 = \hat{G}'\hat{A} ĝ(\beta)
\end{split}
\end{align}
Expandido $\hat{g}$ envolta de $\beta_0$ para obter:
\begin{align}
\begin{split}
g(\beta) = g(\beta_0) + \bar{G}(\beta-\beta_0)
\end{split}
\end{align}
Substituindo recursivamente as condições das primeira ordem:
\begin{align}
\begin{split}
0=\hat{G}\hat{A}\hat{g}(\beta_0) + \hat{G}\hat{A}\bar{G}(\hat{G}-\beta_0)
\end{split}
\end{align}
Resolvendo para $\bar{\beta} - \beta_0$ e multiplicar por $\sqrt{n}$ junto:
\begin{align}
\begin{split}
\sqrt{n}(\hat{\beta} - \beta_0) = -(\hat{G}'\hat{A}\bar{G})^{-1}\hat{G}\hat{A}\sqrt{n}\hat{g}(\beta_0)
\end{split}
\end{align}
Pelo teorema do limite central
\begin{align}
\begin{split}
\sqrt{n}\hat{g}(\beta_0) \rightarrow N(0,\Omega)
\end{split}
\end{align}
Tambem nos temos $\hat{A} \rightarrow A$, $\hat{G} \rightarrow G$ , $\bar{G} \rightarrow G$ , então continuando por teorema mapeando
\begin{align}
\begin{split}
(\hat{G}'\hat{A}\bar{G})^{⁻1}\bar{G}\bar{A} \rightarrow (G'AG)^{-1}G'A
\end{split}
\end{align}
Usando o teorema de Slutzky :
\begin{align}
\begin{split}
\sqrt{n}(\hat{\beta}-\beta_0) \rightarrow - (G'AG)^{-1}G'AN(0,\Omega) = N(0,V)
\end{split}
\end{align}
## 12
Utilizando os resultados acima, vimos que a variÂncia assintótica do estimador $\hat{B_g}$ indexada por $W$ é dada por
\begin{align}
\begin{split}
AVAR(\hat{\beta_G}(w)) = (\Sigma_{xz}'W\Sigma_{xz})^{-1}Z\Sigma_{xz}WSW\Sigma_{xz}(\Sigma_{xz})^{-1}
\end{split}
\end{align}
Fazendo $W=S^{-1}$ é substituido acima chegamos \begin{align}
\begin{split}
AVAR(\hat{\beta_G}(s)) = (\Sigma'_{xz} S^{-1} \Sigma_{xz} )^{-1}(\Sigma_{xz}'S^{-1}Z\Sigma_{xz})(\Sigma_{xz}S^{-1}\Sigma{xz})^{-1} \\(\Sigma_{xz}'S^{-1}\Sigma_{xz})\\
[\Sigma_{xz}(E(\epsilon_i^{2})E(z_iz'_1))^{-1}\Sigma_{xz}]^{-1}
\end{split}
\end{align}
Assim podemos verificar que
\begin{align}
\begin{split}
AVAR(\hat{\beta_G}(w)) \geq AVAR(\hat{\beta}_g(S^{-1}))
\end{split}
\end{align}
## 13
\begin{align}
\begin{split}
E(\epsilon^{2}_i|z_i) = \sigma^{2}
\end{split}
\end{align}
Seja $e_i=y_i-x'_i\beta$
Sendo que $\tilde{\beta} \rightarrow \beta$
\begin{align}
\begin{split}
e_i = y_i -x'_i\tilde{\beta}\\
e_i = x_i\beta+\epsilon_i - x_i\tilde{\beta}\\
e_i = \epsilon_i - x'_i(\tilde(\beta -\beta))\\
e_i^{2} = [\epsilon-x'_i(\tilde(\beta) - \beta)]^{2}\\
e_i^{2} =\epsilon -2(\tilde{\beta}-\beta)'x_i \epsilon_i + (\tilde{\beta}-\beta)'x_ix_i'(\tilde{\beta}-\beta)
\end{split}
\end{align}
Colocando em termos de soma
\begin{align}
\begin{split}
\dfrac{\sum_ie_i^2}{n} = \dfrac{\sum e_i^2}{n} -2(\tilde{\beta}-\beta)\dfrac{\sum{x_i\epsilon_i}}{n}+ (\tilde{\beta}-\beta)'(\dfrac{\sum{x_ix_i'}}{n})(\tilde{\beta}-\beta)
\end{split}
\end{align}
Assim
- $\dfrac{\sum_{e^2_i}}{n} \rightarrow E(\epsilon_i^2)$
- $\sigma^2=\dfrac{\Sigma e_i}{n} \rightarrow E(\epsilon_i^2) = \sigma^{2}$
## 14 a)
Um modelo de regressão linear simples tem uma maior possibilidade em sofrer problemas de especificações, como a endogeneidade. Assim o poder de explicação do modelo com possiveis variaveis omitidas está fortemente correlacionada.
Assim a sugestão de variaveis para inclusão do modelo:
- A renda da familia
- A distância do aluno para a instituição de ensino
- Escolaridade dos Pais
- Cor/Raça do aluno
- Sexo do aluno
## 14 b)
Primeiro precisamos definir o que seria um bom instrumento. São caracteristicas basicamente:
- O instrumento não pode ser correlacionado com o Erro
- O instrumento precisa ter correlação com a variável explicativa (x) que será instrumentalizada
### Propriedade 1 do instrumento
Colunas de $Z$ são correlacionadas com as de $X$:
\begin{align}
\begin{split}
plim(\dfrac{1}{n}Z'X) = \Sigma_{zx}
\end{split}
\end{align}
### Propriedade 2 do instrumento
Colunas de $Z$ são não correlacionada com $\epsilon$:
\begin{align}
\begin{split}
plim(\dfrac{1}{n}Z'\epsilon) = 0
\end{split}
\end{align}
A renda dos pais está correlacionada com diretamente correlacionada com a pose do computador por parte dos filhos, isso por que pais com maior renda tem maior poder de consumo, e podem auxiliar os filhos. Além disso, contudo essa variável pode estar correlacionada com o termo de erro. A renda dos pais pode ser usada como uma proxy para nível de educação dos pais e é comum na literatura que a o nível de educação dos pais é repassado em certa medida pros filhos, e essa variável provavelmente estar no termo de erro, omitido.
## 14 c)
A entrega desse subsidio não está diretamente relacionada com a pose do pc, mesmo que ela não garanta que o estudante terá um pc. Contudo essa variável tbm parece ter relação com o termo de erro. Mesmo ela sendo distribuída para todos os estudantes, alguns alunos menos dedicados poderiam usar essa verba para outras finalidades. Assim essa variável teria uma relação direta com outra variável que é o nível de dedicação ao curso, que provavelmente está omitida no termo de erro. Mais uma vez não parece ser um bom instrumento.