Vista previa del material en texto
Teoŕıa Econométrica I
Tomás Rau Binder1
Agosto 2017
1Profesor Instituto de Economı́a, Pontificia Universidad Católica de Chile.
Índice general
1. Introducción 5
2. Elementos de Teoŕıa de Probabilidad 7
2.1. Espacio de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Definiciones de cdf, pdf y pmf . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3. Momentos de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . 17
2.4. Algunas Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5. Distribuciones bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6. Distribuciones Multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7. Muestras aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3. El modelo de regresión lineal 37
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2. Objetos de Interés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3. El Modelo de Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4. Derivación Alternativa desde la Estad́ıstica . . . . . . . . . . . . . . . . . 42
3.5. Bondad de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6. Regresión Particionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.7. Momentos del Estimador OLS . . . . . . . . . . . . . . . . . . . . . . . . 47
3.8. El Modelo Normal de Regresión Lineal . . . . . . . . . . . . . . . . . . . 49
3.8.1. Intervalos y Regiones de Confianza . . . . . . . . . . . . . . . . . 51
3.9. Desviación de los Supuestos Clásicos . . . . . . . . . . . . . . . . . . . . 53
1
4. Elementos de Teoŕıa Asintótica 56
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2. Algunos Teoremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5. Problemas de Especificación y Datos 72
5.1. Mı́nimos Cuadrados Generalizados (Aitken) . . . . . . . . . . . . . . . . 72
5.2. Distribución Asintótica del estimador MCG . . . . . . . . . . . . . . . . 75
5.3. Caso Particular: Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . 79
5.4. Test para detectar Heterocedasticidad . . . . . . . . . . . . . . . . . . . . 81
5.5. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.6. Tests de Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.6.1. Test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . 90
5.6.2. Test de Breusch y Godfrey . . . . . . . . . . . . . . . . . . . . . 91
5.6.3. Test de Box-Pierce-Ljung (Q-Stat) . . . . . . . . . . . . . . . . . 92
5.7. Mı́nimos Cuadrados Generalizados Factibles . . . . . . . . . . . . . . . . 92
5.7.1. El Método de Cochrane Orcutt . . . . . . . . . . . . . . . . . . . 93
5.7.2. Prais-Winsten (1954) . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.7.3. El método de Durbin . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.7.4. Estimación por Máxima Verosimilitud . . . . . . . . . . . . . . . 94
5.8. Estimación Consistente de Matriz de Varianzas y Covarianzas . . . . . . 95
5.8.1. Estimación consistente: Newey y West (1987) . . . . . . . . . . . 95
5.8.2. Estimando Σ: Newey y West (1987) . . . . . . . . . . . . . . . . . 96
5.8.3. Clustered standard errors . . . . . . . . . . . . . . . . . . . . . . 96
5.9. Mı́nimos Cuadrados No Lineales . . . . . . . . . . . . . . . . . . . . . . . 98
5.9.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.9.2. Gauss-Newton (algoritimo) . . . . . . . . . . . . . . . . . . . . . . 99
5.9.3. Pasos del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.9.4. Distribución Asintótica . . . . . . . . . . . . . . . . . . . . . . . . 100
5.10. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2
6. Técnicas de remuestreo y errores estándar 105
6.1. The Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.2. Función de distribución emṕırica . . . . . . . . . . . . . . . . . . . . . . 106
6.3. Bootstrap No-Paramétrico . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.4. Estimación del sesgo y varianza via Bootstrap . . . . . . . . . . . . . . . 108
6.5. Intervalos de Confianza con Bootstrap . . . . . . . . . . . . . . . . . . . 109
6.5.1. Método del percentil . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.5.2. Método de Hall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5.3. Percentile-t Equal-tailed Interval . . . . . . . . . . . . . . . . . . 112
6.5.4. Symmetric Percentile-t Interval . . . . . . . . . . . . . . . . . . . 114
6.6. Bootstrap en el modelo de regresión lineal . . . . . . . . . . . . . . . . . 115
6.6.1. Wild Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
7. Endogeneidad 117
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.1.1. Ecuaciones estructurales . . . . . . . . . . . . . . . . . . . . . . . 117
7.1.2. Endogeneidad y Variables Instrumentales (Id. exacta) . . . . . . . 118
7.1.3. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . 119
7.2. Múltiples instrumentos: 2SLS . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2.1. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . 122
7.3. Método Generalizado de Momentos (GMM) . . . . . . . . . . . . . . . . 123
7.3.1. Breve repaso de GMM . . . . . . . . . . . . . . . . . . . . . . . . 123
7.4. Fallas en la identificación . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.4.1. Instrumentos Débiles . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.5. Limited Information Maximum Likelihood (LIML) . . . . . . . . . . . . . 133
7.5.1. Ejemplo clásico de identificación débil . . . . . . . . . . . . . . . . 134
7.5.2. Extensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.6. Estimador de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.6.1. Ejemplo: La loteŕıa de Vietnam . . . . . . . . . . . . . . . . . . . 140
3
8. Máxima Verosimilitud 143
8.1. Estimador de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . 145
8.2. La Cota Inferior de Cramèr-Rao . . . . . . . . . . . . . . . . . . . . . . . 148
8.3. Propiedades Asintóticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.4. Estimación de la Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.5. Computación del Estimador MV . . . . . . . . . . . . . . . . . . . . . . . 153
8.5.1. El Método de Steepest Ascent . . . . . . . . . . . . . . . . . . . . 155
8.5.2. Métodos Cuadráticos . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.5.3. Criterios de Convergencia . . . . . . . . . . . . . . . . . . . . . . 158
8.6. Inferencia en Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . 159
9. Variable Dependiente Limitada 161
9.1. Modelo Básico de Elección Binaria . . . . . . . . . . . . . . . . . . . . . 161
9.2. Estimación por Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . 162
9.3. Modelo Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.4. Modelo Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
9.5. Propiedades Asintóticas del estimador ML . . . . . . . . . . . . . . . . . 165
9.6. Comparación entre modelos Probit y Logit . . . . . . . . . . . . . . . . . 166
9.7. Efectos Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.8. Comentarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
10.Evaluaciones de semestres anteriores 172
10.1. Pruebas I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
10.2. Pruebas II . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 188
10.3. Examenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
4
Caṕıtulo 1
Introducción
Este curso está orientado a estudiantes de magister o doctorado en economı́a y correspon-
de a un primer curso de econometŕıa de un semestre de duración. Los cursos requeridos
para cursar con éxito esta clase son álgebra lineal (especialmente álgebra matricial),
cálculo en una y más variables, probabilidades y estad́ıstica entre otros.
El apunte se basa en mis clases impartidas en los programas de Magister y Doctorado
en Economı́a de las Universidades de Chile y Pontificia Universidad Católica de Chile
entre los años 2008 y 2015. Se agradece la colaboración de los participantes en especial a
quienes me ayudaron a su traspaso a Latex de éstas, entre ellos: Cármen Quezada, Juan
Agust́ın Echeñique, Federico Hunneus, David López, Eugenio Rojas, Cristóbal Cástro,
Pedro Zúñiga, Daniela Luengo, Triana Yentzen, Roberto Gillmore, Julio Rodŕıguez, Vi-
cente Castro y Mart́ın Carrasco.
El apunte contiene ocho secciones adicionales a esta introducción. En el caṕıtulo 2 se
ven elementos de teoŕıa de probabilidad. Se revisa brevemente la axiomatización de la
teoŕıa como un espacio de medida, cuya medida es la función de probabilidad. Se repasa
el concepto de cdf, pdf y pmf, se ven ejemplos y teoremas fundamentales.
En el caṕıtulo 3 se ve el modelo de regresión lineal, supuestos, inferencia, el mode-
lo normal de regresión lineal entre otros tópicos relevantes. En el caṕıtulo 4 se ven
elementos de teoŕıa asintótica relevantes para entender las propiedades de los estimado-
res. Se ven las leyes débiles de grandes números y teoremas centrales del ĺımite como
Lindeverg-Lèvy. Una vez cubiertos estos tópicos se procede a una derivación formal de
la distirbución asintótica del estimador de MCO y se discuten métodos de estimación de
la matriz de varianzas y covarianzas robusta.
En el caṕıtulo 5 revisamos las desviaciones de los supuestos que implican problemas
5
de especificación y de datos. En este se revisa el estimador de Mı́nimos Cuadrados
Generalizados de Aitken y casos particulares como heterocedasticidad y autocorrelación.
Se ve el caso de mı́nimos cuadrados no lineales y se discute el algoritmo de Gauss-Newton
para su estimación numérica.
El caṕıtulo 6 revisa algunas técnicas de remuestreo como Bootstrap clásico (Efron,
1979), Bootstrap salvaje y la construcción de intervalos de confianza con significancia
correcta. Estas técnicas son de mucha utilidad en la econometŕıa emṕırica puesto que
proveen una alternativa fiable a la teoŕıa asintótica para la obtención de errores estándar
y la construcción de intervalos de confianza.
En el caṕıtulo 7 se ve formalmente el problema de endogeneidad y algunos estimadores
clásicos como variables instrumentales, 2SLS. Además, se ven algunos tests importantes
como el de Hausmann, algunos de restricciones de sobreidentificación como Sargan y J
y tests de instrumentos débiles como Cragg-Donald y Stock-Yogo. Se da un tratamiento
especial al caso de identificación débil y cómo hacer inferencia correcta en presencia de
dichos instrumentos.
En el caṕıtulo 8 se ve en profundidad el método de Máxima Verosimilitud desde su
derivación estad́ıstica, algoritmos computacionales, hasta las propiedades asintóticas de
de los estimadores. Se ve con detenimiento una serie de algoritmos entre ellos el de
Steepest Ascent y el de Newton-Raphson.
En el caṕıtulo 9 revisa el modelo de elección binaria y su estimación por máxima
verosimilitud, el cálculo de efectos marginales y sus errores estándar.
Por último, el caṕıtulo 10 incluye las evaluaciones realizadas en sala en mis cursos de la
PUC, durante los años 2010-2015. El año 2013 no dicté el curso por estar como profesor
visitante en la University of California, Berkeley.
6
Caṕıtulo 2
Elementos de Teoŕıa de
Probabilidad
2.1. Espacio de probabilidad
Partiremos dando un marco teórico a la noción o concepto de probabilidad que vimos
en pregrado. Usamos la palabra probabilidad de que un evento ocurra, cuando esta-
mos en una situación de incertidumbre y requerimos cuantificar o dar una medida de su
cualidad de posible. La axiomatización de la teoŕıa de la probabilidad que conocemos
(Kolmogorov) se da en un marco experimental. Este experimento tiene resultados posi-
bles que son elementos de un espacio muestral. Si el experimento se reproduce muchas
veces, diferentes resultados pueden ocurrir. La frecuencia de ocurrencia de un resultado
en particular puede ser entendido como una medida de probabilidad. Luego, necesitamos
definir conceptos como medida, espacio muestral, espacio de probabilidad, etc.
En matemática, una medida es una función que asigna un número (que en nuestro
caso será una probabilidad) a los subconjuntos de un conjunto dado. En nuestro caso, el
conjunto dado será el espacio muestral. Generalmente es imposible asignar una medida
a todos los subconjuntos de un conjunto dado, luego sólo lo haremos sobre familias de
conjuntos que se denotan medibles. Las condiciones que deben cumplir dichos conjuntos
son un poco técnicas y se resumen en la definición de σ-álgebra. Partiremos definiendo
primero, espacio muestral.
Definición. El espacio muestral Ω es el conjunto de todos los posibles resultados o
realizaciones de algún experimento. Elementos individuales ω ∈ Ω se llaman resulta-
dos elementales o simplemente resultados. Un subconjunto B ⊆ Ω (una colección de
resultados) es llamado un evento .
Una colección B de eventos es una σ-álgebra si
7
(i) ∅ ∈ B.
(ii) B ∈ B ⇒ BC ∈ B (B es cerrado bajo complementación).
(iii) B1, B2, . . . ∈ B ⇒
⋃∞
i=1Bi ∈ B (B es cerrado bajo uniones contables).
Ejemplo: si Ω = {1, 2, 3, 4}, un σ-algebra de Ω es la colección B = {ø, {1, 2}, {3, 4}, S}.
Una función P : B → [0, 1] definido en una σ-álgebra B es una función de probabili-
dad si
(i) P (Ω) = 1.
(ii) P (A) ≥ 0, A ∈ B.
(iii) P (
⋃∞
i=1Bi) =
∑∞
i=1 P (Bi) cuando B1, B2, . . . ∈ B sean disjuntos de a pares
(Bi
⋂
Bj = ∅, ∀i 6= j).
Note que la función de probabilidad mapea desde el σ-álgebra B al compacto [0, 1] y no
desde Ω. Luego, solo para elementos del σ-álgebra B podemos asociar una medida de
probabilidad. Una explicación (no libre de complejidades) es que realmente hay eventos
que “no nos interesan” o no son relevantes para el anáisis y no le asignamos probabilidad.
Un espacio de probabilidad es una tripleta (Ω,B, P ) donde Ω es un espacio muestral,
B es una σ-álgebra de eventos y P una función de probabilidad.
Los espacios de probabilidad de interés primario para nosotros son aquellos en donde las
realizaciones elementales ω son (vectores de) números reales. Una forma conveniente de
construir espacios de probabilidad de este tipo es a través de variables aleatorias.
Definición. Sea (Ω,B, P ) un espacio de probabilidad. Una variable aleatoria es una
función medible con valores reales definida en Ω, la denotamos X : Ω → R. Un vector
aleatorio es un vector de variables aleatorias.
Cualquier variable aleatoriaX : Ω → R induce un espacio de probabilidad (R,B(R), PX),
donde B(R) es una σ-álgebra de Borel definida en R y PX = P ◦X−1; eso es,
PX(B) = P ◦X−1(B) = P ({ω : X(ω) ∈ B}) , B ∈ B(R)
Similarmente, cualquier vector aleatorio induce un espacio de probabilidad cuyas reali-
zaciones elementales son vectores de números reales.
8
Las propiedades de una variable aleatoria X están completamente caracterizadas por la
función de probabilidad PX . Una caracterización alternativa es provista por la función
de distribución acumulada de X .
Definición. SeaX una variable aleatoria definida en el espacio de probabilidad (Ω,B, P ).
La función de distribución acumulada (cdf) de X es la función FX : R → [0, 1]
definida por
FX(x) = PX((−∞, x]) = P ({ω : X(ω) ≤ x}), x ∈ R
Notar que si conocemos PX automáticamente conocemos FX . De esto se sigue el teoremade correspondencia para cdfs (Casella y Berger, Teorema 1.5.10) de manera que lo opues-
to también se mantiene. De esta forma el conocimiento de FX implica el conocimiento
de PX y viceversa. Dado que FX es a menudo mucho más fácil de trabajar que PX (su
dominio es R y de esta forma se puede graficar la función), es mucho más conveniente
caracterizar las propiedades de una variable aleatoria X en términos de FX en vez de PX
y t́ıpicamente haremos eso. Dado esto, el siguiente teorema resulta ser muy útil puesto
que provee las condiciones necesarias y suficientes para que una función sea una cdf.
2.2. Definiciones de cdf, pdf y pmf
Teorema (Casella y Berger, Teorema 1.5.3). Una función F : R → [0, 1] es una
cdf si y solo si las siguientes tres condiciones se satisfacen
(i) ĺımx→−∞ F (x) = 0 y ĺımx→+∞ F (x) = 1.
(ii) F (x) es no decreciente.
(iii) F (x) es continua por la derecha.
Observaciones. Recuerde que una función F : R → R es continua en x0 ∈ R, si para
cualquier ǫ > 0, existe un δ > 0 tal que |F (x)−F (x0)| < ǫ cuando |x−x0| < δ (es decir,
cuando x0 − δ < x < x0 + δ). Una función F : R → R es continua por la derecha
en x0 ∈ R si para cualquier ǫ > 0, existe un δ > 0 tal que |F (x) − F (x0)| < ǫ cuando
x0 < x < x0 + δ. Una función F : R → R es continua por la izquierda en x0 ∈ R
si para cualquier ǫ > 0, existe un δ > 0 tal que |F (x)− F (x0)| < ǫ cuando x0 − δ < x.
Por lo tanto, una función F : R → R es continua si y solo si es continua por la derecha
y continua por la izquierda.
9
EJEMPLO 1: Función no continua por la derecha
F (x) =
0 x < 0
1
2
si x = 0
1 si x > 0
Note que si se mueve de derecha a izquierda cuando x >> 0, tenemos que a medida
Figura 2.1: No continua por la derecha, ni por la izquierda en x0 = 0
que x0 se aproxima infinitesimalmente a 0 podemos encontrar siempre un valor de x a
la derecha de cero (porque es abierto) y se cumple la propiedad de continuidad por la
derecha |F (x)−F (x0)| < ǫ. Sin embargo, cuando x0 = 0, tenemos que los valores de x >
x0 implican “saltar” de la recta F (x) =
1
2
a la recta F (x) = 1, luego |F (x)−F (x0)| = 12
cuando x0 < x < x0+ δ y x0 = 0 y no es una diferencia arbitrariamente pequeña, lo que
hace que la condición de continuidad por la derecha no se cumpla.
EJEMPLO 2: Continua por la derecha en x0 = 0. Haciendo la siguiente modificación
F (x) =
{
0 si x < 0
1 si x ≥ 0
Siempre podremos tener un x a la derecha de x0 ya sea en la recta F (x) = 0 o F (x) = 1.
En particular, cuando x0 = 0, estamos en la recta F (x) = 1 y no hay problemas de
continuidad. Cuando x0 < 0, estamos en la recta F (x) = 0 y como es abierto, siempre
podremos situar un x a la derecha de x0.
Es importante notar que el hecho de que una cdf sea continua por la derecha es una
consecuencia de la definición de cdf, es decir FX(x) = Pr(X ≤ x). Si hubiésemos definido
la cdf como FX(x) = Pr(X < x) seŕıa continua por la izquierda.
10
Figura 2.2: Continua por la derecha
(Receta: necesitamos que si nos movemos de izquierda a derecha, todos los
intervalos sean abiertos por la derecha.)
EJEMPLO 3: Una variable aleatoria X tiene una distribución Bernoulli con parámetro
p ∈ [0, 1], denotada X ∼ Ber(p), si
FX(x) =
0 para x < 0
1− p para 0 ≤ x < 1
1 para x ≥ 1
EJEMPLO 4: Una variable aleatoria X tiene una distribución uniforme en [0, 1], de-
notada X ∼ U [0, 1], si
FX(x) =
0 para x < 0
x para 0 ≤ x < 1
1 para x ≥ 1
EJEMPLO 5: Una variable aleatoria X tiene una distribución normal estándar, deno-
tada X ∼ N (0, 1), si
FX(x) =
∫ x
−∞
φ(t)dt, x ∈ R,
donde
φ(t) =
1√
2π
exp
(
−1
2
t2
)
, t ∈ R
11
La variable aleatoria del primer ejemplo es discreta mientras que las variables aleatorias
de los otros ejemplos son continuas, de acuerdo a la siguiente clasificación.
Definición. Sea X una variable aleatoria con cdf FX . Luego,
(i) X es una variable aleatoria discreta si existe una función fX : R → [0, 1] tal
que
FX(x) =
∑
t≤x
fX(t) ∀x ∈ R
La función fX es la función de masa de probabilidad (pmf) de X .
(ii) X es una variable aleatoria continua si existe una función fX : R → R+ tal
que
FX(x) =
∫ x
−∞
fX(t)dt ∀x ∈ R
Cualquier función de este tipo es una función de densidad de probabilidad
(pdf) de X .
Observación. La cdf de una variable aleatoria discreta es una step function.
EJEMPLO 6: Si X ∼ Ber(p), X es discreta con pmf
fX(x) =
1− p para x = 0
p para x = 1
0 otro caso.
Observación. Una pdf es única en el sentido de que dos pdf’s de una variable aleato-
ria continua X coinciden “casi en todos lados”. Esto significa que pueden coincidir en
conjuntos de “medida cero”.
Observación. La cdf de una variable aleatoria continua es continua. De hecho, es ab-
solutamente continua, una condición más fuerte que continuidad (uniforme) pero más
débil que diferenciabilidad.
EJEMPLO 7: Si X ∼ U [0, 1], la cdf de X es no diferenciable (en 0 y en 1). A pesar
de esto X es continua con pdf
fX(x) =
{
1 para 0 ≤ x ≤ 1
0 otro caso.
12
Esta pdf no es única. Una pdf alternativa es
fX(x) =
{
1 para 0 < x < 1
0 otro caso.
EJEMPLO 8: Si X ∼ N (0, 1). X es continua con pdf
fX(x) =
1√
2π
exp
(
−1
2
x2
)
, x ∈ R
Cuando una variable aleatoria es discreta (continua) a menudo es más conveniente es-
pecificar su distribución en función de la pmf (pdf ) que en términos de su cdf. Los
siguientes teoremas proveen una condición necesaria y suficiente para que una función
sea una pmf (pdf ) de una variable aleatoria discreta (continua).
Teorema (Casella y Berger, Teorema 1.6.5). Una función f : R → [0, 1] es una
pmf de una variable aleatoria discreta si y solo si
(i) f(x) ≥ 0
(ii)
∑
x∈R f(x) = 1
Una función f : R → R+ es una pdf de una variable aleatoria continua si y solo si
(i) f(x) ≥ 0
(ii)
∫ +∞
−∞ f(x)dx = 1
Este teorema nos da condiciones generales que deben satisfacer las pdf y pmf. Sin em-
bargo podemos ser más expĺıcitos a la hora de dar una expresión concreta para cada una
de ellas. Para el caso de la pmf, tenemos que f(x) = Pr(X = x). Para la pdf, usando el
Teorema Fundamental del Cálculo tenemos que f(x) = ∂FX(x)
∂x
.
Por último, recuerde que cuando X es un variable aleatoria continua, tenemos que
Pr(a < X < b) =
∫ b
a
fX(x)dx
Observación: note que la pmf tiene como imagen el compacto [0, 1] no aśı una pdf que
son los reales no negativos.
13
EJEMPLO 9: la distribución exponencial con parámetro λ > 1 tiene pdf > 1 en
algunos subconjuntos del soporte:
Las propiedades distribucionales de una variable aleatoria X están t́ıpicamente caracte-
rizadas por:
(i) Especificando la cdf FX directamente;
(ii) Especificando la pdf (pmf ) fX directamente si X es continua (discreta); o
(iii) Definiendo X = g(Z), donde g : R → R es una función (medible) y Z es una
variable aleatoria con cdf FZ conocida.
Los ejemplos previos ilustran las alternativas (i) y (ii). La alternativa (iii) es muy común
en estad́ıstica y econometŕıa y nos lleva a considerar la siguiente pregunta: si X es una
variable aleatoria con cdf FX , ¿cuáles son las de propiedades distribucionales de una
variable aleatoria Y = g(X)?
Al igual que X , la variable aleatoria Y induce un espacio de probabilidad de la forma
(R,B(R), PY ). Las propiedades de Y dependen de las propiedades de g y de X . Si X es
discreta, también lo es Y . Por otro lado, si X es continua, las propiedades de Y dependen
(en parte) de las propiedades de g, como lo ilustra el siguiente ejemplo.
EJEMPLO 10: Suponga X ∼ N (0, 1). Considere las variables aleatorias g1(X), g2(X)
y g3(X), donde
14
g1(x) = x, x ∈ R
g2(x) =
{
0 para x ≤ 0
1 para x > 0
g3(x) =
{
0 para x ≤ 0
x para x > 0
La variable aleatoria g1(X) es continua (en efecto, g1(X) ∼ N (0, 1)), g2(X) ∼ Ber(12)
es discreta mientras que g3(X) no es ni discreta ni continua. Las transformaciones g2 y
g3 son populares en econometŕıa y serán vistas con mayor detalle más adelante.
Por otro lado, la función de probabilidad PY depende de PX y deg a través de la relación
PY = PX ◦ g−1. Esto es,
PY (B) = PX ◦ g−1(B) = PX({x : g(x) ∈ B}) = P ({ω ∈ Ω : g(X(ω)) ∈ B}), B ∈ B(R)
donde (Ω,B, P ) es el espacio de probabilidad subyacente en el cual X está definido. La
utilidad de esta relación es limitada por el hecho de que t́ıpicamente deseamos trabajar
con la cdf o pmf /pdf de Y en vez que con PY . La cdf de Y está dada por:
FY (y) = P ({ω : Y (ω) ≤ y}) = P ({ω : g(X(ω)) ≤ y}), y ∈ R
y es relativamente fácil encontrarla cuando:
(i) Y es discreta; o
(ii) g es monótona (ver Casella y Berger, Teorema 2.1.3).
Si Y es discreta, su pmf es relativamente fácil de encontrar tal como lo es la pdf de
Y si X es continua y g es monótona con una inversa continuamente diferenciable (ver
Casella y Berger, Teorema 2.1.5).
EJEMPLO 11: Sea X una variable aleatoria con cdf FX y considere una variable
aleatoria Y = aX + b, donde a > 0, b ∈ R. La cdf de Y es
FY (y) = FX
(
y − b
a
)
, y ∈ R
Si X es discreta con pmf fX , Y es discreta con pmf fY dada por
15
fY (y) = fX
(
y − b
a
)
, y ∈ R
Si X es continua con pdf fX , Y es continua con pdf fY dada por
fY (y) =
1
a
fX
(
y − b
a
)
, y ∈ R
Al mantener a = 1 fijo y variando b, una familia de localizaciones de distribuciones
es generada. Al mantener b = 0 fijo y variando a, una familia de escalas de distribu-
ciones es generada. Al variar a y b, una familia de localización-escala de distribuciones
es generada. Las familias de localización-escala de distribuciones son muy comúnes en
estad́ıstica y econometŕıa.
Un ejemplo t́ıpico de localización-escala es la familia generada al definir Y = σX + µ
para distintos µ y σ > 0 cuando X ∼ N (0, 1). En este caso la variable aleatoria Y es
continua con pdf
fY (y|µ, σ2) =
1√
2πσ2
exp
(
− 1
2σ2
(y − µ)2
)
, y ∈ R
Donde la notación fY (·|µ, σ2) indica la dependencia en µ y σ. Alternativamente, escri-
bimos Y ∼ N (µ, σ2) y decimos que Y se distribuye normal con media µ y varianza σ2,
donde los conceptos de media y varianza serán definidos en la siguiente sección.
Podemos generalizar las transformadas al caso no lineal con el siguiente teorema.
Teorema (Casella y Berger 2.1.3). Sea X una variable aleatoria con cdf FX(x). Sea
Y = g(X) y X = {x : fX(x) > 0} e Y = {y : y = g(x), x ∈ X}
a) Si g es creciente en X , FY (y) = FX(g−1(y)) para y ∈ Y .
b) Si g es decreciente en X y X una variable aleatoria continua, FY (y) = 1 −
FX(g
−1(y)) para y ∈ Y .
Si la pdf de Y es continua la podemos obtener derivando la cdf teniendo cuidado con la
monotonicidad de g.
Teorema (Casella y Berger 2.1.5). Sea X una variable aleatoria con pdf fX(x). Sea
Y = g(X), donde g es una función monótona. Suponga que fX(x) es continua en X y
que g−1(y) tiene derivada continua en Y . Luego, la pdf de Y está dada por
16
fY (y) =
{
fX(g
−1(y))| d
dy
g−1(y) y ∈ Y
0 y /∈ Y
La prueba es directa, sólo debemos derivar y aplicar regla de la cadena.
2.3. Momentos de una variable aleatoria
Definición.
(i) Sea X una variable aleatoria discreta con pmf fX y sea g : R → [0, 1] cualquier
función. El valor esperado de g(X), denotado por E(g(X)), es
E(g(X)) =
∑
x∈R
g(x)fX(x),
provisto que
∑
x∈R g(x)fX(x) < +∞. En caso contrario, decimos que el valor
esperado no existe.
(ii) Sea X una variable aleatoria continua con pdf fX y sea g : R → R cualquier
función. El valor esperado de g(X), denotado por E(g(X)), es
E(g(X)) =
∫ +∞
−∞
g(x)fX(x)dx,
provisto que
∫ +∞
−∞ g(x)fX(x) < +∞. En caso contrario, decimos que el valor espe-
rado no existe.
Observación. De forma más general, sea X una variable aleatoria con cdf FX y sea
g : R → R cualquier función (medible). El valor esperado de g(X), denotado por
E(g(X)), es
E(g(X)) =
∫ +∞
−∞
g(x)dFX(x),
provisto que la integral (de Lebesgue-Stieltjes) existe; esto es, provisto que
∫ +∞
−∞ g(x)dFX(x) <
+∞. En caso contrario, decimos que el valor esperado no existe.
17
Las siguientes esperanzas son usadas con frecuencia por lo que tienen una notación es-
pecial sólo para ellas.
Definición. La media de una variable aleatoria X se denota por µ = E(X). La va-
rianza de X se denota por
V ar(X) = σ2 = E
(
(X − µ)2
)
= E(X2)− µ2
mientras que σ =
√
V ar(X) es llamada la desviación estandar de X .
EJEMPLO 12: Si X ∼ N (0, 1), entonces
E(X) =
1√
2π
∫ +∞
−∞
x exp
(
−1
2
x2
)
dx = − 1√
2π
exp
(
−1
2
x2
) ∣∣∣∣
+∞
x=−∞
= 0
V ar(X) = E(X2) =
1√
2π
∫ +∞
−∞
x2 exp
(
−1
2
x2
)
dx
= − 1√
2π
x exp
(
−1
2
x2
) ∣∣∣∣
+∞
x=−∞
+
1√
2π
∫ +∞
−∞
exp
(
−1
2
x2
)
dx = 1.
donde la primera igualdad usa E(X) = 0, la tercera igualdad usa integración por partes
(u = x y dv = x exp
(
−1
2
x2
)
dx) y la última usa el hecho que
∫ +∞
−∞
1√
2π
exp
(
−1
2
x2
)
dx = 1
En el sentido de la siguiente definición, la media es un momento no central mientras que
la varianza es un momento central (respecto a la media).
Definición. El k-ésimo momento de una variable aleatoria X es
µk = E
(
Xk
)
, k ∈ N = {1, 2, . . .}.
El k-ésimo momento central de X es µk = E
(
(X − µ)k
)
.
Observación. En algunas ocasiones, momentos de orden superior son útiles. Los ejem-
plos más conocidos son: el coeficiente de asimetŕıa (skewness) y la kurtosis. El coe-
ficiente de asimetŕıa de una variable aleatoria X es E ((X − µ)3) mientras que la
18
kurtosis es E ((X − µ)4).
La media y varianza de transformaciones afines de X están relacionadas a aquellas de
X de una manera simple (Casella y Berger, Teorema 2.2.5a y Teorema 2.3.4).
En efecto, si a y b son constantes y X una variable aleatoria, entonces
E(aX + b) = aE(X) + b y
V ar(aX + b) = a2V ar(X),
en el sentido de que si un lado existe, también existe el otro y son iguales.
EJEMPLO 13: Para la familia localización-escala generada como σX + µ para un µ
estocástico y σ > 0 con X ∼ N (0, 1), tenemos que
E(σX + µ) = σE(X) + µ = µ, y
V ar(σX + µ) = σ2V ar(X) = σ2,
justificando la terminoloǵıa “distribuida normalmente con media µ y varianza σ2”.
2.4. Algunas Desigualdades
Definición. Una función g : R → R es convexa si g(λx+(1−λ)y) ≤ λg(x)+(1−λ)g(y)
para todo x, y y cualquier λ ∈ (0, 1). Una función g : R → R es cóncava si −g es con-
vexa.
Una función g dos veces diferenciable es convexa si y solo si g′′ ≥ 0 para todo x. En
particular, una función af́ın es convexa y cóncava y la siguiente famosa desigualdad ge-
neraliza el resultado E(g(X)) = g(E(X)) cuando g es una función af́ın.
Teorema (Desigualdad de Jensen; Casella y Berger, Teorema 4.7.7). Si X es
una variable aleatoria y g es una función convexa, entonces
E(g(X)) ≥ g(E(X)).
EJEMPLO 14: Si X es una variable aleatoria con P (X ≥ 0) = 1, entonces
19
E
(
1
X
)
≥ 1
E(X)
, y
E(log(X)) ≤ log(E(X)).
Otra famosa desigualdad es la Desigualdad de Chebychev.
Teorema (Desigualdad de Chebychev; Casella y Berger, Teorema 3.6.1). Si X
es una variable aleatoria y g es una función no negativa entonces
P (g(X) ≥ r) ≤ E(g(X))
r
, ∀r > 0.
EJEMPLO 15: Sea X una variable aleatoria con E(X) = µ. Para cualquier r > 0,
P (|X| > r) ≤ E|X|
r
P (|X| > r) = P (X2 > r2) ≤ E(X
2)
r2
P (|X − µ| > r) = P
(
(X − µ)2 > r2
)
≤ V ar(X)
r2
2.5. Distribuciones bivariadas
Definición. Un vector aleatorio bivariado es un vector (X, Y ), donde X e Y son
variables aleatorias (definidas en el mismo espacio de probabilidad (Ω,B, P )).
Un vector aleatorio bivariado (X, Y ) : Ω → R2 induce un espacio de probabilidad
(R2,B(R2), PX,Y ), donde B(R2) es una σ-álgebra de Borel definida en R2 y
PX,Y (B) = P ({ω : (X(ω), Y (ω)) ∈ B}), B ∈ B(R2)
Definición. Una cdf conjunta de (X, Y ) es la función FX,Y : R
2 → [0, 1] definida por
FX,Y (x, y) = PX,Y ((−∞, x]× (−∞, y]) = P ({ω : X(ω) ≤ x, Y (ω) ≤ y}), (x, y) ∈ R2
Notar que si conocemos FX,Y conocemos PX,Y y viceversa.
20
Observación. Existen condiciones necesarias y suficientes para que una función sea una
cdf conjunta. En efecto, una función F : R2 → R es una cdf conjunta si y solo si
(i) ĺımx→−∞ F (x, y) = 0 para cualquier y, ĺımy→−∞ F (x, y) = 0 para cualquier xy en
donde ĺımx→+∞,y→+∞F (x, y) = 1.
(ii) F es no decreciente, esto es, F (x′, y′) ≥ F (x, y) cuando x′ ≥ x y y′ ≥ y.
(iii) F es continua por la derecha; esto es, para cualquier ǫ > 0 y cualquier (x0, y0) ∈ R2,
existe un δ > 0 tal que |F (x, y) − F (x0, y0)| < ǫ cuando x0 ≤ x < x0 + δ y
y0 < y < y0 + δ.
Definición. Sea (X, Y ) un vector aleatoria bivariado con cdf conjunta FX,Y .
(i) (X, Y ) es un vector aleatorio discreto si existe una función fX,Y no negativa
tal que
FX,Y (x, y) =
∑
s≤x,t≤y
fX,Y (s, t) ∀(x, y) ∈ R2
(ii) (X, Y )es un vector aleatorio continuo si existe una función fX,Y no negativa
tal que
FX,Y (x, y) =
∫ x
−∞
∫ y
−∞
fX,Y (t, s)dsdt ∀(x, y) ∈ R2
Cualquier función que cumpla con los requerimientos anteriores es una cdf conjun-
ta de (X, Y ).
Observación. Una función f : R2 → [0, 1] es una pmf de un vector aleatorio discreto
si y solo si (Casella y Berger, p. 142)
∑
(x,y)∈R2
f(x, y) = 1.
Análogamente, una función f : R2 → R+ es una pdf conjunta de un vector aleatorio
continuo si y solo si (Casella y Berger, p. 145)
∫ +∞
−∞
∫ +∞
−∞
f(x, y)dydx = 1.
21
Definición. Sea (X, Y ) es vector aleatorio bivariado. La cdf de X se llama la cdf mar-
ginal de X . Si (X, Y ) es discreto, X es una variable aleatoria discreta y su pmf se llama
la pmf marginal de X . Si (X, Y ) es continuo, X es una variable aleatoria continua y
una pdf de X se llama la pdf marginal de X .
La distribución conjunta de (X, Y ) determina las distribuciones marginales de X e Y .
En efecto, la cdf marginal de X está relacionada a la cdf conjunta FX,Y de (X, Y ) de la
siguiente manera:
FX(x) = ĺım
y→+∞
FX,Y (x, y) ∀x ∈ R.
Es más, si (X, Y ) es discreto con pmf fX,Y , entonces la pmf marginal fX de X satisface
(Casella y Berger, Teorema 4.1.6)
fX(x) =
∑
y∈R
fX,Y (x, y) ∀x ∈ R.
Análogamente, si (X, Y ) es continuo con pdf fX,Y , entonces una pdf marginal de X es
la función fX : R → R+, dada por
fX(x) =
{∫ +∞
−∞ fX,Y (x, y)dy si
∫ +∞
−∞ fX,Y (x, y)dy < +∞
0 si
∫ +∞
−∞ fX,Y (x, y)dy = +∞
, x ∈ R.
En adición a la distribución marginal de X ahora introduciremos la distribución con-
dicional de X (dado Y = y). La distribución condicional de X dado Y = y está bien
definida aún cuando si (X, Y ) no es ni discreto ni continuo, al igual que las esperanzas
condicionales y el concepto de independencia. Para nuestros propósitos es suficiente con-
siderar los casos discretos y continuos.
Definición. (i) Sea (X, Y ) un vector aleatorio discreto bivariado con una pmf conjun-
ta fX,Y y una pmf marginal fY de Y . Para cualquier y tal que fY (y) > 0, la pmf
condicional de X dado Y = y es la función fX|Y (·|y) : R → [0, 1] dada por
fX|Y (x|y) =
fX,Y (x, y)
fY (y)
, x ∈ R
(ii) Sea (X, Y ) un vector aleatorio continuo bivariado con una pdf conjunta fX,Y y una
pdf marginal fY de Y . Para cualquier y tal que fY (y) > 0, la pdf condicional de X
dado Y = y es la función fX|Y (·|y) : R → R+ dada por
fX|Y (x|y) =
fX,Y (x, y)
fY (y)
, x ∈ R
22
Ordenando la ecuación que define fX|Y (x|y), llegamos a la importante relación
fX,Y (x, y) = fX|Y (x|y) · fY (y)
Evidentemente las distribuciones marginales de X e Y no determinan la distribución
conjunta de (X, Y ) a menos que la distribución condicional en Y = y sea igual a la
distribución marginal de X para todos los valores de y. Esto es, mientras que la distri-
bución conjunta de (X, Y ) siempre determina las distribuciones marginales de X e Y lo
contrario no se mantiene a menos que X e Y sean independientes, en el sentido de la
siguiente definición.
Definición. Sea (X, Y ) un vector aleatorio discreto (continuo) bivariado con pmf (pdf )
conjunta fX,Y y pmfs (pdfs) marginales fX y fY . Las variables aleatorias X e Y son
variables aleatorias independientes si
fX,Y (x, y) = fX(x)fY (y), ∀(x, y) ∈ R2.
Para cualquier y fijo con fY (y) > 0, la pmf (pdf ) condicional fX|Y (·|y) es una pmf (pdf )
y tiene sentido definir las esperanzas condicionales con respecto a la distribución de X
condicional en Y = y.
Definición. (i) Sea (X, Y ) un vector aleatorio discreto y sea g : R → R una función.
Para cualquier y tal que fY (y) > 0, el valor esperado condicional de g(X) dado Y = y
es denotado por EX|Y (g(X)|y) y es dado por
EX|Y (g(X)|y) =
∑
x∈R
g(x)fX|Y (x|y),
provisto que
∑
x∈R g(x)fX|Y (x|y) < +∞.
(ii) Sea (X, Y ) un vector aleatorio continuo y sea g : R → R una función. Para cualquier
y tal que fY (y) > 0, el valor esperado condicional de g(X) dado Y = y es denotado
por EX|Y (g(X)|y) y es dado por
EX|Y (g(X)|y) =
∫ +∞
−∞
g(x)fX|Y (x|y)dx,
provisto que
∫ +∞
−∞ g(x)fX|Y (x|y)dx < +∞. En caso contrario, decimos que el valor espe-
rado condicional no existe.
23
Observación. Para distinguir entre las esperanzas condicionales de la esperanza de
g(X) con respecto a la distribución marginal de X ocasionalmente denotaremos lo últi-
mo como EX(g(X)).
La media condicional de X dado Y = y es EX|Y (X|y), mientras que la varianza condi-
cional de X dado Y = y es
V arX|Y (X|y) = EX|Y
(
(X − EX|Y (X|y))2
)
= EX|Y (X
2|y)− EX|Y (X|y)2
Para cualquier y fijo, tanto la media condicional EX|Y (X|y) como la varianza condi-
cional V arX|Y (X|y) son solo números fijos. Viendo a EX|Y (X|·) y a V arX|Y (X|·) como
funciones de y, podemos definir las variables aleatorias EX|Y (X|Y ) y V arX|Y (X|Y ). Los
siguientes teoremas establecen importantes relaciones entre los momentos de estas va-
riables (funciones de Y ) y momentos de X .
Teorema (Ley de Esperanzas Iteradas; Casella y Berger, Teorema 4.4.3). Para
cualquier vector aleatorio bivariado (X, Y ),
EX(X) = EY (EX|Y (X|Y )),
en el sentido de que si algún lado existe también existe el otro y son iguales.
Teorema (Identidad de la Varianza Condicional; Casella y Berger, Teorema
4.4.7). Para cualquier vector aleatorio bivariado (X, Y ),
V arX(X) = EY (V arX|Y (X|Y )) + V arY (EX|Y (X|Y )),
en el sentido de que si algún lado existe también existe el otro y son iguales.
Definición. (i) Sea (X, Y ) un vector aleatorio discreto bivariado con pmf conjunta fX,Y
y sea g : R2 → R una función. El valor esperado de g(X, Y ), denotado E(g(X, Y )),
es
E(g(X, Y )) =
∑
(x,y)∈R2
g(x, y)fX,Y (x, y),
provisto que
∑
(x,y)∈R2 g(x, y)fX,Y (x, y) < +∞. En caso contrario, decimos que el valor
esperado no existe. (ii) Sea (X, Y ) un vector aleatorio continuo bivariado con pdf con-
junta fX,Y y sea g : R
2 → R una función. El valor esperado de g(X, Y ), denotado
E(g(X, Y )), es
24
E(g(X, Y )) =
∫ +∞
−∞
∫ +∞
−∞
g(x, y)fX,Y (x, y)dydx,
provisto que
∫ +∞
−∞
∫ +∞
−∞ g(x, y)fX,Y (x, y)dydx < +∞. En caso contrario, decimos que el
valor esperado no existe.
Observación. La presente definición generaliza la definición de esperanza EX(·) con
respecto a la distribución marginal de X . Espećıficamente, sea (X, Y ) un vector aleatorio
bivariado y sea g : R → R una función. Entonces
E(g(X)) = EX(g(X)).
EJEMPLO 16: Si (X, Y ) es un vector aleatorio bivariado entonces
E(X + Y ) = E(X) + E(Y )
Definición. Sea (X, Y ) un vector aleatorio bivariado. La covarianza de X e Y es
Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E(XY )− E(X)E(Y ) = Cov(Y,X).
La correlación de X e Y es el coeficiente de correlación ρXY definido por
ρXY =
Cov(X, Y )√
V ar(X)
√
V ar(Y )
.
Definición. Sea (X, Y ) un vector aleatorio bivariado. La media (vector) de (X, Y ) es
E
(
X
Y
)
=
(
E(X)
E(Y )
)
.
La matriz de covarianza de (X, Y ) es
V ar
(
X
Y
)
=
(
V ar(X) Cov(X, Y )
Cov(Y,X) V ar(Y )
)
.
Observación. La matriz de covarianza de cualquier vector aleatorio bivariado (X, Y )
es simétrica y semidefinida positiva. La matriz de covarianza es singular si y solo si
|ρXY | = 1.
25
El siguiente teorema provee una condición necesaria para independencia.
Teorema (Casella y Berger, Teorema 4.5.5). Sea (X, Y ) un vector aleatorio biva-
riado. Si X e Y son independientes, entonces Cov(X, Y ) = ρXY = 0.
La varianza de la variable aleatoria g(X, Y ) está definida de la forma natural:
V ar(g(X,Y )) = E
(
(g(X, Y )− E(g(X, Y )))2)
)
En el caso especial donde g(x, y) = x+ y una caracterización útil de V ar(g(X, Y )) es la
siguiente.
Teorema (Casella y Berger, Teorema 4.5.6). Si (X, Y ) es un vector aleatorio bi-
variado, entonces
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
A través del siguiente teorema veremos que el coeficiente de correlación ρXY cuantifica
el alcance de la relación lineal que existe entre X e Y .
Teorema (Casella y Berger, Teorema 4.5.7). Si (X, Y ) es un vector aleatorio bi-
variado entonces |ρXY | ≤ 1 con igualdad si y solo si existen números a 6= 0 y b tal que
P (Y = aX + b) = 1.
La desigualdad |ρXY | ≤ 1 es un caso especial del siguiente resultado.
Teorema (Desigualdad de Cauchy-Schwarz, Casella y Berger, Teorema 4.7.3).
Si (X, Y ) es un vector aleatorio bivariado. entonces
|E(XY )| ≤ E|XY | ≤ (E(X2))1/2(E(Y 2))1/2.
Observación. La Desigualdad de Cauchy-Schwarz es un caso especial (cuando p = q =
2) de la Desigualdad de Hölder (Casella y Berger, Teorema 4.7.2), de acuerdo a la
cual
|E(XY )| ≤ E|XY | ≤ (E(|X|p))1/p(E(|Y |q))1/q
cuando p y q son números positivos tales que p−1 + q−1 = 1.
26
2.6. Distribuciones Multivariadas
Definición. Un vector aleatorio n − dimensional es un vector X = (X1, . . . , Xn)′,
donde X1, . . . , Xn son variables aleatorias (definidas en el mismo espacio de probabilidad
(Ω,B, P )).
Un vector aleatorio n-dimensional X : Ω → Rn induce un espacio de probabilidad
(Rn,B(Rn), PX), donde B(Rn) es una σ-álgebra de Borel definida en Rn y
PX(B) = P ({ω : (X(ω)) ∈ B}), B ∈ B(Rn).
Definición. La cdf conjunta de un vector aleatorio n-dimensional X es la
función FX : R
n → [0, 1] definida por
FX(x) = PX((−∞, x1]× . . .× (−∞, xn])
= P ({ω : X1(ω) ≤ x1, . . . , Xn(ω) ≤ xn}), x = (x1, . . . , xn)′ ∈ Rn.
Definición. Sea X un vector aleatorio n-dimensional con cdf conjunta FX .
(i) X es un vector aleatorio discreto si existe una función no negativa fX tal que
FX(x) =
∑
t≤x
fX(t) ∀x ∈ Rn
donde ′′t ≤ x′′ es una abreviación para t1 ≤ x1, . . . , tn ≤ xn. La función fX es la
pmf conjunta de X .
(ii) X es un vector aleatorio continuo si existe una función no negativa fX tal que
FX(x) =
∫
t≤x
fX(t)dt ∀x ∈ Rn
Cualquier función que cumpla lo anterior es una pdf conjunta de X .
Por analoǵıa con el caso bivariado FX determina únicamente a PX . Es más, condiciones
necesarias y suficientes para que una función sea una cdf /pmf /pdf conjunta están dis-
ponibles.
Definición. (i) Sea X un vector aleatorio discreto n-dimensional con pmf conjunta fX
y sea g : Rn → R una función. El valor esperado de g(X), denotado por E(g(X)), es
27
E(g(X)) =
∑
x∈Rn
g(x)fX(x),
provisto que
∑
x∈Rn g(x)fX(x) < +∞. En caso contrario, decimos que el valor esperado
no existe.
(ii) Sea X un vector aleatorio continuo n-dimensional con pdf conjunta fX y sea g :
Rn → R una función. El valor esperado de g(X), denotado por E(g(X)), es
E(g(X)) =
∫
Rn
g(x)fX(x)dx,
provisto que
∫
Rn
g(x)fX(x)dx < +∞. En caso contrario, decimos que el valor esperado
no existe.
Observación. De forma más general, sea
g =
g11 · · · g1m
...
. . .
...
gk1 · · · gkm
: Rn → Rk×m
una función con valores matriciales. El valor esperado de g(X), denotado por E(g(X)),
es
E(g(X)) =
E(g11(X)) · · · E(g1m(X))
...
. . .
...
E(gk1(X)) · · · E(gkm(X))
provisto que
∫
Rn
gij(x)fX(x)dx < +∞, ∀1 ≤ i ≤ k, 1 ≤ j ≤ m. En caso contrario,
decimos que el valor esperado no existe.
Definición. Sea X un vector aleatorio n-dimensional. La media (vector) de X , de-
notada E(X), es
E(X) = µ =
µ1
...
µn
,
donde µi = E(Xi), 1 ≤ i ≤ n. La matriz de covarianza de X , denotada V ar(X), es
28
V ar(X) = E ((X − µ)(X − µ)′) = Σ =
σ11 · · · σ1n
...
. . .
...
σn1 · · · σnn
,
donde σij = Cov(Xi, Xj), 1 ≤ i, j ≤ n.
Sea X = (X1, . . . , Xn)
′ un vector aleatorio n-dimensional. Si a1, . . . , an y b1, . . . , bn son
constantes, entonces
E
(
n∑
i=1
aiXi
)
=
n∑
i=1
aiE(Xi), y
Cov
(
n∑
i=1
aiXi,
n∑
j=1
bjXj
)
=
n∑
i=1
n∑
j=1
aibjCov(Xi, Xj),
en el sentido de que si algún lado existe, también existe el otro y son iguales. Como caso
especial del último resultado tenemos que:
V ar
(
n∑
i=1
aiXi
)
= Cov
(
n∑
i=1
aiXi,
n∑
j=1
ajXj
)
=
n∑
i=1
n∑
j=1
aiajCov(Xi, Xj),
lo que se simplifica a
V ar
(
n∑
i=1
aiXi
)
=
n∑
i=1
a2iV ar(Xi)
en el caso especial que las variables aleatorias no estén correlacionadas (es decir, Cov(Xi, Xj) =
0 cuando i 6= j).
Una reexpresión de estas identidades puede obtenerse al definir los vectores a = (a1, . . . , an)
′
y b = (b1, . . . , bn)
′. Espećıficamente, tenemos que
E(a′X) = a′E(X)
Cov(a′X, b′X) = a′V ar(X)b, y
V ar(a′X) = a′V ar(X)a.
Observación. Para cualquier vector aleatorio X = (X1, . . . , Xn)
′ la matriz de cova-
rianza Σ = V ar(X) es simétrica porque Cov(Xi, Xj) = Cov(Xj, Xi) para cualquier
1 ≤ i, j ≤ n. Es más, Σ es semidefinida positiva porque a′Σa = V ar(a′X) ≥ 0 para
cualquier vector no nulo a ∈ Rn. En efecto, Σ es definida positiva a menos que podamos
29
encontrar un vector no nulo a tal que V ar(a′X) = 0.
Definición. Sea X un vector aleatorio n-dimensional y particione X en la k-ésima fila
como
X =
(
Y
Z
)
,
donde Y = (X1, . . . , Xk)
′ y Z = (Xk+1, . . . , Xn)
′.
La cdf de Y se llama la cdf marginal de Y . Si X es discreto, Y es un vector aleatorio
discreto y su pmf se llama la pmf marginal de Y . Si X es continuo, Y es un vector
aleatorio continuo y su pdf se llama la pdf marginal de Y .
Si (Y ′, Z ′)′ es un vector aleatorio discreto con pmf conjunta fY,Z y pmf marginal fZ de
Z, la pmf condicional de Y dado Z = z es la función fY |Z(·|z) dada por
fY |Z(y|z) =
fY,Z(y, z)
fZ(z)
,
para cualquier y ∈ Rk y cualquier z ∈ Rn−k tal que fZ(z) > 0.
Si (Y ′, Z ′)′ es un vector aleatorio continuo con pdf conjunta fY,Z y pdf marginal fZ de
Z, la pdf condicional de Y dado Z = z es la función fY |Z(·|z) dada por
fY |Z(y|z) =
fY,Z(y, z)
fZ(z)
,
para cualquier y ∈ Rk y cualquier z ∈ Rn−k tal que fZ(z) > 0.
Definición. Sean X1, . . . , Xn vectores aleatorios discretos (continuos) (no necesariamen-
te de la misma dimensión) con pmf (pdf) conjunta fX1,...,Xn y pmfs (pdfs) marginales
fX1 , . . . , fXn. Los vectores aleatorios X1, . . . , Xn son mutuamente independientes si
fX1,...,Xn(x1, . . . , xn) = fX1(x1) · . . . · fXn(xn) ∀x1, . . . , xn.
La independencia mutua se preserva bajo transformaciones de los vectores aleatorios
individuales.
30
Teorema (Casella y Berger, Teorema 4.6.12). Si X1, . . . , Xn son vectores aleatorios
mutuamente independientes entonces g1(X1), . . . , gn(Xn) son vectores aleatorios mutua-
mente independientes para cualesquiera funciones (posiblemente con valores vectoriales)
g1, . . . , gn.
En este curso los vectores aleatorios multivariados serán a menudo:
(i) normalmente distribuidos (o funciones con valores vectoriales de vectores aleatorios
normalmente distribuidos); y/o
(ii) vectores aleatorios mutuamente independientes con distribuciones marginales idénti-
cas. A continuación se discutirán los casos especiales.
Definición. Un vector aleatorio n-dimensional X = (X1, . . . , Xn)
′ está normalmente
distribuido con media (vector)
µ =
µ1
...
µn
y matriz de covarianza
Σ =
σ11 · · · σ1n
...
. . .
...
σn1 · · · σnn
,
denotado X ∼ N (µ,Σ), si X es continuo con pdf conjunta fX dada por
fX(x) =
1
(2π)n/2|Σ|1/2 exp
(
−1
2
(x− µ)′Σ−1(x− µ)
)
, x ∈ Rn
Como la terminoloǵıa sugiere, X tiene media µ,
E(X) = µ
y matriz de covarianza Σ,
V ar(X) = E ((X − µ)(X − µ)′) = Σ.
31
Cuando X se distribuye normal también lo está cualquier subvector de X . De forma más
general tenemos el siguiente resultado.
Teorema (Ruud, Lema 10.3). Suponga que X ∼ N (µ,Σ) es un vector aleatorio
n-dimensional. Si A ∈ Rm×n tiene rango m y b ∈ Rm, entonces
AX + b ∼ N (Aµ+ b, AΣA′) .
EJEMPLO 17: Para cualquier i ∈ {1, . . . , n}, sea Ei el i-ésimo vector unitarioen Rn
(es decir, Ei ∈ Rn tiene un uno en la i-ésima posición y ceros en cualquier otro lugar).
Fijando A = Ei, b = 0 y aplicando el teorema tenemos:
Xi ∼ N (µi, σii).
Es importante recordar que la normalidad conjunta implica normalidad marginal, mien-
tras que lo contrario no necesariamente es cierto.
Suponga que X = (X1, . . . , Xn)
′ ∼ N (µ,Σ) es un vector aleatorio n-dimensional. Parti-
cione en la k-ésima fila como
X =
(
Y
Z
)
,
donde Y = (X1, . . . , Xk)
′ y Z = (Xk+1, . . . , Xn)
′. Conformablemente particione µ y Σ
como
µ =
(
µY
µZ
)
, y
Σ =
(
ΣY Y ΣY Z
ΣZY ΣZZ
)
.
La distribución marginal de Y y Z es normal,
Y ∼ N (µY ,ΣY Y ) ,
Z ∼ N (µZ ,ΣZZ) ,
como también lo es la distribución condicional de Y dado Z = z.
32
Teorema (Ruud, Lemas 10.4 y 10.5). Si
(
Y
Z
)
∼ N
((
µY
µZ
)
,
(
ΣY Y ΣY Z
ΣZY ΣZZ
))
, entonces
Y |Z = z ∼ N
(
µY − ΣY ZΣ−1ZZ(z − µZ),ΣY Y − ΣY ZΣ−1ZZΣZY
)
.
Los vectores aleatorios Y y Z son (mutuamente) independientes si y solo si ΣY Z = 0.
Definición. Una variable aleatoria X tiene una una distribución chi cuadrado con
p grados de libertad , denotada X ∼ χ2(p), si X es continua con una pdf fX dada por
fX(x) =
{
0 para x ≤ 0
1
Γ(p/2)2p/2
x(p/2)−1 exp
(
−1
2
x
)
para x > 0
,
donde Γ es la función gamma.
Un hecho útil acerca de la distribución normal multivariada es el siguiente.
Lema (Ruud, Lema 10.2). Suponga que X ∼ N (µ,Σ) es un vector aleatorio p-
dimensional. Entonces
(X − µ)′Σ−1(X − µ) ∼ χ2(p).
2.7. Muestras aleatorias
Definición. Sea X = (X1, . . . , Xn)
′ un vector aleatorio n-dimensional. Las variables
aleatorias X1, . . . , Xn se llaman muestra aleatoria si es que son mutuamente indepen-
dientes y tienen distribuciones marginales idénticas. En este caso decimos queX1, . . . , Xn
son variables aleatorias independientes e idénticamente distribuidas (i.i.d.).
Si X1, . . . , Xn es una muestra aleatoria de una distribución con cdf F , la cdf conjunta
de (X1, . . . , Xn)
′ es
FX1,...,Xn(x1, . . . , xn) =
n∏
i=1
FXi(xi) =
n∏
i=1
F (xi),
33
donde la primera igualdad usa independencia mientras que la segunda usa el hecho de
que cada Xi tiene la misma distribución. Análogamente, la pmf (pdf ) conjunta de una
muestra aleatoria de una distribución discreta (continua) con pmf (pdf ) f es
fX1,...,Xn(x1, . . . , xn) =
n∏
i=1
fXi(xi) =
n∏
i=1
f(xi).
Definición. Sea X1, . . . , Xn una mustra aleatoria y sea T : R
n → Rk una función (me-
dible). El vector aleatorio Y = T (X1, . . . , Xn) se llama estad́ıstico y su distribución se
llama distribución muestral de Y .
A este nivel de generalidad, cualquier función de X1, . . . , Xn es un estad́ıstico. Solamen-
te estudiaremos aquellos estad́ısticos que son relevantes cuando estamos en presencia de
una muestra aleatoria de una distribución normal.
Definición. La media muestral es el estad́ıstico definido por
X =
1
n
n∑
i=1
Xi.
La varianza muestral es
S2 =
1
n− 1
n∑
i=1
(Xi −X)2 =
1
n− 1
(
n∑
i=1
X2i − nX
2
)
,
mientras que S =
√
S2 se llama la desviación estándar muestral .
Una justificación parcial para el uso de (n−1) en la definición es provista en la parte (c)
del siguiente teorema, el cual caracteriza algunas propiedades (momentos) elementales
de X y S2.
Teorema (Casella y Berger, Teorema 5.2.6). Sea X1, . . . , Xn una muestra aleatoria
de una distribución con media µ y varianza σ2. Entonces
(a) E(X) = µ.
(b) V ar(X) = σ2/n.
(c) E(S2) = σ2.
34
Demostración. En primer lugar:
E(X) = E
(
1
n
n∑
i=1
Xi
)
=
1
n
E
(
n∑
i=1
Xi
)
=
1
n
n∑
i=1
E(Xi) =
1
n
n∑
i=1
µ = µ.
Luego, procediendo de manera similar,
V ar(X) = V ar
(
1
n
n∑
i=1
Xi
)
=
1
n2
V ar
(
n∑
i=1
Xi
)
=
1
n2
n∑
i=1
V ar(Xi) =
σ2
n
,
donde la penúltima igualdad usa independencia. Finalmente, usando el hecho de que
E(X2) = V ar(X) + E(X)2 para cualquier variable aleatoria X ,
E(S2) = E
(
1
n− 1
(
n∑
i=1
X2i − nX
2
))
=
1
n− 1E
(
n∑
i=1
X2i − nX
2
)
=
1
n− 1
(
n∑
i=1
E(x2i )− nE
(
X
2
))
=
1
n− 1
(
n∑
i=1
(σ2 + µ2)− n
(
σ2
n
+ µ2
))
= σ2.
Si la distribución subyacente es conocida la distribución muestral de los estad́ısticos co-
mo X y S2 pueden (al menos en principio) ser encontrada. En el caso especial donde
X1, . . . , Xn es una muestra aleatoria de una distribución normal tenemos el siguiente
resultado.
Teorema (Casella y Berger, Teorema 5.3.1). Sea X1, . . . , Xn una muestra aleatoria
de una distribución N (µ, σ2). Entonces
(a) (X) y S2 son independientes.
(b) (X) ∼ N (µ, σ2/n).
(c) (n− 1)S2/σ2 ∼ χ2(n− 1).
Demostración de (a)-(b). Para demostrar (a) es suficiente mostrar que S2 es una
función de un vector aleatorio que es independiente de X . Ahora,
35
n∑
i=1
(Xi −X) = (X1 −X) +
n∑
i=2
(Xi −X) = 0,
de forma que X1 − X = −
∑n
i=2(Xi − X) puede ser escrito como función de (X2 −
X, . . . , Xn −X)′, al igual que
S2 =
1
n− 1
n∑
i=1
(
Xi −X
)2
.
Los vectores aleatorios X y (X2−X, . . . , Xn−X)′ son conjuntamente normales y por lo
tanto independientes (si y solo si) Cov(X,Xi−X) = 0 para i = 2, . . . , n. Para cualquier
i = 2, . . . , n,
Cov(X,Xi −X) = Cov(X,Xi)− Cov(X,X)
= Cov
(
1
n
n∑
j=1
Xj, Xi
)
− V ar
(
X
)
=
1
n
n∑
j=1
Cov(Xj, Xi)− V ar
(
X
)
=
1
n
V ar(Xi)− V ar
(
X
)
=
σ2
n
− σ
2
n
= 0.
Esto establece (a). La parte (b) se sigue de las partes (a)-(b) del teorema anterior y del
hecho de que combinaciones lineales de variables distribuidas normal conjuntamente se
distribuyen normal.
Observación. Casella y Berger establecen la parte (c) al emplear un argumento de
inducción. Una demostración alternativa puede ser encontrada en Ruud (Caṕıtulo 10).
36
Caṕıtulo 3
El modelo de regresión lineal
3.1. Introducción
Antes de revisar el modelo de regresión lineal repasaremos algunos conceptos esenciales.
El primero de ellos es el de esperanza condicional. La esperanza condicional de Y
(escalar) dado X (vector en ℜk) es un mapping o función escalar que se escribe:
E(Y |X) : ℜk → ℜ
y representa el primer momento de la distribución condicional de Y en X . En estricto
rigor, debiésemos escribirla aśı:
E(Y |X = X0)
lo cual nos indica cuál es el valor esperado de Y para un valor predeterminado deX = X0.
Aśı, X0 en una realización X . Generalmente omitimos eso y escribimos E(Y |X). En con-
secuencia, dado que X no es fijo, la esperanza condicional se convierte en una variable
aleatoria que es función de X .
EJEMPLO 1: (quedamos en no mencionar la ecuación de mincer!)
Y: rendimiento en el curso de Econometŕıa I (4,0 ; 5,0; 5,5; 6,0)
X: altura (1,30; 1,50; 1,70; 1,90)
La relación entre las distintas alturas y el rendimiento econometŕıa puede o no entregar
una relación causal (eso dependerá de si somos capaces de identificar esta relación en el
sentido estad́ıstico). También podemos construir escenarios contrafactuales los cuales
son muy útiles para predicción.
37
La esperanza condicional se escribe simplemente de la siguiente manera si la variable
aleatoria es cont́ınua:
E(Y |X) =
∫ ∞
−∞
yf(x, y)
f(x)
dy
Si bien es cierto que la esperanza condicional es un objeto de interés fundamental, tam-
bién nos interesarán otros objetos que dependen de ella. Por ejemplo efectos marginales,
parciales o elasticidades que definiremos a continuación.
3.2. Objetos de Interés
1. Efecto Parcial de Xj sobre E(Y |X):
∂E(Y |X)
∂Xj
Este efecto parcial es marginal, sin embargo si queremos calcular efectos de cambios
mayores, por ejemplo “∆Xj” (p.e: 20 unidades) podemos escribir:
∆E(Y |X)
∆Xj
≈ ∂E(Y |X)
∂Xj
∆Xj
Si
∂E(Y |X)
∂Xj
= β con β constante, entonces esta aproximación se cumple con igualdad.
2. Elasticidad: cambios porcentuales
ξE(Y |X),X =
∂E(Y |X)
∂Xj
Xj
E(Y |X)
Esta expresión también puede ser escrita como:
ξE(Y |X),X =
∂ lnE(Y |X)
∂ lnXj
Notar que:
ξE(Y |X),X =
∂ lnE(Y |X)
∂ lnXj
6= ∂E((lnY |X))
∂ lnXj
Salvo en este caso particular:
EJEMPLO 2: Supongamos un modelo expresado en logaritmo (su variablede-
pendiente):
ln(y) = g(x) + µ
38
donde µ es independiente de X ⇒ E(X|µ) = 0. Por simplicidad supongamos que
x es escalar. Recordemos:
y = exp(g(x)) ∗ exp(µ)
Por lo tanto,
E[y|x] = exp(g(x)) ∗ E(exp(µ)|x)
La elasticidad queda:
ξ = ✘✘✘
✘✘✘exp(g(x))g′(x)✘✘✘
✘✘✘E(exp(µ))
x
✘✘
✘✘
✘✘
exp(g(x))✘✘✘
✘✘✘E(exp(µ))
ξ = g′(x)x
Ahora el modelo en logaritmos:
E[ln (y)|x] = g(x)
E[ln (y)|x] = g(exp(ln(x)))
∂E[ln (y)|x]
∂ln(x)
= g′(x) exp(ln (x))
ξ = g′(x)x
3. Semi Elasticidad: Se define como
Semielasticidad =
∂E(Y |X)
∂Xj
1
E(Y |X)
Un ejemplo de semielasticidad la podemos encontrar en el efecto marginal de la
escolaridad en el ingreso, ya que la variable escolaridad está medida en niveles, y
la de ingreso en logaritmos.
4. Ley de Esperanzas Iteradas: En su versión más sencilla esta enuncia que:
Ex(E(y|x)) = E(y)
Demostración (en variable continua):
39
Ex(E(y|x)) =
∫ [∫
y
f(x, y)
f(x)
dy
]
f(x)dx
Ex(E(y|x)) =
∫ ∫
y
f(x, y)
f(x)
f(x)dxdy
Ex(E(y|x)) =
∫
y
[∫
f(x, y)dx
]
dy
Ex(E(y|x)) =
∫
yf(y)dy porque
∫
f(x, y)dx = f(y)
Ex(E(y|x)) = E(y)
3.3. El Modelo de Regresión Lineal
Definimos:
Yn×1 =
y1
y2
...
yn
Xn×k =
x11 x12 · · · x1k
x21 x22 · · · x2k
...
...
. . .
...
xn1 xn2 · · · xnk
Donde n denota el número de observaciones del modelo y k denota al número de variables
explicativas.
Supuestos:
1. E(Y |X) = E(Y ) = Xβ Linealidad en los parámetros (porque asumiremos regreso-
res no estocásticos)
2. V (Y ) = E([(y − E(y))(y − E(y))′] = σ2I Homocedasticidad y no autocorrelación
en el término de error.
3. Regresores Determińısticos (No estocásticos)
4. Matriz X de Rango Completo (mı́nimo de columnas o filas linealmente indepen-
diente). En otras palabras, que X ′X sea invertible.
40
Paradigma Estad́ıstico
El paradigma estad́ıstico dice que una variable aleatoria la podemos descomponer en
su esperanza condicional más un residuo. Donde este residuo cumple una propiedad
conocida:
y = E[y|x] + ε
donde E(ε|x) = 0. Luego los supuestos los podemos expresar en función de ε
ε = Y − E(Y |X)
ε = Y −Xβ
En esta notación los supuestos son:
1. Esperanza lineal: E(ε|X) = E(ε) = 0
2. V (ε) = σ2In
3. Regresores Determińısticos (No estocásticos)
4. Rango completo de X(k)
Derivación del estimador de MCO
El estimador de MCO es aquel que minimiza la suma de los errores al cuadrado;
argmin
β
S =
n∑
i=1
ε2i = ε
′ε = (Y −Xβ)′(Y −Xβ)
en clase discutimos porque en 1805 se eligió este criterio (Legendre) en lugar de por
ejemplo:
argmin
β
S∗ =
n∑
i=1
|εi|
que se conoce como Least Absolute Deviations (LAD). Este problema es matemática-
mente más complejo de resolver, no tiene una forma anaĺıtica cerrada como MCO y las
propiedades asintóticas son dif́ıciles de derivar. De hecho se hicieron recién en los años
80s. Lo interesante de este enfoque es que es insensible a outliers y se le conoce como
Regresión Robusta. Se puede demostrar que aśı como MCO pasa por las medias, LAD
pasa por las medianas y es un caso particular de las regresiones de cuantiles o Quantile
Regressions Koenker (1984).
41
Recuerde que escribimos el criterio de minimización y lo derivamos con respecto a β
S = (Y −Xβ)′(Y −Xβ) = Y ′Y − 2Y ′Xβ + β ′X ′Xβ
y usamos las reglas de derivación que puede ver en el apéndice del libro de Greene: Si
A es una matriz simétrica y x un vector y los productos Ax y x’Ax son conformables,
tenemos que:
∂Ax
∂x
= A′
∂x’Ax
∂x
= (A′ + A)x = 2Ax
donde la última igualdad ocurre si A es simétrica. Luego, aplicando las reglas de cálculo
diferencial matricial a S tenemos la ecuación normal:
0 = X′(y −Xβ̂)
β̂ = (X′X)−1X′y
=
(
1
N
N∑
i=1
x′ixi
)−1(
1
N
N∑
i=1
x′iYi
)
.
Donde xi es un vector de 1× k con la i-ésima observación para los k regresores.
Que son las dos representaciones t́ıpicas del estimador OLS de β. Junto con el estimador
OLS de β está el estimador del parámetro de varianza σ2,
s2 ≡ 1
N −K
(
y −Xβ̂
)′ (
y −Xβ̂
)
Que es una forma cuadrática del vector de residuos. La normalización inusual (dividir por
N−K en vez de N) nos da un estimador que es insesgado bajo los supuestos estándares.
La demostración implica intercambiar el operador traza y esperanza convenientemente
además del uso de propiedades como tr(AB) = tr(BA), etc.
3.4. Derivación Alternativa desde la Estad́ıstica
El estimador MCO proviene de un problema de optimización y es aquel que minimiza la
suma de los errores al cuadrado. Es posible encontrar un estimador por el Principio de
42
la Analoǵıa o Método de Momentos explotando el supuesto de identificación E(ǫ|x) = 0
y = xβ + ǫ
Donde x es un vector de 1 × k que incluye una observación para los k regresores. El
supuesto de identificación de MCO implica que
E(x′ǫ) = 0
Note que el parámetro poblacional β puede ser expresado en momentos de las variables
observables explotando el supuesto recién presentado:
x′y = x′xβ + x′ǫ
tomando valor esperado tenemos que:
β = E(x′x)−1E(x′y)
lo que se conoce como Regresión Poblacional. Dado que (y,x) es observable, β es iden-
tificado.
El principio de la analoǵıa o analogy principle (Goldberger (1968), Manski (1988)) im-
plica
β̂MM = β̂MCO =
[
1
n
n∑
i=1
x′ixi
]−1 [
1
n
n∑
i=1
x′iyi
]
≡ (X ′X)−1X ′Y
Lo interesante es que el estimador de MM y MCO son idénticos para el mismo modelo
lineal de dos paradigmas diferentes. El primero, de optimización y el segundo, estad́ıstico.
Interpretación Geométrica
Note que tanto la estimación de la esperanza condicional y el residuo estimado se pueden
interpretar geométricamente.
ǫ̂ ≡ y −Xβ̂
= (I−X(X′X)−1X′)y
≡ Mxy.
Donde Mx es una matriz de proyección (idempotente y simétrica) en el espacio nulo de
las columnas X, Col(X). Por otra parte,
ŷ ≡ Xβ̂
= X(X′X)−1X′y
≡ Pxy
43
Donde Px es una matriz de proyección en el espacio generado por las columnas de X.
Luego, y = Mxy +Pxy
Figura 3.1: Descomposición Ortogonal de Y
3.5. Bondad de Ajuste
Si la primera columna de X es una vector columna “ι” igual a 1, se tiene una medida
resumen para la “bondad de ajuste” de los valores predichos de la siguiente identidad:
n∑
i=1
(Yi − Ȳ )2 =
n∑
i=1
(Yi − Ŷi)2 +
n∑
i=1
(Ŷi − Ȳ )2
TSS = RSS + ESS
1 =
RSS
TSS
+
ESS
TSS
donde RSS es la suma de los residuos al cuadrado , TSS es la suma Total de las desviacio-
nes de y con respecto a su media y ESS la suma explicada por el modelo respectivamente.
La medida de bondad de ajuste es
R2 =
ESS
TSS
= 1− RSS
TSS
44
En términos matriciales
R2 ≡ 1− (y −Xβ̂)
′(y−Xβ̂)
(y − yι)′(y− yι)
= 1− ǫ̂
′ǫ̂
(y − yι)′(y − yι)
donde y es el promedio muestral (escalar) de la variable dependiente,
y ≡ 1
N
∑
i
Yi
y ι es un vector de unos de dimensión N .
Note que:
1. El coeficiente de determinación es siempre menor a 1. Ello porque RSS ≤ TSS y
por lo tanto RSS
TSS
≤ 1.
2. El análisis de varianza anterior fue derivado bajo el supuesto que el modelo inclúıa
una constante. En dicho caso, necesariamente R2 ≥ 0.
3. Al agregar regresores al modelo, el R2 nunca decrecerá (se mantendrá constante o
aumentará).
4. No es claro cuan bueno sea como predictor de ajuste.
Para ver este último punto, suponga que usted posee el siguiente modelo poblacional:
Y = β1 + β2X + u
donde X es un vector (n× 1). Suponga ahora que restamos X a ambos lados de nuestro
modelo. Obtenemos entonces:
Y −X = β1 + γX + u
Si β2 ≈ 1, entonces es fácil verificar que el R2 del primer modelo será alto, mientras
que el del segundo sera cercano a cero, a pesar de que los modelos son matemática-
mente equivalentes. A pesar de lo anterior, en trabajos aplicados, el R2 es ampliamente
utilizado, por lo cual se recomienda su publicación.
¿Por qué sucede (3)? Note que al incluir regresores, la RSS necesariamente decrece (o
en el mejor de los casos se mantiene), mientras que la TSS permanece constante. Por
esta razón se creó el coeficiente de determinación ajustado, el cual corrige el R2 original
45
por los gradosde libertad del numerador y el denominador. Entonces, definimos el R2
ajustado, denotado porR̃2 como:
R̃2 ≡ 1− (y −Xβ̂)
′(y −Xβ̂)/(n− k)
(y− yι)′(y − yι)/(n− 1)
= 1− ǫ̂
′ǫ̂
(y − yι)′(y − yι)
(n− 1)
(n− k)
o equivalentemente:
R̃2 = 1− (1−R2) (n− 1)
(n− k) (3.1)
3.6. Regresión Particionada
Al particionar la matriz de regresores podemos escribir X como la concatenazión hori-
zontal de dos sub-matrices
X ≡ [X1 X2]
donde X1 es de n × k1 y X2 de n × k2 con k1 + k2 = k lo que, junto con una versión
particionada del estimador OLS
β̂ ≡
(
β̂1
β̂2
)
Aśı, el modelo de regresión lineal se puede escribir de la siguiente manera
Y = X1β1 +X2β2 + ǫ
Esta notación hace posible que podamos derivar una relación entre el subvector β̂1 de la
regresión “larga” (de y sobre X1 y X2) y los coeficientes de la regresión “corta” (de y
sobre X1),
β̂∗1 ≡ (X ′1X1)−1X ′1Y
donde β̂∗1 solamente usa la submatriz X1 de regresores. Esta relación es la siguiente
β̂∗1 = β̂1 + (X
′
1X1)
−1X ′1X2β̂2
donde la relación anterior viene de reemplazar Y = X1β̂1 +X2β̂2 + ǫ̂ en el coeficiente de
la regresión “corta”.
46
Si X ′1X2 6= 0 y β̂2 6= 0 el término (X ′1X1)−1X ′1X2β̂2 corresponde al sesgo por omisión de
variables relevantes.
Otra relación algebraica útil es la representación de “regresión residual” de un determi-
nado subvector, por ejemplo β̂1, de los coeficientes β̂ de la regresión larga. Definiendo la
matriz de proyección
P2 ≡ X2(X ′2X2)−1X ′2
que proyecta los vectores en un subespacio lineal generado por las columnas de X2. Los
coeficientes de la regresión larga pueden ser escritos como
β̂1 = (X
′
1M2X1)
−1X ′1M2Y
= (X∗1X
∗
1 )
−1X∗
′
1 Y
= (X∗
′
1 X
∗
1 )
−1X∗
′
1 Y
∗
donde
X∗1 ≡ M2X1 ≡ (I − P2)X1
que es el residuo de la regresión de X1 en X2. Por otro lado tenemos
Y ∗ ≡ M2Y ≡ (I − P2)Y
que es el residuo de la regresión Y en X2. Todo esto es conocido como el Teorema de
Frisch-Waugh-Lovell.
3.7. Momentos del Estimador OLS
Las reglas para el cálculo de la media (vector) y matriz de varianzas y covarianzas de
una función lineal Ay de un vector aleatorio y (con A no estocástica) son:
E[Ay] = AE[y]
V [Ay] = AV [y]A′
Aplicando estas reglas al estimador OLS β̂, bajo los supuestos estándar, tenemos que
E[β̂] = (X′X)−1X′E[y]
= (X′X)−1X′Xβ
= β
esto significa que el estimador OLS β̂ es insesgado. Por otro lado, tenemos que
V [β̂] = (X′X)−1X′V [y]X(X′X)−1
= (X′X)−1X′[σ2I]X(X′X)−1
= σ2(X′X)−1
47
De forma similar es posible demostrar que s2 es un estimador insesgado de σ2. Tarea:
demostrar que E[s2] = σ2.
El resultado de eficiencia de la versión clásica de OLS, conocido como Teorema de
Gauss-Markov, propone que, bajo las condiciones estándar, el estimador OLS β̂ es el
mejor estimador lineal insesgado (BLUE por sus siglas en inglés). El término “mejor”
viene dado por poseer la menor matriz de varianzas y covarianzas. De forma más precisa,
si β̃ es un estimador de β que es lineal en y,
β̃ = Ay
Para alguna matriz A de dimensión K ×N y no estocástica. Si β̃ es insesgado, o sea,
E[β̃] = β
para todos los posibles β ∈ RK , entonces, bajo los supuestos estándar, la matriz de
varianzas y covarianzas de β̃ es tan grande como la de β̂, en el sentido de que V [β̃]−V [β̂]
es semidefinida positiva. Este resultado es obtenido de la descomposición de β̃ como la
suma de β̂ y β̃ − β̂.
Es posible demostrar (hecho en clases) que la covarianza entre estos dos componentes es
0 (usando las restricciones de insesgamiento, AX = I), de forma tal que
V [β̃] = V [β̂] + V [β̃ − β̂]
de donde sigue el resultado anterior.
La clase pasada terminamos demostrando el teorema de Gauss-Markov y esbozamos una
demostración para E(s
2) = σ2.
Aśı como el estimador MCO tiene una interpretación geométrica, el Teorema de G-M
también la tiene.
El plano es el espacio de las X’s. La esfera es la matriz de varianzas y covarianzas de Y.
El cilindro es una proyección no ortogonal de Y en el espacio de las X’s.
Por último, recuerde que G-M aplica a estimadores comparables y modelos comparables.
Un ejemplo sencillo de estimador de menor varianza para el modelo lineal es el de la
“regresión corta”. Usando las reglas de cálculo de medias y varianzas enunciadas ante-
riormente es posible aplicarlas a la regresión particionada. La esperanza de β̂∗1 definido
anteriormente viende dada por
E[β̂∗1 ] = E[β̂1] + (X
′
1X1)
−1X1X2E[β̂2]
= β1 + (X
′
1X1)
−1X′1X2β2
48
Figura 3.2: Geometŕıa de Gauss-Markov
que es igual al verdadero valor de β1 sólo si los coeficientes de la regresión de X2β2 en
X1 son todos cero (este resultado es conocido como la fórmula de sesgo por variable
omitida). Usando las reglas de cálculo de varianza tenemos que
V [β̂∗1 ] = σ
2(X′1X1)
−1
V [β̂1] = σ
2(X∗1
′X∗1)
−1
de esto se sigue que la matriz de varianzas y covarianzas de los coeficientes β̂∗1 no es más
grande (en un sentido “definido positivo”) que la de β̂1 dado que
X1X1 −X∗1′X∗1 = X′1P2X1
es definida positiva. El resultado es directo dado que P2 es una matriz de proyección y por
definición simétrica, idempotente y positiva semidefinida. Luego, admite descomposición
de Cholezky (P2 = C
′C donde C es triangular superior).
Esto es interesante puesto que omitir variables no sólo produce sesgo, sino que además
nos induce a cometer Error Tipo I.
3.8. El Modelo Normal de Regresión Lineal
Hasta aqúı no hemos asumido una distribución para el término de error. La ventaja de
asumir normalidad es que podemos hacer inferencia exacta, es decir, tendremos estad́ısti-
cos cuya distribución no depende de aproximaciones asintóticas, luego tienen “buenas
49
propiedades” incluso en muestra finita. Para lograr esto, debemos aumentar en un su-
puesto el modelo anterior. Este modelo fue propuesto por Gauss en 1809 varios años
después de que Legendre propusiera el estimador de MCO.
5. (Normalidad). El vector y (o equivalentemente ǫ = y − Xβ) tiene una distribución
normal multivariada.
Luego, bajo los supuestos 1-5, la distribución del vector y es
y ∼ N (Xβ, σ2I)
y
ǫ ∼ N (0, σ2I)
Bajo estos supuestos, Gauss en 1809 derivó el estimador MCO del modelo como un
estimador de Máxima Verosimilitud para este modelo.
Es fácil darse cuenta que
L = f(y1, y2, . . . , yn;X, σ
2, β) =
1
(2πσ2)
n
2
exp−
(Y −Xβ)′(Y −Xβ)
2σ2
con lo cual, el estimador β̂MV se obtiene maximizando:
máx
β,σ2
ln(L) = máx
β,σ2
ln
(
1
(2πσ2)
n
2
exp−
(Y −Xβ)′(Y −Xβ)
2σ2
)
= máx
β,σ2
(
−n
2
ln(2π)− n
2
ln(σ2)− (Y −Xβ)
′(Y −Xβ)
2σ2
)
(3.2)
∂ lnL
∂β
=
1
σ̂2
X ′(Y −Xβ̂) = 0
=⇒ β̂MV = (X ′X)−1X ′Y (3.3)
Luego, tenemos que β̂MV = β̂MCO = β̂ tiene una distribución normal
β̂ ∼ N(β, σ2(X ′X)−1)
Inferencia en el Modelo Normal de Regresión Lineal
El resultado anterior tiene implicancias directas. Cualquier combinación lineal de β̂
tendrá una distribución normal. Aśı,
θ̂ = Rβ̂ ∼ N (θ, σ2R(X ′X)−1R′)
50
donde θ = Rβ. También, el supuesto de normalidad implica que
(N −K)s2
σ2
∼ χ2N−K
Con los resultados anteriores podemos hacer inferencia exacta. Si R tiene sólo una fila
(es una hipótesis lineal) tenemos que
θ̂ − θ√
s2R(X ′X)−1R′
∼ tN−K
y generar intervalos de confianza es trivial pues sólo debemos invertir el test-t.
Si R tiene más de una fila, entonces R(X ′X)−1R′ no es escalar y podemos fabricar un
test F. Si R tiene r filas, tenemos que
(θ̂ − θ)′[s2R(X ′X)−1R′]−1(θ̂ − θ)/r ∼ Fr,N−K
Este resultado nos sirve para testear hipótesis del tipo H0 : Rβ = θ0 y Ha : Rβ 6= θ0
donde sólo debemos reemplazar el parámetro θ por el hipotético θ0.
Es posible que en un caso especial en donde la matriz X esté particionada de la forma
X = [X1X2] y donde X1 es un vector columna de unos (X1 = ι). Esto, junto con la
correspondiente partición de β, permite testear la hipótesis nula H0 : β2 = 0 usando
el estad́ıstico R2. Bajo los supuestos vistos anteriormente y la hipótesis nula recién
enunciado tenemos:
N −K
N − 1
R2
1− R2 ∼ FK−1,N−K
En el caso del modelo de regresión lineal tenemos que existeuna relación monotónica
entre el R2 y el estad́ıstico F para testear que todos los coeficientes (menos el intercepto)
son cero.
3.8.1. Intervalos y Regiones de Confianza
Una manera natural de obtener un intervalo de confianza (IC) para θ̂ es a través del
test-t asociado. En la sección anterior vimos que corresponde a:
θ̂ − θ√
s2R(X ′X)−1R′
∼ tN−K
51
entonces, si deseamos un IC del (1-α)% de confianza (es decir, de α% de significancia)
para θ, basta obtener de las tablas de distribución el valor t
1−α/2
N−K correspondiente e
invertir el test, es decir:
1− α = Pr
[
t
α/2
N−K ≤
θ̂ − θ√
s2R(X ′X)−1R′
≤ t1−α/2N−K
]
(3.4)
= Pr
[
−t1−α/2N−K ≤
θ̂ − θ√
s2R(X ′X)−1R′
≤ t1−α/2N−K
]
= Pr
[
θ̂ − t1−α/2N−K
√
s2R(X ′X)−1R′ ≤ θ ≤ θ̂ + t1−α/2N−K
√
s2R(X ′X)−1R′
]
Aśı, un intervalo de confianza para θ a un 95% de confianza está dado por:
θ ∈
[
θ̂ ± t1−α/2N−K ×
√
s2R(X ′X)−1R′
]
Note que también podemos invertir un test F. En este caso podemos tener “regiones de
confianza”. Es un poco más complicado y para el caso que la matriz R tenga sólo 2 filas
tiene una representación gráfica en R2. Las regiones de confianza serán elipses. Para ello
sólo debemos notar lo siguiente:
Pr[(θ̂ − θ)′[s2R(X ′X)−1R′]−1(θ̂ − θ)/r ≤ F 1−αr,N−K ] = 1− α
luego resolvemos para el argumento y nos quedará la ecuación de una elipse. Ver ejemplo
para dos parámetros.
EJEMPLO 3: Considere el modelo y = β1x1 + β2x2 + u. Se quiere testear simultánea-
mente que β1 = r1 y β2 = r2. Note que
R =
(
1 0
0 1
)
Si,
X ′X =
(
φ1 φ2
φ3 φ4
)
desarrollando el argumento de la región de confianza llegamos a una ecuación de la elipse:
1
s2r
[
(β1 − r1)2φ1 + (β2 − r2)(β1 − r1)(φ2 + φ3) + (β2 − r2)2φ4 = F 1−αr,n−k
]
52
Figura 3.3: Regiones de Confianza Eĺıpticas
−5 −4 −3 −2 −1 0 1 2 3 4 5
−5
−4
−3
−2
−1
0
1
2
3
4
5
Figura 3.4: Regiones de Confianza Eĺıpticas 3D
−0.5
0
0.5
1
−0.5
0
0.5
1
0
0.2
0.4
0.6
0.8
1
x
((0.3−x)2 0.9−(0.2+0.2) (0.3−x) (0.7−y)+(0.7−y)2 1)/(2)
y
3.9. Desviación de los Supuestos Clásicos
En las secciones anteriores hemos visto que se han realizado supuestos, unos más fuertes
que otros, acerca del modelo de regresión lineal. A continuación veremos, de forma
bastante superflua, las consecuencias del levantamiento de cada uno de estos supuestos.
1. (No Normalidad) Si y no es multinormalmente distribuida entonces la distribu-
ción exacta del estimador MCO (normalidad para β̂ y chi-cuadrado para s2) ya
53
no aplica. Afortunadamente la teoŕıa asintótica nos dice que β̂ se distribuye apro-
ximadamente normal y que este error de aproximación se va hacia cero cuando
el tamaño muestral aumenta. La teoŕıa asintótica combina dos tipos diferentes de
aproximaciones. Primero, están los teoremas centrales del ĺımite clásicos, que dan
condiciones generales bajo las cuales las distribuciones de sumas ponderadas de va-
riables aleatorias son aproximadamente multinormal. Segundo, están los teoremas
Slutsky, que muestran cómo funciones suaves de promedios muestrales (como β̂ y
s2) son aproximadamente sumas ponderadas de variables aleatorias, a las cuales los
teoremas centrales del ĺımite pueden ser aplicados. Si los supuestos estándar cum-
plen con las condiciones que los teoremas del ĺımite y Slutsky requieren, entonces
el estimador OLS se distribuye aproximadamente normal
β̂
A∼
(
β, σ2(X′X)−1
)
Donde “
A∼” significa “distribuido aproximadamente como”. Resultados como es-
te implican que los procedimientos de inferencia desarrollados para el modelo de
regresión lineal pueden ser aproximadamente válidos cuando la variable depen-
diente no sea normalmente distribuida.
Las próximas dos clases veremos teoŕıa asintótica y sus implicancias para la infe-
rencia en el modelo lineal sin asumir normalidad.
2. (Multicolinealidad) Si la matriz X no es de rango (columna) completo entonces
la matriz X′X no es invertible y el verdadero vector de parámetros β no puede
ser identificado a partir de los datos observados (eso si, algunas combinaciones
lineales pueden ser únicamente determinadas). Si la meta es obtener estimaciones
puntuales de β, con multicolinealidad perfecta no podremos hacerlo.
3. (Regresores Estocásticos) Si X es aleatoria pero los supuestos estándar se
mantienen condicional a X (es decir, E(y|X) = Xβ, V (y|X) = σ2I, etc.) enton-
ces es necesario hacer un pequeño ajuste a los procedimientos de inferencia; OLS
sigue siendo BLUE (condicional al X observado), y la distribución normal y chi-
cuadrado de β̂ y s2 se mantienen condicional a X. Es más, dado que la distribución
de s2 no depende de X, es proporcional a una variable aleatoria que se distribuye
chi-cuadrado, no importando si X es determińıstico o aletorio. Dado que los es-
tad́ısticos F y t también tienen distribuciones que bajo la nula no dependen de X
el caso anterior también aplica.
4. (Matriz de Covarianzas No Escalar) Cuando la matriz de covarianzas de y
(o ǫ) no es proporcional a una matriz identidad- V (y) ≡ Σ 6= σ2I para cualquier
σ2- entonces el estimador OLS clásico, aun cuando es lineal, deja de ser el “mejor”
54
en su tipo. Si Σ es proporcional a una constante - Σ = σ2Ω, con Ω conocido -
entonces y y X pueden ser transformados (al premultiplicar por la inversa de Ω)
para determinar el estimador BLUE de β, al aplicar OLS a los datos transformados.
Este caso es llamado el estimador Generalized Least Squares (GLS) de Aitken,
β̂GLS ≡ (X′Ω−1X)−1X′Ω−1y
El cual es BLUE para una Ω dada (no singular) y es un caso generalizado del caso
clásico de OLS (cuando Ω = I). Si y es multinormal y Ω es conocida (no estimada),
entonces la multinormalidad del estimador GLS aplica de la misma forma que para
el estimador OLS. Si Ω es desconocida, de forma tal que debe ser estimada usando
y, entonces una versión “factible” de GLS (Feasible Generalized Least Squares) que
usa una versión estimada Ω̂ será una función no lineal de y y la distribución de
este estimador no será exactamente normal. Ahora, la teoŕıa asintótica puede ser
utilizada para mostrar que el estimador FGLS tiene aproximadamente la misma
distribución normal que su contraparte, dado que Ω̂ se aproxima a Ω a medida que
el tamaño muestral crece.
Dependiendo del tipo de aplicación, Ω puede desviarse de la matriz identidad de
varias formas, cada una teniendo su nombre particular. En los modelos hetero-
cedásticos la matriz Ω es diagonal pero con elementos no constantes en ella. En
los modelos con correlación serial la matriz Ω posee componentes no nulos fuera
de la diagonal.
5. (Regresores Endógenos) Si falla el supuesto de que la esperanza de y dado X
no es una combinación lineal deX, se tiene la complicación más grave del caso OLS
clásico. Mientras que E(y|X) = Xβ puede no darse producto de que la verdadera
media condicional es no lineal en los regresores, un problema t́ıpico en economı́a
emṕırica es que existe correlación no nula entre el término de error, ǫ ≡ y−Xβ, y
algunas columnas de X, llamado regresores endógenos. Esta endogeneidad puede
surgir por una infinidad de razones como error de medida en los regresores, simul-
taneidad, sesgo de selección de la muestra, regresores omitidos y otros problemas
emṕıricos. El apronte econométrico estándar para la estimación de β, bajo este
problema, implica la recolección de variables adicionales conocidad como variables
instrumentales, generalmente denotadas por una matriz Z de dimensión L×K (con
L al menos tan grande como K), las cuales no están correlacionadas con el término
de error pero śı correlacionadas con columnas de la matriz X. Existen variantes
de este método como Two-Stage Least Squares (2SLS) y Generalized Method of
Moments (GMM) que también pueden ayudar a tratar este tema.
55
Caṕıtulo 4
Elementos de Teoŕıa Asintótica
4.1. Introducción
En la sección anterior analizamos la interpretación geométrica del teorema de Gauss-
Markov, luego demostramos que la varianza de la regresión corta es menor o iguala la
varianza de la regresión larga (iguales en el caso que β2 = 0). Por otro lado vimos el
Modelo Normal de Regresión Lineal y la inferencia correspondiente. Para esto tuvimos
que agregar un quinto supuesto, el de Normalidad, que nos permite hacer inferencia
exacta. Finalmente revisamos las derivaciones de los supuestos clásicos.
Además vimos que Gauss (1809) derivó el estimador MCO como uno de Máxima Vero-
similitud (MV). Por esto vimos que se puede escribir una función de verosimilitud de la
Normal Bivariada, donde cada draw es IID:
L =
1
(2πσ2)
n
2
exp
[−(Y −Xβ)(Y −Xβ)′
2σ2
]
Al tomar logaritmo y derivar nos quedan las ecuaciones normales de igual modo que
cuando derivamos S e igualamos a cero en la derivación de MCO, ∂S/∂β, aśı se obtiene
β̂MV = β̂MCO = (X
′X)−1X′Y
El supuesto de normalidad del término de error nos permite decir que β̂ se distribuye
normal y esta distribución es exacta, no aproximada o en el ĺımite. Esto nos permite
hacer inferencia exacta que es independiente del tamaño muestral.
β̂ ∼ N
(
β, σ2(X′X)−1
)
Ahora, levantaremos el supuesto de normalidad, lo que nos obliga a encontrar la distri-
bución muestral del estimador MCO . La manera de proceder será utilizar las leyes
56
de grandes números y teoremas centrales del ĺımite. Ellos descansan en ciertos supuestos
o condiciones de regularidad que tendremos que asumir, pero que son supuestos más
débiles que imponer una distribución dada.
Convergencia en Distribución
Una secuencia de vectores aleatorios xn converge en distribución a la distribución
de x, xn
d−→ x, si se cumple que:
ĺım
n→∞
Fn(x) = F (x)
∀ x donde F (x) es continua:
Fn(x) = Pr(Xn ≤ x) ∧ F (x) = Pr(X ≤ x)
A esta función F (x) se le denomina Limiting Distribution , la cual no depende de n.
Cuando n −→ ∞ se llega a una distribución final.
Ahora, si xn
d−→ x, podemos aproximar probabilidades de xn si n es grande:
Pr(xn ∈ B) ≈
∫
B
dF (x)
La distribución en el ĺımite debe satisfacer todas las condiciones de la Función de Dis-
tribución Acumulada (FDA). Si ĺımn→∞ Fn(x) es discontinua, puede que no sea una
FDA.
Recuerde que una FDA debe cumplir cuatro supuestos básicos:
(i) ĺımx→∞ F (x) = 1, ĺımx→−∞ F (x) = 0
(ii) Monótona no decreciente.
(iii) Continua por la derecha.
Recordemos el concepto de Continuidad por la Derecha (right continuity), el cual es más
débil que Continuidad :
Definición. Una función f cualquiera es continua por la derecha en un punto c si:
∀ ε > 0, ∃ δ > 0 tal que ∀ x ∈ c < x < c+ δ
57
satisface:
|f(x)− f(c)| < ε
EJEMPLO 1: No continua por la derecha.
Xn ∼ N
(
0,
1
n
)
Fn(x) = Pr(Xn ≤ x) = Pr(
√
nXn ≤
√
nx) = Φ(
√
nx)
Fn(x) = Φ(
√
nx)
ĺım
n→∞
Fn(x) =
1 si x > 0
1
2
si x = 0
0 si x < 0
Φ(0) =
1
2
Figura 4.1: No continua por la derecha
Note que si se mueve de derecha a izquierda cuando x >> 0, tenemos que a medida
que c se aproxima infinitesimalemente a 0 podemos encontrar siempre un valor de x a
la derecha de cero (porque es abierto)y se cumple la propiedad de continuidad por la
derecha |F (x)−F (c)| < ǫ. Sin embargo, cuando c = 0, tenemos que los valores de x > c
implican “saltar” a la recta F (x) = 1, lo que hace que la condición de continuidad por
58
Figura 4.2: Continua por la derecha
la derecha no se cumpla (no podemos hacer la diferencia arbitrariamente pequeña).
EJEMPLO 2: Continua por la derecha.
Siempre podremos tener un x a la derecha de c ya sea en la recta F (x) = 0 o F (x) = 1.
En particular, cuando c = 0, estamos en la recta F (x) = 1 y no hay problemas de
continuidad. Cuando c < 0, estamos en la recta F (x) = 0 y como es abierto, siempre
podremos situar un x a la derecha de c.
Convergencia en Probabilidad
Una sucesión de variable aleatoria Xn, converge en probabilidad a x (no estocástico)
si:
ĺım
n→∞
Pr{‖Xn − x‖ > ε} = 0, con ε > 0
y se denota:
plimn→∞Xn = x ∨ Xn
p−→ x
La intuición de esta definición es que toda la masa de probabilidad está en una vecindad
de x muy pequeña.
Convergencia en Media Cuadrática
Xn converge en media cuadrática a x (no estocástico) si:
ĺım
n→∞
E
(
‖Xn − x‖2
)
= 0
59
en muchos casos equivale a decir que la varianza se va contrayendo (cuando x es el valor
esperado).
se denota:
Xn
q.m.−→ x
se puede demostrar que:
Xn
q.m.−→ x =⇒ Xn p−→ x
Pero antes, necesitamos revisar dos desigualdades muy importantes.
Desigualdad de Markov
Si Z (variable aleatoria) no negativa, escalar:
Pr(Z > k) ≤ E(Z)
k
, con k > 0
Demostración (suponiendo variable continua):
E(Z) =
∫∞
0
ZdFZ(Z) =
∫ k
0
ZdFZ(Z) +
∫∞
k
ZdFZ(Z)
=
∫ k
0
ZdFZ(Z) +
∫∞
k
(Z − k + k)dFZ(Z)
=
∫ k
0
ZdFZ(Z) +
∫∞
k
(Z − k)dFZ(Z) +
∫∞
k
kdFZ(Z)
con
∫ k
0
ZdFZ(Z) +
∫∞
k
(Z − k)dFZ(Z) ≥ 0. Luego,
E(Z) ≥ k
∫∞
k
dFZ(Z)
E(Z) ≥ k · Pr(Z > k)
=⇒ Pr(Z > k) ≤ E(Z)
k
Figura 4.3: E(Z), no necesariamente simétrica
60
Desigualdad de Chebyshev o (Tchebysheff)
Reemplace Z = (X − E(X))2 para una variable aleatoria escalar X (con segundo mo-
mento finito) y reemplace k = ε2 , ∀ ε > 0.
Aplicando la desigualdad de Markov :
Pr {|Xn − E(X)| > ε} = Pr
{
[X − E(x)]2 > ε2
}
Pr {|Xn − E(X)| > ε} ≤
E[(X−E(X))2]
ε2
Usando ambas desigualdades podemos demostrar que convergencia en media cuadráti-
ca implica convergencia en probabilidad, es decir,
Xn
q.m.−→ x =⇒ Xn p−→ x
Convergencia en media cuadrática =⇒ ĺımn→∞ E {‖Xn − x‖2} = 0.
Por desigualdad de Markov :
Pr {‖Xn − x‖ > ε} ≤
E {‖Xn − x‖2}
ε2
, con ε > 0
ĺım
n→∞
Pr {‖Xn − x‖ > ε} ≤ 0
luego por definición de probabilidad:
ĺım
n→∞
Pr {‖Xn − x‖ > ε} = 0
que es equivalente a:
ĺım
n→∞
Pr {‖Xn − x‖ < ε} = 1
Por lo tanto, convergencia en media cuadrática es más fuerte que convergencia en pro-
babilidad.
Convergencia Almost Surely
Xn converge almost surely a x (no estocástico) si
Pr
{
ĺım
n→∞
Xn = x
}
= 1
Se denota:
Xn
a.s.−→ x
La convergencia Almost Surely implica convergencia en probabilidad.
61
Ley Débil de los Grandes Números (WLLN)
Ley Débil de los Grandes Números (WLLN) de Khintchine.
Si xi escalar IID y se cumple:
Xn =
1
n
n∑
i=1
xi
con
E(xi) = µ (finito)
entonces:
Xn
p−→ E(xi) = µ
Esto nos dice que el proceso generador de datos arroja realizaciones de igual distribución.
La demostración de la WLLN de Khintchine queda como propuesto (Hint: por Markov)
Ley Débil de los Grandes Números (WLLN) de Tchebycheff .
Si Xn es escalar (variable aleatoria) con:
E(Xn) = µn , V (Xn) = σ
2
n , Cov(XiXj) = 0
(se relajó el supuesto IID) y además:
1
n
Σni=1σ
2
i < M
entonces:
X̄n − E(X̄n) p−→ 0
A diferencia del caso de Khintchine, ahora el proceso generador de datos arroja realiza-
ciones con distinta distribución.
62
Teorema Central del Ĺımite
Teorema Central del Ĺımite (CLT) de Lindeberg-Levy .
Si xi una variable aleatoria escalar IID, con:
E(xi) = µ , V (xi) = σ
2 finitos, tenemos que:
Zn =
X̄n − E(X̄n)√
V (X̄n)
=
X̄n − µ√
σ2
n
√
n(X̄n − µ)
σ
d−→ N(0, 1)
Notar que esta distribución en el ĺımite no puede tener n adentro, ya que se hizo tender
a infinito.
Bosquejo de demostración: La demostración es sencilla pero requiere el uso de la
función caracteŕıstica de una variable aleatoria.
La función caracteŕıstica de una v.a X completamente define la función de distri-
bución. Está dada por:
ϕX(t) = E[e
itX ] =
∫ ∞
−∞
eitxdFX(x)
Note que ϕX(t) : R −→ C. Se relaciona con la función generadora de momentos :
ϕX(−it) = MX(t).
(i) Note que si X ∼ N(0, 1), la función caracteŕıstica es
ϕX(t) = e
−t2/2
(ii) Se puede demostrar que si Y tiene media 0 y varianza 1, una expansión de taylor
de 2do orden de ϕY (t) es
ϕY (t) ≃ 1−
t2
2
(iii) Si X1, ...Xn son idenpendientes y a1, ..., an son constantes
ϕ(
∑
aiXi)(t) = ϕX1(a1t)× ϕX2(a2t)...ϕXn(ant)
63
(iv) Recuerde que ĺımn−→∞(1− c/n)n = e−c.
(v) Por último
√
nZ̄ =
√
n(X̄ − µ)/σ = 1√
n
∑ (Xi−µ)
σ
Ahora si, usamos el resultado (iii): la función caracteŕıstica de
√
nZ̄ es la multiplicación
de n funciones caracteŕısticas iguales:ϕ√nZ̄(t) = ϕZ1(t/
√
n)× ϕZ2(t/
√
n)× ...× ϕZn(t/
√
n)
=
(
1− t
2
2n
)n
donde Zi = (Xi − µ)/σ y en la segunda igualdad usamos resultado (ii). Usando el
resultado (iv)
ĺım
n−→∞
ϕ√nZ̄(t) = e
−t2/2
es igual a la función caracteŕıstica de una N(0, 1) por resultado (i).
Usando Cramer-Wald Device que dice:
Si una combinación lineal de un vector aleatorio converge en distribución a “algo”, el
vector converge en distribución a “algo”.
si λ′Xn
d−→ λ′x donde Xn y x son vectores para λ fijo, entonces:
Xn
d−→ x
=⇒ podemos postular un CLT multivariado.
Teorema Central de Ĺımite (CLT) de Lindeberg-Levy Multivariado .
Sea Xn el promedio muestral de vectores {xi} con E(xi) = µ (vector) y V (xi) = Σ.
√
n(X̄n − µ) d−→ N(0,Σ)
4.2. Algunos Teoremas
Teorema de Continuidad
Algunos autores como Amemiya llaman a este teorema como continuous mapping
theorem pero en realidad el nombre no importa mucho. Lo importante es lo que sigue.
Sea Xn vector aleatorio tal que Xn
p−→ x0 y una función g(x) continua para x = x0,
entonces
g(Xn)
p−→ g(x0).
64
Demostración
Por definición de continuidad sabemos que:
∀ ǫ > 0 ∃ δ > 0 tal que si
‖Xn − x0‖ < δ ⇒ ‖g(Xn)− g(x0)‖ < ǫ.
Ademas sabemos que si tenemos dos eventos A y B tales que A ⇒ B, entonces
Pr(A) ≤ Pr(B).
Luego si tomamos
A = { ‖Xn − x0‖ < δ }
B = { ‖g(Xn)− g(x0)‖ < ǫ }
Luego
Pr{ ‖Xn − x0‖ < δ } ≤ Pr{ ‖g(Xn)− g(x0)‖ < ǫ }
⇒ ĺım
n→∞
Pr{ ‖ ‖Xn − x0‖ < δ } ≤ ĺım
n→∞
Pr{ ‖g(Xn)− g(x0)‖ < ǫ }
1 ≤ ĺım
n→∞
Pr{ ‖g(Xn)− g(x0)‖ < ǫ }
⇒ ĺım
n→∞
Pr{ ‖g(Xn)− g(x0)‖ < ǫ } = 1
Concluimos entonces que g(Xn)
p−→ g(x0).�
Teorema de Slutsky
Si los vectores aleatorios Xn e Yn tienen la misma dimensión, y además se tiene que
Xn
p−→ x0 y Yn d−→Y , entonces:
(i) Xn + Yn
d−→x0 + Y
(ii) X ′n Yn
d−→ x ′0 Y
Teorema de Mapeo Continuo
Algunos autores atribuyen este teorema a Mann-Wald .
Si Xn
d−→X y g(x) es continua para todo x, entonces
g(Xn)
d−→ g(X).
65
EJEMPLO 3: Sea Zn ≡
√
n (θ̂ − θ0) d−→N(0, I), queremos saber la distribución de
T = Z ′nZn = n(θ̂ − θ0) ′(θ̂ − θ0).
Por Teorema de Mapeo Continuo tenemos que T
d−→χ2
dim(θ̂)
.
Método Delta
Sea θ̂n un vector aleatorio asintóticamente normal con
√
n (θ̂n − θ0) d−→N(0,Σ) y g(θ)
una función continuamente diferenciable en θ = θ0, con Jacobiano
G0 ≡
∂ g(θ)
∂ θ
∣∣∣∣
θ=θ0
,
entonces √
n (g(θ̂)− g(θ0)) d−→N(0, G0ΣG′0).
Demostración: De acuerdo con el Teorema del Valor Medio sabemos que ∃ θ∗n ∈
[θ0 , θ̂n] tal que (
g(θ̂n)− g(θ0)
)
=
∂ g(θ)
∂ θ
∣∣∣∣
θ=θ∗n
(
θ̂n − θ0
)
√
n
(
g(θ̂n)− g(θ0)
)
=
∂ g(θ)
∂ θ
∣∣∣∣
θ=θ∗n
√
n
(
θ̂n − θ0
)
.
Dado que θ̂n
p−→ θ0, entonces θ∗n
p−→ θ0. Luego por Teorema de Continuidad
∂ g(θ)
∂ θ
∣∣∣∣
θ=θ∗n
p−→G0.
Además por hipótesis tenemos que
√
n
(
θ̂n − θ0
)
d−→N(0,Σ).
Luego por Teorema de Slutsky
√
n
(
g(θ̂n)− g(θ0)
)
=
∂ g(θ)
∂ θ
∣∣∣∣
θ=θ∗n
√
n
(
θ̂n − θ0
)
d−→G0N(0,Σ) = N(0, G0ΣG′0).�
Propiedades Asintóticas de MCO
Vamos a relajar algunos supuestos:
(i) Normalidad.
66
(ii) Homocedasticidad.
(iii) No Estocasticidad de X .
Recordemos que
β̂ = (X ′X)−1X ′Y =
(
1
n
n∑
i=1
x′ixi
)−1(
1
n
n∑
i=1
x′iyi
)
.
Tomando yi = x
′
iβ + ǫi, donde xi es el i-ésimo vector fila de X .
β̂ =
(
1
n
n∑
i=1
x′ixi
)−1(
1
n
n∑
i=1
x′i(xiβ + ǫi)
)
β̂ = β +
(
1
n
n∑
i=1
x′ixi
)−1(
1
n
n∑
i=1
xiǫi
)
√
n (β̂ − β) =
(
1
n
n∑
i=1
x′ixi
)−1(
1√
n
n∑
i=1
xiǫi
)
(4.1)
Por WLLN
1
n
n∑
i=1
x′ixi
p−→E(x′ixi) = D
Luego por Teorema de Continuidad tenemos que
(
1
n
n∑
i=1
x′ixi
)−1
p−→D−1.
Notemos que
1√
n
n∑
i=1
xiǫi =
√
n
n
n∑
i=1
x′iǫi
67
por lo que podemos intentar aplicar el Teorema Central de Ĺımite de Lindeberg-Lèvy
(CLT L-L), para lograr esto recordemos que
E(xiǫi) = E(xi (yi − xiβ))
= E(x′iyi)− E(x′ixi)β
= E(x′iyi)− E(x′ixi)(E(x′ixi))−1E(x′iyi)
= E(x′iyi)− E(x′iyi)
= 0
V (x′iǫi) = E(x
′
iǫiǫ
′
ixi)
= E(ǫ2ix
′
ixi)
= C
Luego asumiendo proceso i.i.d, primer y segundo momento finitos, por TCL L-L
√
n
n
n∑
i=1
xiǫi
d−→N(0, C).
Aplicando el Teorema de Slutsky tenemos que
√
n (β̂ − β) =
(
1
n
n∑
i=1
x′ixi
)−1(
1√
n
n∑
i=1
x′iǫi
)
d−→D−1N(0, C) = N(0, D−1C D−1).
Estimador Consistente de Matriz de Varianzas y Covarianzas
El estimador natural de D seŕıa: D̂ = N−1
∑
x′ixi
p→ D debido a que x es una variable
observable y conocida. En donde xi es el i-ésimo vector fila.
Como vimos anteriormente la derivación del estimador Ĉ es un poco más dif́ıcil debido
a que ǫ no es observable y es necesario utilizar el estimador de este ǫ̂i.
Ĉ = N−1
∑
ǫ̂ix
′
ixi
Ĉ = N−1
∑
(yi − xiβ̂)2x′ixi
Ĉ = N−1
∑
((yi − xiβ)︸ ︷︷ ︸
ǫ
+xi(β − β̂))2x′ixi
Ĉ = N−1
∑
ǫ2ix
′
ixi +N
−1
∑
(xi(β − β̂))2x′ixi + 2N−1
∑
(yi − xiβ)(xi(β − β̂))x′ixi
El estimador Ĉ converge en C dado por los términos de la ecuación anterior:
68
El primero termino por WLLN
p→ E(ǫ2ix′ixi) = C.
El segundo termino
p→ 0 Porque (β̂ p→ β) por el teorema de la continuidad y
WLLN.
El tercer termino converge en probabilidad a cero por el mismo argumento del
segundo termino.
Luego el estimador de Eicker-Huwber-White (E-H-W) es:
[D̂−1ĈD̂−1] = VE−H−W (β̂)
= [N−1
∑
x′ixi]
−1[N−1
∑
ǫ2ix
′
ixi][N
−1
∑
x′ixi]
−1
Se le llama matriz de varianzas y covarianzas robustas debido a que hemos relajados los
supuestos de homocedasticidad, asumiendo que los errores son heretocedasticos.
Dado que tenemos estos resultados podemos aplicar los diferentes teoremas vistos en el
caṕıtulo de teoŕıa asintótica (teorema del mapeo continuo, el método delta, el TCL de
Lindeberg-Levy, etc.) para poder realizar inferencia, incluso en test no lineales.
En general se ve de que los errores robustos tienden a ser mayores que aquellos que asu-
men homocedasticidad, por lo que disminuyen los estad́ısticos t. El hecho de no asumirlos
es un problema cuando estamos en el margen de rechazar la nula, ya que podŕıamos estar
cometiendo error tipo II.
En general es recomendable usar errores estándar robustos a no ser de que la homoce-
dasticidad de los errores sea evidente.
Test de Wald Generalizado
El test de Wald que teńıamos anteriormente se planteaba como :
H0 : R
′β = r
H1 : R
′β 6= r
En este modelo no pod́ıamos realizar inferencia sobre funciones de los estimadores que
siguieran esta forma:
H0 : g(β) = g(β0)
H1 : g(β) 6= g(β0)
69
Donde g(β) : Rk → R es una función continua y diferenciable.
Definimos G = ∂g(β)
∂β′
como el Jacobiano de la función g(β)1.
Usando el método delta y el resultado de la ecuación (1) tenemos, bajo la nula, el si-
guiente resultado:
√
N(g(β̂)− g(β0)) d→ N(0, G[D−1CD−1]G′)
Este resultados nos permite construir un test de Wald ya que tenemos la distribución
de g(β̂). Con el teorema de mapeo continuo2 podemos derivar la distribución del test de
Wald a una χ2.
Dado que Ĝ = ∂g(β)
∂β′
|β̂
p→ G por WLLN y el teorema de la continuidad. Con esto el Test
de Wald generalizado es:
GWN = N(g(β̂)− g(β0))T [Ĝ[D̂−1ĈD̂−1]ĜT ]−1(g(β̂)− g(β0)) d→ χ2Rango[g(β̂)]
Un Caso Especial: Regresión lineal con un proceso i.i.d
Estimemos el siguiente modelo:
yi = xiβ + ǫi
Donde E(ǫi) = 0 y V (ǫi) = σ
2.
Como vemos en la segunda condición de este modelo es donde introducimos nuevamente
la homocedasticidad pero como una caracteŕıstica del modelo.
Teńıamos:
C = E(ǫ2ix
′
ixi)
= E(ǫ2i )E(x
′
ixi) asumiendo E(ǫ
2
i |xi) = E(ǫ2i )
= σ2E(x′ixi)
1El Jacobiano es de rango completo, lo que equivale a la independencia de las restricciones en el
modelo lineal.
2Teorema del Mapeo Continuo T = Z ′NZN = N(θ̂ − θ0)′(θ̂ − θ0)
d→ χ2
{dimθ̂}
70
Y D = E(x′ixi) por lo que la matriz de varianza y covarianzas es la siguiente:
V (β̂) = D−1CD−1
= [E(x′ixi)]
−1σ2E(x′ixi)[E(x
′
ixi)]
−1
= [E(x′ixi)]
−1σ2
Pero:
plim
1
N
∑
x′ixi = E(x
′
ixi)
plim
1
N
X ′X = E(x′ixi)
√
N(β̂ − β) d→ N(0, σ2D−1)
d→ N(0, σ2 (p ĺım 1
N
X ′X)−1
︸ ︷︷ ︸
Esto ya ha convergido
Lo cual se parace bastante al caso del modelo de regresión lineal con X no estocástica
y homocedasticidad que vimos en pregrado. La única diferenciaes que ah́ı escrib́ıamos
( 1
N
X ′X)−1 en lugar de (plim 1
N
X ′X)−1.
71
Caṕıtulo 5
Problemas de Especificación y Datos
En esta sección veremos problemas de especificación del modelo de regresión lineal y en
particular, qué sucede cuándo la matriz de varianzas es no escalar. Veremos el estimador
de Mı́nimos Cuadrados Generalizados (MCG) y MCG Factibles (MCGF). Analizare-
mos los casos particulares de Heterocedasticidad y Autocorrelación. Veremos también
Mı́nimos Cuadrados No lineales y algunos problemas comunes de datos.
5.1. Mı́nimos Cuadrados Generalizados (Aitken)
Vamos a relajar el segundo supuesto del modelo de regresión lineal (V (β̂) = σ2I). Con
lo que los supuestos de este modelo son:
(i) Esperanza Lineal E(Y |X) = Xβ.
(ii) La matriz de varianza y covarianza es no escalar ó no esférica
V (Y |X) = E((Y − E(Y |X))(Y − E(Y |X))′|X) = ΣNxN = σ2Ω
(iii) Regresores estocásticos, es decir XN×K son aleatorios.
(iv) Rango completo de la matriz X → X ′X también es de rango completo.
Cuando existen problemas de heterocedasticidad, autocorrelación serial, sistema de ecua-
ciones simultáneas y en datos de panel podemos tener una matriz de varianza y cova-
rianza no esférica.
72
Propiedades bajos estos supuestos
β̂ = (X ′X)−1X ′Y
E[β̂|X ] = (X ′X)−1X ′E[Y |X ]
= (X ′X)−1X ′Xβ
= β
Con lo que podemos ver que el estimador es condicionalmente insesgado. Si los X fueran
no aleatorios tenemos insesgamiento incondicional automáticamente. Dado que los X
son aleatorios, dada la Ley de Esperanzas Iteradas, tenemos que E[E[β̂|X ]] = E[β̂] = β
luego es incondicionalmente insesgado también.
Con respecto a la varianza del estimador:
V (β̂|X) = (X ′X)−1X ′V (Y |X)X(X ′X)−1
V (β̂|X) = (X ′X)−1X ′σ2ΩX(X ′X)−1
V (β̂|X) = σ2(X ′X)−1X ′ΩX(X ′X)−1
Por lo general V (β̂|X) 6= σ2(X ′X)−1 en este modelo.
Recordar también que:
plimN−1X ′X = plimN−1
∑
x′ixi = D
plimN−1X ′ΣX = C
√
N(β̂ − β) d→ N(0, σ2D−1CD−1)
En general D−1CD−1 6= D−1 y plimS2 6= σ2.
Aitken propone lo siguiente: si Ω es conocida
Calcule la siguiente descomposición:
Ω−1 = H ′H Cholesky1
1Si la matriz A es simétrica y definida positiva, puede ser descompuesta como: A = LL′ = U ′U
donde L es una matriz triangular inferior y U es una matriz triangular superior.
73
Después premultiplique por la izquierda el modelo por H:
Y ∗ = HY y X∗ = HX
E[Y ∗|X ] = HXβ
V [Y ∗|X ] = HV [Y |X ]H ′ = H [σ2Ω]H ′
= σ2HΩH ′
= σ2I
Aplicando OLS al modelo transformado tenemos el siguiente estimador de GLS:
β̂GLS = (X
∗′X∗)−1X∗
′
Y ∗
β̂GLS = (X
′H ′HX)−1X ′H ′HY
β̂GLS = (X
′Ω−1X)−1X ′Ω−1Y
Este estimador es MELI.
Además:
S2GLS = (N − k)−1(Y ∗ −X∗β̂∗GLS)′(Y ∗ −X∗β̂∗GLS)
E[S2GLS |X ] = σ2
Observaciones:
1. Si asumimos normalidad multivariada de y podemos hacer inferencia ëxacta”(las
distribuciones utlizadas no son aproximaciones sino que las distribuciones reales)
y podemos usar los test que conocemos del modelo normal de regresión.
2. Si no asumimos normalidad tendremos que usar aproximaciones asintóticas. En
eso caso podemos usar WLLN, TCL, TC, TMC, DM, etc.
√
N(β̂GLS − β) d→ N(0, V )
donde V = σ2plim( 1
N
X ′Ω−1X)−1, el cual desarrollando a traves de álgebra de limites
del plim tenemos:
74
V = plimS2( 1
N
X ′Ω−1X)−1
Pero el caso de conocer la forma de Ω es algo id́ılico, por lo que será necesario repara-
metrizar nuevamente el modelo. Este método es conocido como Mı́nimos Cuadrados
Generalizados Factibles .
5.2. Distribución Asintótica del estimador MCG
En esta clase partiremos derivando cuál es la distribución asintótica para el esti-
mador de MCG.
Recuerde que:
β̂MCG = (X
′Ω−1X)−1X ′Ω−1Y (5.1)
β̂MCG = β + (X
′Ω−1X)−1X ′Ω−1ε (5.2)
ya que Y = Xβ + ε (5.3)√
n(β̂MCG − β) =
√
n(X ′Ω−1X)−1X ′Ω−1ε (5.4)
√
n(β̂MCG − β) =
1
n
X ′Ω−1X
︸ ︷︷ ︸
A
−1
1√
n
X ′Ω−1ε
︸ ︷︷ ︸
B
(5.5)
Usaremos Ley Débil de Grandes Números (WLLN) y el Teorema Central del Ĺımite
(CLT) para encontrar la convergencia en distribución del estimador MCG.
Partiremos trabajando A,
A =
1
n
X ′Ω−1X
p−→ plim
(
1
n
X ′Ω−1X
)
Esto último por Ley de Grandes Números (de Kintchine o Chebyshev), que podemos
aplicar al estar las observaciones del modelo distribuidas independiente e identicamente
(i.i.d) y al tener momentos acotados.
Recuerda que si Xn
p−→X y g(·) es continua, g(XN) p−→ g(X). Dicho de otro modo y
de manera mas sintética, plim g(XN) = g(plim XN). Por esto, tenemos que dado el
Teorema de Continuidad:
(
1
n
X ′Ω−1X
)−1
p−→
(
plim
1
n
X ′Ω−1X
)−1
75
Por otro lado, buscamos aplicar CLT en B:
B =
1√
n
X ′Ω−1ε
B =
√
n
(
1
n
X ′Ω−1ε
)
Recuerde que CLT de Lindeberg-Levy (versión univariada) dice que:
√
n(X−µ)
σ
→ N(0, 1),
esto bajo momentos acotados y un proceso generador de datos (p.g.d.) que arroja ob-
servaciones i.i.d.
Podemos tomar 1
n
X ′Ω−1ε como un promedio (que está multiplicado por
√
n en la ex-
presión anterior), por lo que necesitamos encontrar su esperanza y varianza (en estricto
rigor del argumento de la sumatoria impĺıcita).
(i) E(X ′Ω−1ε) = 0 Independiente de la especificación del modelo.
(a) Si X es no estocástico: E(X ′Ω−1ε) = X ′ΩE(ε) = 0
(b) Si X es estocástico: E(X ′Ω−1ε|X) = X ′ΩE(ε|X) = 0 dado que E(ε|X) = 0
Por Ley de Esperanzas Iteradas (LEI): E(X ′Ω−1ε) = E(X ′Ω−1 E(ε|X)︸ ︷︷ ︸
0
). Luego,
encontrar E(X ′Ω−1ε) no fue complejo.
(ii) Encontrar la varianza tiene su cuidado. V (X ′Ω−1ε) = E(X ′Ω−1εε′Ω−1X) = V
Si no hacemos supuestos como (a) y (b) sólo podemos decir que la varianza es V
y que por Lindeverg-Levy
1√
n
X ′Ω−1ε
d−→N(0, V )
lo que implica que obtenemos una forma de sandwich para la matriz de varianzas
y covarianzas
√
n(β̂MCG − β) d−→N (0, A−1V A−1)
76
En el caso de regresores estocásticos (caso b) si hacemos el supuesto que E(εε′|X) =
σ2Ω, nos queda la expresión t́ıpica y que postulamos la clase pasada:
V (X ′Ω−1ε) = E(X ′Ω−1E(εε′|X)Ω−1X) por LEI
V (X ′Ω−1ε) = σ2E(X ′Ω−1ΩΩ−1X)
= σ2E(X ′Ω−1X)
= σ2plim
(
1
n
(X ′Ω−1X)
)
Esto último por Ley de Grandes Números (cualquier esperanza de un promedio
converge a su valor poblacional) dado que trabajamos con momentos finitos y un
p.g.d. i.i.d.
En este caso usamos el TCL de Lindeberg-Levy Multivariado:
1
n
X ′Ω−1ε
d−→N(0, plimσ2X ′Ω−1X)
Recapitulando de la ecuación 5,5:
√
n(β̂MCG − β) d−→ plim
(
1
n
X ′Ω−1X
)−1
N
(
0, plim σ2
(
1
n
X ′Ω−1X
))
Resultado que obtenemos por el Teorema de Slutsky. Es decir,
√
n(β̂MCG − β) d−→N
(
0, plim σ2
(
1
n
X ′Ω−1X
)−1)
Que es bajo el caso usual con E(εε′|X) = σ2Ω y asumiendo que Ω es conocido. Ahora,
si σ2 es desconocido, usamos S2MCG = (Y −Xβ̂MCG)′(Y −Xβ̂MCG).
En este caso no se puede asegurar que R2 ∈ (0, 1) porque el vector de unos en X, al ser
multiplicados en el modelo de MCG de Aitken por H (como vimos anteriormente) hace
que el modelo ya no tenga constantes, por lo tanto el R2 en este caso no es comparable
con el de MCO a menos que se haga alguna normalización.
77
Mı́nimos Cuadrados Generalizados Factibles (MCGF)
¿Qué hacer si Ω es desconocido? ¿Cómo podemos estimarla?
Si tenemos que Ω̂
p−→Ω no tenemos problemas puesto que las propiedades asintóticas se
mantienen para muestras grandes (en el ĺımite), lo que implica que:
β̂MCGF = (X
′Ω̂−1X)−1(X ′Ω̂−1Y )
¿Se puede estimar sin imponer forma funcional de Ω?
Recordemos que E(εε′) = σ2Ω y supongamos, por simplicidad, que σ2 = 1. Realizaremos
el cálculo de Ω̂.
Primero, se obtienen residuos de una regresión auxiliar MCO y se usan de tal manera
que se tiene:
Ω̂ = 1
N
ε̂MCOε̂
′
MCO
p−→Ω
Usando los mismos argumentos anteriores, la varianza asintótica de MCGF es: 1
N
A−1BA−1.
Donde A = plim
(
1
N
X ′Ω̂−1X
)
∧ B = plim
(
1
N
X ′Ω̂−1ε̂MCGε̂
′
MCGΩ̂
−1X
)
siendo estas
estimaciones robustas.
Esto implica que la distribución asintótica de β̂MCGF es:
√
N(β̂MCGF − β) d−→N(0, A−1BA−1)
Esto último bajo las condiciones que E(X ′ǫ) = 0, que Ω es definida positiva y que
E(X ′Ω−1X) es no singular 2. La primera condición es fundamental para establecer laconsistencia del estimador de MCGF.
Si E(X ′Ω−1εε′Ω−1X) = E(X ′Ω−1X) la varianza asintótica de β̂MCGF será:
2Ver condiciones y demostración en J. Wooldridge (2002), “Econometric Analysis of Cross Section
and Panel Data”, MIT Press, Cambridge Londres, Inglaterra, Caṕıtulo 7, Teorema 7.3, pg 160.
78
As.V (β̂MCGF ) =
1
N
Â−1 = (X ′Ω̂−1X)−1
Todo esto con el supuesto que los residuos del modelo de MCO en promedio no son
distintos de los de MCGF. No es necesario, aqúı, asumir un n mas grande para asegurar
convergencia.
5.3. Caso Particular: Heterocedasticidad
Este caso ocurre cuando Ω es diagonal (es decir, le impones una estructura particular al
modelo). En cortes transversales los elementos fuera de la diagonal podŕıan ser cero y
los elementos de la diagonal distintos en el caso de efectos pares (especialmente en edu-
cación), datos agrupados, sistemas con efectos sistémicos (por ejemplo, casos financieros
con activos que tienen riesgo sistémico), etc. Por ejemplo, en el caso de datos agrupados
(como por ejemplo el caso de los clusters), el modelo es de la forma:
yij = x
′
ijβ + εij con i = 1, ..., n ∧ j = 1, ..., mi
donde i indexa al grupo i-ésimo y mi al número de integrantes del grupo i. Además
E(εij) = 0 ∧ V (εij) = σ2. Si observamos sólo los promedios para cada grupo i, es decir
sumamos sobre j, tenemos que:
yi =
1
mi
∑
j
yij ; xi =
1
mi
∑
j
xij ; εi =
1
mi
∑
j
εij
Lo que implica que: var(εi) =
miσ
2
m2i
= σ
2
mi
. En este caso particular tendŕıamos que
Ω = diag{ σ2
mi
}.
Lo que haremos en esta sección será trabajar los casos particulares de heterocedasticidad
multiplicativa y exponencial:
1. Heterocedasticidad Multiplicativa: En los años 80 se modeló de la siguiente
forma:
yi = x
′
iβ + ui donde ui = ciεi
E(εi) = 0 ∧ V (εi) = σ2
c2i = h(ziθ)
79
Tomaremos como ejemplo de referencia el Modelo de Coeficientes Aleatorios
yi = αi + xiβi
E(αi) = α ∧ V (αi) = σ2
E(βi) = β ∧ V (βi) = Γk−1×k−1
Recordemos que en este modelo no hay errores puesto que los coeficientes son
variables en cada observación y por lo tanto estos coeficientes atrapan toda la
heteroegeneidad de las observaciones. Estamos frente a un modelo donde todas las
observaciones se asumen en principio que no tienen elementos comunes (en el caso
de MCO asumı́amos que hab́ıa una constante común a todas las observaciones).
Esto hace, además, que los coeficientes aleatorios tengan correlación con los xi (que
seŕıa por ejemplo en un modelo de educación, donde a mayores habilidades, mayor
αi, implica que estudio mas, mayor xi).
Este modelo no lo podemos estimar puesto que tenemos k×n estimadores. Además
sabemos que cov(αi, βi) = γ. Con una pequeña operación matemática obtenemos:
yi = α + xiβ + ui
Donde ui = (αi − α) + xi(βi − β). Supongamos que los xi son no estocásticos,
entonces:
E(ui) = 0
V (ui) = E(u
2
i ) = E((αi − α)2)︸ ︷︷ ︸
σ2
+x′i E(βi − β)(βi − β)′︸ ︷︷ ︸
Γ
xi + 2cov(xi(βi − β), αi)
V (ui) = σ
2 + x′iΓxi + 2xiγ
Reparametrizando obtenemos:
V (ui) = σ
2(1 + z′iθi)
Que viene de la definición de h, donde para este caso es una función lineal.
2. Heterocedasticidad Exponencial:
σ2i = σ
2 exp{x′iθ}
80
5.4. Test para detectar Heterocedasticidad
H0 : θ = 0
Ha : θ 6= 0
Bajo la nula se cumplen los supuestos de Gauss-Markov (E(ε2i ) = σ
2). La mayoŕıa de los
tests se basan en estimar una regresión auxiliar.
1. ε2i = σ
2 + z′iδ + ri donde ri es un ruido blanco. Este modelo está basado en el
modelo de Coeficientes Aleatorios. Se asume que E(ri|zi) = 0 y V (ri|zi) = τ , es
decir, no hay endogeneidad. Dado que εi es desconocido, obtendremos ε̂i de una
estimación MCO.
2. Estime ε̂2i = σ
2 + z′iδ + ri por MCO. Donde zi contiene a xi y distintas combina-
ciones (que dependen del modelo que se esté trabajando particularmente). En el
fondo, nos estamos preguntando si xi y sus combinaciones ayudan a explicar ε̂i.
Como dijimos anteriormente, podemos hacer esto porque sabemos que dado que
β̂MCGF
p−→β ⇒ ε̂i p−→ ε (en el fondo decimos que la heterocedasticidad no daña
la convergencia en probabilidad). De la estimación mencionada obtenemos el R2.
A partir de esto, alrededor de 1979, Breusch-Pagan proponen el siguiente test:
T = nR2
d→ χ2p=dim{θ}
Cuadro 5.1: Test de Breusch-Pagan
Si R2 es grande, indicaŕıa presencia de heterocedasticidad (donde los zi estaŕıan
explicando en una alta proporción los ε̂i). En este caso se rechazaŕıa la hipótesis
nula. El trasfondo de esto es que estaŕıamos frente a un modelo mal especificado,
donde la heterocedasticidad nos indicaŕıa que los errores contienen alguna combi-
nación de xi (esto último no es lo mismo que endogeneidad, resultado que veremos
mas adelante en el curso).
Por otro lado, alrededor de 1980, White propone muy parecido al test de Breusch y
Pagan pero en lugar de z′s los regresores de la regresión auxiliar son x′s además de
x2 y xi ∗xj inspirado probablemente en el modelo de coeficientes aleatorios. Como
se puede apreciar, el test es muy parecido al de Breusch-Godfrey y sólo difieren en
los regresores de la etapa auxiliar.
Una alternativa a un test de tipo LM es un test F donde mide conjuntamente si
los δ son distintos de cero:
81
T = nR2
d→ χ2p=dim{θ}
Cuadro 5.2: Test de White
F = (n− k) R2/p
1−R2
d→ Fp,n−k
Cuadro 5.3: Test F
Este test se realiza bajo la nula:
H0 : δ = 0 ⇒ 1−R2 ≃ 1
⇒ F = n− k
n
nR2/p
1− R2 ≃ nR
2/p
Como podemos ver, bajo la nula, el Test F es similar al Test de Breusch-Pagan/White.
Esto explota el hecho que cuando n− k crece, tenemos que χ2p ≃ p× Fp,n−k.
Ejemplo: si F(2,71) = 2.05, el valor correspondiente χ22 es 2 × 2,05 = 4,1 y note
que las tail-probabilities son muy parecidas: F(2,71) = 2.05 p = .1363 χ22 = 4.1 p
= .1287
Con n grandes no debeŕıan haber diferencias entre los resultados de los tests.
S = ESS
2σ̂4
Cuadro 5.4: Test LM
Este último test lo obtenemos si asumimos normalidad en los εi. En este test,
ESS =
∑n
i=1[(zi − z)′ δ̂]2 y 2σ̂4 no es mas que el cuarto momento de εi bajo una
distribución normal estándar. El estimador para σ2 propuesto es el estimador MV,
σ̂2 = 1
N
∑
ε2i .
Este test, construido bajo normalidad, fue propuesto por Koenker en 1981 y po-
demos facilmente derivar que:
S
d−→χ2dim{θ}
82
El supuesto de normalidad de εi tiene otra implicancia: el cuarto momento se
relaciona con el segundo momento (al cuadrado)
τ = var(ε2i ) = 2 [var(εi)]
2 = 2σ4
Se puede demostrar entonces que “S” es equivalente al estad́ıstico de Breuch-Pagan.
Cuando no se asume normalidad, tenemos que τ = E(ε4i ) − σ4 y el test LM se
escribe, de forma más general, como sigue
S =
ESS
τ̂
Luego, si rechazamos homocedasticidad podemos quedarnos con nuestro estimador por
MCO y obtener la matriz de varianzas y covarianzas robusta (Eicker-Huber-White que
vimos algunas clases atrás) o seguir el enfoque más estructural e intentar la estimación
por Mı́nimos Cuadrados Ponderados Factibles MCPF que no es más que Mı́nimos Cua-
drados Generalizados Factibles en el caso de heterocedasticidad. En este caso la matriz
de varianzas y covarianzas es diagonal y la cholesky será diagonal también, luego el
estimador MCGF es un estimador de MCPF.
1. Heterocedasticidad Multiplicativa
E(ε2i |Zi) = σ2i = σ2h(Z ′iθ)
Debemos encontrar una manera de estimar θ y usar θ̂ para obtener Ω̂. Los pasos
a seguir se resumen aśı:
(i) Encontrar una manera de estimar “θ”:
=⇒ Estime ε̂2MCO = σ̂2h(Z ′iθ̂) por Mı́nimos Cuadrados No Lineales (MCNL) si
es necesario (h no lineal). En ese caso necesitamos, no sólo que h sea conocida,
sino que además sea diferenciable.
(ii) Reemplazamos Ω̂ = diag
{
h(Z ′iθ̂)
}
en β̂MCGF = (X
′Ω̂−1X)−1X ′Ω̂−1Y
Equivalentemente, si queremos expresarlo como mı́nimos cuadrados pondera-
dos factibles (MCPF), podemos transformar el modelo:
y∗ = yi√
h(Z′iθ̂)
; x∗ = xi√
h(Z′iθ̂)
, y aplicar MCO a este modelo transformado.
La función h(Z ′iθ) se asume conocida, ya que de lo contrario tenemos que usar
métodos semi o no paramétricos para estimar h quees materia de otro curso.
1.1 Modelo de Coeficientes Aleatorios
83
Vimos anteriormente que en el caso del Modelo de Coeficientes Aleatorios, la
estimación por MCO implica que necesariamente el término de error será he-
terocedástico con una forma funcional conocida:
var(εi|Xi) = σ2 + 2X ′iγ +X ′iΓXi
Donde Σ es una matriz de k × k que generará regresores al cuadrado y pro-
ductos cruzados (dobles) entre todos los regresores. La expresión anterior se
puede reparametrizar, escribiéndola como:
var(εi|Xi) = σ2 + σ2
(
2
σ2
X ′iγ +
1
σ2
X ′iΓXi
)
= σ2
(
1 +
2
σ2
X ′iγ +
1
σ2
X ′iΓXi
)
= σ2(1 + Z ′iθ)
Obteniendo aśı la fórmula más general de heterocedasticidad multiplicativa.
Estimamos ε̂2i = σ
2 + Z ′iδ + ri, con E(ri|Zi) = 0, donde δ = σ2θ, luego el
intercepto nos dará un estimador para σ2 lo que implica que theta está iden-
tificado y aśı, tenemos θ̂ y σ̂2. Es decir, nos enfrentamos a MCGF o MCPF.
Sin embargo, cabe notar que podŕıa ocurrir algo muy grave: que el estimador
de σ2 tenga valor negativo. Sin embargo, dado que la variable dependien-
te es definida en los reales no negativos (al ser una función cuadrática), el
intercepto no puede ser negativo, por construcción.
1.2 Heterocedasticidad Exponencial
Aplicando logaritmo y suponiendo independencia entre µi y X no resulta tan
complicado:
εi = µ
2
i exp{X ′iθ}
ln εi = 2 lnµi +X
′
iθ
¿Qué ocurre si µi es independiente de Xi? Apliquemos esperanza:
E[ln (εi)
2|X ] = E[2 lnµi|X ] +X ′iθ
= E[2 lnµi] +X
′
iθ
= α +X ′iθ
Cabe recordar que E[g(x)] =
∫
g(x)f(x)dx. Luego, para nuestro caso parti-
cular:
α = 2
∫
lnµf(µ)dµ
84
De esta manera, podemos estimar la regresión:
ln (ε̂i
2) = α +X ′iθ + ǫi
mediante MCGF o MCPF.
En resumen: existen al menos tres tests equivalentes (asintóticamente) para
detectar la heterocedasticidad (Breuch-Pagan, White y LM). En el caso de
rechazar la nula de homocedasticidad podemos:
• Quedarnos con nuestro estimador por MCO y corregir su matriz de va-
rianzas y covarianzas (Eicker-Huber-White).
• Realizar una estimación por MCGF y para ello necesitamos un estimador
de Ω
• En el caso de heterocedasticidad multiplicativa (con forma funcional co-
nocida): obtener error MCO, estimar parámetros de la estructura de he-
terocedasticidad. Luego transformar el modelo y estimar por MCO el
modelo transformado, u obtener directamente el estimador de MCGF.
Matriz de Varianza Covarianza Consistente
β̂MCGF = (X
′Ω̂−1X)−1X ′Ω̂−1Y
var(β̂MCGF ) = (X
′Ω̂−1X)−1X ′Ω̂−1var(Y )Ω̂−1X(X ′Ω̂−1X)−1
Supongamos que
σ2i 6= σ2h(z′iθ) =⇒ Σ = Ω̂−1var(Y )Ω̂−1
=⇒ var(β̂MCGF ) = (X ′Ω̂−1X)−1X ′Σ̂X(X ′Ω̂−1X)−1
Esto podŕıa llevarnos a usar MCO y, de esta manera, usar la matriz de va-
rianzas y covarianzas robusta de Eicker-Huber-White. Si preferimos seguir
con nuestro estimador MCGF podemos obtener una matriz de varianzas y
covarianzas robusta también.
Sabemos que Ω̂−1 = diag{h(z′iθ̂)}. Y sabemos también que var(Y ) = diag{σ2i }
es diagonal porque estamos en el caso de heterocedasticidad. Luego, tenemos
un producto de matrices diagonales
Σ = Ω̂−1var(Y )Ω̂−1 = diag
{
1
h(x′iθ̂)
}
diag{σ2i }diag
{
1
h(z′iθ̂)
}
Pero la expresión anterior tiene σ2i que son desconocidos. La manera de obte-
ner un estimador es usar la misma estrategia de Eicker-White-Huber, que es
85
reemplazar σ2i por el error estimado. ¿Qué error estimado debeŕıamos usar?
El de MCO lo usamos para estimar θ. Ahora debemos usar el de MCGF
ε̂i = yi − x′iβ̂MCGF
Aśı, obtenemos una estimación de Σ, es decir:
Σ̂ = diag
{
ε̂i
2
h(z′iθ)
2
}
Luego, asintóticamente:
√
n
(
β̂MCGF − β
)
d−→N
(
0, A−1BA
)
Donde A = p ĺım 1
n
(
X ′Ω̂−1X
)−1
y B = p ĺım 1
n
(X ′ΣX)
Por último, sólo cuando σ2i = σ
2h(z′iθ), es decir, si no hay error de especifica-
ción en la estructura de la heterocedasticidad, tenemos que Σ = σ2Ω−1. Y de
esta manera:
√
n
(
β̂MCGF − β
)
d−→N(0, A−1)
que es la fórmula usual.
5.5. Autocorrelación
Segundo caso particular de matriz de varianzas y covarianzas no escalar: Autoco-
rrelación Serial . En este caso, la matriz de varianzas y covarianzas es no escalar
y además no diagonal. Ahora el ı́ndice indexará tiempo y los errores estarán se-
rialmente correlacionados.
yt = xtβ + εt t = 1, 2, . . . , T
Donde covar(εt, εs) 6= 0 =⇒ la matriz de varianza-covarianza tendrá elementos
fuera de la diagonal. La estructura del residuo del modelo se asume estacionaria
86
(es decir, que el 1er y el 2do momento son finitos, que no dependen de t y que la
covarianza entre ǫt y ǫs depende de la diferencia t− s).
Asumiremos un modelo simple, con una estructura de autocorrelación de orden 1
(AR(1)) para los errores, es decir:
εt = ρεt−1 + µt
Donde decimos que µt ∼ iid(0, σ2µ), o que es un ruido blanco (RB).
Estacionariedad en este modelo implica que: ρ ∈ (−1, 1), es decir, vive dentro del
ćırculo unitario. Esto además implica que E(εt) = 0.
Lo podemos verificar fácilmente
E(ǫt) = ρE(ǫt−1) + E(µt)
E(ǫ)(1 − ρ) = 0
E(ǫ) = 0
donde la segunda igualdad viene del supuesto de estacionariedad (primer momento
no depende de t) y del supuesto de que µt es RB. Una manera alternativa es usar
el operador de rezagos L donde Lǫy = ǫt−1. aśı,
εt(1− ρL) = µt ⇐⇒ εt =
µt
1− ρL =⇒ E(εt) =
1
1− ρLE(µt) = 0
Además, var(εt) = E(εt − E(εt))2 = E(ε2t ).
Tenemos que ε2t = ρ
2ε2t−1 + µ
2
t + ρεt−1µt.
Por lo tanto, E(ε2t ) = ρ
2E(ε2t−1) + E(µ
2
t ) + ρE(εt−1µt)
Pero E(ε2t ) = E(ε
2
t−1), y además, E(εt−1µt) = 0, por lo que:
(1− ρ2)E(ε2t ) = E(µ2t )
(1− ρ2)E(ε2t ) = σ2µ
E(ε2t ) =
σ2µ
(1− ρ2)
De esta manera, tenemos que:
var(εt) =
σ2µ
1− ρ
87
Por otro lado, necesitamos encontrar una expresión para covar(εt, εs) = E(εtεs).
Note que εt = ρ
|t−s|εs +
∑|t−s|−1
i=0 ρ
iµt−i, entonces:
E(εtεs) = E
ρ|t−s|εsεs +
|t−s|−1∑
i=0
ρiµt−iεs
= ρ|t−s|
σ2µ
1− ρ2
De esta manera, tenemos que:
var(ε) =
σ2µ
1− ρΩ =
1 ρ ρ2 · · · ρT−1
ρ 1 ρ · · · ρT−2
ρ2 ρ 1 · · · ρT−3
...
...
...
. . .
...
ρT−1 ρT−2 ρT−3 · · · 1
Pero podemos descomponer Ω−1, dado que es una matriz simétrica, en H ′H , con:
H =
√
1− ρ2 0 0 · · · 0
−ρ 1 0 · · · 0
0 −ρ 1 · · · 0
...
...
...
. . .
...
0 0 · · · −ρ 1
Pudiendo aśı transformar el modelo original, siendo Y ∗ = HY , y X∗ = HX ,
tendŕıamos que:
β̂MCG = (X
′Ω−1X)−1X ′Ω−1Y ⇐⇒ β̂MCG = (X∗′X∗)−1X∗′Y ∗
Luego, ¿qué ocurre si hacemos MCO? Ocurre más error tipo I del que quisiéramos,
y resulta ineficiente, dado que:
var(β̂MCO) = (X
′X)−1X ′var(Y )X(X ′X)−1
=
σ2
1− ρ2 (X
′X)−1X ′ΩX(X ′X)−1
Asintóticamente, tendŕıamos que:
88
√
n(β̂MCO − β) d−→N(0, A−1BA−1)
Donde A = plim 1
n
(X ′X) y B = plim 1
n
(X ′Ω−1X)
(
σ2µ
1−ρ2
)
Luego, si el signo de ρ es igual al signo de r, siendo r = covar(xtβ, xt−1β), entonces
R2 de MCO estará sesgado hacia 1 y los errores estándares serán muy pequeños, lo
que significará rechazar más nulas de las que se debiesen rechazar, es decir, mayor
error tipo I.
¿Cómo estimamos ρ?
MCO → Estimamos el residuo → Regresionamos el residuo con su rezago. Es decir:
ρ̂ =
∑T
t=2 ε̂t ˆεt−1∑T
t=2 ˆεt−1
2
Donde ε̂t = yt − x′tβ̂MCO
¿Por qué partimos de t − 2? Dado que tenemos un proceso AR(1), esto significa
que se pierde un dato. Luego, estando frente a un proceso AR(2), se perdeŕıan dos
datos, es decir, partiŕıamos de t = 3, y aśı sucesivamente.
De esta manera, tenemos que la distribución asintótica de ρ̂ se puede escribir:
√
T (ρ̂− ρ) d−→N(0, 1− ρ2)
Donde queda propuesto demostrar que var(ρ̂) = 1− ρ2.
Luego, siendo la hipótesis nula ρ = 0, tendŕıamos que bajo ella:
√
T ρ̂
d−→N(0, 1).
En el caso en que ρ ≈ 1 esta aproximación asintótica no es válida y ρ̂ no es
asintóticamente normal sino que sigue una distribución Dickey-Fuller. Esto lo verán
con detalle en Econometŕıa II.
El test natural para la hipótesis nula de ausencia de autocorrelación es un test-t,
pero este es un test asintóticamente normal. A diferencia de este test, el test por
excelencia para la hipótesisnula de autocorrelación serial de primer orden es el de
Durbin-Watson, que es un test exacto (su distribución es exacta, no asintótica).
89
5.6. Tests de Autocorrelación
Veremos algunos tests clásicos para detectar la presencia de autocorrelación. La hipóte-
sis nula en estos tests será siempre de ausencia de autocorrelación y la alternativa de
presencia de autocorrelación de algún orden. Uno de los tests más difundidos es el de
Durbin y Watson que veremos ahora.
Nuestro modelo será:
yt = xtβ + ǫt t = 1, 2, ..., T. (5.6)
ǫt = ρǫt−1 + µt
5.6.1. Test de Durbin-Watson
La gracia de este test es que su distribución es exacta como se dijo anteriormente, pero
Durbin y Watson no pudieron encontrar una fórmula que no dependiera de los datos,
lo que haćıa imposible obtener valores cŕıticos que no dependan de los datos. Esto hace
imposible tener una tabla única de valores cŕıticos.
Sin embargo, los autores encontraron cotas superiores e inferiores independiente de los
datos y generaron dichas cotas de acuerdo a la significancia del test y de los grados de
libertad. Por otra parte, estas cotas generan zonas de “indefinición” en los cuales el test
es inconclusivo. El test corresponde a:
DW =
∑T
t=2 (ε̂t − ˆεt−1)2∑T
t=2 ε̂t
2
≃ 2(1− ρ̂)
Propuesto: demostrar que DW ≃ 2(1− ρ̂)
Dado esto, tenemos que DW ∈ (0, 4), y su estructura seŕıa la siguiente:
DW → 0 =⇒ ρ → 1 =⇒ Autocorrelación(+)
DW → 4 =⇒ ρ → −1 =⇒ Autocorrelación(−)
Al definir cotas superior e inferior, el test de Durbin-Watson satisface lo siguiente
Pr(DW < dL) ≤ α
Pr(DW > dU) ≤ 1− α
90
luego un test exacto a una cola con significancia α rechazará en favor de autocorrelación
positiva si
H0:ρ = 0
H ′1:ρ > 0 Rechaza si DW < dL
y es inconclusivo cuando dL ≤ DW ≤ dU . Por otra parte y dada la simetŕıa, el test
rechaza en favor de autocorrelación negativa si
H0:ρ = 0
H1:ρ < 0 Rechaza si DW > 4− dL
y es inconclusivo cuando 4 − dU ≤ DW ≤ 4 − dL. Luego, si se está en una zona
inconclusiva podemos usar el test-t (que es asintótico pero equivalente a DW cuando no
es inconcluso) u otro test como Breuch-Godfrey que veremos la próxima clase.
5.6.2. Test de Breusch y Godfrey
Test de Breusch y Godfrey : Este test es una alternativa para testear autocorrela-
ciones de ordenes superiores a 1 y se basa en el test LM introducido anteriormente. La
nula, al igual que en todos los test de autocorrelación, es que los residuos no se encuen-
tran correlacionados. Consideremos para distintos valores de k, el siguiente conjunto de
91
estad́ısticos:
rk =
∑n
t=1 ǫ̂tǫ̂t−k∑n
t=1 ǫ̂
2
t
(5.7)
note que si k=1, entonces estamos en una caso parecido al estad́ıstico DW.
Los pasos para realizar el test son:
1. Estimar el modelo por MCO y obtener los residuos û. El modelo puede incluir
rezagos de la variable dependiente.
2. Estimar una regresión auxiliar de ût sobre p rezagos: ǫ̂t−1, . . . , ǫ̂t−p, incluyendo las
variables exógenas (X) del modelo original. Note que deberá excluir p observacio-
nes.
3. Calcular el R2 de la regresión auxiliar
4. Construir el estad́ıgrafo nR2 ∼ χ2p
5.6.3. Test de Box-Pierce-Ljung (Q-Stat)
Test de Box-Pierce-Ljung (Q-Stat) Este test se basa en el cuadrado de las primeras
p autocorrelaciones de los residuos MCO. El estad́ıgrafo se define como:
Q = n
p∑
j=1
r2j (5.8)
donde:
rj =
∑n
t=j+1 ǫ̂tǫ̂t−j∑
t=1 ǫ̂
2
t
La distribución del estad́ıgrafo bajo la nula de no-autocorrelación es χ2 con grados de
libertad igual a p menos el número de rezagos del error incluidos en la especificación
autorregresiva del error.
5.7. Mı́nimos Cuadrados Generalizados Factibles
Como vimos anteriormente la matriz Ω en presencia de autocorrelación es:
Ω =
1 ρ ρ2 · · · ρT−1
ρ 1 ρ · · · ρT−2
ρ2 ρ 1 · · · ρT−3
...
...
...
. . .
...
ρT−1 ρT−2 ρT−3 · · · 1
92
Se puede demostrar que la matriz H en este caso es:
P =
√
1− ρ2 0 0 · · · 0
−ρ 1 0 · · · 0
0 −ρ 1 · · · 0
...
...
...
. . .
...
0 0 · · · −ρ 1
Entonces utilizando esta matriz H podemos transformar el modelo y aplicar Mı́nimos
Cuadrados Generalizados. Al premultiplicar X e Y por la matriz H tendremos que la
primera observación se transforma de la siguiente forma:
√
1− ρ2y1 = (
√
1− ρ2)x′1β + (
√
1− ρ2)ǫ1 (5.9)
Y para el resto de las (T − 1) observaciones la transformación es la siguiente:
yt − ρyt−1 = (xt − ρxt−1)′β + ǫt − ρǫt−1︸ ︷︷ ︸
ut
(5.10)
El que la primera observación de la muestra tenga un trato especial, es porque para ella
no existe una observación anterior, y por lo tanto, es imposible aplicar la transformación.
5.7.1. El Método de Cochrane Orcutt
La matriz P que transforma nuestro modelo en un modelo libre de autocorrelación en el
error es tal que cada observación de las variables dependientes, explicativas y término
de error, se debe transformar como indicamos. Si es que nuestro modelo es el siguiente:
yt = xtβ + ǫt
ǫt = ρǫt−1 + ut
El modelo transformado es de la siguiente forma:
yt − ρyt−1︸ ︷︷ ︸
y∗t
= (xt − ρxt−1)︸ ︷︷ ︸
x∗t
β + ǫt − ρǫt−1︸ ︷︷ ︸
ut
⇒ y∗t = x∗tβ + ut
menos la primera observación.
El Método de Cochrane-Orcutt es un método iterativo para obtener la estimación de β
y ρ:
1. Estimar por Mı́nimos Cuadrados Ordinarios la regresión de interés, ignorando la
presencia (conocida) de autocorrelación de primer orden en el término de error.
93
2. Utilizar los residuos MCO para estimar el parámetro ρ. Esto puede hacerse me-
diante una regresión de ǫ̂t contra ǫ̂t−1, o a partir del estad́ıstico DW de la estimación
anterior.
3. Utilizar este parámetro ρ̂ para transformar las variables, y obtener y∗t y x
∗
t (pierde
una observación).
4. Estimar por MCO un modelo con las variables transformadas, para obtener un
nuevo vector de coeficientes β.
5. Utilizar esta nueva estimación para computar otro vector de residuos, y utilizar
estos residuos para obtener una nueva estimación de ρ
6. Repetir este procedimiento hasta que los β converjan. Por ejemplo, ||βj − βj−1|| <
10−5.
5.7.2. Prais-Winsten (1954)
El método de MCGF de Prais-Winsten (1954) es igual al método de Cochrane
Orcutt pero evita perder la primera observación transformando:
√
1− ρ2y1 y
√
1− ρ2x1
5.7.3. El método de Durbin
1. Use la transformación
yt − ρyt−1 = (xt − ρxt−1)′β + ut t = 2, .., T
2. Estime la regresión (libre de autocorrelación)
yt = ρyt−1 + xtβ − ρxt−1γ + ut t = 2, .., T
donde γ = −ρβ, obtenga ρ̂.
3. Obtenga el estimador de MCGF:
β̂ = (X ′Ω̂−1X)−1X ′Ω̂−1Y
5.7.4. Estimación por Máxima Verosimilitud
Supongamos que se pretende estimar el modelo de regresión con autocorrelación de
primer orden. Además debemos asumir alguna distribución para εt (recuerde que este
94
es un requisito para poder estimar por máxima verosimilitud). Supongamos que εt se
distribuye N(0, σ2ε). Aśı, la función de verosimilitud es:
L =
(
1
σε
√
2π
)T
· exp
([
−∑Tt=1 ε2t
2σ2ε
])
(5.11)
Recordemos que P es la matriz que transforma ǫt en ut, es decir, εt = Pǫt. La función de
verosimilitud en (7) se puede expresar en función del término de error ut (AR(1)) como
L =
(
1
σǫ
√
2π
)T
·
√
1− ρ2 · exp
([
−(1− ρ2)ǫ21 −
∑T
t=2(ǫt − ρǫt−1)2
2σ2ǫ
])
dado que en este caso el determinante de P (|P |) es
√
1− ρ2.
Finalmente, la función de verosimilitud en función del término de error original autoco-
rrelacionado es:
L =
(
1
σε
√
2π
)T
·
√
1− ρ2 · exp
([−ǫ′Ω−1ǫ
2σ2ǫ
])
(5.12)
La ventaja de este método es que puedo estimar simultáneamente β y ρ.
5.8. Estimación Consistente de Matriz de Varianzas
y Covarianzas
5.8.1. Estimación consistente: Newey y West (1987)
El estimador de Newey-West (1987) es consistente a cualquier tipo de autocorre-
lación. Luego, podemos estimar por MCO (que es consistente) y corregir su matriz de
varianzas y covarianzas con este método.
β̂MCO = (X
′X)−1X ′Y
si V (u) = Σ = σ2Ω
V ar(β̂MCO|X) = (X ′X)−1X ′ΣX(X ′X)−1
luego, √
T (β̂MCO − β) d−→N(0, D−1V D−1)
95
donde
D = plim
1
T
X ′X
V = plim
1
T
X ′ΣX
5.8.2.Estimando Σ: Newey y West (1987)
El estimador consistente de V es:
V̂ = S0 +
1
T
L∑
l=1
T∑
t=l+1
w(l)ǫ̂tǫ̂t−l(xtx
′
t−l + xt−lx
′
t) (5.13)
Donde w(l) = 1− l/(L+ 1) es un ponderador que le da menos peso a las observaciones
cerca de T y L corresponde al orden máximo de autocorrelación del término de error
(que no siempre es fácil de determinar).
S0 =
1
T
T∑
t=1
e2tx
′
txt
Note que sigue la misma idea de Eicker-Huber-White.
5.8.3. Clustered standard errors
Como discutimos anteriormente, FGLS permite una forma espećıfica de correlación (da-
da por la matriz Ω) pero su consistencia dependerá de que esta esté correctamente
especificada. Por otra parte, Newey-West nos entrega un método general de corrección
de Heterocedasticidad y Autocorrelación que implica estimar muchos parámetros fuera
de la diagonal de Ω. Clustering es una solución entre medio de Newey-West y FGLS:
no especifica la forma de la correlación pero le pone un ĺımite, sólo puede existir dentro
de un “cluster” o grupo. Luego, las unidades dentro de un cluster deben compartir algo
en común, ya sea geograf́ıa o incluso ser la misma en distintos momentos del tiempo en
el caso de panel.
Formalizando la idea, suponga tiene datos individuales pero cada individuo m pertenece
a un grupo g
{(ygm, xg, zgm) : m = 1, ...,Mg}
El modelo,
ygm = α + xgβ + zgmγ + vgm
96
con m = 1, ...,Mg y g = 1, ..., G. Además tenemos k regresores grupales (x) y L indivi-
duales (z)Ejemplo: un total de G cursos y Mg alumnos para cada curso g.
El modelo lineal homocedástico asume vgm iid. La corrección de Eicker-Huber-White
permite heterocedasticidad, pero las correlaciones son 0. ¿podemos relajar dicho supues-
to?
Supongamos que dentro de cada grupo E(vgmvgl) 6= 0. Sabemos que OLS seguirá siendo
consistente pero no eficiente. Podemos generalizar Eicker-Huber-White permitiendo que
dichas correalaciones sean distintas de cero. Básicamente procedemos de similar forma,
pero tomando en cuenta que tenemos individuos y grupos.
Supongamos que G es grande. Además supongamos que los regresores son exógenos:
E(vgm|xg, zgm) = 0
Podemos hacer un pooled OLS y el estimador OLS de λ = (α, β ′, γ′) es consistente si
G −→ ∞ y Mg fijo.
Veamos una matriz de varianza y covarianzas robusta. Sea Wg la matriz de Mg × (1 +
K + L) que incluye todos los regresores y todas las observaciones para el grupo g. Sea
yg el vector de Mg × 1 de la variable dependiente para el grupo g. Aśı yg = Wgλ+ vg
note que si apilamos Wg e yg para todos los grupos (y = Wλ+ v), el estimador OLS es
λ̂ = (W ′W )−1W ′y =
(
G∑
g=1
W ′gWg
)−1( G∑
g=1
W ′gyg
)
Luego, la matriz de varianzas y covarianzas de λ̂ es
V ar(λ̂) = (W ′W )−1W ′E(vv′)W (W ′W )−1
Uno podŕıa intentar seguir una alternativa tipo Newey-West (generalización de Eicker-
Huber-White)
V ar(λ̂) = (W ′W )−1W ′v̂v̂′W (W ′W )−1
pero hay un problema: W ′v̂ = 0!!! No podemos rellenar todas las correlaciones E(vivj) =
v̂iv̂j .
Una forma de bypassear ese problema es asumir que muchas covarianzas son cero, luego
al imponer algo que en la muestra no ocurrirá podemos tratar de hacer la fórmula
sandwich.
97
Luego, si asumimos que E(vgv
′
h) = 0 para g 6= h, podemos obtener
V ar(λ̂) =
(
G∑
g=1
W ′gWg
)−1( G∑
g=1
W ′gv̂g v̂
′
gWg
)(
G∑
g=1
W ′gWg
)−1
donde v̂g es el vector Mg × 1 de residuos del pooled OLS para el grupo g.
Esto es factible de estimar dado que supones que E(vgv
′
h) = 0 para g 6= h y el “relleno”
del sandwich no es 0.
Esto es lo que hace STATA cuando usamos el comando cluster (group) donde group
es la variable de grupo.
Es importante destacar que la consistencia de esta matriz ocurre cuando G es grande,
estamos promediando sobre G grupos. Según Bertrand et al. (2004) con 50 funciona bien
(son 50 los estados de USA) pero probablemente 30 sea un número todav́ıa aceptable).
Bajo la nula de homocedasticidad converge a lo mismo que la de Eicker-Huber-White
5.9. Mı́nimos Cuadrados No Lineales
En esta sección haremos los siguientes supuestos:
1. Relajamos que E(y|x, β) es lineal en parámetros.
2. La forma funcional es conocida.
En general, E(y|x, θ)=m(x, θ). Donde, m(x, θ) es conocida y diferenciable.
Ejemplos:
m(x, θ) = θ1 +
θ2x
1 + θ3x
m(x, θ) = θ1 + θ2exp{θ3x}
Se impone la restricción de que m(x, θ) : ℜk x ℜk −→ ℜ. Dado que X es conocido y θ
incógnita:
m(x, θ) : ℜk −→ ℜ
98
5.9.1. Estimación
θ̂MCNL = arg min SN(θ)
donde:
SN(θ) =
1
n
n∑
i=1
(yi −m(x, θ))2
el problema en general es que no existe solución anaĺıtica, ya que la primera derivada
puede ser no lineal. Esto implica que para estimar los parámetros debemos usar métodos
numéricos, obteniendo sólo un valor y no una forma funcional del estimador.
5.9.2. Gauss-Newton (algoritimo)
Dada la continuidad y diferenciabilidad dem(x, θ), podemos aplicar el teorema de Taylor
de primer orden.
Si lo hacemos en torno a θ0, tenemos que:
m(x, θ) ∼= m(xi, θ0) +
∂m(xi, θ)
∂θ
|θ0 (θ − θ0)
Reemplazando en Sn(θ)
Sn(θ) ∼=
1
n
n∑
i=1
[
yi −m(xi, θ0)−
∂m(xi, θ)
∂θ
|θ0 (θ − θ0)
]2
Como es cuadrático en θ, las condiciones de primero orden con respecto a θ son lineales.
CPO : −2
n
n∑
i=1
∂m(xi, θ)
∂θ
′
|θ0
[
yi −m(xi, θ0)−
∂m(xi, θ)
∂θ′
|θ0 (θ − θ0)
]
= 0
Tenemos k incógnitas, luego son k ecuaciones:
n∑
i=1
[
∂m(xi, θ)
∂θ
′
|θ0[yi −m(xi, θ0)]− (θ̂ − θ0)
n∑
i=1
∂m(xi, θ)
∂θ
′
|θ0
∂m(xi, θ)
∂θ
|θ0
]
= 0
De esta manera obtenemos que:
θ̂ = θ0 +
[
n∑
i=1
∂m(xi, θ)
∂θ
′
|θ0
∂m(xi, θ)
∂θ
|θ0
]−1 [ n∑
i=1
∂m(xi, θ)
∂θ
′
|θ0(yi −m(xi, θ0)
]
Aśı vemos que Gauss-Newton es un algortimo iterativo, asi
θ0 = θj−1
99
θ̂MCNL = θ̂j
⇒ θ̂j = θ̂0j−1+
[
n∑
i=1
∂m(xi, θ)
∂θ
′
|θj−1
∂m(xi, θ)
∂θ
|θj−1
]−1
︸ ︷︷ ︸
size
n∑
i=1
[
∂m(xi, θ)
∂θ
′
|θj−1(yi −m(xi, θ0)
]
︸ ︷︷ ︸
step
5.9.3. Pasos del algoritmo
1. Valores iniciales:
a) Teoŕıa
b) Truco: Alterar la función con solución anaĺıtica.
c) Valores de MCO, pero nos podemos equivocar.
d) Graficar la función.
2. Iteración
3. Stopping Rule
a) Absolutas: ||θ0 − θj−1|| < tolerancia, generalmente esta tolerancia es 10−6
para los computadores.
b) relativas:
||θ0−θj−1||
||θj−1|| < tolerancia
5.9.4. Distribución Asintótica
No es dif́ıcil llegar a esta expresión:
√
n(θ̂ − θ) =
[
1
n
n∑
i=1
∂m(xi, θ)
∂θ
′
|θ
∂m(xi, θ)
∂θ
|θ
]−1
1√
n
n∑
i=1
∂m(xi, θ)
∂θ
′
|θ0 [yi −m(xi, θ)]︸ ︷︷ ︸
εi
√
n(θ̂ − θ) d−→N(0, Vθ)
Por simplicidad asumamos que:
mθi =
∂m(xi, θ)
∂θ
|θ̂
Luego,
E(m′θimθi) = E
[
∂m(xi, θ)
∂θ
′∂m(xi, θ)
∂θ
]
100
E(m′θimθiε
2
i ) = E
[
∂m(xi, θ)
∂θ
′∂m(xi, θ)
∂θ
ε2i
]
Luego tenemos que la varianza es
Vθ = (E(mθim
′
θi))
−1(E(mθim
′
θiε
2
i ))(E(mθim
′
θi))
−1
Ahora, definiendo,
[
1
n
n∑
i=1
m̂′θim̂θi
]
=
[
1
n
n∑
i=1
∂m(xi, θ)
∂θ
′
|θ̂
∂m(xi, θ)
∂θ
|θ̂
]
[
1
n
n∑
i=1
m̂′θim̂θiε
2
i
]
=
1
n
n∑
i=1
[
∂m(xi, θ)
∂θ
′
|θ̂
∂m(xi, θ)
∂θ
|θ̂ ε2i
]
la varianza asintótica estimada nos quedará,
V̂θ =
[
1
n
n∑
i=1
m̂′θim̂θi
]−1 [
1
n
n∑
i=1
m̂′θim̂θiε
2
i
][
1
n
n∑
i=1
m̂′θim̂θi
]−1
5.10. Multicolinealidad
La multicolinealidad aparece cuando las variables explicativas en el modelo econométrico
están correlacionadas entre śı. Si la multicolinealidad es exacta, entonces rango(X) < K
y el estimador MCO no existe. En general, estudiaremos la multicolinealidad ”no exacta”.
En ella, el rango(X) = K pero el det(X ′X) es muy bajo y daña la inferencia.
La multicolinealidad es un problema de naturaleza muestral y no tiene una manera única
de ser detectada. Lo que śı tiene son algunas reglas prácticas.
Casos sospechosos de multicolinealidad:
El R2 es alto, pero los parámetros no resultan ser individualmente significativos.
Pequeños cambios en los datos producen importantes variaciones en las estimacio-
nes mı́nimo cuadráticas.
Los coeficientes pueden tener signos opuestos a los esperados o una magnitud poco
créıble.
101
Método para detectar multicolinealidad
(a) Método basado en la correlación entrevariables explicativas:
Una de las consecuencias de la multicolinealidad es que la varianza de los estimadores
es bastante alta (porque (X ′X)−1 es muy pequeño). Si descomponemos la matriz X de
la siguiente forma:
X = [xj ;Xj ]
donde xj es un vector columna correspondiente a la j-ésima variable explicativa y Xj es
una matriz de n× (k−1) con las observaciones de las variables restantes. Entonces X ′X
puede escribirse como
X ′X =
(
x′jxj x
′
jXj
X ′jxj X
′
jxj
)
De esta forma, el elemento (1,1) de (X ′X)−1, de acuerdo a la formula de la inversa por
bloques, es:
[(x′jxj)− x′jXj(X ′jXj)−1(X ′jxj)]−1 = (x′jMjxj)−1
donde Mj = In −Xj(X ′jXj)−1X ′j y donde x′jMjxj corresponde a la suma de los residuos
al cuadrado de una regresión de xj sobre Xj , de esta forma se siente que:
V ar(β̂j) =
σ2u
x′jMjxj
Lo que tiene la siguiente expresión:
V ar(β̂j) =
σ2u
STj(1−R2j )
donde STj es la suma de total al cuadrado (STj =
∑n
i=1(xij−xj)2) y R2j es el coeficiente
R2 de esta misma regresión (con constante).
La varianza de β̂j depende de tres cosas:
(i) La varianza del término de error, que es independiente del grado de correlación
entre las x’s.
(ii) La suma total propia de la variable xj , la que depende sólo de esta variable.
(iii) El coeficiente de determinación R2j , el que si depende del grado de correlación entre
la variable xj y las restantes, es decir, depende del grado de multicolinealidad.
La cota inferior para la varianza de β̂j , cuando R
2
j = 0, es:
V ar(β̂0j ) =
σ2u
STj
102
Por lo que la relación entre las varianzas de la estimación de βj en un caso de correla-
ción entre variables explicativas y el caso de independencia es el Variance Inflation
Factor
V IF =
V ar(β̂j)
V ar(β̂0j )
=
1
1−R2j
EJEMPLO 1: si V IF = 9 para j, el error estándar es 3 veces mayor que el caso con
V IF = 1. El test-t queda dividido por 3.
De acuerdo con este análisis, los coeficientes de determinación obtenidos en las regre-
siones de cada variable explicativa con el resto son un buen indicador de una posible
situación de multicolinealidad.
(b) Método basado en el tamaño de la matriz X’X:
Cuando tenemos multicolinealidad la matriz X’X es casi singular, de esta manera una
medida de tamaño de esta matriz nos permite detectar la presencia de multicolinealidad.
El determinante no es una medida buena, ya que tiene problemas de sensibilidad a los
cambios de unidades. Pero sabemos que el determinante de una matriz simétrica es igual
al producto de sus valores propios, y por lo tanto el examen de estos valores nos da una
idea del tamaño de la matriz.
De esta forma, Belsey propone la siguiente medida para ver el grado de multicolinealidad:
γ =
√
λmax
λmin
Esta medida se denomina número de condición de la matriz X, y números de este
indicador mayores a 25 o 30 suelen considerarse problemáticos.
Los λ’s corresponden a los valores propios de la matriz B = S(X ′X)S, donde S es la
siguiente matriz diagonal:
H =
1√
x′2x2
0 · · · 0
0 1√
x′3x3
0
...
... 0
. . . 0
0 · · · 0 1√
x′kxk
Esta matriz nos permite librarnos del problema de unidad en el tamaño de los valores
propios, ya que normaliza cada una de las variables al dividir todas las observaciones
por la ráız de la norma euclidiana.
El número de condición de la matriz X(γ) implica que mientras mayor es este valor,
el valor de λmin es realmente pequeño al compararlo con λmax, indicando el potencial
problema de multicolinealidad.
103
La solución más sencilla es eliminar de la regresión las variables que se sospeche son la
causa de la multicolinealidad. Obviamente de este método surge problemas de especifi-
cación, como la omisión de variables relevantes.
Una alternativa es usar el estimador de “ridge” :
β̂r = (X
′X + λI)−1X ′Y
Donde λ > 0 es un parámetro que ayuda a corregir el problema. Este estimador es
sesgado pero posee menor varianza que el estimador MCO.
Note que
E[β̂r|X ] = (X ′X + λI)−1X ′Xβ
y su varianza condicional está dada por:
V ar(β̂r|X) = σ2(X ′X + λI)−1X ′X(X ′X + λI)−1
Note que
E[β̂r|X ] = (X ′X + λI)−1X ′Xβ
y su varianza condicional está dada por:
V ar(β̂r|X) = σ2(X ′X + λI)−1X ′X(X ′X + λI)−1
104
Caṕıtulo 6
Técnicas de remuestreo y errores
estándar
En esta sección veremos algunas técnicas de remuestreo que nos proveen un método
alternativo de inferencia que la teoŕıa asintótica. Probablemente usted ya habrá escu-
chado hablar del Bootstrap. En esta sección veremos el método clásico que se conoce
como Bootstrap No-Paramétrico desarrollado por Efron (1979). También veremos algu-
nas variantes tanto paramétricas como no paramétricas.1
6.1. The Bootstrap
Sea F la distribución conjunta de las observaciones (yi, xi). Sea
Tn = Tn((y1, x1), ..., (yn, xn))
un estad́ıstico de interés. Por ejemplo puede ser un estimador θ o un test-t
(
θ̂−θ
SE(θ)
)
. El
estad́ıstico depende de una u otra manera de F .
La cdf exacta de Tn cuando los datos son “sampleados” de la distribución F es:
Gn(u, F ) = Pr(Tn ≤ u|F )
En general Gn(u, F ) depende de F , lo que implica que G cambia cuando cambia F .
Idealmente nos gustaŕıa poder hacer inferencia basada en Gn(u, F ). Esto es generalmente
imposible, puesto que F es desconocido.
1Esta sección sigue muy de cerca las notas de econometŕıa de Bruce Hansen.
105
Las aproximaciones asintóticas antes vista se basan en aproximar Gn(u, F ) con
Gn(u, F ) = ĺım
n→∞
Gn(u, F )
Cuando G(u, F ) = G(u) no depende de la F decimos que Tn es asintóticamente “Pivoté”
o “Pivote”, y usamos la distribución G(u) para hacer inferencia.
Efron (1979) propone el bootstrap que hace una aproximación distinta. La cdf desco-
nocida, F , es reemplazada por un estimador consistente Fn. Si reemplazamos Fn por F ,
obtenemos
G∗n(u) = Gn(u, Fn)
Llamemos a G∗n(u) la “distribución bootstrap”. La inferencia basada en G
∗
n(u) es infe-
rencia alternativa a la teoŕıa asintótica.
Sea (y∗i , x
∗
i ) una variable aleatoria con distribución Fn. Una muestra aleatoria con dicha
distribución se llama “Bootstrap Data” .
El estad́ıstico T ∗n = Tn((y
∗
1, x
∗
1), ..., (y
∗
n, x
∗
n), Fn) construido con esta “Bootstrap Data” es
una variable aleatoria con distribución G∗n(u).
Llamemos a T ∗n un estad́ıstico de Bootstrap.
6.2. Función de distribución emṕırica
Recuerde que
F (y, x) = Pr(yi ≤ y, xi ≤ x)
= E(1{yi≤y}, 1{xi≤x})
Donde 1. es una función indicadora. El método de los momentos nos dice que igualemos
a los cocientes muestrales, aśı:
Fn(y, x) =
1
n
n∑
i=1
1{yi≤y}1{xi≤x}
Fn(y, x) es la función de distribución Emṕırica (EDF)
Fn es un estimador no paramétrico de F . Note que F puede ser discreta o continua, pero
Fn es una step function.
La gracia es que la EDF es un estimador consistente de la CDF. De hecho note que
106
∀(y, x); 1{yi≤y} · 1{xi≤x} es una variable aleatoria i.i.d, cuya esperanza es F (y, x), luego
por WLLN, tenemos que:
Fn(y, x)
p−→F (y, x)
Es más, la naturaleza Bernoulli de 1{yi≤y} · 1{xi≤x} nos dice que:
V ar(1{yi≤y} · 1{xi≤x}) = F (y, x)(1− F (y, x))
⇒ por CLT L-L,
√
n(Fn(y, x)− F (y, x)) d−→N (0, F (y, x)(1− F (y, x)))
Importante: la EDF es una distribución de probabilidad discreta y válida, que pone
igual probabilidad 1
n
para cada par (yi, xi), i = 1, ..., n
EJEMPLO 1: Si (y∗i , x
∗
i ) es un para aleatorio con distribución Fn, i.e., Pr(y
∗
i ≤ y, x∗i ≤
x) = Fn(y, x)
Podemos calcular momentos de funciones de (y∗i , x
∗
i ) con relativa facilidad
E(h(y∗i , x
∗
i )) =
n∑
i=1
h(yi, xi)Pr(y
∗
i = yi, x
∗
i = xi)︸ ︷︷ ︸
1/n
=
1
n
n∑
i=1
h(yi, xi)
El promedio muestral emṕırico.
6.3. Bootstrap No-Paramétrico
El bootstrap no paramétrico se obtiene cuando la distribución G∗n(u) = Gn(u, Fn) se
define usando la EDF: Fn(y, x) =
1
n
∑n
i=1 1{yi≤y} · 1{xi≤x}, como un estimador de F .
Dada la EDF, Fn, es en esencia una distribución multinomial (con n puntos de soporte).
Note que un trial de una multinomial es lo mismo que un trial de una binomial obernoulli. Luego, para un par (y∗i , x
∗
i ) teńıamos una bernoulli, para n pares tenemos una
multinomial. Luego, en principio la distribución G∗n(u) se podŕıa calcular por métodos
directos (método de la transformada, es decir, una transformación conocida de variables
aleatorias con distribución conocida) lo cual es en general implausible.
Una alternativa es generar muestras a partir de la EDF (que es un estimador consistente
de F) y obtener aśı la distribución G∗n(u). Sin embargo, dado que hay (2n−1)!/(n!(n−1)!)
muestras posibles {(y∗1, x∗1), ..., (y∗n, x∗n)}, ese cálculo es no factible.
107
Luego, en lugar de calcular (2n − 1)!/(n!(n − 1)!) realizaciones de la EDF lo haremos
para un número grande pero acotado. Aśı, el método puede parecer conceptualmente
complejo pero es sencillo de implementar:
1. Genere B muestras de bootstrap de tamaño n (esto equivale a muestrear la EDF
que pone la misma masa de probabilidad a cada par, 1/n. Dado eso, esto equivale
a hacer una muestra aleatoria simple con reemplazo para generar cada una de las
B muestras).
2. Calcule el estad́ıstico de bootstrap para cada una de las B muestras.
T ∗n = Tn((y
∗
1, x
∗
1), ..., (y
∗
n, x
∗
n), Fn)
Andrews y Budinsky (2000) sugieren como calcular B, pero t́ıpicamente B = 1000
es suficiente.
3. Obtenga el sesgo, varianza e intervalos de confianza para su estad́ıstico Tn a partir
de los B valores de su estad́ıstico de bootstrap T ∗n .
6.4. Estimación del sesgo y varianza via Bootstrap
Sesgo: Suponga que tenemos un estimador θ̂, el sesgo de θ̂ lo expresamos:
τn = E(θ̂ − θ0) (sesgo)
Sea Tn(θ) = θ̂ − θ, luego τn = E(Tn(θ0)).
La contraparte del bootstrap es:
θ̂∗ = θ̂((y∗1, x
∗
1), ..., (y
∗
n, x
∗
n)) y
T ∗n = θ̂
∗ − θ̂
El estimador del sesgo via bootstrap es τ ∗n = E(T
∗
n). Aśı,
τ̂ ∗n =
1
B
B∑
b=1
T ∗nb
τ̂ ∗n =
1
B
B∑
b=1
(θ̂∗b − θ̂) = ¯̂θ∗ − θ̂
108
Luego si θ̂ es sesgado podemos querer calcular un estimador biased-corrected . Ideal-
mente
θ̃ = θ̂ − τn
Pero τn es desconocido. Luego, el estimador biased-corrected mediante bootstrap es:
θ̃∗ = θ̂ − τ̂ ∗n
= θ̂ − (¯̂θ∗ − θ̂)
= 2θ̂ − ¯̂θ∗
Varianza: Sea Tn = θ̂, la varianza de θ̂ es:
Vn = E(Tn − E(Tn))2
Sea T ∗n = θ̂
∗, este tiene varianza:
V ∗n = E(T
∗
n − E(T ∗n))2
La estimación mediante bootstrap es:
V̂ ∗n =
1
B
B∑
b=1
(θ̂∗b − ¯̂θ∗)2
∴ Un error estándar bootstrap para θ̂ es:
SE∗(θ̂) =
√
V̂ ∗n
Si bien este error estándar puede ser calculado no siempre es muy útil. Generalmente
nos interesa construir intervalo de confianza mediante bootstrap (no tenemos que asumir
normalidad)
6.5. Intervalos de Confianza con Bootstrap
6.5.1. Método del percentil
Para una distribución Gn(u, F ) sea qn(α, F ) un cuantil, la función que satisface
Gn(qn(α, F ), F ) = α
109
Si tenemos contrapartes de bootstrap q∗n(α, F ) = q
∗
n(α), a un (1 − α)%, el intervalo
de confianza de EFRON para Tn = θ̂ es
C1 = [q
∗
n(α/2), q
∗
n(1− α/2)]
Este se conoce como el método del percentil y es muy popular en el trabajo emṕıri-
co a pesar que no está muy bien motivado, pero tiene la ventaja de ser invariante a
transformaciones monotónicas.
Para hacer el intervalo de confianza, el método recomendado por Efron (1979) es el
siguiente:
1. Estime qn(α, F ) mediante bootstrap, obteniendo
q∗n(α, Fn) = q
∗
n(α)
2. Si Tn = θ̂, se debe construir el intervalo de confianza en base a la emṕırica
C1 = [q
∗
n(α/2); q
∗
n(1− α/2)]
Este es el método del percentil, con un intervalo de confianza al (1 − α)%. Este
método es tan simple e intuitivo que se puede entender simplemente como “cortar las
colas” de la distribución.
A pesar de lo intuitivo del método, no tiene una motivación estad́ıstica potente, ni un
punto de conexión con la teoŕıa tradicional de intervalos de confianza. Puede establecerse
una forma de obtener el intervalo de confianza con una mayor presencia de conceptos
estad́ısticos a los que estamos acostumbrados.
Motivación alternativa
Sea Tn = θ̂ − θ y qn(α) el cuantil α de Tn (luego es el cuantil anterior pero desplazado
hacia la izquierda en θ). Estime q∗n(α) por bootstrap y construya el intervalo de confianza
de la siguiente manera:
C1 =
[
θ̂ + q∗n(α/2); θ̂ + q
∗
n(1− α/2)
]
Recuerde que T ∗n = θ̂
∗ − θ̂, lo que explica por qué se suma θ̂, para compensar lo que
hab́ıa sido desplazado. Esto se acerca más a lo que estamos acostumbrados, en el sentido
que tenemos nuestro estimador más/menos algo. Esto se genera ya que obtenemos el
110
cuantil de T ∗n y podemos reconstruir para θ. Esto sigue siendo el método del percentil,
pero con una motivación distinta.
C1 es la contraparte bootstrap del intervalo teórico
C01 =
[
θ̂ + qn(α/2); θ̂ + qn(1− α/2)
]
La probabilidad de cobertura será
Pr(θ0 ∈ C01) = Pr[θ̂ + qn(α/2) ≤ θ0 ≤ θ̂ + qn(1− α/2)]
= Pr[−qn(1− α/2) ≤ θ̂ − θ0 ≤ −qn(α/2)]
= Gn(−qn(α/2), F0)−Gn(−qn(1− α/2), F0)
¿Es esto igual a 1− α? Por lo general, no lo será. Sólo lo será cuando Gn es simétrica.
Si Gn es simétrica entonces
Gn(−u, F ) = 1−Gn(u, F ) ∀u
Si esto se cumple, entonces
Pr(θ0 ∈ C01) = (1−Gn(qn(α/2), F0))− (1−Gn(qn(1− α/2)))
Teńıamos que el punto de soporte era qn(α, F ) para un cuantil α, o sea
Gn(qn(α, F ), F ) = α
Aplicando eso, tenemos
Pr(θ0 ∈ C01 ) = (1− α/2)− (1− (1− α/2))
= 1− α/2− α/2
= 1− α
Sólo funciona con Gn simétrica
Este es el primer método que sugiere Efron en 1979. Sólo se puede utilizar si la distri-
bución es simétrica y el estimador es insesgado. Existe un método alternativo, el cual es
el método de Hall, que resuelve el problema de simetŕıa.
6.5.2. Método de Hall
Sea Tn(θ) = θ̂ − θ. Sea qn(α) el cuantil α de Tn. La probabilidad de que qn(α/2) ≤
Tn(θ0) ≤ qn(1− α/2) es:
Pr[qn(α/2) ≤ Tn(θ0) ≤ qn(1− α/2)] = 1− α
111
Si reemplazamos Tn(θ0) por Tn(θ0) = θ̂ − θ0
Pr[qn(α/2) ≤ θ̂ − θ0 ≤ qn(1− α/2)] = 1− α
Pr[θ̂ − qn(1− α/2) ≤ θ0 ≤ θ̂ − qn(α/2)] = 1− α
¿Es esto factible? No, no lo es porque no conocemos la distribución F . Sólo podemos
establecer el intervalo teórico que proviene de la expresión anterior como
C02 = [θ̂ − qn(1− α/2); θ̂ − qn(α/2)]
Es tal como lo anterior, un intervalo no factible porque no conocemos F . Sin embargo,
podemos estimar F mediante bootstrap.
C∗2 = [θ̂ − q∗n(1− α/2); θ̂ − q∗n(α/2)] Y C1 6= C2 generalmente
C1 será igual a C2 si G
∗
n(u) es simétrica con respecto a θ̂.
En éste método, por construcción podemos establecer que Pr[θ̂ − qn(1 − α/2) ≤ θ0 ≤
θ̂− qn(α/2)] = 1−α. En el método de Efron, no se pod́ıa decir ni siquiera teóricamente
que este resultado era alcanzable. En la práctica, ambos métodos se manejan por igual.
Computacionalmente hablando:
1. Estime T ∗n = θ̂
∗ − θ̂ (B replicaciones, ej. B = 1,000) donde θ̂∗ es una realización
del estimador para una muestra de bootstrap. Luego tendremos B de ellos.
2. Ordénelos de menor a mayor: {T ∗n1, T ∗n2, ..., T ∗nB}
3. Obtenga q∗(α/2) y q∗(1−α/2) cortando las colas. Ejemplo: si α = 5% y B = 1,000
q∗(0, 025) = T ∗n,25
q∗(0, 975) = T ∗n,975
4. Construya C2 con esos valores.
6.5.3. Percentile-t Equal-tailed Interval
Suponga que queremos testear la siguiente hipótesis a una cola
H0 : θ = θ0
H1 : θ < θ0
112
a un α%. Como se puede observar, esto es un test a una cola con una zona de rechazo
impĺıcita en la cola izquierda. Constrúımos el estad́ıstico t
Tn(θ) =
θ̂ − θ
SE(θ̂)
Un test basado en dicho estad́ıstico rechaza cuando Tn(θ) < c, con c valor cŕıtico.
¿Cómo se obtiene c? Necesitamos obtener un cuantil que acumule α%. Entonces, elegi-
mos c tal que
Pr(Tn(θ0 < c) = α
⇒ c = qn(α, F ) = qn(α)
Pero F es desconocido. Podemos estimarlo mediante bootstrap. Luego, se rechaza si
T ∗n(θ) < q
∗
n(α). Esto nos da pie para invertir el test y formar un intervalo de confianza.
Tomar en cuenta que
T ∗n(θ) =
θ̂∗ − θ̂
SE(θ̂∗)
Construyamos un intervalo de confianza2
Pr[qn(α/2) ≤ Tn(θ0) ≤ qn(1− α/2)] = 1− α
Este resultado se da por construcción, sin asumir simetŕıa. Esto es similar al caso ante-
rior, salvo que el Tn(θ0) es distinto
Pr
[qn(α/2) ≤
θ̂ − θ0
SE(θ̂)
≤ qn(1− α/2)
]
= 1− α
Pr[θ̂ − SE(θ̂)qn(1− α/2) ≤ θ0 ≤ θ̂ − SE(θ̂)qn(α/2)] = 1− α
El intervalo teórico (no factible) queda
C03 = [θ̂ − SE(θ̂)qn(1− α/2); θ̂ − SE(θ̂)qn(α/2)]
Pero sabemos que podemos tener una estimación desde la emṕırica. Luego, la contraparte
bootstrap de esto último es
C3 = [θ̂ − SE(θ̂)q∗n(1− α/2); θ̂ − SE(θ̂)q∗n(α/2)]
Nótese que estamos utilizando los errores estándar ordinarios (no bootstrap). El nom-
bre “Equal-tailed” se le da porque la probabilidad de estar a la izquierda de θ̂ −
SE(θ̂)q∗n(1 − α/2) es aproximadamente igual a la probabilidad de estar a la derecha de
θ̂ − SE(θ̂)q∗n(α/2).
2Para dos colas. En un test de una cola, se tiene una región de confianza. El link entre test a una
cola e intervalos de confianza seŕıa intersectar 2 regiones de confianza: {H1 : θ < θ0;H1 : θ > θ0}
113
6.5.4. Symmetric Percentile-t Interval
Sea H0 : θ = θ0, H1 : θ 6= θ0 un test a α%. Armamos el estad́ıstico t:
Tn(θ) =
θ̂ − θ
SE(θ̂)
que rechaza si |Tn(θ)| > c. ¿Cómo obtenemos el valor de c? Lo podemos obtener de
resolver la siguiente ecuación:
Pr(|Tn(θ)| > c) = α (6.1)
Pero no conocemos (aún) la distribución de |Tn(θ)|. El módulo nos pone un problema
adicional: la distribución de Tn(θ) es Gn(θ). Sin embargo la distribución de |Tn(θ)| no la
conocemos Este problema no es tan complicado de resolver. Note que
Pr(|Tn(θ)| < c) = 1− α
Pr(−c < Tn(θ0) < c) = 1− α
Gn(c)−Gn(−c) = 1− α
Gn(c) = 1− α
donde Gn(c) = Gn(c)−Gn(−c) es la distribución de una distribución simétrica. Ahora
podemos obtener c = qn(α) donde qn(α) es el cuantil 1 − α de la distribución Gn. (No
es exactamente la mejor notación, pero es la que usa Bruce Hansen).
Luego, la estimación mediante bootstrap de q∗n(α) se obtiene de ordenar de menor a
mayor las estimaciones bootstrap del test-t, |T ∗n | = |θ̂∗ − θ̂|/SE(θ̂∗) tomando el cuantil
1−α. Note que tomamos dicho cuantil y no 1−α/2 porque al tener un valor absoluto la
distribución está evaluada en los reales positivos y dicho cuantil acumula las dos zonas
de rechazo “si la distribución fuese simétrica” en una sola zona, en este caso.
C4 = [θ̂ − SE(θ̂)q∗n(α); θ̂ − SE(θ̂)q∗n(α)]
y claramente el test-t bootstrap rechaza si |Tn(θ0)| > q∗n(α). Por último note que este
intervalo está diseñado para funcionar “bien” y su probabilidad de cobertura es:
Pr(θ0 ∈ C4) = Pr[θ̂ − SE(θ̂)q∗n(α) < θ0 < θ̂ − SE(θ̂)q∗n(α)]
= Pr[|Tn(θ0)| < q∗n(α)]
≃ Pr[|Tn(θ0)| < qn(α)]
= 1− α
Si no tenemos certeza de la simetŕıa de la función de distribución, este método es prefe-
rible sobre los anteriores.
114
6.6. Bootstrap en el modelo de regresión lineal
El modelo de regresión lineal en su forma más cŕıptica se puede expresar de la siguiente
manera
yi = x
′
iβ + ei, E(ei|xi) = 0
Si quisiéramos hacer inferencia sobre β mediante bootstrap usaŕıamos el método de
bootstrap no-paramétrico, que es lo que hemos visto hasta ahora. Este método remues-
trea pares (y∗i , x
∗
i ) de la EDF e impĺıcitamente impone E(e
∗
ix
∗
i ) = 0. No obstante, esto
no garantiza E(e∗i |x∗i ) = 0. Luego, la distribución de bootstrap no impone los supuestos
del modelo de regresión lineal y, por lo tanto, es un estimador ineficiente de la verdadera
distribución cuando los supuestos del modelo de regresión se cumplen.
Un manera de lograr el supuesto de media condicional es imponer independencia de los
errores y los regresores remuestreados pero es un supuesto más fuerte que lo necesario.
Primero note que la lógica del bootstrap aqúı es obtener e∗i y x
∗
i de la EDF, lo cual nos
obliga a tener una estimación de los errores para aśı generar y∗i = x
∗
i β̂ + e
∗
i . Note que
también necesitamos un estimador de β que en este caso será el de MCO.
Existen varias formas de imponer independencia pero todas requieren remuestrear de
distribuciones del error y de los regreseres independientes.
Para generar los errores:
No paramétricamente: obtenga los errores bootstrap e∗i remuestreando de los erro-
res obtenidos mediante MCO êi.
Paramétricamente: genere errores bootstrap de una distribución paramétrica, por
ejemplo N (0, σ̂2).
Para los regresores:
No parámetricamente: obtenga x∗i remuestreando de la EDF o, en palabras senci-
llas, remuestreando de {x1, x2, ..., xn}..
Paramétricamente: genere regresores bootstrap de una distribución paramétrica,
por ejemplo N (x̄, V ar(x)).
Fije: x∗i = xi, lo que equivale a tratar a los regresores como fijos en muestras
repetidas. Todo el análisis será condicional en x, lo que es válido en estad́ıstica.
Los métodos anteriores generarán errores independientes de los regresores y funcionan
bajo el supuesto de homocedasticidad. Existe un método relativamente nuevo que logra
un supuesto más débil que E(e∗i |x∗i ) = 0 y además permite heterocedasticidad.
115
6.6.1. Wild Bootstrap
Es un método particular que construye la distribución condicional de e∗i tal que
E(e∗i |xi) = 0
E(e∗2i |xi) = ê2i
E(e∗3i |xi) = ê3i
Una distribución condicional con esas caracteŕısticas preservará las caracteŕısticas más
importantes de los datos. Dicha distribución se puede obtener con una distribución con
sólo dos puntos de masa:
P
(
e∗i =
1 +
√
5
2
êi
)
=
√
5− 1
2
√
5
P
(
e∗i =
1−
√
5
2
êi
)
=
√
5 + 1
2
√
5
En castellano, esto nos dice que cada error bootstrap será el error de MCO pero ajustado
por (1 −
√
5)/2 con probabilidad p = (
√
5 − 1)/2
√
5 o (1 +
√
5)/2 con probabilidad
1− p =
√
5 + 1)/2
√
5. Note que esta es una distribución bernoulli.
Para implementar eso Ud. puede generar números aletorios de una distribución uniforme
[0, 1] y debe “invertirlos” para generar esta distribución. Esta inversión es particular
porque es no lineal pero muy sencilla. Aśı, para u < ((
√
5 − 1)/2
√
5) multiplica êi por
(1 +
√
5)/2 y para u ≥ ((
√
5− 1)/2
√
5) multiplica êi por (1−
√
5)/2.
116
Caṕıtulo 7
Endogeneidad
7.1. Introducción
El análisis de datos con regresores endógenos (variables explicativas observables corre-
lacionadas con términos de error no observables) es, probablemente, la contribución
fundamental de la econometŕıa a la ciencia estad́ıstica. No se puede concebir un curso de
econometŕıa sin el tópico de endogeneidad, razón por lo cual dedicaremos parte impor-
tante de este curso en analizar modelos paramétricos y no paramétricos con regresores
endógenos.
Mientras la “endogeneidad” puede surgir de distintas fuentes como: regresores con
error de medida, selección muestral, efecto tratamiento heterogéneo, efectos aleatorios
correlacionados en modelos de panel, etc., el término apareció primeramente en el con-
texto de ecuaciones simultaneas, por ejemplo, ecuaciones de oferta y demanda. En esta
sección nos concentraremos en el caso en que existe una ecuación lineal de interés, llama-
da la ecuación estructural y alguno de los regresores está correlacionado con el término
de error. Más adelante generalizaremos este análisis al caso de ecuaciones no lineales y
no paramétricas en general.
7.1.1. Ecuaciones estructurales
Considere el siguiente modelo lineal:
y = xβ + u
donde (y,x) representa una observación de dimensión (1 × (k + 1)), β es un vector de
paramétros conformable y u es un término de error no observable.1
1Note que esta notación no es matricial, la notación matricial que usaremos será usando letras
mayúsculas, aśı: Y = Xβ+U . Cuando usamos letras minúsculas estamos hablando de una observación.
117
El supuesto de identicación fundamental de Mı́nimos Cuadrados Ordinarios es que las
variables explicativas no estén correlacionadas con el término de error, esto es:2
E(x′u) = 0
Note que el parámetro poblacional β puede ser expresado en momentos de las variables
observables explotando el supuesto recién presentado:
x′y = x′xβ + x′u
tomando valor esperado tenemos que:
β = E(x′x)−1E(x′y)
Dado que (y,x) es observable, β es identificado. El principio de la analoǵıa o analogy
principle para escogerun estimador dice que transformemos los momentos poblacionales
en momentos muestrales (Goldberger (1968), Manski (1968)). Haciendo eso, obtenemos
el estimador MCO:
β̂MCO =
[
1
n
n∑
i=1
x′ixi
]−1 [
1
n
n∑
i=1
x′iyi
]
≡ (X ′X)−1X ′Y
7.1.2. Endogeneidad y Variables Instrumentales (Id. exacta)
Cuando se viola el supuesto de exogeneidad de las variables explicativas con respecto al
término de error, Las variables x incluyen un subconjunto de variables que son endógenas
lo que significa que:
E(x′u) 6= 0
esto genera un problema de identificación. No es posible encontrar una expresión del
parámetro poblacional β en función de momentos poblacionales de variables observables
a no ser que contemos con otro set de variables z que cumpla las siguientes condiciones:
E(z′u) = 0 (7.1)
E(z′x) 6= 0 (7.2)
Note que impĺıcitamente estamos asumiendo que el producto z′x es conformable, luego
este caso implica que el orden de la matrices es el mismo. Note que con esta nueva
Los vectores los ennegrecemos para no confundirlos con escalares.
2En palabras simples, que un parámetro esté identificado significa que éste puede ser expresado en
momentos poblacionales de (funciones) variables observables.
118
variable podemos proceder de la misma manera que lo hicimos para MCO. Podemos
pre-multiplicar la ecuación estructural por z′ y obtener un sistema de ecuaciones:
z′y = z′xβ + z′u
y por lo tanto obtemos el siguiente sistema de ecuaciones:
E(z′x)β = E(z′y) (7.3)
donde E(z′x) es de orden K ×K y E(z′y) es de orden K × 1. Por lo tanto, la ecuación
(7.3) representa un sistema de K ecuaciones con K incógnitas dadas por β1, β2, ..., βK .
Este sistema tiene solución única si la matriz E(z′x) es invertible, lo cual sucede si el
rango de esta es completo e igual a k.
β = E(z′x)−1E(z′y) (7.4)
Luego, si tenemos una muestra aleatoria (yi, xi, zi) y siguiendo el principio de la analoǵıa
tenemos que el estimador de variables instrumentales está dado por:
β̂IV =
[
1
n
n∑
i=1
z′ixi
]−1 [
1
n
n∑
i=1
z′iyi
]
≡ (Z ′X)−1Z ′Y
Cuando buscamos instrumentos para una variable endógena, los supuestos (7.1) y (7.2)
son igualmente importantes para identificar β. Sin embargo, hay una diferencia, el su-
puesto (7.1) no puede ser testeado y debe ser mantenido. La razón de esto es bien simple:
no observamos u como para realizar un test. Por otra parte, el supuesto (7.2) puede y de-
be ser testeado. Más adelante veremos que es relativamente sencillo hacerlo y no requiere
más tecnoloǵıa que un test-t o F. Cuando la correlación de las variables instrumenta-
les con las endógenas es pequeña se dice que estamos en presencia de instrumentos
débiles o weak instruments .
7.1.3. Consistencia y Normalidad Asintótica
La consistencia de este estimador sigue de la ecuación (7.4) y de alguna ley de grandes
números.3 Note que podemos escribir el estimador de variables instrumentales como
sigue:
β̂IV = β +
[
1
n
n∑
i=1
z′ixi
]−1 [
1
n
n∑
i=1
z′iui
]
3El caso más sencillo es usar la ley débil de Kolmogorov I para lo cual necesitamos que la muestra
sea aleatoria simple y acotar primer y segundo momento.
119
Luego, se deduce claramente que plimβIV = β por álgebra de plims y la ley débil de
los grandes números o Weak law of large numbers (WLLN). Ahora, podemos generar la
expresión t́ıpica ajustada por
√
n:
√
n(β̂IV − β) =
[
1
n
n∑
i=1
z′ixi
]−1 [
1√
n
n∑
i=1
z′iui
]
donde el primer término del lado derecho de la ecuación convergerá a E(z′x) = Mzx
por WLLN y el segundo término converge en distribución a una Normal por el Teorema
central del ĺımite (CLT), en particular Lindeberg-Levy. Veamos un poco en detalle el
segundo término:
1√
n
n∑
i=1
z′iui
d−→N (0, V0)
donde V0 = E(u
2z′z). Por lo tanto, por WLLN y CLT tenemos que
√
n(β̂IV − β) d−→N (0,M−1zx V0(M−1zx )′)
Luego, para obtener un estimador de la varianza debemos usar el sample analog de Mzx
que es trivial y un estimador para V0. Este puede ser el de Eicker y White (para datos
sin autocorrelación serial) o Newey-West (para datos con correlación serial). Intervalos
de confianza y test de hipótesis pueden construirse/realizarse usando esta aproximación
normal.
Ejemplos
Angrist y Krueger (1991) usa quarter of birth como instrumento de la educación
para estudiar el retorno de la educación.
Angrist (1990) usa el draft number de la loteŕıa para servir en la guerra de Vietnam
como instrumento para la participación en la guerra en el estudio del impacto de
servir en la guerra sobre el ingreso.
Card (1995) usa la proximidad a una universidad (college) como instrumento de
la educación de la persona para estimar el retorno a la educación
Frankel y Romer (AER, 1999) usan proximidad a otros páıses y tamaño como
instrumento del comercio internacional para estudiar el impacto del comercio sobre
el PIB.
120
7.2. Múltiples instrumentos: 2SLS
Sea Z la matriz de instrumentos de orden n× L y X es la matriz de variables indepen-
dientes o explicativas de orden n×K
Cuando hay más instrumentos que variables endógenas (o más de un instrumento para
una variable endógena) tenemos el caso “sobre identificado”. Esto significa que tenemos
más ecuaciones que incógnitas en nuestro sistema. Cuando esto sucede es practicamente
imposible encontrar una solución que satisfaga todas las ecuaciones, excepto en casos
muy particulares. Una manera torpe de resolver este problema es eliminar instrumentos
y aśı tener el mismo orden en las matrices Z y X . Esto no es eficiente puesto que
estamos renunciando a información que puede ser muy valiosa. Otra manera de resolver
este problema es post-multiplicando la matriz de instrumentos Z por otra matriz Π de
orden L×K. Luego, la matriz ZΠ es de dimensión n×K.
Explotando la condición de identificación E(z′u) = 0 tenemos que se cumple que
Π′z′y = Π′z′xβ +Π′z′u
Note que podemos identificar β tomando valor esperado,
β = [E(Π′z′x)]−1E[Π′z′y]
Por lo tanto, siguiendo el analogy principle el estimador estaŕıa dado por
β̂ =
[
1
n
n∑
i=1
Π′z′ixi
]−1 [
1
n
n∑
i=1
Π′z′iyi
]
≡ (Π′Z ′X)−1Π′Z ′y
Sin embargo, no hemos dicho nada de la matriz Π. Esta puede ser desconocida para lo
cual necesitaremos un estimador de Π. Antes de ir con eso, supongamos que tenemos un
estimador de Π dado por Π̂, luego el estimador generalizado de variables instru-
mentales (GIV) o de método de momentos generalizado (GMM) está dado
por
β̂GIV =
[
1
n
n∑
i=1
Π̂′z′ixi
]−1 [
1
n
n∑
i=1
Π̂′z′iyi
]
≡ (Π̂′Z ′X)−1Π̂′Z ′y (7.5)
La elección clásica de matriz es Π̂ = (Z ′Z)−1Z ′X que corresponde al estimador MCO de
la regression de X sobre Z, aśı el estimador de mı́nimos cuadrados en dos etapas (2SLS)
es,
β̂2SLS = (X
′Z(Z ′Z)−1Z ′X)−1X ′Z(Z ′Z)−1Z ′y (7.6)
= (X̂ ′X̂)−1X̂ ′y (7.7)
121
donde X̂ = Z(Z ′Z)−1Z ′X . Note que el nombre de mı́nimos cuadrados en dos etapas
(2SLS) viene de la interpretación de Theil que muestra que el estimador se puede obtener
de la siguiente manera
β̂2SLS = (X̂
′X̂)−1X̂ ′y (7.8)
en consecuencia se puede escribir como un sistema de ecuaciones donde tenemos la
primera etapa y luego la ecuación estructural:
X = ZΠ+ e (7.9)
y = Xβ + u (7.10)
aśı, se estima la primera etapa y se ocupan los valores estimados X̂ = ZΠ̂ = Z(Z ′Z)−1Z ′X
en la segunda etapa.
Observación: Note que si reemplazamos la primera etapa en la ecuación estructural
obtenemos
X = ZΠβ + (u+ eβ) (7.11)
y = Zγ + ũ (7.12)
y esta expresión se conoce como la forma reducida. Cuando K = L = 1 se puede
recuperar β dividiendo el parámetro de la forma reducida por el de la primera etapa
β = γ/Π.
7.2.1. Consistencia y Normalidad Asintótica
Si 1√
N
Z ′u
d−→ (0, V0) donde V0 = E(u2z′z) y Π̂ p−→Π es fácil demostrar que
√
n(β̂GIV − β) d−→N (0, [Π′Mzx]−1Π′V0Π[Π′M−1zx ]′) (7.13)
expresión que depende de Π, V0 y Mzx. Si bien no conocemos Π, podemos estimarla
como la proyección ortogonal de X sobre Z y en consecuencia obtendremos la distribu-
ción asintótica del estimador de 2SLS(el cual es factible). Por ley de grandes números
sabemos que
Π̂
p−→Π ≡ [E(z′z)]−1E(z′x) = M−1zz Mzx
momentos que pueden ser estimados consistentemente. Luego, reemplazando la expresión
de Π en (7.13) tenemos que la varianza asintótica del estimador de 2SLS está dada por
la imponente fórmula:
√
n(β̂2SLS − β) d−→N (0, [M ′xzM−1zz Mzx]−1M ′xzM−1zz V0M−1zz Mzx[M ′xzM−1zz Mzx]′) (7.14)
122
La buena noticia es que si u es independiente de z, como tradicionalmente se asume
(aunque no es necesario hacerlo), la fórmula se simplifica debido a que V0 = σ
2Mzz,
entonces √
n(β̂2SLS − β) d−→N (0, σ2[M ′xzM−1zz Mzx]−1) (7.15)
Para estimar σ2 definamos el residuo de 2SLS como û = y − xβ̂2SLS. Note que este NO
ES el residuo de la segunda etapa! Aśı el estimador de σ2 se define de la forma tradicional
σ̂2 =
1
n− k
n∑
i=1
û2i
Si u y z no son independientes (a nivel de distribución, pero E(z′u) = 0) se puede
estimar consistentemente la matriz de varianzas y covarianzas usando Eicker-Huber-
White o Newey-West dependiendo si los errores son autocorrelacionados.
El estimador de Eicker-Huber-White de la varianza asintótica de β̂2SLS está dado por
Avar(β2SLS) = (X̂
′X̂)−1Π̂−1
(
n∑
i=1
û2i z
′
izi
)
Π̂(X̂ ′X̂)−1 (7.16)
= (X̂ ′X̂)−1
(
n∑
i=1
û2i x̂
′
ix̂i
)
(X̂ ′X̂)−1 (7.17)
donde X̂ = ZΠ̂ y x̂i = xiΠ.
En Stata 11-14, usando el comando ivregress 2sls con la opción vcE(robust) nos en-
tregará los errores estándar de la matriz recién descrita. También puede usar el comando
ivreg2 con la opción robust.
7.3. Método Generalizado de Momentos (GMM)
7.3.1. Breve repaso de GMM
Un estimador alternativo a 2SLS en presencia de endogeneidad y variables instrumentales
es el estimador de GMM.
Definamos las condiciónes de momento como
m(z,x, β) = z′(y − xβ)
donde z es una realización del vector de L × 1 de instrumentos y x es una realización
del vector de variables endógenas de K× 1. Suponiendo que L > K tenemos un sistema
123
sobre identificado. Dado el supuesto de identificación E(zu) = 0 tenemos que,
E(m(z,x, β)) = 0
luego el valor esperado de cada condición de momento es cero. Cada condición de mo-
mento poblacional tiene su contraparte muestral dada por,
m(z,x, β) =
1
n
∑
z′(y − xβ) = 1
n
Z ′u
El problema que tenemos es el usual, la probabilidad de encontrar una solución que
satisfaga las L (siendo que tenemos K incógnitas) es casi 0 a menos que reduzcamos el
orden multiplicando por alguna matriz como se hizo en 2SLS. En el caso que L = K se
tiene un sistema exactamente identificado y luego la solución está dada porm(z,x, β) = 0
con lo cual se obtiene la misma solución que β̂IV .
Para el caso sobre-identificado el estimador de GMM es aquel que minimiza la siguiente
forma cuadrática,
mı́n
β
n m(z,x, β)′ W−1 m(z,x, β)
donde W−1 es una matriz de L× L con lo cual el sistema es de K ×K.
Se define el estimador de GMM eficiente (EGMM) aquel que utiliza como weigh-
ting matrix
W = V ar(m(z,x, β)) = E(u2z′z) = V0
Por lo tanto, en el caso que W = V0 tenemos que β̂GMM minimiza la siguiente expresión
mı́n
β
1
n
(y −Xβ)′ZV −10 Z ′(y −Xβ)
luego,
β̂EGMM = [X
′ZV −10 Z
′X ]−1X ′ZV −10 Z
′y (7.18)
Sólo nos falta un estimador consistente de V0. Bajo el supuesto de heterocedasticidad,
podemos usar el estimador de Eicker-White antes mencionado, con lo cual la varianza
asintótica estará dada por
Avar(β̂EGMM) = (M
′
zxV
−1
0 Mzx)
−1
Luego, se puede implementar el estimador EGMM en tres etapas:
1. Estime el modelo por 2SLS y obtenga los residuos de la manera antes descrita
û = y − xβ̂2SLS.
124
2. Construya la matriz V̂0 =
1
n
∑
û2i z
′
izi.
3. Estime mediante EGMM usando V̂0 como weighting matrix
En Stata esto se puede implementar con el comando ivreg2 con la opción gmm.
Relación entre GIV y GMM
En el caso general, cuando los errores son heterocedásticos y/o autocorrelacionados y
V0 6= σ2Mzz el estimador 2SLS (caso particular de GIV) no tendrá la menor varianza
asintótica. Para obtener un estimador eficiente necesitamos escoger una matriz Π que
minimize la varianza asintótica.
Luego queremos minimizar con respecto a Π la siguiente expresión,
Avar(β̂GIV ) = [Π
′Mzx]
−1Π′V0Π([ΠMzx]
−1)′
Se puede demostrar (bastante engorroso) que
Π∗ = V −10 Mzx = argminΠAvar(β̂GIV (Π))
Pero en la práctica no ponemos disponer de Π∗, incluso si suponemos V0 conocida.
Necesitamos un estimador consistente de Mzx. La ley débil de los grandes números nos
garantiza que si {xizi} son i.i.d con primer y segundo momento acotados,
Π̂∗ = V −10
(
1
n
∑
z′ixi
)
=
1
n
Z ′X
p−→ V −10 Mzx = Π∗
por lo tanto, el estimador generalizado de variables instrumentales eficiente corresponde
al estimador eficiente de método de momentos y es igual a
β̂EGIV = β̂EGMM = [X
′ZV −10 Z
′X ]−1X ′ZV −10 Z
′y (7.19)
con distribución asintótica
√
n(β̂EGMM − β) d−→N (0, (M ′zxV −10 Mzx)−1) (7.20)
Testeando Restricciones de Sobre identificación
Siempre que estimamos usando variables instrumentales en el caso de sobre-identificación
es posible testear si los instrumentos no están correlacionados con el término de error. En
125
el caso de GMM, esto se hace testeando que las condiciones de momento muestrales, en
conjunto, no sean diferentes de cero (en términos estad́ısticos). Sin querer ser majadero,
esto sólo se puede realizar cuando tenemos más instrumentos excluidos que variables
endógenas, es decir, cuando L > K. Este test de alguna manera testea la especificación
del modelo y las condiciones de ortogonalidad. Si rechazamos la hipótesis nula (que el
modelo está correctamente especificado y que las condiciones de momento son validas)
uno debe preocuparse porque: i) Los instrumentos no son limpios (están correlacionados
con el término de error); o ii) el modelo está incorrectamente especificado en el sentido de
las restricciones de exclusión (qué instrumentos se excluyen de la ecuación estructural).
En el contexto de GMM este test se realiza usando el estad́ıstico J de Hansen (1982).
Este estad́ıstico no es más que la función objetivo evaluada en β̂EGMM y se distribuye
como χ2L−k, aśı
J(β̂EGMM) = n m(z,x, β̂EGMM)
′V̂ −10 m(z,x, β̂EGMM)
d−→χ2L−K
claramente un valor “grande” de J(β̂EGMM), es decir, mayor al valor cŕıtico obtenido de
la tabla, nos da indicios que el modelo está mal especificado o que los instrumentos no
son limpios.
En Stata el comando ivreg2 con la opción robust estima por EGMM y además entrega
el estad́ıstico J .
En el caso de 2SLS existe el test de Sargan (1958) para restricciones de sobre-identificación.
Es muy simple,
Sargan =
û′PZ û
û′û/n
d−→χ2L−K
Una manera sencilla de obtener el estad́ıstico de Sargan es correr el modelo por 2SLS,
obtener û. Correr la regressión auxiliar de û sobre todas las variables exógenas (x y z’s)
y obtener el R2. Se puede demostrar que Sargan = n× R2.
En Stata 11-14, después del comando ivregress 2sls ejecute estat overid para que
el programa nos entregue el estad́ıstico de Sargan. Para versiones anteriores, la secuencia
es primero ivreg2 y luego overid.
7.4. Fallas en la identificación
Considere el caso en que K = L = 1. Luego, el modelo puede ser escrito de la siguiente
manera
yi = xiβ + ei
xi = ziπ + ui
126
donde ey u son i.i.d normalmente distribuidos y π = E(zixi)/E(z
2
i ) .
Podemos ver que β está identificado si y sólo si π 6= 0, lo cual ocurre cuando E(zixi) 6= 0.
Suponga que esta condición falla, luego E(zixi) = 0.
Note que por CLT,
1√
n
n∑
i=1
ziei
d−→N1 ∼ N (0,E(z2i e2i ))
1√
n
n∑
i=1
zixi =
1
n
n∑
i=1
ziui
d−→N2 ∼ N (0,E(z2i u2i ))
luego
β̂ − β =
1√
n
∑n
i=1 ziei
1√
n
∑n
i=1 zixi
=
N1
N2
∼ Cauchy
dado que el cuociente de dos variables aleatorias normalmente distribuidas sigue una
distribución de Cauchy. Esto es grave puesto que (β̂−β) no converge a cero y el estimador
es inconsistente. Esto es particularmente desagradable puesto que la distribución de
Cauchy no tiene primer momento finito. Este resultado se puede extender para otroscasos y fue examinado por Phillips (1984) y Choi (1992).
7.4.1. Instrumentos Débiles
Cuando los instrumentos están debilmente correlacionados con las variables endógenas,
el uso de variables instrumentales (en muestra finita) puede ser “peor que la enfermedad”
(ver Bound, Jaeger, and Baker (1993, 1995)).
En presencia de weak instruments el estimador por variables instrumentales está sesgado
en la misma dirección que el estimador por MCO e incluso puede no ser consistente (ver
Chao and Swanson (2005) para una comparación de consistencia entre estimadores rela-
cionados). Por otra parte, en presencia de weak instruments los tests tienen una medida
incorrecta y los intervalos de confianza tienen “coverage probabilities” incorrectas.4
Steigner y Stock (1997) formalizan la definición de instrumentos debiles y muchos in-
vestigadores basados en ese paper usan incorrectamente (basados en ese trabajo) que
si el estad́ıstico F de los instrumentos excluidos en la primera etapa es mayor que 10,
no hay necesidad de preocuparse. Esta conclusión se baja en un trabajo previo de Ro-
tenberg (198X) quien muestra que si el coeficiente de concentración es mayor que 10,
4Recuerde que la medida o significancia de un test es la probabilidad de cometer error tipo I. La
coverage probability es la probabilidad que un parámetro poblacional se encuentra en un intervalo de
confianza determinado. Ambos conceptos tienen una dimensión ”nominal 2otra .actual”. En el caso
de instrumentos debiles, la signifacancia actual es mayor a la nominal y la probabilidad de cobertura
nominal es mayor a la actual.
127
la distribución asintótica del estimador por variables instrumentales parece comportar-
se adecuadamente. Sin embargo, el estad́ıstico F de los instrumentos excluidos es un
estimador sesgado del coeficiente de concentración.
El parámetro de concentración
Considere el siguiente setup para un regresor endógeno
y = Xβ + e (7.21)
X = ZΠ+ u (7.22)
donde, y es un vector de n × 1, X es una matriz de n × 1, Z es una matriz de n × l y
e y u son vectores de n× 1 con varianzas σ2e y σ2u respectivamente y con coeficiente de
correlación igual a ρ.
Una medida de fortaleza de los instrumentos está dada por el parámetro de concen-
tración (signal to noise ratio),
µ2 = Π′Z ′ZΠ/σ2u (7.23)
Este parámetro está muy relacionado con el estad́ıstico F de la primera etapa para
testear la hipótesis de relevancia Π = 0. Se puede demostrar que valores grandes de
µ2/k mueven la distribución del estad́ıstico F y F − 1 es un estimador de µ2/k.
El estimador 2SLS minimiza (y−Xβ)′PZ(y−Xβ) y se define como β̂2SLS = (X ′PZX)−1(X ′PZy)
donde PZ es la matriz de proyección a las columnas del espacio de las Z. Rottenberg
(1984) muestra que a medida que µ2 crece, el estimador 2SLS converge en probabilidad
y su distribución es estándar
µ(β̂2SLS − β) = (σe/σu)
ze + Seu/µ
1 + 2zu/µ+ Suu/µ2
(7.24)
donde
ze = (Π
′Z ′e)/(σe
√
Π′Z ′ZΠ); zu = (Π
′Z ′u)/(σu
√
Π′Z ′ZΠ)
Seu = (u
′PZe)/(σuσv); Suu = (u
′PZu)/σ
2
u
Es fácil demostrar que bajo los supuestos de instrumentos fijos y errores normales, ze y zu
son variables aleatorias normales con coeficientes de correlación ρ, y Seu y Suu son formas
cuadráticas de variables aleatorias normales con respecto a la matriz de proyección Pz.
Como las distribuciones de ze, zu, Seu y Suu no dependen del tamaño de la muestra, n, el
tamaño de la muestra entra sólo a través del parámetro de concentración. Note que µ2
128
juega el rol del tamaño muestral, i.e. si µ2 es suficientemente grande entonces tenemos
la aproximación normal usual. Por otro lado, si µ2 es pequeño, la distribución asintótica
no es estándar.
Es fácil demostrar que cuando µ2 = 0, entonces plim(β̂2SLS) = β + (σ
2
u/σ
2
v)ρ. Este caso
extremo deja en evidencia cuán sensible puede ser el estimador 2SLS a la fuerza de los
instrumentos. El siguiente ejercicio de Monte Carlo5 considerado por (Staigner and
Stock 1997), (Nelson and Starz 1990), and (Stock, Wright, and Yogo 2002) nos puede
ayudar a ver cuán sensible es la distribución al parámetro de concentración.
El modelo es
y = βx+ e (7.25)
X = πz + v (7.26)
El verdadero valor de β = 0, lo errores son i.i.d normalmente distribuidos con medias
iguales a 0, varianzas iguales a 1 y covarianza ρ = 0, 99. Para cada muestra generada
fijamos n = 20. Se fija un valor para µ2 y se generan número aleatorios para z, con ellos
se obtiene un valor para π
π2 = µ2/
n∑
i=1
z2i
y se construye x y luego y generando (e,v) de una normal bivariada. Se estima β mediante
2SLS. Este procedimiento se hace 10,000 veces. Para distintos valores del parámetro de
concentración graficamos la distribución de β̂2SLS.
Como se puede apreciar en al Figura 7.1, a medida que disminuye el parámetro de
concentración la distribución se vuelve más sesgada y no-estándar. Podemos ver que
cuando µ2 = 10 la distribución se centra en el verdadero valor del parámetro. Sin em-
bargo, cuando µ2 = 0, 25 existe un sesgo asintótico y una extraña bimodalidad. Este se
ve exacerbado cuando µ2 = 0 y converge al estimador MCO (que es sesgado e incon-
sistente), la distribución se centra en (σ2u/σ
2
v)ρ que es el plim(β2SLS) cuando β = 0. En
este caso, la distribución se centra en .99. Si bien no se aprecia mucho, las colas de la
última distribución son pesadas por eso no tiene valor esperado.
Stock y Yogo (2005) profundizan el tema de la medida de los test bajo instrumentos
debiles y sugieren algunos criterios para rechazar la presencia de instrumentos debiles
usando el estad́ıstico de Cragg and Donald (1993). Stock, Wright y Yogo (2002) resumen
este trabajo y proveen también de las tablas con los valores cŕıticos.
5Un ejercicio de Monte Carlo se parece a un Bootstrap, con la diferencia que no se remuestrea de
una muestra existente sino que se inventan nuevas muestras a partir de un diseño estad́ıstico.
129
0
.5
1
1.
5
2
P
ro
ba
bi
lit
y
D
en
si
ty
−5 −4 −3 −2 −1 0 1 2 3 4 5
w
density: 2SLS mu=0.25 density: 2SLS mu=0
density: 2SLS mu=10
2SLS Estimators
Figura 7.1: 2SLS distribution and µ
Estad́ıstico de Cragg y Donald (1993)
Considere el siguiente modelo,
y = Y β +Xγ + u (7.27)
Y = ZΠ+Xφ+ V (7.28)
donde y es la variable dependiente, Y es una matriz de variables endógenas de N × T
(N variables endógenas y T tamaño muestral), Z es una matriz de K2 instrumentos
excluidos y X es una matriz de K1 instrumentos incluidos (variables que están en las
dos etapas).
La notación es algo engorrosa al principio pero verán después su simpleza. Sea el super
ı́ndice⊥ los residuos de la proyección en X . Luego, Y ⊥ = MXY donde MX = I −
X(X ′X)−1X ′.
Usando los resultados de regresión particionada, el estimador MCO de β está dado por
β̂MCO = (Y
′PXY )
−1(Y ′PXy) (7.29)
= (Y ′X(X ′X)−1X ′Y )−1(Y X(X ′X)−1X ′y) (7.30)
= (Y ⊥
′
Y ⊥)−1Y ⊥
′
y (7.31)
Sea el estimador de clase k definido
130
β̂(k) = [Y ⊥
′
(I − kMZ⊥)Y ⊥]−1[Y ⊥
′
(I − kMZ⊥)y⊥]
Para distintos valores de k tenemos distintos estimadores, siendo los más conocidos:
MCO: cuando k = 0
2SLS: cuando k = 1
LIML: cuando k = k̂LIML=la menor raiz de (Y
′MXY − kY MZY ) = 0 donde
Y = [y Y ].
Nuestro interés (y preocupación) es que el poder explicativo de Z sea insuficiente para
permitir inferencia sobre β. En este caso, los estad́ısticos acerca de la hipótesis Π = 0 de
la primera etapa pueden ser acotados a medida que T → ∞ y muchos tests no tienen
una medida correcta.
Historicamente sólo se han usado reglas informales para diagnosticar la presencia de
instrumentos débiles. Por ejemplo, el comando de Stata 10 ivreg2 con la opción ffirst
incluye el R2 parcial y el estad́ıstico F de los instrumentos excluidos de la ecuación
estructural. Para Stata 11, use estat firststage. Como se dijo anteriormente, estas
reglas informales, y en especifico la del estad́ıstico F, no son necesariamente correctas
en términos de significancia o medida. Cabe señalar que la nueva versión del comando
ivreg2incorpora adicionalmente el estad́ıstico de Cragg y Donald (1993). Este corres-
ponde al mı́nimo valor propio de la matriz equivalente al parametro de concentración:
GT = Σ̂
−1/2
V V (Y
⊥′PZ⊥Y
⊥)Σ̂
−1/2
V V /K2 (7.32)
donde
Σ̂V V = (Y
′MZY )/(T −K1 −K2)2
corresponde al estimador de la matriz de varianzas de V y Z = [XZ].
El menor valor propio deGT es el estad́ıstico de Cragg y Donald (1993) y sirve para
testear la hipótesis nula de instrumentos débiles contra la alternativa de instrumentos
fuertemente correlacionados con las variables endógenas.
gmin = mineval(GT )
donde GT
d−→ v1/K2 bajo la presencia de instrumentos debiles y v1 es una variable
aleatoria con una distribución de Wishart con paramétro de no-centralidad igual a K2Λ.
Stock and Yogo (2005) demuestran que si N = 1 (es decir, sólo una variable endógena),
el menor valor propio de GT corresponde al estad́ıstico F de la primera etapa de los
instrumentos excluidos, el cual de acuerdo a Steigner y Stock (1997) debe ser mayor que
10.
131
Stock y Yogo (2005) generan tablas para diferentes números de instrumentos y para
distintos estimadores (además de 2SLS, considerna k-class estimators como LIML y
Fuller-k). Ellos distinguen dos tipos de criterios deseables de las estimaciones por 2SLS.
Primero, calculan valores cŕıticos en el caso que queramos acotar el sesgo del estimador
2SLS en relación al de MCO.
Por ejemplo, si tenemos 1 variable endógena, 3 instrumentos excluidos de la ecuación
estructural y queremos restringir el sesgo del estimador 2SLS a un 5% del sesgo del
estimador por MCO, el valor cŕıtico para el estad́ıstico F de la primera etapa es 13.91
(ver Tabla 1 de Stock y Yogo (2005)).
Segundo, si queremos que el test de Wald (de medida nominal igual a 5%) acerca de
la hipótesis sobre β tengan una medida “actual” menor a 0.1, entonces el estad́ıstico F
debe ser mayor a 22.3 de acuerdo a la Tabla 2 en Stock y Yogo (2005).
Finalmente, mediante ejercicios de simulación Stock y Yogo (2005) muestran que el esti-
mador Limited Information Maximum Likelihood (LIML) es el más efectivo en términos
de alcanzar medidas actuales muy cercanas a las nominales, aun en presencia de instru-
mentos débiles.
Inferencia sobre β
La sección anterior nos dio luces de como testear la presencia de instrumentos débiles
mediante el estad́ıstico de Cragg y Donald (1993) gracias al trabajo de Stock y Yogo
(2005) quienes tabularon la distribución de dicho estad́ıstico bajo la nula de instrumen-
tos débiles. Ahora, nos interesa hacer inferencia sobre β y lamentablemente los tests
tradicionales tienen una medida incorrecta. Hay al menos tres tests que tienen medida
correcta: Anderson and Rubin (1949), Moreira (2003) y Mikusheva (2007)
Usando el mismo modelo para testear la presencia de instrumentos débiles,
y = Y β +Xγ + u
Y = ZΠ+Xφ+ V
podemos escribir la siguiente regresión auxiliar:
y − Y β0 = Zθ +Xη + ε
donde θ = Π(β − β0). Note que esta regresión satisface los supuestos de Gauss-Markov,
en particular hemos removido la endogeneidad. Luego, asumiendo que Π 6= 0, para hacer
inferencia sobre β, y en particular testear H0 : β = β0, basta con testear θ = 0. El test de
Wald en este caso tiene una medida correcta incluso en presencia de instrumentos débi-
132
les. Por lo tanto, implementar este test es relativamente sencillo. Incluso si se sospecha
heterocedasticidad sólo debemos incorporar alguna corrección como Eicker-White.
Note que bajo la hipótesis nula, tenemos que y−Y β0−Xη = ε y que la variable aleatoria
Z ′(y − Y β0 −Xη) ∼ i.i.d.(0, σ2(Z ′Z))
donde σ2 = σ2u + β
′
0ΩV β0. Luego el estad́ıstico de Anderson y Rubin (1949) consiste en
la forma cuadrática,
AR =
(y − Y β0 −Xη)′Z(Z ′Z)−1Z ′(y − Y β0 −Xη)
σ2
d−→χ(dim(Z)) (7.33)
y en el caso que σ2 sea desconocido, se estima de la misma manera que la hemos estimado
siempre y la distribución asintótica es una F con dim(Z) y T − dim(Z). Recuerde que
dim(Z) = K2.
En Stata:
reg ylessybeta zvars xvars, robust
testparm zvars
Es importante recalcar que esta regresión auxiliar sirve para hacer inferencia sobre β y
NO para estimar β. Para la estimación procedemos con 2SLS o LIML.
En el caso que no se rechaze la hipótesis nula, podemos invertir el test y formar regiones
de confianza para β. Por ejemplo en el caso de una variable endógena y un instrumento,
ICβ0,95 = {β|AR(β) < 3,84}
El comando en Stata condivreg más la opción ar entrega el intervalo de confianza
invirtiendo este test (entrega otros como Moreira (2001)).
7.5. Limited Information Maximum Likelihood (LIML)
En esta sección veremos brevemente un estimador que ha demostrado ser bastante re-
sistente al problema de identificación débil. Como vimos anteriormente, los estimadores
de clase k se pueden escribir de la siguiente manera:
β̂(k) = [Y ⊥
′
(I − kMZ⊥)Y ⊥]−1[Y ⊥
′
(I − kMZ⊥)y⊥]
Para distintos valores de k tenemos distintos estimadores, siendo los más conocidos:
133
MCO: cuando k = 0
2SLS: cuando k = 1
LIML: cuando k = k̂LIML=la menor ráız de (Y
′MXY − kY MZY ) = 0 donde
Y = [y Y ].
También se puede obtener el estimador LIML maximizando la siguiente función de ve-
rosimilitud (asumiendo una distribución normal multivariada de (u, V))
L(β, γ,Π, φ) = −N
2
ln |Ω|
−1
2
(
y − ZΠβ −X(γ + φβ)
Y − ZΠ−Xφ
)′
Ω−1
(
y − ZΠβ −X(γ + φβ)
Y − ZΠ−Xφ
)
(7.34)
donde Ω es la matriz de covarianzas de (u+ V β, V ).
Algunas propiedades del estimador LIML:
(i) Converge a 2SLS si N → ∞
(ii) Lamentablemente tiene una carateŕıstica no deseable: no tiene momentos (existe
una corrección de Fuller para que tenga primer y segundo momento)
(iii) En estudios de Monte Carlo ha demostrado tener menor sesgo en presencia de
instrumentos débiles
(iv) En presencia de muchos instrumentos débiles, Bekker (1995) muestra que los erro-
res estándar de LIML son ineficientes y sugiere una corrección para ellos.
En Stata, el comando ivreg2 con la opción liml nos entrega el estimador y el valor de k.
7.5.1. Ejemplo clásico de identificación débil
Angrist and Krueger (1991), AK en adelante, estiman el retorno a la educación
(mincer equation) usando como instrumento el trimestre (quarter of birth) en que
nació la persona (usan info del Censo 1980).
La justificación es la ley americana que estipula que los niños pueden cursar first
grade con 6 años cumplidos al 30 de junio (empiezan en agosto)
134
Luego, quienes nacen en el primer y segundo trimestre entran al colegio en Agosto
(inicio año escolar en USA) con los años ya cumplidos. Como se puede abandonar
el colegio a los 16 o 17 años, aquellos nacidos en el primer o segundo trimestre
lo harán antes de completar el año “lectivo” teniendo aśı menos escolaridad que
aquellos nacidos en el tercer y cuarto trimestre. Las siguiente figuras muestran
como funciona el instrumento.
La variable independiente es el log del salario por hora.
Las variables independientes son escolaridad y dummies por año de nacimiento .
Los instrumentos son: dummies por trimestre de nacimiento + dummies por año
de nacimiento + interacciones de ambas.
135
Cuadro 7.1: Varios estimadores con datos AK, 1991
40 instrumentos Coef. (Esc) Std. Err. t
OLS 0.071 0.000 209.7
2SLS 0.089 0.016 5.5
GMM 0.091 0.016 5.6
LIML 0.093 0.018 5.2
Por lo tanto los instrumentos excluidos son las dummies por trimestre y las inter-
acciones.
De acuerdo a la Tabla 7.2 No se rechaza la hipótesis de Instrumentos Débiles según
Cragg-Donald/Stock-Yogo:
Cuadro 7.2: Estad́ısticos para 2SLS
Estad́ıstico Cŕıtico
Cragg y Donald 4.91 21.42 (sesgo 5%)
86.17 (medida máx 10%)
Sin embargo, los instrumentos son válidos (y/o el modelo está correctamente identifica-
do) de acuerdo a lo que se infiere de la Tabla 7.3.
¿Qué pasa con muchos instrumentos? En la Tabla 7.4 comparamos a 2SLS con LIML
en el caso en que hay 500 instrumentos (dummies de QoB interactuada con estado más
otras interacciones). Además podemos apreciar que sucede con 2SLS y LIML cuando
generamos un trimestrealeatorio de nacimiento para cada individuo.
En la Tabla 7.4 se aprecia que:
Con muchos instrumentos 2SLS converge a OLS (Bekker (1994)).
LIML es bastante más estable al número de instrumentos, da un estimador puntual
bastante parecido.
Cuadro 7.3: Test de Especificación
Estad́ıstico P-value
Sargan (2SLS) 25.439 0.6553
J (Hansen, GMM) 24.653 0.6961
136
Cuadro 7.4: El caso de muchos instrumentos
500 Instrumentos 2SLS LIML
QoB real 0.073 0.095
(0.008) (0.017)
QoB random 0.059 -0.33
(0.085) (0.1001)
Con instrumento aleatorio, 2SLS da un número cercano al retorno a la educación
lo cual es bastante curioso.
LIML entrega un resultado más razonable en el sentido que da algo extraño. Hu-
biésemos esperado un número cercano a cero.
A la luz de los resultados anteriores, diversos art́ıculos posteriores a AK han criticado
este paper y la validez de QoB como instrumento válido, entre ellos Bound, Jaeger, and
Baker (1995), Bound y Jaeger (1996) y Staigner & Stock (1997).
Una de las cŕıticas es que QoB proporcionaŕıa un set de instrumentos débiles como
pudimos corroborar mediante el estad́ıstico de Cragg-Donald y las tablas de Stock y
Yogo (2005).
Otra cŕıtica es que QoB está indirectamente correlacionado con habilidad, en particular
con ciertas enfermedades mentales como esquizofrenia. Las personas con ezquizofrenia
tienen habilidades cognitivas y no cognitivas menores que personas sin dicha enfermedad.
Recuerde que la variable instrumental SÓLO puede afectar a la variable dependiente A
TRAVÉS de la variable endógena, luego si estuviese relacionada con habilidad no es un
instrumento limpio y el parámetro a estimar no está identificado.
7.5.2. Extensiones
Otros estimadores (aún menos populares)
Fuller (1977) (parecido a LIML pero con primer y segundo momento)
Chamberlain and Imbens (2004), Random effects estimator
Phillips and Hale (1977), Angrist, Imbens, and Krueger (1999) entre otros definen:
Jacknife instrumental variable estimator (JIVE)
Problemas que pueden inducir Instrumentos débiles
137
Figura 7.2: Riesgo de Ezquizofrenia y mes de nacimiento
(i) Podemos tener instrumentos débiles si la primera etapa es curiosamente no-lineal.
(ii) Dada la falta de resistencia estad́ıstica de OLS, podemos tener instrumentos débiles
debido a outliers.
(iii) Por último, podemos tener instrumentos débiles debido a que pueden estar correla-
cionados con la(s) variable(s) endógena(s) pero para una subpoblación y se diluye
en el total.
7.6. Estimador de Wald
Un caso particular de endogeneidad en el modelo de regresión lineal ocurre cuando la
variable endógena es binaria. Esto ocurre a menudo en la literatura de evaluación de
programas puesto que existe un programa o tratamiento que no fue asignado aleatoria-
mente.
Suponga que tenemos el modelo lineal:
yi = α + βxi + ǫi
donde xi es binaria. Se puede demostrar con facilidad que el estimador OLS es un esti-
mador de diferencias. Este estimador corresponde a la diferencia de medias condicionales
de y en x para x = 1 y x = 0.
138
Para ilustrarlo un poco más note que para lograr la identificación de β OLS asumimos
que E(ǫi|xi) = 0. Esto implica que la variable binaria xi de tratamiento es independiente
al nivel de media condicional de los no observables. Es decir, en promedio no hay factores
no-observables que se relacionen con el hecho de tener o no tratamiento. Esto se logra
con aleatorización. Bajo ese supuesto, el estimador OLS se puede obtener de la siguiente
forma
β̂OLS =
∑
(yi − ȳ)(xi − x̄)∑
(xi − x̄)2
Se puede demostrar con un poco de álgebra que
β̂OLS =
∑n
i=1 yixi∑n
i=1 xi
−
∑n
i=1 yi(1− xi)∑n
i=1(1− xi)
o de otra forma,
β̂OLS = Ê[y|x = 1]− Ê[y|x = 0]
donde Ê[y|x = 1] =
∑n
i=1 yixi∑n
i=1 xi
y Ê[y|x = 0] =
∑n
i=1 yi(1−xi)∑n
i=1(1−xi)
Luego, el estimador OLS en este caso es un estimador de diferencias como dećıamos
anteriormente
β̂OLS = ȳ
T − ȳC = Ê[y|x = 1]− Ê[y|x = 0]
En consecuencia, si xi fuera un tratamiento producto de un experimento aleatorio el
estimador OLS estima el efecto causal del tratamiento sobre la variable de resultados y.
Ahora si E(ǫi|xi) 6= 0, el tratamiento no proviene de un experimento aleatorio y está co-
rrelacionado con alguna caracteŕıstica no observables del sujeto i. Esto ocurre, por ejem-
plo, si los individuos se autoseleccionan en un determinado programa. En este caso, el
parámetro β no está identificado y el estimador de OLS es inconsistente y sesgado.
Sin embargo, si tenemos una variable instrumental binaria zi que cumple con los su-
puestos fundamentales: E(ǫi|zi) = 0 y E(zixi) 6= 0 tenemos que podemos identificar β
y obtener un efecto causal del tratamiento sobre y mediante el estimador de variables
instrumentales
β̂IV =
∑
(y − ȳ)(z − z̄)∑
(x− x̄)(z − z̄)
139
También podemos expresar este estimador como uno de diferencias pero con un ajuste
en el denominador. Note que con un poco de álgebra tenemos
β̂IV =
Ê[y|z = 1]− Ê[y|z = 0]
Ê[x|z = 1]− Ê[x|z = 0]
donde Ê[y|z = 1] =
∑n
i=1 yizi∑n
i=1 zi
, Ê[y|z = 0] =
∑n
i=1 yi(1−zi)∑n
i=1(1−zi)
,
y
Ê[x|z = 1] =
∑n
i=1 xizi∑n
i=1 zi
y Ê[x|z = 0] =
∑n
i=1 xi(1−zi)∑n
i=1(1−zi)
Este estimador se conoce como Estimador de Wald .
7.6.1. Ejemplo: La loteŕıa de Vietnam
Angrist (1990) estudia el impacto de servir en la guerra de Vietnam en el salario de
los veteranos, años después. Esta pregunta es interesante porque existe la hipótesis que
haber servido en Vietnam compensaŕıa la pérdida de experiencia en el mercado laboral.
Sin embargo, existe un problema de endogeneidad en la estimación de un modelo de
regresión lineal del efecto de haber servido en la guerra en el salario. El problema de
endogeneidad es claro, gente que “sirve” en una guerra voluntariamente tiene otras
caractéristicas no-observables que pueden estar correlacionadas con habilidad, capital
social, etc.
Durante la Guerra de Vietnam se realizaron 5 loteŕıas en USA para enviar jóvenes
a la guerra.
Por ejemplo, la loteŕıa de 1970 cubrió a jóvenes entre 19 y 26 años.
Se sortearon números (sin reemplazo) del 1 al 365. A cada número se le asignó una
fecha de nacimiento (d́ıa, mes).
La gente iba siendo llamada de acuerdo a una secuencia de números (del 1 al 365)
con un techo (por ejemplo 125) hasta cumplir la cuota requerida por el departa-
mento de defensa.
Después se le haćıan exámenes médicos y se quedaba con quienes iŕıan a la guerra.
Aqui podemos usar un estimador de Wald.
Se puede crear un instrumento Binario (1 si tienes un número de sorteo bajo, 0 si
es alto).
140
Este instrumento está correlacionado con “servir” en la guerra pero no con otras
caracteŕısticas.
aśı,
β̂IV =
Ê[y|z = 1]− Ê[y|z = 0]
Ê[x|z = 1]− Ê[x|z = 0]
Note que el numerador es un estimador de diferencias, pero no condicional en el
tratamiento, sino que en el instrumento.
El denominador entrega la diferencia de las probabilidades de ser tratado condi-
cional en el instrumento.
En este caso, condicional a tener un número bajo o alto de loteŕıa.
Ê[x|z = 1] = Pr(x = 1|z = 1) (7.35)
Ê[x|z = 0] = Pr(x = 1|z = 0) (7.36)
El Wald estimate reportado es el de dividir (2) en (4), pero ajustan a dólares de
1978.
Aśı, la primera fila implica una reducción de $3.062 dólares corrientes o $2195
ajustado.
141
En resumen para los veteranos blancos, el efecto de servir en Vietnam reduce el
salario en alrededor de US$1.500-US$2.100.
Luego la sustitución servicio-experiencia laboral es parcial.
Interpretación: Local Average Treatment Effect o LATE (Imbens y Rubin, 1996).
142
Caṕıtulo 8
Máxima Verosimilitud
Esta sección sigue muy de cerca el libro de Paul Ruud (Caṕıtulo 14, An Introduction to
Classical Econometric Theory).
Para fijar ideas recuerde que hasta ahora no hab́ıamos hecho supuestos distribucionales.
Sólo hab́ıamos asumido E(X ′u) = 0 o E(u|X) = 0. El supuesto de identificación ha sido
que X es de rango completo.
Ahora haremos supuestos más fuertes en términos de distribuciónen pos de mejores
propiedades de nuestros estimadores.
Supuesto 14.1 (Distribución): El par (u, v) es una variable aleatoria y las N variables
{(u1, v1), . . . , (uN , vN)} son una muestra i.i.d. de (u, v). No obstante, para θ0, la distri-
bución condicional de u dado v es conocida. Esto es Fu|v(u, v; θ0) es conocida; θ0 ∈ Rk
desconocido, con lo que se tiene F (u|v; θ0).
Note que si v es constante la CDF de u será simplemente F (u; θ0). Este será el caso
incondicional mientras que F (u|v; θ0) será el caso condicional.
Llamaremos S(θ0) al soporte de F tal que∫
S(θ0)
dF (u|v; θ0) = 1
Esta notación es general, claramente distinguimos dos cosas
∫
S(θ0)
dF (u|v; θ0) =
{∑
u∈S(θ0) f(u|v; θ0) u discreta∫
S(θ0)
f(u|v; θ0)du u continua
Luego, el supuesto 14.1 implica que la función de probabilidad (densidad o masa) para
{u1, . . . , uN} dado {v1, . . . , vN} es
N∏
n=1
f(un|vn; θ0)
143
La Función de Verosimilitud
Para el caso incondicional, la p.f. (probability function) f(u, θ0) describe los valores pro-
bables de cada v.a. un(n = 1, . . . , N) para un valor espećıfico del vector de parámetros θ0.
En la práctica observamos {u1, . . . , uN} pero no θ0. La función de verosimilitud muestral
trata “u‘” como dado y θ0 como incógnita. En este caso inverso, la p.f. se transforma en
la likelihood function, la que describe los valores probables de θ0 dada la realización de
la variable u.
Definición (Likelihood Function): La L.F. de θ, para una v.a. u con p.f. f(u, θ0) se
define como
l(θ; u) ≡ f(u; θ) y la log-likelihood
L(θ; u) = log l(θ; u)
Luego la función de verosimilitud muestral es
L(θ; u1, u2, . . . , uN) = log{
N∏
n=1
f(un; θ)}
=
N∑
n=1
L(θ; un)
Definición 28 (Conditional Likelihood Function):
l(θ; u|v) ≡ f(u|v; θ) θ ∈ Θ
L(θ; u|v) ≡ log l(θ; u|v)
Supuesto 14.2 (Dominancia): E[supθ∈Θ |L(θ; u|v)] existe. Este es un requerimiento
técnico que garantiza que E[L(θ; u|v)] exista para todo θ ∈ Θ.
Lema 14.1 (Expected Log-likelihood Inequality): Si L(θ; u|v) es la conditional
log-likelihood function y el supuesto 14.2 se cumple, entonces
E[L(θ; u|v)|v] ≤ E[L(θ0; u|v)|v]
Este lema es crucial. Nos dice que el valor esperado de la log-likelihood (l.l. de aqúı en
adelante) alcanza un valor máximo si θ = θ0. Esto da inicio al método de Máxima Vero-
similitud. Dado que la log-likehood esperada alcanza su valor máximo en θ0, el verdadero
valor del parámetro a estimar, entonces tiene sentido querer máximizarla.
144
8.1. Estimador de Máxima Verosimilitud
El lema 14.1 nos sugiere un estimador natural, dado que θ0 maximiza el valor espe-
rado de la función l.l. Fisher (1922,1925) propone maximizar el análogo muestral de
EN(L(θ; u|v))
EN (L(θ; u|v)) ≡
N∑
n=1
L(θ; un|vn) ·
1
N
Donde EN(·) es la esperanza o media muestral.
Definición (Estimador de Máxima Verosimilitud)
θ̂N ≡ argmaxθ∈ΘEN [L(θ)] simplificando L(θ) = L(θ; u|v)
Identificación
De la misma forma en que en OLS teńıamos un par de supuestos fundamentales de iden-
tificación (E(X ′u) = 0 y X de rango completo) en Máxima Verosimilitud necesitamos
supuestos de identificación.
Definición (Global Identification): El vector de parámetro θ0 es globalmente iden-
tificado en Θ si, ∀θ1 ∈ Θ, θ0 6= θ1
⇒ Pr{f(u|v; θ0) 6= f(u|v; θ1)} > 0
Supuesto 14.3 (Identificación Global): Todo vector de parámetros θ0 ∈ Θ está glo-
balmente identificado.
Con el supuesto anterior tenemos que el lema 14.1 (expected l.l. inequality) se cumple
con desigualdad estricta.
Supuesto 14.4 (Diferenciabilidad): La función de probabilidad f(u|v; θ) es doble-
mente diferenciable respecto a θ ∀θ ∈ Θ. Además, el soporte S(θ) de f(u|v; θ) no
depende de θ y podemos intercambiar derivadas e integrales:
∂
∂θ
∫
S
dF (u|v; θ) =
∫
S
∂
∂θ
dF (u|v; θ)
∂2
∂θ∂θ′
∫
S
dF (u|v; θ) =
∫
S
∂2
∂θ∂θ′
dF (u|v; θ)
y
∂E(L(θ)|v = v)
∂θ
= E
(
∂L(θ)
∂θ
|v = v
)
∂2E(L(θ)|v = v)
∂θ∂θ′
= E
(
∂2L(θ)
∂θ∂θ′
|v = v
)
donde todos los términos existen. Es este caso, escribimos el soporte de F (u|v; θ) como
simplemente S.
145
La diferenciabilidad no es necesaria pero la falta de ella pone dificultades técnicas.
La intercambiabilidad de derivadas e integrales se debe a que el soporte S(θ) = S no
depende de θ.
The Score Function (vector)
Recuerde que la definición de estimador de máxima verosimilitud está caracterizada por
θ̂N = argmaxθ∈Θ EN [L(θ)] ∈ argzeroθ∈Θ EN [Lθ(θ)]
luego, la CPO implica
EN [Lθ(θ̂N )] = 0 ⇐⇒ θ̂N ∈ argzeroθ∈Θ EN [Lθ(θ)]
y se llaman “ecuaciones normales” o “ecuaciones de verosimilitud”.
Definición (Score function): La función de score se define como el vector de primeras
derivadas parciales de la función log-likelihood con respecto al parámetro θ
Lθ(θ) =
∂L(θ)
∂θ
Dado que θ0 maximiza E(L(θ)), esperamos que E[Lθ(θ0)] = 0.
Lema 14.3 (Identidad del Score): Bajo los supuestos 14.1 (Distribución) y 14.4
(Diferenciabilidad),
E(Lθ(θ0)|v = v) = 0
Demostración:
1 =
∫
S
dF (u|v; θ)
1 =
∫
S
f(u|v; θ)du (variable continua)
Tomando derivadas a ambos lados (14.1)
0 =
∫
S
∂
∂θ
f(u|v; θ)du
0 =
∫
S
1
f
· fdu
0 =
∫
S
1
f(u|v; θ) · fθ(u|v; θ) · dF (u|v; θ)
note que Lθ(θ; u|v) = 1f(u|v;θ) · fθ(u|v; θ) (que es la derivada de la log f)
Luego,
E[Lθ(θ; u|v)|v = v] =
∫
S
1
f(u|v; θ) · fθ(u|v; θ) · dF (u|v; θ0)︸ ︷︷ ︸
evaluado en el verdadero parámetro
146
evaluando en θ = θ0 tenemos
0 = E[Lθ(θ0)|v = v]
donde simplificamos notación Lθ(θ0; u|v) = Lθ(θ). �
La Matriz de Información
Antes de definir la matriz de información note que para encontrar el estimador MV
necesitamos encontrar una solución a las ecuaciones normales
EN [Lθ(θ̂N )] = 0
Pero necesitamos chequear que tenemos un máximo global, sino no es un estimador MV.
Una condición suficiente es que el Hessiano sea definido negativo
EN [Lθθ(θ)] =
∂2EN [L(θ)]
∂θ∂θ′
evaluado en θ̂N . Es decir
c′EN [Lθθ(θ̂N )]c < 0
Supuesto 14.5 (Información finita): V ar(Lθ(θ0)) existe.
Lema 14.4 (Identidad de la Información): Bajo los supuestos 14.1 (Distribución),
14.4 (Diferenciabilidad) y 14.5 (Información finita),
E[Lθθ(θ0|v = v)] = −V ar[Lθ(θ0)|v = v]
y esta matriz es semi definida negativa.
Demostración:
Dados los supuestos 14.1 (Distribución) y 14.4 (Diferenciabilidad) y Lema 14.3 teńıamos
0 =
∫
S
Lθ(θ; u|v)dF (u|v; θ) /
∂
∂θ
0 =
∫
S
[Lθθ(θ; u|v)dF (u|v; θ) + Lθ(θ; u|v)fθ(u|v; θ)′du]
Note que Lθ(θ; u|v)fθ(u|v;θ)
′
f(u|v;θ) · f(u|v; θ) = Lθ(θ; u|v)Lθ(θ; u|v)′f .
=⇒
∫
S
Lθθ(θ; u|v)dF (u|v; θ) = −
∫
S
Lθ(θ; u|v)Lθ(θ; u|v)′dF (u|v; θ)
porque f(u|v; θ)du = dF (u|v; θ). Fijando θ = θ0 tenemos que
E[Lθθ(θ0; u|v)|v = v] = −E[Lθ(θ0; u|v)Lθ(θ0; u|v)′|v = v]
E[Lθθ(θ0; u|v)|v = v] = −V ar[Lθ(θ0; u|v)|v = v]
dado que E[Lθ(θ0; u|v)] = 0 por Lema 14.3. �
147
Definición (Información Condicional): La matriz de varianza condicional del score
dado v = v y evaluado en θ0 es
I(θ0|v) = E[Lθ(θ0)Lθ(θ0)′|v = v]
= V ar[Lθ(θ0)|v = v]
Definición (Información Poblacional): I(θ0) = E[Lθ(θ0; u|v)Lθ(θ0; u|v)′].
Note que:
I(θ0) = V ar[Lθ(θ0; u|v)]
= E[Lθ(θ0; u|v)|v] + V ar[E(Lθ(θ0; u|v)|v)]︸ ︷︷ ︸
0
= E[I(θ0|v)]
= I(θ0)
Supuesto 14.6 (Non singular Info.): I(θ0) es no singular ∀θ0 posible en Θ.
8.2. La Cota Inferior de Cramèr-Rao
Teorema 10 (Cramèr-Rao Inequality): Sea θ̃ un estimador insesgado de θ0 con
matriz de varianza finita y diferenciación e integración son intercambiables (el soporte
no depende de θ0), aśı
∂ E[θ̃|v1, . . . , vN ]
∂ θ0
=
∂
∂ θ0
∫
S
θ̃
N∏
n=1
dF (un|vn; θ0)
=
∫
S
θ̃
∂
∂ θ0
N∏
n=1
dF (un|vn; θ0)
Si los supuestos 14.1 (Distribución), 14.4 (Diferenciación), 14.5 (Información finita) y
14.6 (No singular), la varianza condicional muestral de θ̃ es mayor o igual que (N EN [I(θ0|v)])−1
dado vn = vn, n = 1, . . . , N .
V ar(θ̃|v = v) ≥ (N EN [I(θ0|v)])−1
Demostración
Inicio parentesis:
Antes de hacer la demostración del Teorema 10, haremos un paréntesis cuyo resultado
148
ocuparemos en la prueba. Hacemos una expansión de Taylor de segundo orden a EN [L(θ)]
en torno de θ0 ytenemos que
EN [L(θ)] ≈ EN [θ0] + (EN [Lθ(θ0)])′(θ − θ0)−
1
2
(θ − θ0)′ EN [I(θ0|v)](θ − θ0) + o(1)
(8.1)
= −1
2
(θ − θ∗)′ EN [I(θ0|v)](θ − θ∗) + c2
donde
θ∗ = θ0 + EN [I(θ0|v)]−1EN [Lθ(θ0)]
c2 = EN [Lθ(θ0)] +
1
2
(θ − θ0)′EN [I(θ0|v)](θ − θ0)
Note que (1) tiene igual gradiente que EN [L(θ)] en θ0 y tiene Hessiano igual a la esperanza
condicional del Hessiano de L(θ) en θ0. El máximo de (1) es θ
∗. Este estimador es
insesgado por la identidad del Score E[L(θ0)] = 0 y este estimador tiene una matriz de
varianza condicional igual a la cota de Cramér-Rao.
V ar[θ∗|v1, ..., vn] = (NEN [I(θ0|v)])−1 (14.32)
Esto porque V ar(θ∗|v1, ..., vn) = (EN [I(θ0|v)])−1V ar[EN [Lθ(θ0)]]EN [I(θ0)|v] por Lema
14.4 (Ident. de la Inf.).
Fin parentesis
Sea θ̃(un, vn|vn, n = 1, . . . , N) un estimador (condicionalmente) insesgado de θ0 dado
149
vn = vn
θ0 = E[θ̃|vn = vn]
=
∫
S
θ̃
N∏
n=1
dF (un|vn; θ0)
/
∂ (·)
∂ θ0
⇒ Ik =
∫
S
θ̃
∂
∂ θ0
N∏
n=1
dF (un|vn; θ0)
=
∫
S
θ̃
[
N∑
n=1
Lθ(θ0; un|vn)
]
N∏
n=1
dF (un|vn; θ0)
= N
∫
S
θ̃EN [Lθ(θ0; un|vn)]
N∏
n=1
dF (un|vn; θ0)
= N E[θ̃EN [Lθ(θ0; un|vn)]|v1, . . . , vN ]
= N Cov[θ̃ , EN [Lθ(θ0; un|vn)]|v1, . . . , vN ]
/
· (N EN [I(θ0|v)])−1
⇒ (N EN [I(θ0|v)])−1 =✚✚N Cov[θ̃ , (✚✚N EN [I(θ0|v)])−1EN [Lθ(θ0; un|vn)]︸ ︷︷ ︸
(θ∗−θ0)
|v1, . . . , vN ]
= Cov(θ̃, θ∗)
Donde la cuarta igualdad viene de aplicar la regla de la cadena a la derivación de un
producto de n elementos y multiplicar y dividir por f(un|vn; θ0)1. La sexta igualdad
viene del hecho que la covarianza entre una variable aleatoria con media cero y otra
variable aleatoria cualquiera es la esperanza del producto de ellas.
Al igual que en el Teorema de Gauss-Markov, la covarianza entre el estimador eficiente
(θ∗) y el estimador ineficiente (θ̃) es la varianza del estimador eficiente (θ∗).
Usando el mismo argumento tenemos que θ∗ es eficiente relativo al conjunto de estimado-
res insesgados y ningún estimador insesgado tiene menor covarianza que V ar[θ∗|v1, ..., vn] =
(NEN [I(θ0|v)])−1.
Luego ∀ θ̃ estimador condicionalmente insesgado la mı́nima varianza será (N EN [I(θ0|v)])−1.
�
1Para el caso más sencillo de N = 2 note que dF (u1|v1; θ0) × dF (u2|v2; θ0) = f1 × f2du1du2 y su
derivada es igual a (fθ,1f2+ f1+ fθ,2)du1du2. Multiplicando y dividiendo cada elemento por fi tenemos
que la expresión anterior es igual a [Lθ(θ0;u1|v1)f1f2 + Lθ(θ0;u2|v2)f1f2]du1du2. Aśı, el factor común
es el producto de las densidades y la suma es del score evaluado en cada observación.
150
8.3. Propiedades Asintóticas
“Los estimadores MV son consistentes y asintóticamente normales”
Para demostrar consistencia note que:
1. EN [L(θ)]
p−→E[L(θ)]
2. θ̂N = argmáxθ∈Θ EN(L(θ)); θ0 = argmáxθ∈Θ E(L(θ)) (por lema 14.1)
Por teorema de continuidad ⇒ θ̂N p−→ θ0.
Para que ello ocurra necesitamos
Supuesto 15.1 (Compacidad): Θ cerrado y acotado.
Supuesto 15.2 (Interior): θ0 ∈ int{Θ}.
Supuesto 15.3 (Dominancia II ): E[ supθ∈Θ |Lθθ| ] existe.
Proposición 16: Bajo los supuestos 14.1 (Dist.), 14.2 (Dominancia), 14.3 (Identidad
Global) y 15.1, tenemos θ̂N
p−→ θ0.
Bajo los supuestos adicionales 14.4 (Dif.), 14.5 (Información finita), 14.6 (Información
no singular), 15.2 y 15.3 tenemos
{
−EN [Lθθ(θ̂N)]1/2
}√
N(θ̂N − θ0) d−→N (0, Ik)
con lo cual se puede demostrar que
√
N(θ̂N − θ0) d−→N(0, I(θ0)−1)
Estos estimadores son CUAN (Consistent and Uniformly Asymptotically Normal).
Luego
θ̂
a∼N
(
θ0 , [N EN (−Lθθ(θ̂N))]−1
)
donde EN (−Lθθ(θ̂N )) es un estimador consistente de I(θ0).
8.4. Estimación de la Varianza
Tenemos tres alternativas:
151
(i) Media emṕırica del negativo del Hessiano
EN [−Lθθ(θ̂N)].
(ii) La varianza emṕırica del score
V arN [Lθ(θ̂N )] = EN [Lθ(θ̂N )Lθ(θ̂N )
′].
(iii) La información emṕırica
EN [I(θ̂N |v)]
Estimación Restringida
Ahora queremos mostrar que menos parámetros generalmente pueden ser estimados más
eficientemente cuando las restricciones impuestas para reducir el número de parámetros
son correctas. Para ver esto como un resultado más general analizaremos el caso especial
en el cual [θ′1 , θ
′
2] ∈ Θ = Θ1 ×Θ2 y las restricciones de parametros son θ2 = 0. Notemos
que el estimador restringido
θ̂R =
[
θ̂1R
θ̂2R
]
=
[
argmáxθ∈Θ : θ2=0EN [L(θ)]
0
]
y su varianza asintótica
VR =
[
I11(θ0)
−1 0
0 0
]
≤ I(θ0)−1
en el sentido semi-definida postiva.
Para mostrar esto primero debemos notar que
I(θ0)[I(θ0)
−1 − VR]I(θ0) = I(θ0)− I(θ0)VRI(θ0)
=
[
I11 I12
I21 I22
]
−
[
I11 I12
I21 I22
] [
I−111 0
0 0
] [
I11 I12
I21 I22
]
=
[
0 0
0 I22 − I21I−111 I12
]
= A
donde W = I22 − I21I−111 I12 es la matriz de varianzas de L2(θ0)− I21(θ0)I−111 (θ0)L1(θ0)
Luego tenemos que
(
C ′1 C
′
2
)
A
(
C1
C2
)
= C ′2W C2 ≥ 0.
�
152
8.5. Computación del Estimador MV
Buscamos θ̂N tal que EN [Lθ(θ̂N )] = 0
1. Búsqueda de Grilla
Se busca entonces
máx
θ∈[a,b]
Q(θ)
Para conseguirlo subdividimos el intervalo [a, b] en un número de intervalos
{[a, θ1], [θ1, θ2], . . . , [θn, b]}
luego evaluamos Q(·) en las cotas de los intervalos (θi , i = 1, . . . , n), se escoge
el θi donde Q(·) toma el mayor valor, se escogen entonces los intervalos [θi−1, θi]
y [θi, θi+1]. Luego se itera la realización con estos dos intervalos y aśı sucesivamente.
Una stopping rule estandar puede ser |Q(θi) − Q(θi+1)| < 10−5, o tambien |θi −
θi+1| < 10−5.
La búsqueda de grilla funciona para θ escalar.
2. Aproximación por Polinomios
Si Q(·) es diferenciable
Q(θ) ≈ a+ b(θ − θ0) +
1
2
c(θ − θ0)2
Maximizando:
∂ Q(θ)
∂ θ
= b+ c(θ − θ0) = 0
θ∗ = θ0 −
b
c
¿Cómo escoger a, b y c? Podemos usar el Teorema de Taylor si Q es doblemente
diferenciable. Aśı, a = Q(θ0), b = Qθ(θ0) y c = Qθθ(θ0).
Finalmente, dado que esta es una expansión local en torno a θ0, debemos repetir
los pasos anteriores para una distintos valores de θ0 y elegir aquel que maximice
la función objetivo.
3. Búsqueda de Ĺınea
Dado un valor inicial θ1 y una dirección de búsqueda “δ” una iteración de este
método busca resolver
λ∗ = argmáx
λ
Q(θ1 + λδ)
153
Luego θ2 = θ1 + λ
∗δ.
Hay distintos métodos de Line Search, los que difieren en cómo elegir λ y δ, donde
λ es el largo del paso (size step) y por convención λ ≥ 0.
Dado que la derivada direccional de Q es
∂ Q(θ1 + λδ)
∂ λ
= Qθ(θ1 + λδ)
′ δ > 0
lo que condiciona nuestra elección de δ.
0
5
10
15
−5
0
5
10
0
0.5
1
1.5
2
L
o
g
−
L
ik
e
lih
o
o
d
F
u
n
c
ti
o
n
0
5
10
15
−5
0
5
10
0
0.5
1
1.5
2
2
λ
1
0
−1
L
o
g
−
L
ik
e
lih
o
o
d
F
u
n
c
ti
o
n
154
8.5.1. El Método de Steepest Ascent
Setea δ = Qθ(θ1) (gradiente) y satisface
∂Q(θ1 + λ · δ)
∂λ
∣∣∣∣
λ=0
= Qθ(θ1)
′Qθ(θ1) > 0
Lo anterior se cumple a menos que θ1 sea un valor cŕıtico de Q(θ). El algoritmo es
θ2 = θ1 + λ ·Qθ(θ1)
El problema de esto es que no nos dice como elegir λ. Sabemos que al usar el gradiente
como dirección se tiene una propiedad de optimalidad local.
Dentro de todas las direcciones con el mismo largo δ = Qθ(θ1) da la tasa más rápida de
aumento de Q(θ1 + λ · δ) con respecto a λ
Qθ(θ1) = argmaxδ:‖δ‖=‖Qθ(θ1)‖
∂Q(θ1 + λ · δ)
∂λ
(Para más detalles ver la página 353 de Ruud). Otra propiedad es que el gradiente es el
vector normal de todas las direcciones de θ que dejan Q constante en una vecindad de
θ1
Q(θ1 + λ · δ) = c ⇐⇒ 0 =
∂Q(θ1 + λ · δ)
∂λ
∣∣∣∣
λ=0
0 = δ′Qθ(θ1)
Donde θ1 es un valor cŕıtico. Tenemos que Qθ(θ1) es ortogonal a la dirección δ del “level
set” (conjunto nivel) de la función dibujada en un gráfico de contorno, como se puede
apreciar a continuación
8.5.2. Métodos Cuadráticos
Suponga que Q(·) es exactamente cuadrática
Q(θ) = a + b′θ +
1
2
θ′Cθ
Note que
Qθ(θ) = b+ Cθ
Qθθ(θ) = C
′
155
Figura 8.1: Optimización por Steepest Ascent.
Q(·) alcanza su máximo en θ∗ y notando que Qθ(θ∗) = 0 se tiene
θ∗ = −C−1b
Donde asumimos que C es simétrica2. Note que podemos caracterizar θ∗ en función de
Qθ y Qθθ evaluado en cualquier parámetro θ1
θ∗ = −C−1b
θ∗ = θ1 − C−1(b+ cθ1)θ∗ = θ1 −Qθθ(θ1)−1Qθ(θ1)
Al setear δ = −Qθθ(θ1)−1 · Qθ(θ1) y λ = 1 y con una line search alcanzamos el óptimo,
sin importar el valor de partida (si es cuadrática exacta).
3.2.1.Métodos Cuadráticos y MLE
Newton-Raphson: El más popular
δNR = {−EN [Lθθ(θ1)]}−1EN [Lθ(θ1)] con λ = 1. De esta manera tenemos
θk+1 = θk + δNR
2La matriz C provendrá de una expansión de Taylor y será una matriz de segundas derivadas, luego
no es descabellado asumir simetŕıa.
156
Si θ∗ = θk+1 y θ1 = θ
k. Luego, NR es basado en la expansión de Taylor de segundo orden
de EN [L(θ)] en θ1.
EN [L(θ)] ≃ EN [L(θ1)] + (θ − θ1)′EN [Lθ(θ1)] +
1
2
(θ − θ1)′EN [Lθθ(θ1)](θ − θ1)
Notando lo siguiente:
∂
∂θ
= 0 =⇒ 0 = EN [Lθ(θ1)] +
2
2
EN [Lθθ(θ1)](θ
∗ − θ1)
=⇒ θ∗ = θ1 + {−EN [Lθθ(θ1)]}−1EN [Lθ(θ1)]
Si θ∗ = θ2 tenemos
θ2 = θ1 + {−EN [Lθθ(θ1)]}−1EN [Lθ(θ1)]
Modified Scoring:
En lugar del Hessiano ocupa la matriz de información emṕırica:
δS = EN [I(θ1|v)] · EN [Lθ(θ1)]
Con λ = 1. A veces el Hessiano no es semidefinido negativo y se corrige con este método
porque la información es semidefinida positiva. Este hecho hace que δS siempre apunta
en una dirección de aumento.
Rao (1973) llamó a la iteración
θi = θi−1 + δS(θi−1) i ∈ N
el Método de Scoring. Si tomamos lo anterior más line search tenemos el Modified
Scoring.
Algoritmo BHHH: Berndt, Hall, Hall, Hausman
δBHHH = {EN [Lθ(θ1)Lθ(θ1)′]}−1EN [Lθ(θ1)]
Tiene la misma ventaja que usar la matriz de información en términos “semidefinidos
positivos”, y que la dirección de búsqueda (search direction) es siempre una dirección
de aumento local.
Note que δBHHH es el coeficiente OLS de la regresión de una constate igual a 1 sobre el
score para cada observación.
Este método sólo requiere calcular el score, los anteriores requieren el Hessiano (esto
hace el método ser más rápido).
157
8.5.3. Criterios de Convergencia
Un criterio muy común en estad́ıstica es un criterio sobre la variación de los parámetros,
por ejemplo
‖θi − θi−1‖ < 10−5
Si bien es intuitivo, esto se puede dar en situaciones en que el algoritmo está moviéndose
muy lento en el espacio de los parámetros θ, que la dirección es pobre o que la función
está pobremente aproximada por una cuadrática.
Convergencia debiese ser definida por cuán cerca de cero es el score y si el Hessiano es
negativo definido.
En nuestro caso Q(θ + λ · δ) = EN [L(θ + λ · δ)] y encontramos un valor cŕıtico de la
función cuando la derivada de esta es cero al valor de θ
∂EN [L(θi + λ · δi)]
∂λ
∣∣∣∣
λ=0
= 0
Para métodos cuadráticos como el Modified Scoring o NR, tenemos
∂EN [L(θi + λ · δi)]
∂λ
= EN [Lθ(θi; u)]
′{EN [Lθθ(θi)]}−1EN [Lθ(θi)]
Esta expresión es cero cuando un máximo se ha alcanzado, luego el step size óptimo es
0 y también lo es la derivada con respecto al step size.
Luego en este caso el criterio de convergencia “escalar” es
EN [Lθ(θi; u)]
′{EN [Lθθ(θi)]}−1EN [Lθ(θi)] < 10−5
y EN [Lθθ(θi)] es semidefinido negativo.
Para asegurar convergencia a un máximo global debemos probar distintos valores inicia-
les.
Si la log-likelihood es globalmente cóncava, cualquier criterio basado en parámetros o
función objetivo debiera cuadrar porque solo existe un máximo global.
158
8.6. Inferencia en Máxima Verosimilitud
Veremos primero los tests de hipótesis clásicos.
Considere el vector θ = [θ′1, θ
′
2] y la nula H0 : θ2 = θ02 = 0, dim(θ2) = K − M ,
dim(θ1) = M .
Por simplicidad usaremos I(θ0)
−1 como matriz de varianza asintótica.
Test de Wald
1. Compute estimador MV no restringido θ̂ ∈ argmaxθ∈Θ EN [L(θ)].
2. Compute un estimador de la matriz de varianza de
√
n( ˆθ − θ0) asintótica I(θ̂N )−1.
3. Compute la forma cuadrática W = n · θ̂′2V̂ −1W θ̂2.
Donde V̂ −1W es el elemento (2,2) o bloque de la matriz de varianzas que toma lo
referente a θ2
3. Aśı,
V̂w = {I22(θ̂)− I21(θ̂)[I11(θ̂)]−1I12(θ̂)}
4. Compare W ∼ χ2k−m.
Test del Score o LM
El test del score examina cuanto EN [L2(θ̂R)] se desv́ıa de vector 0.
Bajo la nula H0 = θ02 = 0, EN [L2(θ̂R)] no debiera desviarse mucho de cero. Los pasos a
seguir son:
1. Compute el estimador restringido
θ̂R = argmaxθ∈Θ:θ2=0 EN [L(θ)] =
[
argmaxθ1 EN [L(θ1, 0)]
0
]
y el score para los parámetros restringidos es EN [L2(θ̂R)] = EN
[
∂L(θ)
∂θ2
∣∣∣∣
θ̂R
]
(puede
depender de θ̂1 también).
3Recordar que I(θ) =
[
I11 I12
I21 I22
]
.
159
2. Compute un estimador consistente de la varianza asintótica de
√
nEN [Lθ(θ0)], por
ejemplo I(θ̂R).
3. Compute S = n·EN [L2(θ̂R)]′V̂ −1S EN [L2(θ̂R)] donde VS = I22(θ̂R)−I21(θ̂R)[I11(θ̂R)]−1I12(θ̂R)
que es la varianza condicional de
√
nEN [L2(θ0)] condicional en
√
nEN [L(θ0)].
4. Compare S ∼ χ2k−m.
Hay dos maneras convencionales de escribir este test
i) S = N · EN [Lθ(θ̂R)]′[I(θ̂)−1]EN [Lθ(θ̂R)]
Es idéntica a la anterior porque EN [L1(θ̂R)] ≡ 0 y V̂ −1S es el bloque (2,2) de la
matriz particionada I(θ̂R)
−1.
De esta manere el test del score es el criterio de convergencia evaluado en θ̂R.
ii) SOLS = N · EN [Lθ(θ̂R)]′{V arN [Lθ(θ̂R)]}−1EN [Lθ(θ̂R)] porque es el la suma de los
residuos al cuadrado de la regresión de un vector de 1’s en las columnas de la
matriz Lθ(θ̂R;Un).
De acuerdo a Ruud, si denotamos la matriz de N ×K de derivadas (evaluadas en
todas las observaciones, por eso no me cuadraba...) con
Ĝ = [Lθ(θ̂R;Un)]
′
tenemos que
EN [Lθ(θ̂R)] = N
−1Lθ(θ̂R; un)
′ · 1
y
V arN [Lθ(θ̂R;Un)] = N
−1Ĝ′Ĝ
luego
SOLS = 1
′Ĝ[Ĝ′Ĝ]−1Ĝ′1
Test de Razón de Verosimilitud (LR)
LR = 2 ·N{EN [L(θ̂)]− EN [L(θ̂R)]} ∼ χ2k−m
Es importante notar que hay que calcular los dos modelos.
160
Caṕıtulo 9
Variable Dependiente Limitada
Esta sección sigue parcialmente las notas de J.M. Benavente y el libro de Davidson &
Mackinnon, más algunas derivaciones propias. La notación será la de Ruud para no
confundirnos.
Cuando la variable dependiente es binaria, el modelo de regresión lineal se llama modelo
de probabilidad lineal (MPL). Esta es la forma más simple de expresar un caso con
variable limitada
yi = xiβ + ǫ
Donde yi es un escalar, xi es un vector de 1×k y β de k×1. La variable yi puede tomar
valores entre 0 y 1.
Observaciones.
El MPL parece inadecuado dado que no garantiza que las predicciones estén en el
compacto [0, 1]. Sin embargo, es muy fácil de estimar.
Permite también la presencia de endogeneidad y estimarlo mediante 2SLS.
9.1. Modelo Básico de Elección Binaria
El modelo de elección binaria supone que existe una variable latente, generalmente
una utilidad indirecta que depende de variables observables y de un término de error.
Esta variable es latente puesto que no se observa y la llamamos y∗i . En su lugar, ob-
servamos un valor igual a uno si se eligió una opción o un valor igual a cero si no es
elegida
y∗i = x
′
iβ + εi
161
pero nosotros sólo observamos:
yi =
{
1 si y∗i > 0;
0 si y∗i ≤ 0
Luego, la probabilidad de observar un resultado favorable (yi = 1) estará dado por
E[yi|xi] = Pr[yi = 1|xi] = P [x
′
iβ + εi > 0|xi] = F (x
′
iβ)
donde F (·) es la función de probabilidad acumulada de ǫ.
Modelos Alternativos para F(·):
existen dos casos t́ıpicos para la elección de F (·):
Probit :
Φ(z) =
1√
2π
·
∫ z
−∞
exp(−u2/2)du
Logit :
Λ(z) =
1
1 + e−z
9.2. Estimación por Máxima Verosimilitud
La función de verosimilitud está dada por
l = F (x
′
iβ)
yi[1− F (x′iβ)]1−yi
Tomando logaritmo a la expresión anterior:
L = yi log[F (x
′
iβ)] + (1− yi) log[1− F (x
′
iβ)]
y sumando sobre N y dividiendo porN tenemos la esperanza muestral de la loglikelihood :
EN [L(β; x)] =
1
N
N∑
i=1
{
yi · logF (x
′
iβ) + (1− yi) · log[1− F (x
′
iβ)]
}
Maximizando con respecto a β obtenemos la esperanza muestral de la función “Score”:
∂EN [L(β; xi)]
∂β
= EN [Lβ(β; xi)] =
1
N
n∑
i=1
{
yi · fi
Fi
− (1− yi) · fi
1− Fi
}
︸ ︷︷ ︸
escalar
· xi︸︷︷︸
vector
162
con Fi = F (x
′
iβ) y fi = f(x
′
iβ); donde f es la densidad correspondiente a F.
Entonces:
EN [Lβ(β; xi)] =
1
N
n∑
i=1
yi − Fi
Fi(1− Fi)
· fi · xi
y aśı,el estimador β̂MV es aquel que resuelve las ecuaciones normales o de verosimilitud:
1
N
n∑
i=1
yi − Fi
Fi(1− Fi)
· fi · xi = 0
Como se aprecia en la ecuación anterior, no existe una solución anaĺıtica para β̂ y
debemos usar algún algoŕıtmo como Newton-Raphson o BHHH.
9.3. Modelo Logit
Para este caso, si se considera la forma funcional antes vista, se tiene que :
Λ(z) =
1
1 + e−z
entonces al derivar se puede obtener la siguiente expresión :
f(z) = Λ(z)[1− Λ(z)]
Prueba :
F (z) = Λ(z) = (1 + e−z)−1
dΛ(z)
dz
= −1(1 + e−1)−2(−1 · e−z) = Λ(z)[1− Λ(z)].�
Y en consecuencia las ecuaciones de verosimilitud son:
∂EN [L(β; xi)]
∂β
= EN [Lβ(β; xi)] =
1
N
n∑
i=1
(yi − Λi) · xi
donde Λi = Λ(x
′
iβ).
163
La matriz de segundas derivadas (Hessiano) es la siguiente: (permite ver la velocidad
con que se acerca al máximo)
H =
∂2EN [L(β; xi)]
∂β∂β ′
= EN [Lββ ] = −
1
N
n∑
i=1
Λi(1− Λi)︸ ︷︷ ︸
escalar
·xix′i
Prueba:
∂EN [L(β; xi)]
∂β
=
1
N
n∑
i=1
yi − Fi
Fi(1− Fi)
· fi · xi
=
1
N
n∑
i=1
yi − Λi
Λi(1− Λi)
· Λi(1− Λi) · xi
=
1
N
n∑
i=1
(yi − Λi) · xi
∂2EN [L(β; xi)]
∂β∂β ′
=
1
N
n∑
i=1
−xi
∂Λi
∂β
= − 1
N
n∑
i=1
Λi(1− Λi) · xix′i�
La que es definida negativa para todos los β, asumiendo que los x’s no son perfectamente
colineales (si lo fueran H no es invertible, explota). Aśı, la log-likelihood es globalmente
cóncava y el estimador de máxima verosimilitud es único (no tendremos el problema de
tener varios máximos locales). La matriz de varianzas y covarianzas de β̂ la podemos
obtener fácilmente de la media emṕırica del Hessiano (negativo de la inversa)
EN [Lββ(β̂)] =
1
N
N∑
i=1
Λi(1− Λi) · xix′i
9.4. Modelo Probit
En este caso, se tiene que :
∂EN [L(β; xi)]
∂β
=
1
N
N∑
i=1
yi − Φi
Φi(1− Φi)
· φi · xi = 0
164
donde Φi = Φ(x
′
iβ) y φi = φ(x
′
iβ) con φ la densidad de la normal estándar. También se
puede escribir como:
EN [Lβ(β; xi)] =
1
N
∑
yi=0
−φi
1− Φi
· xi +
1
N
∑
yi=1
φi
Φi
· xi
La matriz Hessiana correspondiente es la siguiente:
∂2EN [L(β; xi)]
∂β∂β ′
=
∑
yi=0
−φi
(1− Φi)2
[φi − x′iβ(1− Φi)] · xix′i +
∑
yi=1
−φi
Φ2i
[φi + x
′
iβΦi] · xix′i
Dadas las expresiones para las medias condicionales, los valores entre paréntesis cuadra-
dos son positivos y entonces la matriz Hessiana correspondiente es negativa definida, es
decir, la log-likelihood es globalmente cóncava.
La matriz Hessiana en la otra notación es la siguiente:
EN [Lββ(β; xi)] =
1
N
n∑
i=1
φ2i
Φi(1− Φi)
· xix′i
9.5. Propiedades Asintóticas del estimador ML
Bajo “condiciones de regularidad generales”, el estimador ML es consistente y asintóti-
camente normal con una matriz de varianzas y covarianzas dada por el inverso de la
matriz de información. Esta inversa es la cota inferior de Cramèr-Rao y entonces, el
estimador ML es también asintóticamente eficiente.
La varianza del vector Score:
Para ambos modelos el Score tiene la siguiente forma:
Lβ(β; xi) =
yi − Fi
Fi(1− Fi)
· fi · xi
Donde Fi = F (x
′
iβ) y fi = f(x
′
iβ). Aśı, la varianza viene dada por:
165
E (Lβ(β; xi)Lβ(β; xi)
′|xi) =
E(yi − Fi|xi)2
[Fi(1− Fi)]2
· f 2i · xix′i
=
f 2i
Fi(1− Fi)
· xix′i
Dado que la Var(yi|xi)=Fi(1− Fi).
Demostración
V ar(yi|xi) = E(yi − Fi|xi)2 = E(y2i − 2Fiyi + F 2i |xi)
Dado que: E(yi|xi) = Fi
V ar(yi|xi) = E(yi|xi)− F 2i = Fi(1− Fi)�
Notar que esta última expresión es la matriz de información para una observación, luego
tomando esperanza muestral tenemos la matriz de información emṕırica
EN
(
I(β̂|xi)
)
=
1
N
N∑
i=1
f 2i
Fi(1− Fi)
· xix′i
Luego,
√
N(β̂ − β) d−→N
(
0, (NEN(I(β̂|xi)))−1
)
9.6. Comparación entre modelos Probit y Logit
La mayoŕıa de los textos sugiere que un análisis detallado acerca de la elección
entre un modelo u otro, no rinde muchos frutos.
Ambos modelos predicen en forma similar; estimadores (una vez corregidos para
hacerlos comparables) son estad́ısticamente indistinguibles.
Si las muestras son muy grandes pueden aparecer diferencias ya que la distribución
loǵıstica tiene colas más pesadas (anchas) que la distribución normal (ver gráficos).
166
Para que los parámetros entre los modelos sean comparables, se deben realizar
ciertos ajustes:
βprobit = βlogit ∗
√
3
π
βprobit = βlogit ∗ 0,625
La razón es que la función loǵıstica acumulada es en realidad:
Λ(z) =
1
1 + e−zπ/
√
3
y por simplicidad omitimos el término π/
√
3. Luego debemos hacer la corrección sugerida
para comparar estos coeficientes con los del probit.
9.7. Efectos Marginales
Sabemos que:
P [yi = 1|xi] = F (x′iβ)
∂P [yi = 1|xi]
∂xi
= f(x′iβ) · β
estos son los llamados efectos marginales :
Probit: ∂P [yi=1|xi]
∂xi
= φ(x′iβ) · β
Logit: ∂P [yi=1|xi]
∂xi
= Λ(x′iβ)[1− Λ(x′iβ)] · β
También se pueden calcular los errores standard de estos efectos marginales usando
el método Delta. Si definimos ĝ(β̂) = f̂ · β̂ donde f̂ = f(x′iβ̂), entonces:
V ar.Asin.(ĝ) = ĜV̂ Ĝ′
167
donde,
Ĝ =
∂ĝ(β̂)
∂β
y V= Var. Asin. (β̂).
Note que Ĝ es una matriz de K × K. Aplicando regla de la cadena y reglas de de-
rivación de matrices:
Ĝ = f̂
(
∂β̂
∂β̂
)
+ β̂
(
∂f̂
∂β̂
)
= f̂IK + β̂
(
∂f̂ (z)
∂z
)(
∂z
∂β̂
)
= f̂IK + β̂
(
∂f̂ (z)
∂z
)
x′i
Donde z = x′iβ̂. Para el caso del Probit tenemos que
∂f(z)
∂z
= −z · φ(z)
con z = x′β̂
Demostración:
∂φ(z)
∂z
=
∂
∂z
(
(−1/
√
2π) exp(−z2/2)
)
=
−1√
2π
exp(−z2/2) · (−z)
= −z · φ(z)
QED
luego, juntando los términos tenemos que
Ĝ = φ(x′iβ̂)IK − β̂
(
(x′iβ̂)φ(x
′
iβ̂)
)
x′i
= φ · [IK − (x′iβ̂)β̂x′i]
donde Ĝ es una matriz de K×K. El primer término es una matriz de identidad de orden
K y el segundo termino está compuesto por un escalar x′iβ̂ y una matriz de K×K dada
por β̂x′i.
V ar.Asin.(γ̂)probit = φ
2[I − (x′iβ̂)β̂x′i]V [I − (x′iβ̂)β̂x′i]′
168
Para el caso del Logit tenemos que
df
dz
= (1− 2Λ)Λ(1− Λ)
Demostración:
∂f(z)
∂z
=
∂
∂z
(Λ(1− Λ)) = ∂
∂z
(Λ− Λ2)
= Λ(1− Λ)− 2Λ(Λ(1− Λ))
= (1− 2Λ)Λ(1− Λ)
QED.
Luego, reemplazando en la expresión general, tenemos que:
V ar.Asin.(γ̂)logit = (Λ̂(1− Λ̂))2[I + (1− 2Λ̂)β̂x′]V [I + (1− 2Λ̂)β̂x′]′
Al igual que los efectos marginales, los errores standard asintóticos también dependen
del vector de variables x utilizado.
9.8. Comentarios finales
(i) Efecto marginal: ¿evaluar en la media o la media de las evaluaciones individua-
les?.
Según el teorema de Slutsky debeŕıa dar lo mismo (plim g(xn)=g(plim xn), pero en
la práctica para muestras pequeñas se recomienda calcular los efectos marginales
individuales y luego promediarlos.
(ii) Efecto marginal de variables dummies: La forma correcta de estimar el efecto
marginal de una variable independiente binaria, por ejemplo d, seŕıa:
Prob[Y = 1|x∗, d = 1]− Prob[Y = 1|x∗, d = 0]
Donde x∗es la media de todo el resto de las variables independientes. En general,
tomando la derivada con respecto a la variable binaria como si fuera continua en-
trega resultados sorprendentemente certeros. Pero lo anterior solo es válido cuando
se evalúa el efecto marginal para la media del resto de las variables independientes.
Podemos analizar el efecto de la variable dummy en toda la distribución al calcular
Prob[Y=1] sobre el rango de x’β para los valores de la variable binaria.
169
iii) Problemas de estimación en Probit
(Supongamos que tenemos una variable (observada) zi tal que:
{
yi = 1 si zi > 0;
yi = 0 si zi ≤ 0
z se denomina clasificador perfecto. Esto implica que el modelo no puede ser estima-
do (esta es una propiedad de los datos). Esto ocurre pues existe una combinación
lineal zi = x
′
iβ
• de tal forma que zi es un clasificador perfecto y entonces β no
puede ser identificado.
iv) Grados de libertad en muestras desbalanceadas: Otro problema de identifi-
cación ocurre cuando tenemos una combinación de muestra pequeña con un gran
número de parámetros a ser estimados.
La regla que aplica aqúı es la siguiente:
Si min[n·y, n·(1 − y)]<k, entonces no se pueden estimar los β’s. Donde n es el
tamaño de muestra,k es la dimensión de β, n·y es el número de unos y n·(1 − y)
es el número de ceros.
170
Lo anterior pues no existe una solución finita para las condiciones de primer orden
y por lo tanto β no puede ser identificado.
171
Caṕıtulo 10
Evaluaciones de semestres anteriores
172
10.1. Pruebas I
Prueba I
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Felipe González y Daniel Muñoz
6 de septiembre, 2010
Puntaje Total: 100 puntos
Tiempo Total: 120 minutos
1. Comentes (20 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
1. Dado que una variable aleatoria es una función que mapea del σ-álgebra a los
reales, habrá eventos que quedarán sin medida de probabilidad.
2. Si la primera columna de la matriz X en el modelo de regresión lineal es un vector
de unos, la suma de los errores estimados es cero.
3. De acuerdo a la desigualdad de Chebyshev, de una muestra de 900 observaciones,
a lo más 100 se encontraŕıan a 3 o más desviaciones estándar de la media.
4. El coeficiente R2 es una buena medida de bondad de ajuste para el estimador
MCO del modelo de regresión lineal.
2. Problemas (80 puntos)
1. Ud. dispone de la siguiente información obtenida de un modelo de regresión lineal
con una constante y dos regresores para una muestra de tamaño n = 30.
β̂ =
−5
4
−2
, s2(X ′X)−1 =
3 0 1
0 2 0
1 0 2
173
a) Usando estos resultados construya un intervalo de confianza a un 95% de
confianza para el parámetro θ = β1 + β2 + β3. ¿Está θ = 1 en el intervalo?
(10 puntos)
b) Realice un test de hipótesis para la siguiente hipótesis conjunta (12 puntos):
H0 : β1 + β2 = 1
β2 + β3 = −1
2. Sea el modelo de regresión lineal Y = Xβ + ǫ, donde se cumplen los supuestos
del Teorema de Gauss-Markov. Suponga que se sabe que Rβ = 0 donde R es una
matriz de q × k no estocástica. Considere el estimador
β̃ = β̂ − (X ′X)−1R′[R(X ′X)−1R′]−1Rβ̂
donde β̂ es el estimador MCO del modelo.
a) Demuestre que Rβ̃ = 0. (5 puntos)
b) Encuentre E(β̃). (10 puntos)
c) Encuentre la varianza de β̃. (10 puntos)
3. Sea el modelo de regresión lineal expresado de la siguiente forma particionada
Y = X1β1 +X2β2 + ǫ, donde Y es un vector de n× 1, X1 es una matriz de n× k1,
la matriz X2 es una matriz de n × k2, los vectores β1, β2 son de dimensión k1 y
k2 respectivamente, ǫ es un vector de n × 1 y se cumplen todos los supuestos del
Teorema de Gauss-Markov. Suponga que Ud. dispone de un estimador de β1, b1.
Definamos Y ∗ = Y −X1b1. Suponga que Ud. estima el modelo
Y ∗ = X2β2 + ǫ
a) Encuentre formalmente las condiciones estad́ısticas que debe satisfacer b1 para
que el estimador de β2 del modelo anterior sea insesgado. (10 puntos)
b) Asumiendo que la condición anterior se cumple, encuentre una expresión para
su matriz de varianzas y covarianzas. (11 puntos)
c) Muestre que si X1V (b1)X
′
1 = σ
2X2(X
′
2M1X2)
−1X ′2 − σ2I, el estimador de β2
es MELI (o BLUE). (12 puntos)
174
Prueba I
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Cristóbal Otero y Sebastián Otero
5 de septiembre, 2011
Puntaje Total: 100 puntos
Tiempo Total: 120 minutos
1. Comentes (25 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
1. Una variable aleatoria es una función que mapea del σ-álgebra a los reales, con lo
cual algunos eventos se quedan sin medida de probabilidad.
2. Una CDF F (x) necesariamente debe ser continua, monotona no decreciente y sus
ĺımites deben ser de modo tal que ĺımx−→∞ F (x) = 1 y ĺımx−→−∞ F (x) = 0.
3. Si X es una variablea aleatoria no negativa, de acuerdo a nuestro conocimiento
estad́ıstico sabemos que la probabilidad de que X sea mayor que 1, es a lo más su
esperanza independiente de su distribución.
4. En el modelo de regresión lineal, el test F es un sandwhich con paredes que invo-
lucran la hipótesis nula y relleno que involucran la hipótesis alternativa.
5. En el modelo de regresión lineal, el estimador MCO es exáctamente equivalente al
de Máxima Verosimilitud.
2. Problemas (75 puntos)
1. Sea el modelo normal de regresión lineal particionado Y = X1β1+X2β2+ ǫ donde
Y es un vector de n × 1, X1 es una matriz no estócastica de n × k1, β1 es un
vector de parámetros de k1×1, X2 es una matriz no estocástica de n×k2, β2 es un
vector de parámetros de k2 × 1 y ǫ es un vector de n× 1 con momentos E(ǫ) = 0
y V ar(ǫ) = σ2I.
175
a) Suponga que Ud. no observa X2. Muestre que el estimador de β1 del modelo
observado Y = X1β1 + u es sesgado (si el modelo verdadero es el que se
plantea en el enunciado). (5 puntos)
b) Ahora suponga que observa todas las variables, encuentre una expresión ce-
rrada (una expresión expĺıcita y simplificada) para el estimador de β2 del
modelo completo del enunciado. (5 puntos)
c) Encuentre una expresión para la varianza de β̂2 del modelo completo. (5
puntos).
d) ¿ Cómo testeaŕıa la hipótesis nula H0 : β2 = 0 contra la alternativa Ha : β2 6=
0? Escriba una expresión para el test, su distribución, grados de libertad y
una expresión para el valor cŕıtico para el cual se rechaza la hipótesis nula a
un nivel α. (10 puntos)
2. Suponga que tiene un modelo de regresión sencillo: y = β + ǫ donde E(ǫ) = 0 y
V ar(ǫ) = σ2. Es decir, no tiene regresores, sólo una constante.
a) Muestre formalmente que el estimador MCO de β es igual a β̂ = (1/n)
∑n
i=1 yi.
Obtenga su varianza poblacional y plantee un estimador para dicha varianza?
(10 puntos)
b) Obtenga la TSS y RSS y calcule el R2 de esta regresión. Interprete. (5 puntos)
c) Suponga que tiene dos muestras de y tamaño n0 y n1 con medias poblacio-
nales iguales a µ0 y µ1 respectivamente, y desea testear la siguiente hipótesis
nula: H0 : µ1 = µ0. Una manera de testear dicha nula es con un test de
diferencia de medias. Para ello se calculan las medias ȳ1 = (1/n1)
∑n1
i=1 yi y
ȳ0 = (1/n0)
∑n0
i=1 yi y se hace un test t, previo calculo de la varianza. Una
manera distinta es hacerlo mediante un modelo regresión lineal. Muestre que
en el modelo de regresión lineal y = β+ γd+ ǫ la nula anterior es equivalente
a H0 : γ = 0 donde se han juntado las dos muestras en una (aśı n = n1 + n0)
y
d =
{
1 si y ∈ muestra 1
0 si y ∈ muestra 0
Ayuda: Compute el estimador MCO de γ y calcule su media poblacional
usando la ley de grandes números. Con ello, podrá ver cómo se relacionan
ambas hipótesis nulas. (10 puntos).
3. Ud. dispone de la siguiente información obtenida de un modelo de regresión lineal
con una constante y dos regresores para una muestra de tamaño n = 30.
β̂ =
−2
1
−1
, s2(X ′X)−1 =
2 0 1
0 1 0
1 0 2
176
a) Usando estos resultados construya un intervalo de confianza a un 95% de
confianza para el parámetro θ = β1 − β2 + β3. ¿Está θ = −2 en el intervalo?
(10 puntos)
b) Realice un test de hipótesis para la siguiente hipótesis nula conjunta:
H0 :
(
β1 − β2
−β2 + β3
)
=
(
1
−1
)
contra la hipótesis alternativa,
Ha :
(
β1 − β2
−β2 + β3
)
6=
(
1
−1
)
Para ello, escriba el estad́ıstico, su distribución, sus grados de libertad una
expresión para el valor cŕıtico para el cual se rechaza la hipótesis nula a un
nivel de 5% y haga un dibujo indicando las zonas de rechazo y no rechazo.
(15 puntos)
Ayuda: Los valores cŕıticos para una distribución t son los siguientes: t0,95,27 =
1, 703, t0,95,30 = 1, 697, t0,975,27 = 2, 052, t0,975,30 = 2, 042.
Los valores cŕıticos para una distribución F son los siguientes: F 0,952,27 = 3,354;
F 0,952,30 = 3,315; F
0,95
3,27 = 2,960; F
0,95
3,30 = 2,922; F
0,975
2,27 = 4,242; F
0,975
2,30 = 4,182;
F 0,9753,27 = 3,647; F
0,975
3,30 = 3,589
177
Prueba I
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Cristóbal Otero, Sebastián Otero y Fernanda Rojas
7 de septiembre,2012
Puntaje Total: 90 puntos
Tiempo Total: 90 minutos
1. Comentes (20 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
1. La función
F (x) =
0 si x ≤ 0
|x|+ x si x ∈ (0, 1/4)
1 si x ≥ 1/4
no es continua, luego no podŕıa ser una función de distribución.
2. Una regresión poblacional no tiene mucho sentido porque nos interesa tener esti-
madores muestrales.
3. La geometŕıa del estimador MCO implica que X ′Mǫ = 0 (donde M es una matriz
que proyecta en el espacio nulo de X), luego si la primera columna de X es un
vector de unos llamado ι, tendremos que ι′ǫ̂ = 0
4. En el modelo normal de regresión lineal una región de confianza es de forma eĺıpti-
ca, sin embargo un rectángulo es una buena aproximación y no afecta nuestra
inferencia.
2. Problemas (70 puntos)
1. Una variable dummy toma sólo valores 0 y 1,y se las utiliza en datos con categoŕıas
por ejemplo género. Sean d1 y d2 dos variables dummies donde d1 toma el valor
1 si la persona es hombre y 0 si no. Por otra parte la variable d2 toma el valor 1
178
si la persona es mujer y 0 si no. Suponga que hay n1 hombres y n2 mujeres en la
muestra. Considere los siguientes tres modelos lineales:
y = α0 + α1d1 + α2d2 + ǫ (10.1)
y = α1d1 + α2d2 + ǫ (10.2)
y = α0 + φd1 + ǫ (10.3)
a) ¿Pueden ser estimadas por MCO las ecuaciones (1), (2) y (3)? Explique. (5
puntos)
b) Demuestre formalmente que en la ecuación (2) α̂1 y α̂2 corresponden a las
medias muestrales de la variable dependiente para hombres (ȳ1) y mujeres
(ȳ2) respectivamente. (10 puntos)
c) ¿Qué estima φ̂ en la ecuación (3)? Sobre la base de sus resultados encontrados
anteriormente, explique la relación entre los parámetros de las ecuaciones (2)
y (3). (10 puntos)
2. Suponga que usted es un monopolista que enfrenta una curva de demanda eco-
nométrica de la forma Q = α + βP + ε, con E(ε) = 0 y P determińıstico. En
el pasado, usted ha visto la siguiente lista de precios y ha vendido las siguientes
cantidades:
Q 3 3 7 6 10 15 16 13 9 15 9 15 12 18 21
P 18 16 17 12 15 15 4 13 11 6 8 10 7 7 7
Además suponga que su costo marginal es 10.
a) Estime α̂ y β̂ usando OLS y obtenga la matriz de varianza-covarianza. Ayuda:
s2 = 15,7419. (10 puntos)
b) Usando sus conocimientos de Microeconomı́a, calcule la cantidad monopólica
esperada óptima. (5 puntos)
c) Usando los resultados en (a), calcule un intervalo de confianza para el es-
tad́ıstico calculado en (b) (5 puntos).
Ayuda: Los valores cŕıticos para una distribución t son los siguientes: t0,975,15 =
2,132 ,t0,95,15 =1.753, t0,975,13 = 2,161, t0,95,13 = 1,771.
179
3. Considere un caso de sobre especificación del modelo de regresión lineal. Suponga
que se estima el modelo
y = Xβ + Zγ + u
cuando en realidad el verdadero modelo es el siguiente:
y = Xβ + ε
donde se asume que u y ε se distribuyen N(0, σ2I)
a) Calcule el estimador MCO β̃ utilizando el modelo sobre-especificado y deter-
minando una expresión de tipo forma cerrada. Determine si β̃ es insesgado o
no. (5 puntos)
b) Determine la varianza de β̃ y compare con la varianza de β̂, estimador MCO
del modelo verdadero. Muestre algebraicamente cuál de los dos modelos es
más eficiente. (10 puntos)
c) Muestre que la diferencia entre el estimador insesgado β̃ del modelo sobre-
especificado, y el estimador β̂ del modelo verdadero, puede escribirse como:
β̃ − β̂ = (X ′MZX)−1X ′MZMXy
(10 puntos)
180
Prueba I
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Lelys Dinarte, Nicolás Martorell
10 de septiembre, 2014
Puntaje Total: 80 puntos
Tiempo Total: 80 minutos
1. Comentes (20 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
a) Una variable aleatoria, no es variable, ni aleatoria. Comente.
b) Cuando tenemos una hipótesis múltiple, por ejemplo 2 hipótesis conjuntas, las
regiones de confianza son elipses y en general concuerdan con el rectangúlo que
se genera al hacer el producto cartesiano entre los intervalos de confianza de cada
hipótesis, hechos por separado.
c) El supuesto de identificación fundamental del modelo de regresión lineal impli-
ca que uno pueda minimizar la suma de los errores al cuadrado para obtener el
estimador MCO.
d) El método delta es clave para determinar la distribución asintótica de funciones
de variables aleatorias normales.
2. Problemas (60 puntos)
1. Sea el modelo de regresión lineal expresado de la siguiente forma particionada
Y = X1β1 +X2β2 + ǫ, donde Y es un vector de n× 1, X1 es una matriz de n× k1,
la matriz X2 es una matriz de n × k2, los vectores β1, β2 son de dimensión k1 y
k2 respectivamente, ǫ es un vector de n × 1 y se cumplen todos los supuestos del
Teorema de Gauss-Markov. Suponga que Ud. dispone de un estimador de β1, b1.
Definamos Y ∗ = Y −X1b1. Suponga que Ud. estima el modelo
Y ∗ = X2β2 + ǫ
181
a) Encuentre formalmente las condiciones estad́ısticas que debe satisfacer b1 para
que el estimador de β2 del modelo anterior sea insesgado. (10 puntos)
b) Asumiendo que la condición anterior se cumple y que b1 es independiente de
ǫ, encuentre una expresión para su matriz de varianzas y covarianzas. (10
puntos)
c) Si b1 es fijo, imagine un parámetro poblacional, ¿qué ocurre con la matriz de
varianzas y covarianzas que obtuvo en b)? ¿Cree Ud. que es mayor o menor
a la de β̂2 obtenida por MCO?(5 puntos)
d) Suponiendo que b1 no es fijo, muestre que siX1V (b1)X
′
1 = σ
2X2(X
′
2M1X2)
−1X ′2−
σ2I, el estimador de β2 es MELI (o BLUE). (10 puntos)
2. Suponga que Ud. está interesada en estimar el siguiente modelo de regresión lineal:
Y = Xβ + u donde Y es un vector de n × 1, la matriz X , no estocástica, es de
k × n, el vector β es de k × 1 y u es un vector de n × 1. Suponga que el modelo
satisface los supuesto de Gauss-Markov. Una amiga está preocupada por la escala
de su vector de parámetros y le propone el siguiente problema de optimización
para acotar su tamaño:
S̃2 = (Y −Xβ)′(Y −Xβ) + λβ ′β
donde λ > 0 es un “parámetro de penalización” que supondremos fijo. Es decir,
mientras más grande sea λ más castigará que se ββ ′ sea grande y más se alejará de
poder minimizar S̃2.
a) Derive el estimador de β que minimiza S̃2. Sea P̃ = (X ′X+λI)−1X ′ la matriz
de proyección análoga a P de MCO, ¿proyecta P̃ en el espacio generado por
las columnas de X? Sea M̃ = I − P̃ , ¿puede decir donde NO proyecta dicha
matriz? (10 puntos)
b) Muestre que β̃ es sesgado y obtenga una forma para su matriz de varianzas
y covarianzas. ¿ Cómo realizaŕıa inferencia en este caso? (7 puntos)
c) Muestre que si λ > 0, la matriz de varianzas y covarianzas de β̃ es menor que
la de β̂MCO en un sentido “definido positivo”. Ayuda: Si (A−B) es positiva
definida (A−1 −B−1) es negativa definida. (8 puntos)
182
Prueba I
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Vicente Castro y Antonia Paredes
9 de septiembre, 2015
Puntaje Total: 60 puntos
Tiempo Total: 80 minutos
1. Comentes (15 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
a) Una variable aleatoria es una función que mapea del σ-algebra a los reales, con lo
cual algunos eventos se quedan sin medida de probabilidad.
b) Sea (Ω,B, P ) un espacio de probabilidad y X : Ω → R. Luego, la CDF y pmf de
Y = g(X) no cambia por cuanto el espacio de probabilidad es el mismo.
c) Cuando tenemos una hipótesis múltiple, por ejemplo 2 hipótesis conjuntas, las
regiones de confianza son elipses y en general concuerdan con el rectangúlo que
se genera al hacer el producto cartesiano entre los intervalos de confianza de cada
hipótesis, hechos por separado. Aśı, la probabilidad de cometer error de tipo I y
II son similaresen ambos casos.
2. Problemas (45 puntos)
1. Sea el modelo de regresión lineal expresado de la siguiente forma particionada
Y = X1β1 +X2β2 + ǫ, donde Y es un vector de n× 1, X1 es una matriz de n× k1,
la matriz X2 es una matriz de n × k2, los vectores β1, β2 son de dimensión k1 y
k2 respectivamente, ǫ es un vector de n × 1 y se cumplen todos los supuestos del
Teorema de Gauss-Markov.
a) Demuestre el teorema de Frisch-Waugh-Lovell. En particular que β̂1 = (X
′
1M2X1)
−1X ′1M2Y
y que V (β̂1) = σ
2(X ′1M2X1)
−1 donde M2 = I −X2(X ′2X2)−1X ′2. (10 puntos).
b) Suponga que X1 = X2Π+ v donde Π es una matriz de constantes de k2 × k1
y v una matriz aleatoria de n× k1 con E[vi] = 0 y varianza de vi igual a Σv.
183
Demuestre que β̂1 = (v
′M2v)
−1v′M2Y y refiérase al efecto de la varianza de
v sobre el estimador β̂1. En particular, ¿qué ocurre con β̂1 y su varianza si la
varianza de v es muy pequeña? No necesita hacer una demostración para la
última pregunta pero de un argumento preciso. (5 puntos)
c) Para evitar los problemas potenciales de estimación encontrados en b), un
amigo le propone que reemplace la ecuación X1 = X2Π + v en el modelo
de regresión lineal del enunciado y aśı al menos podrá obtener un estimador
para β2. Muestre expĺıcitamente qué parámetro puede estimar si sigue los
consejos de su amigo. ¿Bajo qué circunstancias efectivamente puede estimar
e identificar β2? (5 puntos)
d) Una prima le dice que en realidad, la dependencia de X1 con X2 no es lineal,
sino de la forma x1,i = g(x2,i) + vi donde g : R
k2 −→ Rk1 donde x1,i y x2,i son
vectores fila de orden 1× k1 y 1× k2 respectivamente y vi es un vector fila de
la matriz v de 1×k1. Es decir, g(X2) corresponde a la matriz formada por los
vectores fila g(x2,i) con i = {1, .., n}. Luego, puede expresar X1 = g(X2) + v.
¿Cómo cambia su respuesta en b)? ¿Qué ocurre en el caso extremo que v = 0?
(5 puntos)
2. Sean las variables aleatorias x e y tal que y ∈ R y x ∈ Rk y se tiene una muestra
aleatoria simple {yi, xi, i ∈ 1, ..., n} para (y, x). Nuestro objetivo es encontrar el
vector θ que minimiza el Error Cuadrático Medio Podado (Mean Trimmed Squared
Error) definido como
S(θ) = E[(y − xθ)2τ(x)]
donde τ(x) : Rk −→ R es una función conocida, no-negativa y acotada que le da
menos peso a valores grandes de x que tratamos como un vector fila de orden k.
Defina e = y − xθ
a) Encuentre una formula expĺıcita (equivalente a una ecuación normal, pero en
la población) para el valor de θ que minimiza S(θ). (5 puntos)
b) Muestre formalmente que E[xeτ(x)] = 0. (5 puntos)
c) ¿Bajo qué condiciones (distintas a τ(x) = constante) será θ igual al Mejor
Estimador Linealmente Insesgado? (5 puntos)
d) Usando el principio de la analoǵıa, proponga un estimador de θ. (5 puntos)
184
Prueba I
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Mart́ın Carrasco y Sebastián Poblete
31 de agosto, 2016
Puntaje Total: 80 puntos
Tiempo Total: 90 minutos
Comentes (15 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
a) Una función de probabilidad acumulada permite pasar del espacio de probabilidad
(Ω,B, P ) a (R,B(R), P ).
b) Si Y ∼ N(µ, σ2), la pdf de Z = eY es exactamente la misma que la de Y .
c) Las regiones de confianza para más de un parámetro construidas de forma conjunta
en general coinciden con las regiones que se desprended de intervalos de confianza
construidos separadamente, luego no hay riesgo de cometer error de tipo I.
Problemas (65 puntos)
1. (30 puntos) Sea el modelo de regresión lineal yi = β1x1 + β2x2i + β3x3i + ui en el
cual se satisfacen todos los supestos vistos en clases y x1i = 1, ∀i. Ud. dispone de
una muestra con la siguiente información
X =
1 2 4
1 0 −1
1 0 0
1 −1 0
1 −1 3
; Y =
6
0
−1
−4
−1
a) Usando estos datos estime por MCO los parámetros β1, β2, β3 del modelo.
Ayuda: piense cómo reducir la dimensión del sistema, correctamente, para
facilitar los cálculos. (10 puntos)
185
b) Construya un intervalo de confianza a un 95% de confianza para el parámetro
θ = β2 + β3. ¿Está θ = 5 en el intervalo? Ayuda: s
2 = 1,4285 y t0,9752 = 4,30,
t0,9753 = 3,18. (10 puntos)
c) Realice un test de hipótesis para la siguiente hipótesis conjunta (10 puntos):
H0 :
(
β2 + β3
β2
)
=
(
5
4
)
Ayuda: recuerde que F 0,951,2 = 18,51, F
0,95
1,3 = 10,12, F
0,95
2,2 = 19,00, F
0,95
2,3 = 9,55
2. (35 puntos) Considere el modelo de regresión particionada Y = X1β1 +X2β2 + u
donde Y es un vector de n × 1, X1 es una matriz de n × k1 y X2 es una matriz
de n× k2 con k1 + k2 = k y u es un vector de n× 1. Los parámetros β1 y β2 son
vectores de k1×1 y k2×1 respectivamente. Suponga que se cumplen los supuestos
vistos en clases.
a) Demuestre que el estimador MCO de β1 en el modelo largo (o completo) es
igual a β̂1 = (X
′
1M2X1)
−1X ′1M2Y donde M2 = I − X2(X ′2X2)−1X ′2 y que su
varianza es V (β̂1) = σ
2(X ′1M2X1)
−1. (10 puntos)
b) Ahora suponga que X2 corresponde a una matriz de efectos fijos para distintos
grupos (y k2 es muy grande), donde la columna j-ésima (j ∈ {1, 2, ..., k2}) de
X2 tiene un 1 toda vez que el individuo correspondiente pertenece al grupo
j y un 0 de otra forma. Por ejemplo, si n = 6, k2 = 4 y ordenamos las
observaciones por grupo, de 1 a k2 = 4 tenemos que
X2 =
1 0 0 0
1 0 0 0
0 1 0 0
0 0 1 0
0 0 1 0
0 0 0 1
luego, los individuos 1 y 2 pertenecen al grupo 1, el individuo 3 al grupo 2
y aśı. Suponga que Ud. necesita estimar los “efectos fijos grupo” pero son
muchos y el computador que dispone no tiene capacidad para invertir una
matriz de k2 × k2 no diagonal. Una amiga le sugiere el siguiente algoritmo en
dos pasos:
i) Estime β1 usando Frish-Waugh-Lovell (asuma que k1 es pequeño)
ii) Dado el estimador β̂1, estime β2 aśı
β̂2 = (X
′
2X2)
−1X ′2(Y −X1β̂1)
186
Demuestre que ii) es correcto, es decir que el estimador de β2 propuesto
satisface las ecuaciones normales de MCO, dado β̂1. Demuestre que la matriz
(X ′2X2) es diagonal con el número de observaciones de cada grupo en la
diagonal y que el estimador de β2 no es más que un promedio simple por
grupo del seudo residuo Y − X1β̂1. ¿Tiene razón su amiga? Ayuda: para
las ecuaciones normales, escŕıbalas de forma particionada y para mostrar que
X ′2X2 es diagonal con el número de observaciones de cada grupo en la diagonal
puede dar un ejemplo sencillo. (10 puntos)
c) Ahora, suponga que no le interesan los “efectos fijo grupo” y sea β̂∗1 =
(X ′1X1)
−1X ′1Y el estimador de la regresión corta, que omite X2. Conocido
es el hecho que β̂∗1 es usualmente sesgado. Ahora, muestre que, en general,
las diferencias entre las varianzas teóricas cumplen que V (β̂1) − V (β̂∗1) ≥ 0
en el sentido semidefinido positivo. Ayuda: use expresiones para la varianza
teórica (con σ2). Use además que si A − B ≤ 0, luego A−1 − B−1 ≥ 0, en el
sentido semidefinido positivo. (10 puntos)
d) Sin necesidad de hacer una demostración, ¿qué cree Ud. que ocurre con las
varianzas estimadas en la letra anterior, es decir cuando reemplaza σ2 por su
estimador correspondiente? (5 puntos).
187
10.2. Pruebas II
Prueba 2
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Felipe González y Daniel Muñoz
18 de octubre, 2010
Puntaje Total: 100 puntos
Tiempo Total: 120 minutos
1. Comentes (30 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (6
puntos cada una)
1. El modelo de coeficientes aleatorios puede estimar la media de los coeficientes
consistentemente y eficientemente por MCO.
2. Si en el modelo de regresión lineal con matriz de varianzas y covarianzas no escalar
se tiene que E(y|X) = Xβ y V (y|X) = σ2Ω con Ω conocida yX de rango completo,
la covarianza entre el estimador de MCG de Aitken y el estimador MCO esigual
a la varianza del estimador de MCO.
3. De acuerdo al Teorema de Mapeo Continuo, si θ̂ es un estimador consistente y
asintóticamente normal del parámetro θ0 tal que
√
n(θ̂ − θ0) d−→N(0, 1), tenemos
que nθ̂2, tendrá una distribución ĺımite χ21.
4. La estimación de un modelo no lineal en los parámetros no es factible porque se
viola el supuesto de linealidad de la media condicional de Y |X .
5. El método de Hall para la construcción de intervalos de confianza mediante boots-
trap, requiere que la distribución Gn(u, Fn) sea simétrica para que el intervalo de
confianza tenga una probabilidad de cobertura igual a 1− α.
2. Problemas (70 puntos)
1. Sea el modelo lineal Y = Xβ+ǫ con V (ǫ|X) = V (ǫ) = σ2Ω. El modelo es estimado
por MCGF obteniéndose los siguientes resultados:
188
β̂MCGF =
(
5
2
)
, (X ′Ω̂−1X) =
(
1 1
1 5
)
además Ud. sabe que (Y −Xβ̂MCGF )′Ω̂−1(Y −Xβ̂MCGF ) = 1600 y que N = 402.
Obtenga la distribución asintótica de g(β1, β2) = β1 × β2 y construya un intervalo
de confianza a un 95%. ¿Por último, está 0 en dicho intervalo? (20 puntos).
2. Considere el modelo yt = x
′
tβ + εt, donde los {xt} son K vectores no aleatorios
estacionarios con xi1 = 1 y todos los otros componentes estrictamente positivos,
y donde E(εt|X) = 0 pero están autocorrelacionados y son heterocedásticos. De
hecho, suponga que:
E(εtεs|X) = ρ|t−s| [(x′tγ) · (x′sγ)]1/2
donde |ρ| < 1 y donde los componentes de γ son todos positivos, pero los verdaderos
valores de γ y ρ son desconocidos. Si tiene accesos a paquetes estad́ısticos que
solamente pueden hacer regresiones lineales y transformaciones algebraicas simples
de series de datos, discuta detalladamente cómo podŕıa usar este paquete para
obtener un estimador FGLS de β. Ayuda: Solucione 1 problema a la vez, en el
orden correcto. (20 puntos).
3. Sea el modelo lineal yt = βxt + ǫt donde xt es escalar y el término de error es
autocorrelacionado de orden uno, es decir: ǫt = ρǫt+ut y |ρ| < 1. Además, E(ut) =
0, V ar(ut) = σ
2
u y Cov(ut, us) = 0 para t 6= s.
a) Muestre que si E(xtǫt) = 0 el estimador MCO de β es consistente y encuentre
su distribución asintótica. Calcule la expresión de la varianza asintótica si ǫt
es independiente de xt. (10 puntos)
b) Suponga que ahora xt = yt−1. ¿Cómo cambia su respuesta en a)? Sea es-
pećıfico y refiérase a la consistencia del estimador MCO y a su distribución
asintótica? (10 puntos)
c) De acuerdo a lo que encontró en b), sin estimar el modelo de nuevo, cómo
podŕıa corregir su estimación si conoce el valor verdadero de ρ y el modelo
está correctamente especificado? Asuma que T es muy grande. (10 puntos)
189
Prueba 2
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Cristóbal Otero y Sebastián Otero
17 de octubre, 2011
Puntaje Total: 80 puntos
Tiempo Total: 80 minutos + ǫ
1. Comentes (15 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
1. Un test de Wald en un modelo lineal que ha relajado el supuesto de normalidad en
los errores es inconducente. No será posible conocer la distribución del estad́ıstico
(test) aun cuando la muestra fuese particularmente grande.
2. Halbert White, profesor de Econometŕıa de la Universidad de California, San Diego
(muy lindo Campus en La Joya) propone un test idéntico al de Breusch y Pagan.
3. El modelo de coeficientes aleatorios es un modelo muy interesante puesto que
muestra con abismante nitidez el origen de la autocorrelación que emana de datos
agregados.
2. Problemas (65 puntos)
1. Considere el siguiente modelo lineal
Y = Xβ + ǫ
a) Suponga que la variable dependediente está medida con error, y en lugar de
observar Y , Ud. observa Y = Y ∗ + v, donde v ∼ N (0, σ2v).
¿Cómo influye este problema en la estimación del parámetro β usando MCO?
Analice formalmente la consistencia del estimador del parámetro β y explique
qué sucede con esta propiedad cuando aumenta la varianza en el error de
medición crece. (5 puntos)
190
b) Suponga ahora que la variable Y está bien medida pero X está medida con
error. Luego, el econometrista observa X∗ = X + η donde η ∼ N (0, σ2η).
¿Cómo influye este problema en la estimación del parámetro β usando MCO?
Analice formalmente la consistencia del estimador del parámetro β y explique
qué sucede con esta propiedad cuando aumenta la varianza en el error de
medición crece. (10 puntos)
2. Ud. dispone de la siguiente información obtenida de un modelo de regresión lineal
con una constante y dos regresores para una muestra de tamaño n = 30.
β̂ =
−5
4
−2
, s2(X ′X)−1 =
3 0 1
0 2 0
1 0 2
a) Usando estos resultados construya un intervalo de confianza a un 95% de
confianza para el parámetro θ = β1 + β2 + β3. ¿Está θ = 1 en el intervalo?
(10 puntos)
b) Haga un test a un 5% de significancia para la siguiente hipótesis θ = β2×β3 =
−10. (10 puntos)
Ayuda: Los valores cŕıticos para una distribución t son los siguientes: t0,05,27 =
1, 703, t0,05,28 = 1, 701, t0,05,29 = 1, 699, t0,025,27 = 2, 052, t0,025,28 = 2, 048, t0,025,29 =
2, 045.
Los valores cŕıticos para una distribución chi cuadrado son los siguientes: χ20,05,1 =
3, 841, χ20,05,2 = 5, 991, χ
2
0,05,3 = 7, 815, χ
2
0,025,1 = 5, 024, χ
2
0,025,2 = 7, 378, χ
2
0,025,3 =
9, 348.
3. Considere el siguiente problema de de optimización penalizado.
mı́n
β
Sn = (Y −Xβ)′(Y −Xβ) + λβ ′β
donde X es una matriz de n×k, Ik es una matriz de k×k, Y es un vector de n×1
y λ es un escalar no negativo. Note que el primer término es la suma de los errores
al cuadrado y el segundo término es la forma cuadrática del vector de parámetros.
Este término penaliza o castiga si la solución que encontramos es muy grande. El
parámetro λ se le conoce como parámetro de penalización.
a) Usando las reglas de derivación de matrices y vectores vistas en clases, en-
cuentre la solución de este problema. ¿Conoce dicho estimador? Si es aśı,
nómbrelo y refiérase a su uso en econometŕıa. (10 puntos)
191
b) Encuentre su valor esperado. ¿Es este insesgado?. (5 puntos)
c) Encuentre una expresión para su varianza. (5 puntos)
d) Demuestre que esta varianza es menor que la varianza del estimador MCO.
(10 puntos)
192
Prueba 2
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Cristóbal Otero, Sebastián Otero y Fernanda Rojas
19 de octubre, 2012
Puntaje Total: 70 puntos
Tiempo Total: 80 minutos
1. Comentes (15 puntos)
Comente las siguientes afirmaciones. Digan si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
1. Si en el modelo de regresión lineal con matriz de varianzas y covarianzas no escalar
se tiene que E(y|X) = Xβ y V (y|X) = σ2Ω con Ω conocida yX de rango completo,
la covarianza entre el estimador de MCG de Aitken y el estimador MCO es igual
a la varianza del estimador de MCO. (5 puntos)
2. Si el modelo de coeficientes aleatorios se estima por MCO, la matriz de varianzas
y covarianzas del error sigue siendo diagonal pero de forma funcional desconocida.
(5 puntos)
3. Suponga que usted tiene modelo de regresión no lineal (y conoce la estructura).
Estimar sus parámetros no debeŕıa ser un problema mayor puesto que es posible
usar el algoritmo de Gauss-Newton para ello. (5 puntos)
2. Problemas (55 puntos)
1. Ud. dispone de la siguiente información obtenida de un modelo de regresión lineal
homocedástico con una constante y dos regresores para una muestra de tamaño
n = 30. Suponga que el residuo es independiente de sus variables explicativas.
β̂ =
−5
4
−2
, s2(X ′X)−1 =
3 0 1
0 2 0
1 0 2
(a) Usando estos resultados construya un intervalo de confianza a un 95% de
confianza para el parámetro θ = β1 + 2β2 + β3. ¿Está θ = 5 en el intervalo?
(10 puntos)
193
(b) Haga un test a un 5% de significancia para la siguiente hipótesis θ= β2×β3 =
−11. (10 puntos)
Ayuda: Los valores cŕıticos para una distribución t son los siguientes: t0,05,27 =
1, 703, t0,05,28 = 1, 701, t0,05,29 = 1, 699, t0,025,27 = 2, 052, t0,025,28 = 2, 048, t0,025,29 =
2, 045.
Los valores cŕıticos para una distribución chi cuadrado son los siguientes: χ20,05,1 =
3, 841, χ20,05,2 = 5, 991, χ
2
0,05,3 = 7, 815, χ
2
0,025,1 = 5, 024, χ
2
0,025,2 = 7, 378, χ
2
0,025,3 =
9, 348.
2. Sea el modelo lineal
yi = xiβ + ei, E(ei|xi) = 0
donde xi es un vector de 1×k y β un vector de parámetros de k×1, yi y ei escalares.
Usted está preocupado por el impacto de algunos valores inusualmente altos de
algunos regresores. En consecuencia, Ud. estima el modelo para una submuestra
para la cual |xi| ≤ c, para un valor c constante. Sea β̄ el estimador OLS en esta
submuestra,
β̄ =
( n∑
i=1
x′ixi1(|xi| ≤ c)
)−1( n∑
i=1
x′iyi1(|xi| ≤ c)
)
donde 1(.) es una función indicadora que toma el valor 1 si es que el argumento es
correcto y 0 si no lo es.
(a) Muestre que β̄
p−→β. Sea riguroso y enuncie todos los teoremas y leyes utiliza-
dos en su desarrollo. Ayuda: use la ley de esperanzas iteradas para determinar
el valor de uno de los plims. (7 puntos)
(b) Encuentre la distribución asintótica de
√
n(β̄ − β). Sea riguroso y enuncie
todos los teoremas y leyes utilizados en su desarrollo. (8 puntos)
(c) Si el modelo fuese
yi = xiβ + ei, E(xiei) = 0
¿Cambia el resultado encontrado en (a)? Explique. (5 puntos)
3. Sea {yt}+∞t=−∞ un proceso estocástico estacionario (de acuerdo a la definición vista
en clases), con media cero y varianza finita. Si definimos
β =
Cov[yt, yt−1]
V ar[yy]
, ut = yt − βyt−1
194
de modo que podemos escribir
yt = βyt−1 + ut
a) Muestre que el error ut satisface E[ut] = 0 y Cov[ut, yt−1 = 0]. (5 puntos)
b) Muestre, sin otros supuestos, que ut está serialmente correlacionada (Hint:
Para ello simplemente pruebe que Cov[ut, ut−1] 6= 0).(5 puntos)
c) Muestre que el estimador OLS β̂ de la regresión de yt en yt−1 es consistente
para β. (5 puntos)
195
Prueba II
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Lelys Dinarte, Nicolás Martorell
22 de octubre, 2014
Puntaje Total: 80 puntos
Tiempo Total: 80 minutos
1. Comentes (25 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
a) El estimador de Eicker-Huber-White es consistente aun cuando existe homocedas-
ticidad.
b) La autocorrelación serial del término de error solo produce un problema de eficien-
cia, incluso si uno de los regresores es la variable dependiente rezagada.
c) El Bootstrap no paramétrico clásico (remuestrear pares (yi, xi) de la muestra ori-
ginal con reemplazo) garantiza que se cumplan todos los supuestos del modelo de
regresión lineal. Luego, podemos aplicarlo sin problemas.
d) El “Variance Inflation Factor” o VIF está muy relacionado con el “Condition Num-
ber”, luego podemos usar cualquiera de los dos criterios para testear Multicolinea-
lidad.
e) El test the White no tiene sustento en la teoŕıa por cuanto elige antojadizamente
los parámetros de una regresión auxiliar para construir el estad́ıstico.
2. Problemas (55 puntos)
1. Sea el modelo lineal yt = βxt + ǫt donde xt es escalar y el término de error es
autocorrelacionado de orden uno, es decir: ǫt = ρǫt−1 + ut y |ρ| < 1. Además,
E(ut) = 0, V ar(ut) = σ
2
u y Cov(ut, us) = 0 para t 6= s.
a) Muestre que este modelo no satisface los supuestos del teorema de Gauss-
Markov. En particular, encuentre la matriz de varianzas y covarianzas de ǫt.
(5 puntos)
196
b) Muestre que si E(xtǫt) = 0 el estimador MCO de β es consistente y encuentre
su distribución asintótica. (10 puntos)
c) Proponga un estimador consistente de la varianza asintótica encontrada en
b). (5 puntos)
d) Suponga que ahora xt = yt−1. ¿Cómo cambia su respuesta en b)? Sea espećıfi-
co y refiérase a la consistencia del estimador MCO y su ĺımite en probabilidad.
(5 puntos)
2. El paradigma fundamental de Bootstrap es usar un estimador consistente del pro-
ceso generador de datos (DGP) F para aproximar la distribución de un estad́ıstico
cualquiera Tn((y1, x1), ..., (yn, xn)) que depende de dicho DGP. Considere el esti-
mador EDF (Empirical Distribution Function) de la distribución F que genera los
datos {yi, xi}.
a) Escriba la expresión para la EDF y demuestre que es un estimador consistente
de F y derive su distribución asintótica. (10 puntos)
b) Explique detallamente por qué realizando muchas muestras con reemplazo
(de la original) podemos obtener la distribución de un estad́ıstico Tn. En
particular refiérase al número de muestras que se pueden realizar. (10 puntos)
c) Explique cómo obtener errores estandar e intervalos de confianza de un es-
tad́ıstico cualquiera usando Bootstrap. (5 puntos)
d) En el contexto del modelo de regresión lineal y = xiβ+ ǫi donde E(ǫi|xi) = 0,
¿cómo implementaŕıa un procedimiento de Bootstrap que satisfaga el supuesto
de identificación? Explique detalladamente. (5 puntos)
197
Prueba II
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder Ayudantes: Vicente Castro y Antonia Paredes
21 de octubre, 2015
Puntaje Total: 65 puntos
Tiempo Total: 80 minutos
1. Comentes (15 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
a) Un test de Wald en un modelo lineal que ha relajado el supuesto de normalidad en
los errores es inconducente. No será posible conocer la distribución del estad́ıstico
(test) aun cuando la muestra fuese particularmente grande.
b) El uso de “clustered standard errors” permite corregir heterocedásticidad y auto-
correlación, pero solamente dentro de cada cluster.
c) El método de Hall para la construcción de intervalos de confianza mediante boots-
trap, requiere que la distribución Gn(u, Fn) sea simétrica para que el intervalo de
confianza tenga una probabilidad de cobertura igual a 1− α.
2. Problemas (50 puntos)
1. Ud. dispone de la siguiente información obtenida de un modelo de regresión lineal
con una constante y dos regresores para una muestra de tamaño n = 30. Suponga
que se satisfacen los supuestos del teorema de Gauss-Markov.
β̂ =
−5
4
−2
, s2(X ′X)−1 =
3 0 1
0 2 0
1 0 2
a) Usando estos resultados construya un intervalo de confianza a un 95% de
confianza para el parámetro θ = β1 + β2 + β3. ¿Está θ = 1 en el intervalo?
(10 puntos)
b) Haga un test a un 5% de significancia para la siguiente hipótesis θ = β2×β3 =
−10. (10 puntos)
198
Ayuda: Los valores cŕıticos para una distribución t son los siguientes: t0,05,27 =
1, 703, t0,05,28 = 1, 701, t0,05,29 = 1, 699, t0,025,27 = 2, 052, t0,025,28 = 2, 048, t0,025,29 =
2, 045.
Los valores cŕıticos para una distribución chi cuadrado son los siguientes: χ20,05,1 =
3, 841, χ20,05,2 = 5, 991, χ
2
0,05,3 = 7, 815, χ
2
0,025,1 = 5, 024, χ
2
0,025,2 = 7, 378, χ
2
0,025,3 =
9, 348.
2. Suponga un modelo de regresión lineal sin intercepto
yi = xiβ + ei
Donde xi, β y ei son escalares y E(ei|xi) = 0. Consideremos el estimador:
β̃ =
ȳ
x̄
=
∑n
i=1 yi∑n
i=1 xi
Asumiendo que xi y ei tienen finitos momentos y {yi, xi} son muestras aleatorias
iid.
a) Muestre que es insesgado y consistente, indicando los teoremos usados. (5
puntos)
b) Derive la distribución asintótica de
√
n(β̃ − β) cuando la muestra tiende
a infinito, indicando los teoremas usados. Proponga un estimador para la
varianza asintótica sin asumir homocedasticidad. (10 puntos)
c) Una amiga le propone explotar el supuesto de identificación E(ei|xi) = 0 de la
siguiente forma: E(x2i ei|xi) = 0. Verifique que se cumple la condición anterior
y muestre que
β =
E(x2i yi)
E(x3i )
asumiendo que E(x3i ) 6= 0. (5 puntos).
d) Usando el principio de la analoǵıa, una prima le propone el siguiente estima-
dor:
β̈ =
∑
x2iyi∑
x3i
muestre que es insesgado, consistente y obtenga su distribución asintótica asu-
miendo que existe tercer y cuarto momento de xi y que E(x
3
i ) 6= 0. Note que
en general, es posible construir muchos estimadores consistentes y asintótica-
mentes normales pero sabemos que hay uno más eficiente bajo los supuestos
usuales, ¿cuál es ese estimador?(10 puntos)
199
Prueba 2
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Mat́ıas Muñoz y Sebastián Poblete
12 de octubre, 2016
Puntaje Total: 65 puntos
Tiempo Total: 80 +ǫ minutos
Comentes (15 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
a) La ventaja de los errores estándar por cluster es que podemos corregir la autoco-
rrelación pero la desventaja es que no podemos corregir la heterocedasticidad.
b) El método de mı́nimos cuadrados no lineales es interesante pero no permite estimar
una matriz de varianzas y covarianzas robustas a la presencia de heterocedastici-
dad.
c) El método de Bootstrap usa el “remuestreo” como una forma directa de estimar
la distribución del estad́ıstico de interés.
Problemas (50 puntos)
1. (25 puntos) Sea el modelo de regresión lineal
yi = βxi + αzi + ui
donde α y β son parámetros escalares desconocidos. Suponga que u tiene media
0 y varianza 1 y satisface los supuestos usuales y además que u es independiente
de (x, z) con E(x2) = γ2x 6= 0, E(z2) = γ2z 6= 0, E(xz) = γxz 6= 0. Suponga
que tenemos una muestra aleatoria simple {(xi, zi, yi)}ni=1 y que disponemos de un
estimador consistente α̂ de α independiente de ui (∀i) con distribución asintótica√
n(α̂− α) d−→N(0, 1). Sea el estimador β̂ de β definido como sigue:
β̂ =
(
n∑
i=1
x2i
)−1 n∑
i=1
xi(yi − α̂zi)
200
a) Muestre que β̂ es consistente. (5 puntos)
b) Derive la distribución asintótica de β̂. (10 puntos).
c) Derive la distribución de β̃ obtenida por MCO del modelo completo y com-
parela con la obtenida en la letra b). ¿Qué ocurre cuando γxz = 0? Ayuda:
use Frisch-Waugh-Lovell (10 puntos)
2. (25 puntos) Sea el modelo de regresión lineal Y = Xβ+u donde Y es un vector de
n×1, X una matriz de n×k, β un vector de k×1 y u un vector de n×1. Suponga
que se cumplen los supuestos vistos en clases y en especial E(u|X) = 0. Suponga
además que E(uu′|X) = Σ y que existe una matriz no singular Θ de k× k tal que
ΣX = XΘ.
a) Muestre qye X ′ΣX = X ′XΘ y que Σ−1X = XΘ−1. (5 puntos)
b) Muestre que en este modelo los estimadores MCO y MCG tienen la misma
varianza condicional. (10 puntos)
c) Considere el modelo yi = α + ui donde E(ui) = 0, V (ui) = σ
2 pero ahora
Cov(ui, uj) = ρσ
2 para i 6= j. Además satisface los supuestos del enunciado.
Encuentre Σ, Θ y la varianza del estimador MCO y MCG. ¿Es necesario
corregir la matriz de varianzas de MCO? (10 puntos)
201
10.3. Examenes
Examen Final
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Felipe González y Daniel Muñoz
24 de noviembre, 2010
Puntaje Total: 100 puntos
Tiempo Total: 120 minutos
1. Comentes (25 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
1. El estimador de la matriz de varianzas y covarianzas de Newey-West es preferido
al de Eicker-Huber-White.
2. De acuerdo al test de Hausman, si rechazamos la hipótesis nula de exogeneidad
débil debiésemos eligir el estimador OLS dado que bajo la hipótesis alternativa el
estimador 2SLS no es consistente.
3. Más vale un instrumento débil que nada.
4. En el modelo de elección binaria, la esperanza condicional de la variable depen-
diente es lineal si el término de error se distribuye uniformemente en el intervalo
[0, 1].
5. El algoritmo BHHH, en la práctica, puede ser preferible a Newton-Rhapson.
2. Problemas (75 puntos)
1. (25 puntos) Considere el modelo lineal y = x1β1 + x2β2 + e donde las variables
independientes son escalares. Además asuma que E(e|x) = 0 es decir no hay en-
dogeneidad pero el residuo es heterocedástico: E(e2i |xi) = σ2i .
202
a) Si la forma de la matriz de varianzas y covarianzas del término de error es
desconocida (pero diagonal), derive un estimador eficiente de β y su matriz
de varianzas y covarianzas. (5 puntos)
b) Usando teoŕıa asintótica, explique detalladamente como construiŕıa un inter-
valo de confianza para θ = β1/β2, con β2 6= 0. (10 puntos)
c) Usando Bootstrap no paramétrico, explique detalladamente cómo construiŕıa
un intervalo de confianza para θ = β1/β2 (con β2 6= 0) de manera que la
probabilidad de cobertura sea correcta. (10 puntos)
2. (25 puntos) Considere el modelo:
yi = αz
2
i + ui
zi = πxi + vi
Donde (xi, ui, vi) son IID, E[vi|xi] = E[ui|xi] = 0 y V
[(
ui
vi
) ∣∣xi
]
= Σ con Σ
desconocido y no depende de x.
a) Muestre que α, π y Σ están identificados (pueden ser escritos en función de
momentos poblacionales). Sugiera estimadores análogos para esos parámetros.
(5 puntos)
b) Considere el siguiente procedimiento en dos etapas. En la primera etapa, se
regresiona zi sobre xi y se define ẑi = π̂xi, donde π̂ es el estimador de OLS.
En la segunda etapa, se regresiona yi en ẑ
2
i para obtener el estimador OLS de
α. Muestre que el estimador resultante de α es inconsistente encontrando su
plim. (10 puntos)
c) Sugiera un método en el esṕıritu de 2SLS para estimar α consistentemen-
te. Ayuda, vea que sucede si eleva al cuadrado la segunda ecuación y toma
esperanza condicional.(10 puntos)
3. (25 puntos) Se dice que una variable aleatoria y tiene una distribución Poisson(λ)
si tiene una distribución discreta en los enteros no negativos, con una función de
distribución discreta
f(y;λ) =
e−λλy
y!
y = 0, 1, 2, . . .
Recuerde que la distribución Poisson(λ) tiene media E[y] = λ y varianza V [y] = λ.
Suponga que usted tiene una muestra aleatoria de n observaciones de una variable
dependiente escalar yi y un regresor de dimensión k xi, donde la distribución
203
condicional de yi dado xi es Poisson(x
′
iβ), es decir
fyi|xi(y|xi; β) =
exp{−x′iβ} · (x′iβ)y
y!
Donde se asume que x′iβ > 0 con probabilidad 1 para todo posible valor de β, pero
la distribución de xi no involucra β.
a) Derive la función condicional promedio de la log-likelihood L(β; y|x) de este
problema. Muestre que las condiciones de primer orden (funciones de vero-
similitud) para el estimador máximo verosimil de β puede ser escrito de la
forma
0 =
1
n
n∑
i=1
ui(β̂) · xi
para alguna función “pseudo-residual” ui(β), y muestre que satisface E[ui(β)|xi] =
0. Además, derive una expresión para la distribución asintótica del MLE β̂,
incluyendo una expresión expĺıcita para su matriz de covarianza asintótica.
(10 puntos)
b) Dado que la variable dependiente y tiene esperanza condicional lineal E[yi|xi] =
x′iβ para este modelo, y la varianza condicional de y dado x no es constante
(recuerde la varianza de la Poisson), se podŕıa estimar β por MCGF. Describa
los pasos que debe hacer para estimar β por MCGF y derive una expresión
para la matriz de varianzas y covarianzas de β̂mcgf . Para simplificar, asuma
que MCGF logra la misma varianza asintótica que MCG. (10 puntos)
c) Suponga que xi1 ≡ 1 (es decir la primera columna de la matriz X es un vector
de unos) y que usted desea testear la hipótesis nula de que el intercepto es 1
y que las pendientes son cero, es decir,
H0 : β0 = (1, 0, . . . , 0)
′
Derive la forma del test de multiplicador de Lagrange o Score (LM) para
la hipótesis nula. Sea lo más expĺıcito posible con respecto a la forma del
estimador y asegúrese de usar la matriz de información condicional, esto es,
el promedio muestral del negativo de la esperanza condicional del Hessiano,
condicional en los regresores, evaluado en el MV restringido. Además, carac-
terice la región cŕıtica de estos tests cuando k = dim{β0} = 5 y el nivel de
significanciaes 5%.(5 puntos)
204
Examen Final
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Cristóbal Otero y Sebastián Otero
24 de noviembre, 2011
Puntaje Total: 100 puntos
Tiempo Total: 120 minutos
1. Comentes (20 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
1. Lamentablemente la presencia de instrumentos débiles produce problemas de con-
sistencia del estimador de variables instrumentales y no podemos tener una noción
de la magnitud del sesgo en muestras finitas.
2. Una buena manera de realizar Bootstrap, es hacer un muestreo sin reemplazo
aśı garantizamos que las muestras no tendrán observaciones repetidas.
3. El principio fundamental para que exista el método de máxima verosimilitud es
que la esperanza condicional de la función de verosimilitud esté acotada.
4. El problema de los métodos cuadráticos para obtener el estimador de máxima
versosimilitud radica en que en ocasiones el estimador del hessiano es definido
negativo, con lo cual el algoritmo no convergerá.
2. Problemas (80 puntos)
1. Considere el siguiente modelo:
y = x1β1 + x2β2 + u
Donde y, x1 y x2 son vectores observables de dimensión N . Adicionalmente consi-
dere dos vectores (de dimensión N) de variables instrumentales, z1 y z2. Si usted
posee un tamaño muestral N = 227, la siguiente matriz de productos cruzados de
205
variables es observada:
y′y y′x1 y
′x2 y
′z1 y
′z2
x′1y x
′
1x1 x
′
1x2 x
′
1z1 x
′
1z2
x′2y x
′
2x1 x
′
2x2 x
′
2z1 x
′
2z2
z′1y z
′
1x1 z
′
1x2 z
′
1z1 z
′
1z2
z′2y z
′
2x1 z
′
2x2 z
′
2z1 z
′
2z2
=
22 −11 10 8 8
−11 21 10 −8 −8
10 10 20 −2 0
8 −8 −2 6 4
8 −8 0 4 6
a) Para estos datos calcule los estimadores OLS β̂1 y β̂2 y encuentre los estimador
de variables instrumentales β̃1 y β̃2 usando z1 y z2 como instrumentos para
x1 y x2. (10 puntos)
b) Suponga que el término de error u es independiente de z1 y z2 de forma tal
que V [u|z1, z2] = σ2I. Si usted tiene que realizar un test de H0 : β2 = 1 contra
HA : β2 6= 1 a un 5% de significancia (use el cŕıtico de una normal) usando el
estimador IV y si se le otorga un estimador σ̃2 de σ2, ¿cuán pequeño debeŕıa
ser σ̃2 para rechazar H0? (15 puntos)
2. Suponga el siguiente modelo
y = βx+ u
x = λu+ ε
z = γε+ v
con u, ε y v independientes y distribuidas normal con media cero y varianzas
σ2u, σ
2
ε y σ
2
v . Las variables y,x y z son univariadas y tienen media cero, por lo tanto
podemos escribir el modelo sin constantes.
a) (10 puntos) Muestre que el estimar de MCO de β es es inconsistente ¿Porqué es
inconsistente?
b) (10 puntos) Muestre que cuando γ → 0 , entonces β̂iv − β p−→ 1/λ
c) (5 puntos) Muestre que cuando plim 1
N
∑n
i=1 ziui = − γσ2ε/λ ,entonces β̂iv −
β
p−→∞
d) (5 Puntos) ¿Qué implican estos dos últimos resultados sobre el sesgo en muestra
pequeña de variables instrumentales cuando los instrumentos son pobres?
3. Considere un individuo que busca trabajo y el tiempo que demora en recibir una
oferta sigue una distribución exponencial con una tasa igual a 1/θ. Es decir,
f(y; θ) =
1
θ
exp(−y/θ)
donde θ > 0, e y > 0 indexa el tiempo medido en d́ıas.
206
a) ¿Cuál es el tiempo esperado en el cual el individuo recibiŕıa una oferta de
trabajo? Sea formal en la obtención de este resultado. (5 puntos)
b) Ahora suponga que la tasa de ocurrencia de las ofertas no es común para
los individuos sino que depende de caracteŕısticas observables de ellos. Aśı,
suponga que la distribución condicional del tiempo en que tarda en llegar una
oferta es
f(y; x′iβ) =
1
x′iβ
exp(−y/x′iβ)
Donde xi es un vector de k×1 de caracteŕısticas y β es un vector de parámetros
de k × 1. Asuma que x′iβ > 0.
Escriba el log de la función de verosimilitud para una muestra de n observa-
ciones independientes. (5 puntos)
c) Compute las condiciones de primer orden (CPO) para la estimación del pa-
ramétro β. Muestre que dicha condición de primer orden puede ser escrita de
la siguiente forma (10 puntos):
1
n
n∑
i=1
xi
(x′iβ)
2
ui(β̂) = 0
donde ui(β̂) es un seudo-residuo que Ud. debe encontrar. Muestre además
que E[ui(β)|x)i] = 0. (5 puntos)
d) Dado que la CPO de la pregunta anterior no permite una solución anaĺıtica
cerrada para β̂, explique en detalle un algoŕıtmo numérico y sus supuestos
que permitan encontrar una solución numérica para β̂. Discuta los potencia-
les problemas que pueden amenazar la convergencia de dicho algoritmo. (10
puntos)
207
Examen Final
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Cristóbal Otero, Sebastián Otero y Fernanda Rojas
27 de noviembre, 2012
Puntaje Total: 100 puntos
Tiempo Total: 120 minutos
1. Comentes (20 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
1. El estad́ıstico de Cragg-Donald puede ser utilizado para testear restricciones de
identificación y en el caso de una variable endógena y un instrumento equivale al
estad́ıstico t al cuadrado del parámetro que acompaña al instrumento en la primera
etapa.
2. El algoritmo de Newton-Raphson es equivalente a BHHH y puede presentar los
mismos problemas de convergencia de este último.
3. Aplicado al modelo de regresión lineal, el Método de Bootstrap estándar que re-
muestrea con reemplazo, no satisface uno de los supuestos fundamentales del mo-
delo. Luego, es un método inútil en este tipo de modelos.
4. La construcción de intervalos de confianza mediante el método del percentil no es
correcta dado que la probabilidad de cobertura será siempre inadecuada.
2. Problemas (80 puntos)
1. Considere el siguiente modelo de regresión lineal particionado: Y = X1β1+X2β2+
u, donde X1 y X2 son vectores de n× 1 e Y un vector de n× 1. Luego β1 y β2 son
parámetros escalares y el término de error homocedástico u es tal que E(u|X1) = 0
pero E(u|X2) 6= 0.
a) Usando el Teorema de Frisch-Waugh-Lovell encuentre expresiones cerradas
para el estimador MCO para β1 y β2. Muestre formalmente que tanto β̂1
como β̂2 son inconsistentes. ¿Cómo cambia su respuesta si X1 es ortogonal a
X2? (10 puntos)
208
b) Suponga que Ud. dispone de un instrumento Z2 para su variable endógena
X2 tal que E(u|Z2) = 0. Describa un procedimiento en 2 etapas para obtener
un estimador consistente de β2. ¿Son eficientes los errores estándar de dicho
método en dos etapas asumiendo homocedasticidad e independencia de u
respecto a X1, Z2? Explique. (10 puntos)
c) Demuestre que β̃2 = (X
′
2PZ⊥X2)
−1X ′2PZ⊥Y es un estimador consistente de
β2 donde Z
⊥ = M1Z con Z = [X1, Z2] una matriz de n × 2, M1 = I −
X1(X
′
1X1)
−1X ′1 es de n × n. Por último, la matriz PZ⊥ = Z⊥(Z⊥
′
Z⊥)−1Z⊥
′
.
Sugiera un estimador eficiente de la varianza de β̃2. (10 puntos)
2. Sea el modelo lineal y = βx + u con x escalar y media 0. Suponga que u es
homocedástico con media 0. Además suponga que E(u|x) 6= 0 pero dispone de una
variable instrumental z la cual es independiente de u, luego E(u|z) = E(u) = 0.
Sin embargo, Ud. no tiene claridad en relación a la validez del segundo supuesto
del método de variables instrumentales E(xz) 6= 0.
a) Derive el estimador de variables instrumentales (VI) y muestre que su varian-
za asintótica puede ser expresada en términos de la varianza asintótica del
estimador MCO de β y el coeficiente de correlación entre z y x. (10 puntos)
b) Compare los errores estándar del estimador MCO de β con los del estimador
VI de β cuando el coeficiente de correlación entre x y z es igual a 0.9 y 0.1.
¿Qué puede decir en relación al efecto de la fuerza de los instrumentos en los
errores estándar del estimador de variables instrumentales (VI) en relación a
los obtenidos por MCO? ¿Incurre en mayor riesgo de cometer error tipo I o
tipo II? (5 puntos)
c) Suponga que tiene una primera etapa x= πz + v tal que E(v|z) = 0. En-
cuentre una expresión para el parámetro de concentración en este modelo y
muestre que se relaciona directamente con el coeficiente de correlación entre
z y x. Ayuda: exprese π en términos de una regresión poblacional. (5 puntos)
3. Sea la variable aleatoria continua y el ingreso monetario de un perceptor de ingreso.
Una distribución que caracteriza razonablemente bien a la distribución de ingresos
está dada por la siguiente función de densidad
fy(yi, µ, σ) =
1
yiσ
√
2π
e
−(ln(yi)−µ)
2
2σ2 , yi > 0
a) Encuentre la media poblacional de y. Ayuda: realice un cambio de variable
para resolver la integral, teniendo cuidado con los ĺımites de integración. Des-
pués, realice un nikita nipone para resolver la integral automáticamente. (5
puntos)
209
b) Suponga que queremos caracterizar la media condicional del ingreso y, per-
mitiendo que esta vaŕıe con caracteŕısticas individuales observables. Para eso
suponemos que µi = xiβ donde xi es un vector que incluye caracteŕısticas
como edad y escolaridad. Aśı, individuos con distintas caracteŕısticas tendrán
distinta media condicional de ingresos. Escriba el log de la función de verosi-
militud para β y σ2 y obtenga el estimador máximo verośımil (MV) de β y
σ2 . (10 puntos)
c) Obtenga la matriz de varianzas y covarianzas asintótica del estimador MV
de β y construya un Test de Wald (generalizado) para la hipótesis nula H0 :
g(β) = g(β0). Suponga que la función g(·) es continuamente diferenciable. (10
puntos)
d) Demuestre que E[ln(yi)|xiβ] = xiβ. Sobre la base de los resultados de encon-
trados en b), c) y en esta pregunta, plantee un modelo lineal que permita la
estimación consistente y eficiente de β. Justifique su modelo. (5 puntos)
210
Examen
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Lelys Dinarte, Nicolás Martorell
28 de noviembre, 2014
Puntaje Total: 90 puntos
Tiempo Total: 120 minutos
1. Comentes (15 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
a) El estimador de variables instrumentales (o 2SLS) es insesgado y consistente bajo
la hipótesis nula de exogeneidad débil de los regresores o bajo la alternativa.
b) Para testear la presencia de instrumentos débiles necesitamos estar en el caso
sobreidentificado, luego generalmente no podremos implementar esa clase de tests.
c) El algoritmo BHHH, en la práctica, puede ser preferible a Newton-Rhapson.
2. Problemas (75 puntos)
1. Considere el siguiente modelo lineal particionado Y = X1β1+X2β2+ ǫ donde Y es
un vector de n× 1, X1 es una matriz de n× k1, X2 es una matriz de n× k2, y ǫ es
un vector de n×1. Los parámetros β1 y β2 son de k1×1 y k2×1 respectivamente y
k1+k2 = k. A este modelo le llamaremos el modelo verdadero y/o modelo “largo”.
a) Suponga que se cumple que E(ǫ|Xi) 6= 0 con i = {1, 2} pero solo tiene Z2,
instrumentos limpios y correlacionados para X2. Muestre que si el set de ins-
trumentos Z2 no explica X1 en absoluto, es decir Z
′
2X1 = 0, Ud. puede estimar
consistentemente β2 usando la interpretación de Theil en el modelo “corto”
que regresiona Y sobre X̂2, donde X̂2 = Z2Π̂2 y Π̂2 = (Z
′
2Z2)
−1Z ′2X2. Luego,
en este caso tener menos instrumentos aun le permitiŕıa estimar consistente-
mente parámetros de su modelo original. Reflexione acerca de este resultado.
(10 puntos)
211
b) Suponga ahora que no tiene instrumentos y que E(ǫ|X1) 6= 0 pero E(ǫ|X2) =
0. Suponga adicionalmente que E[X ′1X2] = 0. Demuestre que el estimador
OLS de β2 del modelo “largo” es inconsistente. Explique. (10 puntos)
c) Usando los mismos supuestos de b), muestre que el estimador OLS de β2
en el modelo “corto” que regresiona Y en X2 es consistente, a pesar de la
endogeneidad de X1. En este caso omitir variables endógenas no produce
inconsistencia. Reflexione acerca de este resultado. (5 puntos)
2. (25 puntos) Considere el modelo lineal y = x1β1 + x2β2 + e donde las variables
independientes son escalares. Además asuma que E(e|x) = 0 es decir no hay en-
dogeneidad pero el residuo es heterocedástico: E(e2i |xi) = σ2i .
a) Si la forma de la matriz de varianzas y covarianzas del término de error es
desconocida (pero diagonal), derive un estimador eficiente de β y su matriz
de varianzas y covarianzas. (10 puntos)
b) Usando algún método basado en teoŕıa asintótica, explique detalladamente
como construiŕıa un intervalo de confianza para θ = β1/β2, con β2 6= 0. (10
puntos)
c) Usando Bootstrap no paramétrico, explique detalladamente cómo construiŕıa
un intervalo de confianza para θ = β1/β2 (con β2 6= 0) de manera que la
probabilidad de cobertura sea correcta. (5 puntos)
3. Suponga que un individuo i tiene la siguiente función de utilidad indirecta de
consumir un cierto tipo bien j, Vij = αi +Xjβ + Ziδ + ǫij . Donde αi es un efecto
individual, Xj son atributos del bien, Zi caracteŕısticas observables del individuo
como ingreso, educación, entre otras. Por último el término eij es un término no
observable que representa preferencias y sigue una distribución normal N (0, σ2j ).
a) Considere que j = 0, 1 (es decir hay 2 tipos distintos de bien j que se indexan
con los números 1 y 0) y el individuo maximiza utilidad. Escriba una expresión
para la probabilidad de que el individuo consuma j = 1 en lugar de j = 0.
Suponga que Cov(ǫi1, ǫi0) = σ
2
0 . (10 puntos)
b) Escriba el promedio muestral del log de la función de verosimilitud y explique
cómo obtendŕıa el estimador Máximo Verosimil. (10 puntos)
c) Escriba una expresión para el efecto marginal sobre dicha probabilidad de un
cambio en algún atributo de la opción j. (5 puntos)
212
Examen
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Vicente Castro y Antonia Paredes
1 de diciembre, 2015
Puntaje Total: 90 puntos
Tiempo Total: 120 minutos
1. Comentes (25 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o
inciertas justificando su respuesta con desarrollos estad́ısticos preferen-
temente. (5 puntos cada una)
a) Una buena manera de realizar Bootstrap, es hacer un muestreo sin reemplazo
aśı garantizamos que las muestras no tendrán observaciones repetidas.
b) Lamentablemente la presencia de instrumentos débiles produce problemas de
consistencia del estimador de variables instrumentales y no podemos tener
una noción de la magnitud del sesgo en muestras finitas.
c) En un modelo de regresión lineal con dos variables la presencia de endoge-
neidad en una de ellas implica que habrá sesgo e inconsistencia sólo en el
estimador del parámetro que acompaña dicha variable.
d) Si tengo un modelo y = xβ + u y x = zπ + v con E(u|x) 6= 0 y z satisface
supuestos 1) y 2) vistos en clases. Si además de aquello, no cuento con todas las
variables en una misma muestra, es imposible que pueda estimar consistente
β, aun cuando tenga 2 muestras, una con y y z y la otra con x y z.
e) El principal problema de un modelo de probabilidad lineal es que necesaria-
mente será heterocedástico, aumentando aśı la probabilidad de cometer error
de tipo II.
2. Problemas (65 puntos)
a) (35 puntos) Considere los siguientes problemas de endogeneidad.
i) Suponga que los coeficientes β = (β1, β2)
′ del modelo lineal y = Xβ + u
son estimados por 2SLS, donde se asume que los errores u independientes
de la matriz Z de instrumentos con matriz de covarianzas escalar V (u) =
V (u|Z) = σ2I. Un análisis de 163 observaciones es el que sigue
β̂2SLS = (2, 5)
′, σ̂22SLS = 4, X̂
′X̂ = (X′Z)(Z′Z)−1(Z′X) =
[
5 1
1 1
]
213
Construya un intervalo con un 95% de confianza para γ ≡ β1 ·β2, bajo el
supuesto de que la muestra es lo suficientemente grande para aplicar los
teoremas usuales y aproximaciones lineales. ¿Está γ0 = 0 en el intervalo?
Ayuda: use la interpretación de Theil para el cálculo de la varianza de
β̂2SLS. (15 puntos)
ii) Considere el siguiente problema con regresoresendógenos:
y = Y β +Xγ + u
Y = ZΠ +Xφ+ V
donde Y es una matriz de regresores endógenos de T × N (donde T es
el tamaño muestral y N la cantidad de regresores endógenos), la matriz
X corresponde a regresores exógenos de T × K1 y Z a una matriz de
instrumentos exógenos de T ×K2. Asuma que los instrumentos satisfacen
los supuestos (1) y (2) vistos en clases. Además, suponga que el vector
de residuos de T × 1 u es homocedástico con varianza σ2u y la matriz de
residuos V de T ×N tiene varianza igual a ΩV .
Estamos interesados en testear la hipótesis nula H0 : β = β0 contra la
alternativa Ha : β 6= β0 pero se nos ha adverdito que los instrumentos
son débiles.
a) Explique detalladamente los problemas de realizar inferencia estad́ısti-
ca ante la presencia de instrumentos débiles. De un ejemplo de la dis-
tribución emṕırica en muestra finita en la presencia de instrumentos
débiles. (5 puntos)
En lo que queda del ejercicio intentaremos hacer inferencia “correcta”
evitando estimar por 2SLS. Para ello:
b) Escriba la forma reducida (en función de variables exógenas) y ob-
tenga una reparametrización que le permita testear H0 : β = β0,
sin necesidad de estimar por 2SLS. Explique detalladamente. Ayuda,
pruebe restando Y β0 a ambos lados de ecuación y reemplazando la
primera etapa. (10 puntos)
c) Ahora, notando que bajo la hipótesis nula, tenemos que y − Y β0 −
Xγ = u y que la variable aleatoria
Z ′(y − Y β0 −Xγ) ∼ i.i.d.(0, σ2u(Z ′Z))
Proponga un test para H0 usando la construcción estándar vista en
clases y plantee su distribución asintótica y grados de libertad. No
es necesario que haga una demostración pero explique en detalle. (5
puntos)
214
b) (30 puntos) Se dice que una variable aleatoria y tiene una distribución Poisson(λ)
si tiene una distribución discreta en los enteros no negativos, con una función
de distribución discreta
f(y;λ) =
e−λλy
y!
y = 0, 1, 2, . . .
Recuerde que la distribución Poisson(λ) tiene media E[y] = λ y varianza
V [y] = λ.
Suponga que usted tiene una muestra aleatoria de n observaciones de una
variable dependiente escalar yi y un regresor de dimensión k xi, donde la
distribución condicional de yi dado xi es Poisson(x
′
iβ), es decir
fyi|xi(y|xi; β) =
exp{−x′iβ} · (x′iβ)y
y!
Donde se asume que x′iβ > 0 con probabilidad 1 para todo posible valor de
β, pero el soporte de la distribución de xi no involucra β.
a) Derive la función condicional promedio de la log-likelihood L(β; y|x) de
este problema. Muestre que las condiciones de primer orden (funciones de
verosimilitud) para el estimador máximo verosimil de β puede ser escrito
de la forma
0 =
1
n
n∑
i=1
ui(β̂) · xi
para alguna función “pseudo-residual” ui(β), y muestre que satisface
E[ui(β)|xi] = 0. Además, derive una expresión para la distribución asintóti-
ca del MLE β̂, incluyendo una expresión expĺıcita para su matriz de co-
varianza asintótica. (10 puntos)
b) Dado que la variable dependiente y tiene esperanza condicional lineal
E[yi|xi] = x′iβ para este modelo, y la varianza condicional de y dado x no
es constante (recuerde la varianza de la Poisson), se podŕıa estimar β por
MCGF. Describa los pasos que debe hacer para estimar β por MCGF y
derive una expresión para la matriz de varianzas y covarianzas de β̂MCGF .
Para simplificar, asuma que MCGF logra la misma varianza asintótica
que MCG. (10 puntos)
c) Dado que la CPO no permite una solución anaĺıtica cerrada para β̂, ex-
plique en detalle un algoŕıtmo numérico y sus supuestos que permitan
encontrar una solución numérica para β̂. Discuta los potenciales proble-
mas que pueden amenazar la convergencia de dicho algoritmo. (5 puntos)
215
d) Suponga que xi1 ≡ 1 (es decir la primera columna de la matriz X es
un vector de unos) y que usted desea testear la hipótesis nula de que el
intercepto es 1 y que las pendientes son cero, es decir,
H0 : β0 = (1, 0, . . . , 0)
′
Derive la forma del test de multiplicador de Lagrange o Score (LM) para
la hipótesis nula. Sea lo más expĺıcito posible con respecto a la forma
del estimador y asegúrese de usar la matriz de información condicional,
esto es, el promedio muestral del negativo de la esperanza condicional del
Hessiano, condicional en los regresores, evaluado en el MV restringido.
Además, caracterice la región cŕıtica de estos tests cuando k = dim{β0} =
5 y el nivel de significancia es 5%.(5 puntos)
Cuadro 10.1: Valores Cŕıticos para una distribución t-Student
n-k 90% 95% 97.50% 99% 99.50%
1 3.078 6.314 12.71 31.82 63.66
2 1.886 2.92 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.44 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
.
.
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
.
.
Grande 1.282 1.645 1.960 2.327 2.575
216
Examen
Teoŕıa Econométrica I
Profesor: Tomás Rau Binder
Ayudantes: Mat́ıas Muñoz y Sebastíıan Poblete
28 de noviembre, 2016
Puntaje Total: 90 puntos
Tiempo Total: 120 minutos
1. Comentes (20 puntos)
Comente las siguientes afirmaciones. Diga si son verdaderas, falsas o incier-
tas justificando su respuesta con desarrollos estad́ısticos preferentemente. (5
puntos cada una)
a) Una buena manera de realizar Bootstrap, es hacer un muestreo sin reemplazo
aśı garantizamos que las muestras no tendrán observaciones repetidas.
b) En un modelo de regresión lineal es imposible identificar un parámetro asociado
a una variable endógena si se cuenta solo con un instrumento (válido para dicha
variable) y existe(n) otra(s) variable(s) endógena(s) sin instrumento(s) asociado(s)
a ella(s).
c) Cuando estamos en presencia de instrumentos débiles, el daño en la inferencia es
irreparable.
d) La igualdad de la información o “information equality” no tiene implicancias rele-
vantes para la estimación mediante el método de máxima verosimilitud.
2. Problemas (70 puntos)
1. (35 puntos) Considere un individuo que busca empleo en el mercado laboral y
el tiempo que demora en recibir una oferta sigue una distribución distribución
exponencial con una tasa igual a 1/θ. Es decir,
f(y; θ) =
1
θ
exp(−y/θ)
donde θ > 0, e y > 0 indexa el tiempo medido en d́ıas.
217
a) ¿Cuál es el tiempo esperado en el cual el individuo recibiŕıa una oferta de
trabajo? Indique el procedimiento para obtener dicha expresión. (5 puntos)
b) Suponga que la probabilidad de seguir buscando (sin recibir una oferta) a
los 10 d́ıas de empezar la búsqueda de empleo es igual a 0.3 ¿Cuál es la
probabilidad de seguir buscando (sin recibir una oferta) en 20 d́ıas, condicional
en que no se ha recibido una oferta en los primeros 10 d́ıas? (5 puntos)
c) Ahora suponga que la tasa de ocurrencia de las ofertas no es común para
los individuos sino que depende de caracteŕısticas observables de ellos. Aśı,
suponga que la distribución condicional del tiempo en que tarda en llegar una
oferta es
f(yi|xi; β) =
1
x′iβ
exp(−y/x′iβ)
Donde xi es un vector de k×1 de caracteŕısticas y β es un vector de parámetros
de k × 1. Asuma que x′iβ > 0. Escriba el promedio muestral del log de la
función de verosimilitud para una muestra de n observaciones independientes.
(5 puntos)
d) Compute las condiciones de primer orden (CPO) para la estimación del pa-
ramétro β. Muestre que dicha condición de primer orden puede ser escrita de
la siguiente forma:
1
n
n∑
i=1
xi
(x′iβ̂)
2
ui(β̂) = 0
donde u(β̂) = yi − x′iβ̂ es un seudo-residuo que Ud. debe encontrar. Muestre
además que E[ui(β)|xi] = 0. (10 puntos)
e) Dado que la CPO de la pregunta anterior no permite una solución anaĺıtica
cerrada para β, explique un algoŕıtmo numérico y sus supuestos que permitan
encontrar una solución numérica para . Discuta los potenciales problemas que
pueden amenzar la convergencia de dicho algoritmo. (10 puntos)
2. (35 puntos) Suponga que Ud. está interesada en determinar el efecto de la parti-
cipación en un cursode capacitación laboral en el salario. Para ello Ud. plantea el
siguiente modelo de regresión lineal yi = β0 + β1x1i + β2x2i + ui donde yi es el log
del salario por hora, x1 representa los años de escolaridad del individuo y x2 toma
el valor 1 si la persona participó en un programa de capacitación y 0 sino. Además,
β0, β1, β2 son los parámetros de la regresión y ui es un componente aleatorio “no
observable” para cada individuo.
218
a) Explique formalmente cómo podŕıa determinar el efecto de participar en un
curso de capacitación en el salario para un nivel de educación dado, inter-
pretando económicamente dicho efecto. Indique los supuestos necesarios para
ello. Recuerde que x2 es binaria. (5 puntos)
b) Una vecina le indica que su regresión sufre de omisión de variables relevantes
por cuanto se ha omitido de la regresión el nivel de habilidad de las personas.
Explique cómo afecta las propiedades de los estimadores MCO la presencia
de omisión de variables relevantes, en general, y en particular explique si
tiene razón su vecina en la aplicación de este ejercicio. Ayuda: puede trabajar
matricialmente. (5 puntos)
c) Un compañero de Yoga le indica que la única forma de solucionar el problema
mencionado por su vecina y estimar consistentemente el efecto de participar
en un curso de capacitación en el salario es mediante la realización de un “ex-
perimento aleatorio controlado” (EAC). En este, los cursos de participación
se asignan aleatoriamente entre los trabajadores. Explique formalmente cómo
un EAC puede solucionar el problema planteado en b). (5 puntos)
d) Su prima le indica que existe otra posibilidad de estimar consistentemen-
te el efecto de la capacitación en el salario. Ella le explica que si Ud. tiene
una variable z2 correlacionada con x2 y no correlacionada con ui puede esti-
mar consistentemente β2 por “Mı́nimos Cuadrados en Dos Etapas” (MC2E).
Asumiendo que x1 es exógena, explique si su prima tiene razón y como im-
plementaŕıa MC2E. (5 puntos)
e) Una geógrafa le sugiere usar la distancia del trabajo al centro de capacitación
más cercano como instrumento de la participación en un curso de capacita-
ción. Explique por qué esta podŕıa ser una variable instrumental válida. (5
puntos)
f) Complete las siguientes tablas. La Tabla 1 presenta una estimación por MCO
y la Tabla 2 por MC2E en la que se usa distancia del trabajo al centro de
capacitación más cercano como variable instrumental para x2. Asumiendo
que el instrumento z2 satisface los supuestos de MC2E, compare el efecto
de participar en un curso de capacitación obtenido por MCO y MC2E y
explique la dirección del sesgo del estimador MCO (asumiendo que la muestra
es suficientemente grande). (5 puntos)
g) En la Tabla 3 se presentan algunas estad́ısticas de la primera etapa de la es-
timación reportada en la Tabla 2 como el estad́ıstico de Cragg y Donald (mi-
nimum eigenvalue statistic). A la luz de los resultados reportados, qué puede
decir acerca de la “fuerza” del instrumento? (5 puntos)
219
Cuadro 10.1: Estimación MCO
Cuadro 10.2: Estimación MC2E
220
Cuadro 10.3: Primera Etapa
Cuadro 10.4: Valores Cŕıticos para una distribución t-Student
n-k 90% 95% 97.50% 99% 99.50%
1 3.078 6.314 12.71 31.82 63.66
2 1.886 2.92 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.44 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
.
.
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
.
.
Grande 1.282 1.645 1.960 2.327 2.575
221
Bibliograf́ıa
Anderson, T., and H. Rubin (1949): “Estimation of the Parameters of a Single
Equation in a Complete System of Stochastic Equations,” Annals of Mathematical
Statistics, 20, 46–63.
Angrist, J. (1990): “Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence
from Social Security Administrative Records,” American Economic Review, 80(3),
313–36.
Angrist, J., G. Imbens, and A. Krueger (1999): “Jackknife Instrumental Variables
Estimation,” Journal of Applied Econometrics, 14, 57–67.
Angrist, J. D., and A. B. Krueger (1991): “Does Compulsory School Attendance
Affect Schooling and Earnings?,” The Quarterly Journal of Economics, 106(4), 979–
1014.
Bekker, P. (1994): “Alternative Approximations to the Distribution of Instrumental
Variables Estimators,” Econometrica, 62, 657–681.
Bound, J., D. A. Jaeger, and R. M. Baker (1995): “Problems With Instrumental
Variables Estimation When the Correlation Between the Instruments and the Endoge-
nous Explanatory Variable is Weak,” Journal of the American Statistical Association,,
90(430), 443–450.
Chamberlain, G., and G. Imbens (2004): “Random Effects Estimator with Many
Instrumental Variables,” Econometrica, 72(1), 295–306.
Chao, J., and N. Swanson (2005): “Consistent Estimation with a Large Number of
Weak Instruments,” Econometrica, 73(5), 1673–1692.
Cragg, J., and S. Donald (1993): “Testing Identifiability and Specification in Ins-
trumental Variable Models,” Econometric Theory, 9, 222–240.
Fuller, W. (1977): “Some Properties of a Modification of the Limited Information
Estimator,” Econometrica, 45, 939–954.
222
Mikusheva, A. (2007): “Uniform Inferences in Econometrics,” Chapter 3, PhD Thesis,
Harvard University, Department of Economics.
Moreira, M. (2003): “A Conditional Likelihood Ratio Test for Structural Models,”
Econometrica, 71(4), 1048–1072.
Nelson, C. R., and R. Starz (1990): “Some Further Results on the Exact Small
Sample Properties of the Instrumental Variables Estimator,” Econometrica, 58, 967–
976.
Phillips, G., and C. Hale (1977): “The Bias of Instrumental Variables Estimators
of Simultaneous Equations Systems,” International Economic Review, 18, 219–228.
Phillips, P. C. B. (1984): Exact Small Sample Theory in the Simultaneous Equation
Model, vol. 1 of Handbook of Econometrics. ed. by Z. Griliches and M. D. Intriligator,
Amsterdam: North-Holland.
Staigner, D., and J. H. Stock (1997): “Instrumental Variables Regression with
Weak Instruments,” Econometrica, 65(3), 557–586.
Stock, J., J. Wright, and M. Yogo (2002): “A Survey of Weak Instruments and
Weak Identification in Generalized Method of Moments,” Journal of Business and
Economic Statistics, 20, 518–529.
Stock, J., and M. Yogo (2005): Testing for Weak Instruments in Linear IV Regres-
sion, Identification and Inference for Econometric Models: A Festschrift in Honor of
Thomas Rothenberg. Donald W. K. Andrews and James H. Stock, eds., Cambridge:
Cambridge University Press.
223
Introducción
Elementos de Teoría de Probabilidad
Espacio de probabilidad
Definiciones de cdf, pdf y pmf
Momentos de una variable aleatoria
Algunas Desigualdades
Distribuciones bivariadas
Distribuciones Multivariadas
Muestras aleatorias
El modelo de regresión lineal
Introducción
Objetos de Interés
El Modelo de Regresión Lineal
Derivación Alternativa desde la Estadística
Bondad de Ajuste
Regresión Particionada
Momentos del Estimador OLS
El Modelo Normal de Regresión Lineal
Intervalos y Regiones de Confianza
Desviación de los Supuestos Clásicos
Elementos de Teoría Asintótica
Introducción
Algunos Teoremas
Problemas de Especificación y Datos
Mínimos Cuadrados Generalizados (Aitken)
Distribución Asintótica del estimador MCG
Caso Particular: Heterocedasticidad
Test para detectar Heterocedasticidad
Autocorrelación
Tests de Autocorrelación
Test de Durbin-Watson
Test de Breusch y Godfrey
Test de Box-Pierce-Ljung (Q-Stat)
Mínimos Cuadrados Generalizados Factibles
El Método de Cochrane Orcutt
Prais-Winsten (1954)
El método de Durbin
Estimación por Máxima Verosimilitud
Estimación Consistente de Matriz de Varianzas y Covarianzas
Estimación consistente: Newey y West (1987)
Estimando : Newey y West (1987)
Clustered standard errors
Mínimos Cuadrados No Lineales
Estimación
Gauss-Newton (algoritimo)
Pasos del algoritmo
Distribución Asintótica
MulticolinealidadTécnicas de remuestreo y errores estándar
The Bootstrap
Función de distribución empírica
Bootstrap No-Paramétrico
Estimación del sesgo y varianza via Bootstrap
Intervalos de Confianza con Bootstrap
Método del percentil
Método de Hall
Percentile-t Equal-tailed Interval
Symmetric Percentile-t Interval
Bootstrap en el modelo de regresión lineal
Wild Bootstrap
Endogeneidad
Introducción
Ecuaciones estructurales
Endogeneidad y Variables Instrumentales (Id. exacta)
Consistencia y Normalidad Asintótica
Múltiples instrumentos: 2SLS
Consistencia y Normalidad Asintótica
Método Generalizado de Momentos (GMM)
Breve repaso de GMM
Fallas en la identificación
Instrumentos Débiles
Limited Information Maximum Likelihood (LIML)
Ejemplo clásico de identificación débil
Extensiones
Estimador de Wald
Ejemplo: La lotería de Vietnam
Máxima Verosimilitud
Estimador de Máxima Verosimilitud
La Cota Inferior de Cramèr-Rao
Propiedades Asintóticas
Estimación de la Varianza
Computación del Estimador MV
El Método de Steepest Ascent
Métodos Cuadráticos
Criterios de Convergencia
Inferencia en Máxima Verosimilitud
Variable Dependiente Limitada
Modelo Básico de Elección Binaria
Estimación por Máxima Verosimilitud
Modelo Logit
Modelo Probit
Propiedades Asintóticas del estimador ML
Comparación entre modelos Probit y Logit
Efectos Marginales
Comentarios finales
Evaluaciones de semestres anteriores
Pruebas I
Pruebas II
Examenes