Prévia do material em texto
Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 1 EJERCICIOS RESUELTOS TEMA 6: Pruebas de significación estadística Primera parte: contraste de hipótesis para una muestra Ejercicio 1 Una asociación de hosteleros rurales desea conocer la edad media de los turistas que optan por los alojamientos rurales durante el período estival. Un estudio realizado tres años antes indicaba que esta edad se situaba en los 39 años. Sin embargo, para planificar la campaña turística de este año, se realiza un nuevo estudio seleccionando una muestra de 850 individuos que desean viajar durante sus vacaciones, resultando que la edad media de los que planean pernoctar en alojamientos rurales es de 40,7 años. Sabiendo que la desviación típica de ese estudio fue de 4,8 años, y con un nivel de confianza del 95%, ¿se puede concluir que la edad media de los visitantes ha aumentado en los tres últimos años? Solución Estamos ante un problema de contraste de hipótesis para una media, pues solo tenemos una muestra. Planteamos las hipótesis que someteremos a contraste: Ho: µ =39 H1: µ >39 Tenemos un contraste unilateral en el sentido “mayor que”. La hipótesis nula (Ho) plantea que la edad media de los turistas no ha cambiado respecto al estudio anterior de hace unos años, por eso establece la igualdad respecto a la edad que indicaba aquel estudio. Como queremos comprobar si hay evidencias significativas para afirmar que esa edad ha aumentado (el último estudio ha obtenido una edad media de 40,7), la hipótesis alternativa (H1) plantea entonces que la edad media es mayor a 39 años. Para usar el error típico y el estadístico de prueba adecuados, debemos comprobar si tenemos una muestra grande o pequeña. Como tenemos una muestra grande (n=850 y, por tanto, n > 30), seleccionamos el estadístico Z: Z = �̅�𝑥 − µo 𝜎𝜎𝑥𝑥� donde 𝜎𝜎�̅�𝑥 = 𝜎𝜎𝑥𝑥 √𝑛𝑛 Para aplicar estas fórmulas, debemos saber qué datos tenemos: • Tamaño de la muestra: n=850 • Nivel de significación: 95%. Para el cálculo necesitaremos realmente el nivel de significación, pero sabemos que al nivel de confianza NC=0,95 le corresponde: α = 0,05 (sabemos que α = 1- NC) • Desviación típica de la población (𝜎𝜎𝑥𝑥): la desconocemos, no la ofrece el planteamiento del problema. Este es el caso más frecuente con el que nos encontraremos, pero esta dificultad se puede solventar estimándola con la desviación típica muestral (𝑠𝑠𝑥𝑥), que sí conocemos: 𝑠𝑠𝑥𝑥 = 4,8 • Media muestral �̅�𝑥 = 40,7 Con estos datos, ya podemos resolver el contraste: 𝜎𝜎�̅�𝑥 = 𝑠𝑠𝑥𝑥 √𝑛𝑛 = 4,8 √850 = 0,1646 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 2 Ze = �̅�𝑥 − µo 𝜎𝜎𝑥𝑥� = 40,7 − 39 0,1646 =10,328 Debemos ahora comprobar en las tablas para la curva normal el valor de Z que corresponde al nivel de significación 0,05 y compararlo con el Z empírico (Ze) que hemos obtenido de la prueba. El valor Z que corresponde a α = 0,05 es 1,645. Como 10,328> 1,645 el Z empírico es mayor que el valor crítico (𝑍𝑍𝛼𝛼), de tal forma que cae en la región de rechazo de H0: Concluimos que existen evidencias estadísticamente significativas para afirmar, con un nivel de confianza del 95% que la edad media de las personas que optan por los alojamientos rurales ha aumentado en el período considerado. Ejercicio 2 En la red de centros de menores de determinada región se quiere comprobar si para determinado colectivo el promedio de intentos de fuga por interno es mayor a 3. Se selecciona aleatoriamente a 20 menores, obteniendo que el nº medio de intentos es 3,5, con una deviación típica de 2,7. Para un nivel de confianza del 99%, ¿puede considerarse que efectivamente el promedio de intentos de fuga es mayor al valor que se planteaba inicialmente? Solución Se trata de un contraste de hipótesis para una media, pues solo hay una muestra. Planteamos las hipótesis: 0 α =0,05 Región de rechazo de H0 Ze =10,328 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 3 Ho: µ = 3 H1: µ > 3 La hipótesis nula mantiene que el promedio de intentos se mantiene en 3, mientras que la hipótesis alternativa plantea, tal como se sospecha, que esa cantidad ha aumentado. Tenemos entonces un contraste de hipótesis unilateral. Antes de seleccionar la prueba, observamos los datos relativos al estudio realizado mediante muestreo: n = 20 �̅�𝑥 = 3,5 𝑠𝑠𝑥𝑥 = 2,7 Nc = 0,99 por lo que el nivel de significación es α = 0,01 Como el tamaño muestral es n ≤ 30, debemos usar para la prueba el estadístico t-Student con n- 1 grados de libertad. 𝜎𝜎�̅�𝑥 = 2,7√20−1 = 0,6194224 te = 3,5−3 0,6194224 = 0,807 Este es el valor empírico del contraste mediante t-Student que debemos comparar con el valor crítico (tα). Siendo α = 0,01 y un contraste unilateral, debemos localizar en la tabla de la distribución t-Student el valor de t correspondiente a n-1 grados de libertad, es decir, a 19 grados de libertad. En la tabla vemos que para esos datos el valor crítico de t es 2,539. Al comparar el t empírico (te) con el t crítico (tα) vemos que 0,807 < 2,539: t = 𝑥𝑥̅ − µo 𝜎𝜎𝑥𝑥� donde 𝜎𝜎𝑥𝑥̅ = 𝑠𝑠𝑥𝑥 √𝑛𝑛−1 0 = 2,539= 0,807 Región de rechazo de H0 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 4 Vemos que el valor empírico resultado de la prueba te no está en la región de rechazo de H0, por lo que no existen evidencias estadísticamente significativas que nos permitan rechazarla. No podemos afirmar que el promedio de intentos de fuga por menor en la red de centros de menores de esa ciudad sea superior a 3 intentos por menor. Ejercicio 3 En una encuesta del CIS (diciembre de 2014) se observa que la proporción de españoles que leen semanal o diariamente es del 45,4%, una proporción menor a la que señalaba en 2012 la Federación de Gremios de Editores de España (47,2%). Sabiendo que la encuesta ha sido respondida por 2.477 individuos, ¿se puede considerar significativo este descenso en la proporción de lectores habituales para un nivel de significación de 0,01? Solución Estamos ante un problema de contraste de hipótesis para una proporción, pues solo tenemos una muestra. Nuestros datos son: • Proporción empírica (obtenida de la muestra): p = 0,454 • Proporción teórica poblacional (procedente de estudios o datos anteriores): P = 0,472 • Tamaño de la muestra: n=2.477 • Nivel de significación: α = 0,01 Planteamos las hipótesis que someteremos a contraste: Ho: p=0,472 H1: p<0,472 Tenemos un contraste unilateral en el sentido “menor que”. Dado que la proporción obtenida en el estudio más reciente del CIS es de menor magnitud que el anterior dato de 2012, nuestro objetivo es comprobar si realmente se puede considerar significativo ese descenso en la cantidad de lectores diarios o semanales. Por eso, la hipótesis alternativa se plantea en el sentido “menor que” respecto al dato anterior. Para elegir el estadístico de contraste adecuado, es necesario observar la relación entre el tamaño de la muestra y el tamaño de la población. Como la población es suficientemente grande (N ≥20n) no hace falta introducir el factor de corrección de poblaciones finitas (cpf). Efectivamente, la población española (N), que es el colectivo al que va dirigida la encuesta del CIS, es mucho mayor que 20 veces el tamaño de la muestra utilizada (n). Por ello, el estadístico de prueba que debemos usar para resolver el contraste es: Z = 𝑝𝑝−𝑃𝑃 𝜎𝜎𝑝𝑝� donde 𝜎𝜎𝑝𝑝� = � 𝑃𝑃·𝑄𝑄 𝑛𝑛 Sabemos que Q = 1-P = 1 - 0,472 = 0,528 𝜎𝜎𝑝𝑝� = � 𝑃𝑃·𝑄𝑄 𝑛𝑛 = �0,472·0,528 2477 = 0,01 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 5 Ze = 0,454−0,472 0,01 = -1,8 Debemos ahora comprobar en las tablas para la curva normalel valor de Z que corresponde al nivel de significación 0,01 y compararlo con el Z empírico (Ze) que hemos obtenido de la prueba. El Z crítico paraα = 0,01 es -2,33. Hay que recordar que tenemos un contraste unilateral en el sentido “menor que” y, aunque los Z tengan signo negativo, lo que nos interesa comparar es el valor absoluto. Como|𝑍𝑍𝑒𝑒|<|𝑍𝑍𝛼𝛼|, esdecir|−1,8|<|−2,33|, Ze cae en la región de “aceptación” de H0 (recordemos que, en sentido estricto no podemos “aceptar” la hipótesis nula; solo podemos concluir que no la podemos rechazar): Para un nivel de confianza del 99% concluimos que no hay evidencias estadísticamente significativas para rechazar la hipótesis nula (H0). No podemos afirmar que para ese nivel de confianza haya disminuido significativamente la proporción de españoles que leen diaria o semanalmente. Sin embargo, esta es la conclusión con un nivel de confianza del 99%, pero ¿qué pasaría si bajamos un poco el nivel de exigencia y consideramos un nivel de confianza del 95%? La respuesta es sencilla, no hay más que comparar el valor Z obtenido en la prueba con el correspondiente en las tablas para un nivel de significación de 0,05. Dejamos que el estudiante saque sus conclusiones… 0 = -2,33 = -1,8 Región de rechazo de H0 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 6 Ejercicio 4 Según una encuesta sobre consumo de drogas realizada en 2015, el 9,1% de la población española había consumido cocaína alguna vez en su vida. En un estudio realizado en 2013, dicha proporción era del 10,3%. Suponiendo que la encuesta se realizó a 2.200 individuos, se desea saber: a) Para un nivel de confianza del 95% si el descenso en el consumo de cocaína es significativo. b) ¿Cuál es y qué significa el p-valor del contraste? Solución Tenemos un contraste de hipótesis para una proporción, pues está referida a una única población y, por tanto, a una sola muestra. Nuestros datos son: • Proporción empírica (obtenida en la muestra de 2015): p = 0,091 • Proporción teórica poblacional (procedente del estudio anterior): P = 0,103 • Tamaño de la muestra: n=2.200 • Nivel de significación: α = 0,05 a) Queremos ver si la proporción ha descendido respecto al dato de 2013. Planteamos las hipótesis que someteremos a contraste: Ho: p=0,103 H1: p<0,103 Se trata de un contraste unilateral pues este plantea una dirección en el sentido “menor que”. Dado que la población referencia del estudio es la “población española” consideramos N infinita. Para calcular la prueba utilizaremos el estadístico Z, sin necesidad de incluir el cpf. Z = 𝑝𝑝−𝑃𝑃 𝜎𝜎𝑝𝑝� donde 𝜎𝜎𝑝𝑝� = � 𝑃𝑃·𝑄𝑄 𝑛𝑛 Q = 1-P = 1 – 0,103 = 0,897 𝜎𝜎𝑝𝑝� = � 𝑃𝑃·𝑄𝑄 𝑛𝑛 = �0,103·0,897 2200 = 0,0064804 Z = 0,091−0,103 0,0064804 = -1,85 Debemos ahora comprobar en las tablas para la curva normal el valor de Z que corresponde al nivel de significación 0,05 y compararlo con el Z empírico (Ze) que hemos obtenido de la prueba. El Z crítico para α = 0,05 es -1,645. Como tenemos un contraste unilateral en el sentido “menor que” tanto el Z crítico como el Z empírico tendrán valores negativos y se situarán en la cola izquierda de la curva normal estándar: Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 7 Aunque los Z tengan signo negativo, lo que nos interesa comparar es el valor absoluto. Como|𝑍𝑍𝑒𝑒|>|𝑍𝑍𝛼𝛼|, es decir, 1,85 > 1,645, Ze cae en la región de rechazo de H0. Esto nos lleva a rechazar la hipótesis nula y a aceptar la hipótesis alternativa. Podemos afirmar para un nivel de confianza del 95% que la cantidad de españoles que han consumido cocaína alguna vez en su vida ha descendido respecto al 2013. b) El p-valor es la probabilidad asociada al estadístico de contraste (en este caso a 𝑍𝑍𝑒𝑒= -1,85) suponiendo que la hipótesis nula es verdadera. Viendo el gráfico anterior, el p-valor viene delimitado por el área bajo la curva normal que se encuentra a la izquierda de 𝑍𝑍𝑒𝑒= -1,85. Es por tanto, una probabilidad muy pequeña, la probabilidad más pequeña posible de equivocarnos al rechazar la hipótesis nula con el contraste realizado. Si el p-valor es menor al área delimitada por la región crítica (sabemos que la región crítica es la delimitada por el nivel de significación y, por tanto, es la región de rechazo de H0) eso quiere decir que con el Z empírico que hemos obtenido en la prueba, la probabilidad de equivocarnos al rechazar la hipótesis nula es todavía más pequeña que la marcada por el nivel de significación. Gráficamente lo vemos con claridad, pero podemos también hallar el valor concreto del p-valor: sabiendo que cada celda de la tabla de la normal estándar (pág. 172 del libro) nos ofrece la probabilidad desde la media = 0 hasta una de las colas de la distribución, para hallar el p-valor solo tendremos que ver qué probabilidad (o área) corresponde a Z=1,85 (recordemos que la distribución normal es totalmente simétrica, por lo que es equivalente buscar números positivos o negativos) y restar esa cantidad a 0,5 que es el área total desde la media hasta una de las colas de la distribución: La probabilidad asociada a Z=1,85 es 0,4678, por tanto el p-valor será: P-valor = 0,5 - 0,4678 =0,0322 El p-valor nos indica que hay exactamente una probabilidad del 3,22% de equivocarnos al rechazar la hipótesis nula y aceptar la hipótesis alternativa. Al tratarse de una probabilidad (0,0322) menor al nivel de significación (0,05) aceptamos H1: 0 = -1,645 = -1,85 Región de rechazo de H0 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 8 p-valor < α rechazamos H0 y aceptamos H1 Pero, ¿qué pasaría si en lugar de fijar el Nc=95% lo hubiéramos fijado en el 99%? Con un Nc=99% tendríamos un nivel de significación α = 0,01. Ahora las cosas cambian, pues la probabilidad que marca el p-valor (0,0322) es mayor a la del nivel de significación (0,01). No podríamos, para un nivel de confianza del 99% llegar a la misma conclusión que en el caso anterior, concluyendo que no tenemos evidencias estadísticamente significativas para rechazar H0 y aceptar H1 para un nivel de confianza del 99% p-valor > α no podemos rechazar H0 Como vemos, el nivel de confianza con el que trabajamos y su traducción al nivel de significación (que, como sabemos, es la máxima probabilidad de equivocarnos al rechazar la hipótesis nula que estamos dispuestos a aceptar) es determinante al realizar inferencia estadística. La elección de uno u otro nivel de confianza dependerá de determinados condicionantes a los que se enfrenta el investigador, como la importancia de los temas analizados, la seguridad con la que desee tomar decisiones, la gravedad o relevancia de las consecuencias de tomar la decisión o la urgencia de la misma. Ejercicio 5 En un estudio sobre consumo de drogas en la población penitenciaria realizado en 2006 se obtuvo que el 63% de los internos habían consumido alcohol un mes antes de ingresar en prisión. En una nueva encuesta realizada en 2011 a 4.985 internos, 3.227 señalaron haber consumido alcohol en los 30 días previos a su ingreso. Sabiendo que la población penitenciaria en 2011 era de 71.387 individuos, se desea saber, con un nivel de confianza del 98% si ese porcentaje de internos ha sufrido diferencias durante el período considerado. Calcule el p-valor e interprete el valor obtenido. Solución Se trata de un contraste de hipótesis para una proporción. Los datos que nos proporciona el enunciado son: N= 71.387 por tanto, es una población finita. n = 4.985 P = 0,63 (es la proporción teórica del estudio anterior de 2006) p: proporción de la encuesta realizada en 2011. El enunciado no la ofrece directamente pero es de fácil cálculo, pues solo hay que dividir el número de individuos de la muestra que señalaron haber consumido alcohol enlos 30 días previos al ingreso, entre el número total de individuos de la muestra: p = 3227 4985 = 0,647342 Nc = 98% por lo que α = 0,02 Planteamos las hipótesis. Al no señalarse nada sobre la dirección de la diferencia, tenemos un contraste bilateral: Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 9 Ho: p = 0,63 H1: p ≠ 0,63 Ahora podemos realizar el test de significación. Hemos de tener en cuenta que el tamaño de la población es N<20n, por lo que hay que incorporar el factor de corrección de poblaciones finitas (cpf) en el cálculo del estadístico Z: Z = 𝑝𝑝−𝑃𝑃 𝜎𝜎𝑝𝑝� donde 𝜎𝜎𝑝𝑝� = � 𝑃𝑃·𝑄𝑄 𝑛𝑛 · �𝑁𝑁−𝑛𝑛 𝑁𝑁−1 Para hallar el error típico de la proporción (𝜎𝜎𝑝𝑝�) necesitamos conocer el valor de Q, que es igual 1-P: 𝜎𝜎𝑝𝑝� = � 0,63·0,37 4985 · �71387−4985 71386 = 0,006595 Z = 0,647342−0,63 0,006595 = 2,63 Una vez hallado el Z empírico vamos a compararlo con el Z crítico, que buscaremos en la tabla de la distribución normal estándar teniendo en cuenta que el contraste es bilaterial y, por tanto, el nivel de significación α = 0,02 debe “repartirse” entre las dos colas de la normal. Debemos entonces buscar el valor Z que corresponde a α 2 = 0,01. El Z crítico correspondiente a α 2 = 0,01 es Z = ± 2,33 Dado que el Z empírico se encuentra en la región de rechazo de H0 (en este caso, en la correspondiente a la cola derecha), podemos rechazar la hipótesis nula y aceptar la hipótesis alternativa, confirmando que, efectivamente, para un nivel de confianza del 98% hay diferencias significativas en la proporción internos en centros penitenciarios que han consumido alcohol en los 30 días anteriores a su ingreso en los dos momentos considerados. Calculamos ahora el p-valor, siendo este la probabilidad de equivocarnos al rechazar la hipótesis nula asociada al estadístico de contraste, es decir, al Z empírico. Debemos tener en cuenta que, 0 Región de rechazo de H0 = 0.01 Región de rechazo de H0 = 0.01 Ze = +2,63 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 10 en este caso, estamos ante un contraste bilateral, de tal forma que para calcular el p-valor tenemos que tener en cuenta las dos colas de la distribución, puesto que la región de rechazo de H0 se distribuye entre las dos colas. En la tabla de la normal estándar, la casilla correspondiente a Z= 2,63 marca una probabilidad del 0,4957, por lo que el p-valor para solo una de las colas será 0,5-0,4957 = 0,0043. Como tenemos regiones de rechazo en ambas colas de la distribución normal, y siendo esta totalmente simétrica, el p-valor del contraste resultará de multiplicar por 2 el valor para una sola cola. Por tanto: P-valor = 2 · 0,0043 = 0,0086 p-valor < α rechazamos H0 y aceptamos H1 La probabilidad asociada a Z= ± 2,63 suponiendo que H0 fuese verdadera es 0,0086. Es decir, el p-valor nos dice lo verosímil que sería encontrar una muestra como la que hemos obtenido si la hipótesis nula es cierta. Vemos que es una probabilidad muy baja (por debajo del nivel de significación) y por tanto, es muy poco verosímil obtener una muestra como esta siendo cierta la hipótesis nula. La muestra está muy alejada de la hipótesis nula, y por eso podemos rechazarla. Un p-valor de 0,0086 nos está indicando que, para esta muestra concreta, con el estadístico de contraste hallado, hay una probabilidad de 0,0086 de equivocarnos al rechazar la hipótesis nula y aceptar la hipótesis alternativa. Segunda parte: contraste de hipótesis para dos muestras independientes Ejercicio 6 En una encuesta del CIS de 2015 se pidió a los entrevistados que señalaran en una escala del 0 al 10, qué puntuación otorgaban al “terrorismo como amenaza para nuestra seguridad”. La puntuación media de los 1.179 hombres entrevistados fue de 7,89, mientras que la puntuación media otorgada por las 1.230 entrevistadas fue de 8,16. Sabiendo que la desviación típica fue para los hombres de 2,44 y para las mujeres de 2,22, se desea saber, con un 97,5% de confianza si, por término medio, las mujeres consideran el terrorismo como una amenaza significativamente más importante de lo que lo consideran los hombres. Calcule el p-valor del contraste. Solución Se trata de un contraste de hipótesis para comparar las medias de dos poblaciones diferenciadas (hombre y mujeres) de las que se han obtenido dos muestras independientes. Las medias a comparar son las valoraciones medias del “terrorismo” como amenaza para la seguridad en una escala del 0 al 10. Nuestros datos son los siguientes: Muestra 1 (Hombres) Muestra 2 (Mujeres) n1= 1.179 n2= 1.230 �̅�𝑥1= 7,89 �̅�𝑥2= 8,16 𝑠𝑠𝑥𝑥1= 2,44 𝑠𝑠𝑥𝑥2= 2,22 Nc = 97,5% por lo que α = 0,025 Planteamos las hipótesis a contrastar. Tal como hemos definido los grupos, la formulación de las hipótesis queda del siguiente modo: Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 11 Ho: µ1 = µ2 H1: µ1 < µ2 Se trata de comprobar si la media de las mujeres es superior a la de los hombres o, de forma equivalente, si la media de los hombres es inferior a la de las mujeres. Si hubiéramos definido los grupos como 1 (mujeres) y 2 (hombres), la hipótesis alternativa se formularía en sentido contrario: H1: µ1 > µ2. Siempre que definamos correctamente los grupos y planteemos las hipótesis de forma coherente con esa definición, el resultado del contraste será equivalente. Elegimos en este caso mantener la definición inicial teniendo un contraste unilateral en el sentido “menor que”. Sabiendo que el tamaño de ambas muestras es suficientemente grande, resolvemos el contraste hallando el Z empírico para dos muestras independientes. Para ello necesitamos, en primer lugar, calcular el error típico de las medias para ambas muestras: 𝜎𝜎�̅�𝑥1= 𝑠𝑠𝑥𝑥1 √𝑛𝑛1 = 2,44 √1179 = 0,071 𝜎𝜎�̅�𝑥2= 𝑠𝑠𝑥𝑥2 √𝑛𝑛2 = 2,22 √1230 = 0,063 Ahora calculamos el error típico de la diferencia de medias: 𝜎𝜎(�̅�𝑥1− �̅�𝑥2) = �𝜎𝜎�̅�𝑥1 2 + 𝜎𝜎�̅�𝑥2 2 = √0,00901 = 0,095 Ya podemos calcular el valor de Z empírico para resolver el contraste: Z = �̅�𝑥1− �̅�𝑥2 𝜎𝜎(𝑥𝑥�1− 𝑥𝑥�2) = 7,89−8,16 0,095 = -2,84 Debemos ahora localizar el Z crítico. Teniendo en cuenta que α = 0,025 para un contraste unilateral, buscamos en las tabla de la normal estándar la celda que indica el área correspondiente a 0,5 – 0,025 = 0,475. Para ese área, Z = 1,96 y, tratándose de un contraste unilateral en el sentido “menor que”, tendrá signo negativo. Por tanto, Z crítico = -1,96. 0 = -1,96= -2,84 Región de rechazo de H0 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 12 Comparando los valores absolutos |𝑍𝑍𝑒𝑒|>|𝑍𝑍𝛼𝛼| podemos rechazar la hipótesis nula y aceptar la alternativa para un nivel de confianza del 97,5%. Veamos si el p-valor avala nuestra conclusión. Sabemos que el p-valor es la probabilidad del Z empírico obtenido en la prueba suponiendo que es cierta la hipótesis nula. Calculamos su valor consultando en la tabla de la normal estándar la probabilidad que hay entre la media=0 y el Z empírico. Esta probabilidad es 0,4977. Por tanto: p-valor = 0,5-0,4977 = =0,0023 Comprobamos si el p-valor es < al nivel de significación: efectivamente 0,0023 < 0,025 Esto corrobora la decisión de rechazar la hipótesis nula y aceptar la hipótesis alternativa. Es decir, existen evidencias estadísticamente significativas para afirmar que la preocupación (expresada como puntuación media en la escala) de las mujeres respecto al “terrorismo como amenaza para la seguridad” es superior a la de los hombres. Ejercicio 7 En una localidad se desea conocer si existen diferencias significativas entre las calificaciones medias obtenidas en Selectividad por los alumnos que han estudiadoen dos institutos de enseñanza secundaria. Para ello, se selecciona una muestra de 20 alumnos del Instituto “Sur”, obteniendo una calificación media de 6,3 y una desviación típica de 0,6, y otra muestra de 23 alumnos del Instituto “Norte”, resultando una calificación media de 5,7 con una desviación típica de 1,2. Para un nivel de significación de α = 0,05: a) ¿Se puede afirmar que existen diferencias significativas entre las calificaciones medias de ambos institutos? b) Calcule el p-valor Solución a) Estamos ante un problema de contraste de hipótesis con dos muestras independientes, cada una de ellas formadas por los alumnos de cada instituto, y nuestro objetivo es comparar las calificaciones medias mediante un estadístico que permita concluir si existen o no diferencias significativas entre ellas. Dado que no se especifica la dirección de las diferencias en la pregunta (no se indica nada respecto a si una de las medias es “mayor” o “menor” que la otra), el contraste es bilateral: Ho: µ1=µ2 H1: µ1≠µ2 La hipótesis nula (Ho) señala que no hay diferencias entre las calificaciones de ambos institutos, mientras que la hipótesis alternativa (H1) indica que sí hay diferencias entre ellas, sin señalar el sentido de esa diferencia (por eso es un contraste bilateral). Nuestros datos son los siguientes: Muestra 1 (Instituto “Sur”) Muestra 2 (Instituto “Norte”) n1= 20 n2= 23 �̅�𝑥1= 6,3 �̅�𝑥2= 5,7 𝑠𝑠𝑥𝑥1= 0,6 𝑠𝑠𝑥𝑥2= 1,2 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 13 α = 0,05 (bilateral): para realizar el contraste debemos considerar las dos colas de la distribución y, por tanto, el área correspondiente al nivel de significación (α) debe “repartirse” entre ellas. En cada cola se considerará un área de 0,05 / 2 = 0,025 para demarcar las 2 “regiones de rechazo de H0”. Antes de utilizar el estadístico de contraste, debemos comprobar el tamaño de las muestras. Dado que en ambos casos n ≤ 30, las muestras son pequeñas y debemos utilizar el estadístico t-Student para resolver el contraste. Calculamos el error típico de la diferencia de medias: 𝜎𝜎�̅�𝑥1= 𝑠𝑠𝑥𝑥1 �𝑛𝑛1−1 = 0,6 √20−1 = 0,1376494 𝜎𝜎�̅�𝑥2= 𝑠𝑠𝑥𝑥2 �𝑛𝑛2−1 = 1,2 √23−1 = 0,2558408 𝜎𝜎(�̅�𝑥1− �̅�𝑥2) = �𝜎𝜎�̅�𝑥1 2 + 𝜎𝜎�̅�𝑥2 2 = �(0,1376494)2+(0,2558408)2 = 0,29052 te = �̅�𝑥1− �̅�𝑥2 𝜎𝜎(𝑥𝑥�1− 𝑥𝑥�2) = 6,3− 5,7 0,29052 = 2,065 Para un α = 0,05 bilateral con (𝑛𝑛1-1 + 𝑛𝑛2-1) = 19 + 22 = 41 grados de libertad, el valor crítico de t es 𝑡𝑡α 2� = ± 2,021. En la tabla t-Student no aparece exactamente gl=41, pero sí está disponible gl=40, que utilizaremos por encontrarse muy próximo a los grados de libertad del problema. Por tanto, consideraremos como t crítico el valor 𝑡𝑡α 2� = ± 2,021. ¿A qué conclusión podemos llegar con este contraste? Obsérvese que para un nivel de confianza del 95%, el valor absoluto del t empírico es mayor al valor absoluto del t crítico pero solo en una magitud muy pequeña: |+2,065| > |±2,021| Esta pequeña diferencia es, no obstante, suficiente para rechazar H0 y aceptar H1. Sin embargo, si aumentamos nuestro nivel de confianza y, por tanto, reducimos la región crítica (nivel de significación α más pequeño), el t empírico no estará en la región de rechazo de H0 y, consecuentemente no habría evidencias para 0 Región de rechazo de H0 = 0.025 Región de rechazo de H0 = 0.025 = -2,021 = +2,065= +2,021 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 14 rechazarla. Invitamos al estudiante a que compruebe esta cuestión utilizando niveles de confianza 98% y del 99%. b) Para calcular el p-valor en un contraste bilateral con un nivel de confianza del 95%, debemos tener en cuenta las dos colas de la distribución: el p-valor es la probabilidad determinada por la región a la izquierda del -t empírico (en la cola izquierda) más la región a la derecha del +t empírico (en la cola derecha). Buscamos en la tabla de la distribución t-Student el valor de t más próximo al t empírico hallado en la prueba según los grados de libertad. Dado que nuestro te es 2,065, el valor más próximo en la tabla, para gl=40, es t = 2,021 (recordemos que seleccionamos gl=40 porque en la tabla no aparece gl=41). Observamos la probabilidad correspondiente a ese t para un contraste bilateral mirando en la fila superior de la tabla (la que indica los niveles de significación), y para un contraste bilateral corresponde a 0,05. Es decir, el p-valor es entonces una probabilidad muy próxima al nivel de significación pero, efectivamente, algo más pequeña que α = 0,05, porque t empírico = 2,065 deja hacia los extremos de la curva una probabilidad más pequeña que t crítico = 2,021. El valor exacto del p-valor para 41 grados de libertad solo podemos saberlo con exactitud en programas estadísticos. Con la tabla T-Student solo podemos comprobar que efectivamente supone un área de la curva más pequeña que el nivel de significación. Ejercicio 8 En una encuesta del CIS realizada en 2012 se preguntó a los entrevistados sobre la influencia que la última Ley del Tabaco ha tenido en su hábito de fumar. A esta encuesta respondieron 1.259 hombres, de los que 198 señalaron que a partir de la aplicación de esta Ley “habían dejado de fumar o fumaban menos que antes”. De las 1.319 mujeres entrevistadas, 147 respondieron lo mismo. Para un nivel de significación de 0,01, se desea conocer si la proporción de personas de un sexo que “ha dejado de fumar o fuma menos” es significativamente superior a la del otro sexo. Solución En primer lugar debemos conocer las proporciones de respuesta para ambos sexos para saber cuál es mayor: • Proporción de hombres que “han dejado de fumar o fuman menos”: p1 = 198/1259 = 0,1573 • Proporción de mujeres que “han dejado de fumar o fuman menos”: p2 = 147/1319 = 0,1114 El objetivo del contraste es comprobar si la proporción de hombres que “ha dejado de fumar o fuma menos” es significativamente superior a la de mujeres que han respondido lo mismo. Por tanto, tenemos un contraste unilateral en el sentido “mayor que”: Ho: p1=p2 H1: p1>p2 donde: n = 1.259+1319= 2.578 α = 0,01 (unilateral) Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 15 uestra 1 (Hombres) Muestra 2 (Mujeres) n1= 1.259 n2= 1.319 p1 = 0,1573 p2 = 0,1114 Las dos muestras son lo suficientemente grandes (que es lo más habitual al trabajar con datos estadísticos en la investigación sociológica) y podemos utilizar el estadístico Z para el contraste. Para ello debemos calcular previamente la proporción conjunta (p) y el error típico de la diferencia de proporciones: p = 𝑛𝑛1·𝑝𝑝1+ 𝑛𝑛2·𝑝𝑝2 𝑛𝑛1+ 𝑛𝑛2 = 1259 · 0,1573+ 1319 · 0,1114 1259+ 1319 = 344,9773 2578 = 0,1338 Sabemos que 𝑞𝑞 = 1 − 𝑝𝑝 = 1- 0,1338 = 0,8662 𝜎𝜎(𝑝𝑝1−𝑝𝑝2) = �𝑝𝑝 · 𝑞𝑞 � 1 𝑛𝑛1 + 1 𝑛𝑛2 � = �0,1338 · 0,8662 � 1 1259 + 1 1319 � = 0,0134 Calculamos el valor Z de la prueba: Ze = 𝑝𝑝1− 𝑝𝑝2 𝜎𝜎(𝑝𝑝1−𝑝𝑝2) = 0,1573−0,1114 0,0134 = 3,43 Para un contraste unilateral con un nivel de significación α = 0,01, el valor crítico de Z es 2,33: Región de rechazo de H0 α =0,01 0 Ze = 3,43 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 16 Vemos que el valor Z de la prueba es mayor al valor crítico para un nivel de confianza del 99% (un nivel de significación de 0,01) y, por tanto, cae en la región de rechazo de H0. Esto nos lleva a concluir que efectivamente la proporción de hombres que “han dejado de fumar o fuman menos” tras la aplicación de la Ley del Tabaco es significativamente superior a la proporción de mujeres que “han dejado de fumar o fuman menos”. El p-valor del contraste, para Ze=3,43 es 0,5-0,4997=0,0003. Se trata de una probabilidad muy pordebajo del nivel de significación que permite rechazar la hipótesis nula y aceptar la hipótesis alternativa. Ejercicio 9 Una encuesta del CIS realizada en 2015 obtuvo que el 9,45% la población joven (18-29 años) consideraba que el terrorismo era una amenaza “poco o nada importante”, mientras que esa opinión fue sostenida por el 6,59% de la población mayor de 65 años. En este estudio se entrevistó a 370 individuos entre 18-29 años, y a 576 mayores de 65 años. Para un nivel de confianza del 99% ¿podemos realmente afirmar que en la población española la proporción de jóvenes es superior a la de los mayores respecto a la percepción de que que el terrorismo es una amenaza “poco o nada importante? Solución La encuesta se ha realizado a dos subpoblaciones, “jóvenes” y “mayores de 65 años”. Por tanto, tenemos un contraste para comparar dos proporciones obtenidas de dos muestras independientes. Los datos son los siguientes: Muestra 1 (Jóvenes) Muestra 2 (Mayores) n1= 370 n2= 576 p1 = 0,0945 p2 = 0,0659 Nc=99% α = 0,01 Planteamos las hipótesis: Ho: p1=p2 H1: p1>p2 Tenemos un contraste unilateral en el sentido “mayor que”. Como las muestras son suficientemente grandes (n>30) podemos utilizar la prueba del estadístico Z para hacer el contraste. Para ello, debemos hallar en primer lugar la proporción conjunta (p) y su complementaria q: p = 𝑛𝑛1·𝑝𝑝1+ 𝑛𝑛2·𝑝𝑝2 𝑛𝑛1+ 𝑛𝑛2 = 370 · 0,0945 + 576 · 0,0659 370+576 = 0,077086 q = 1- 0,077086 = 0,922914 Ahora incorporamos ambas en el cálculo del error típico de la diferencia de proporciones: Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 17 𝜎𝜎(𝑝𝑝1−𝑝𝑝2) = �𝑝𝑝 · 𝑞𝑞 � 1 𝑛𝑛1 + 1 𝑛𝑛2 � = �0,077086 · 0,922914 � 1 370 + 1 576 � = 0,01777 Y calculamos el Z empírico: Z = 𝑝𝑝1− 𝑝𝑝2 𝜎𝜎(𝑝𝑝1−𝑝𝑝2) = 0,0945−0,0659 0,01777 = +1,609 ~ +1,61 Sabiendo que el Z crítico para un contraste unilateral con α = 0,01 es Zα = +2,33, resolvemos el contraste: Ze no se encuentra en la región de rechazo de la hipótesis nula, pues su valor absoluto es inferior al de Z crítico. El p-valor asociado a Ze es 0,0537 (obtenido de la tabla de la curva normal localizando el Z=1,61 y restando 0,5-0,4463). Como p-valor > al nivel de significación: 0,0537 > 0,01 no podemos rechazar la hipótesis nula de igualdad entre las proporciones de jóvenes y mayores de 65 años que opinan que “el terrorismo es una amenaza poco o nada importante” para un nivel de confianza del 99%. Si hubiéramos utilizado un nivel de confianza del 95% (α = 0,05) tampoco podríamos rechazar con rotundidad la hipótesis nula, aunque el p-valor realmente sería solo unas centésimas superior al nivel de significación. Región de rechazo de H0 = +2,33 α =0,01 0 Ze = +1,61 Estadística Social (Grado en Criminología) Ejercicios resueltos Tema 6 18 Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-SinDerivar 4.0 Internacional. La autoría de este trabajo corresponde a los siguientes profesores del Departamento de Sociología I de la UNED: Beatriz Mañas Ramírez y Alejandro Almazán Llorente. http://www2.uned.es/socioestadistica/Crim/Ejercicios_resueltos_Tema6_Significacion_Estadisti ca.pdf http://creativecommons.org/licenses/by-nc-nd/4.0/ http://creativecommons.org/licenses/by-nc-nd/4.0/ http://www2.uned.es/socioestadistica/Crim/Ejercicios_resueltos_Tema6_Significacion_Estadistica.pdf http://www2.uned.es/socioestadistica/Crim/Ejercicios_resueltos_Tema6_Significacion_Estadistica.pdf http://creativecommons.org/licenses/by-nc-nd/4.0/ EJERCICIOS RESUELTOS TEMA 6: Pruebas de significación estadística