Text Material Preview
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Dpto. de Estadística e Informática Semana 5. Medida de asimetría y Diagrama de cajas Inicio • Motivación • Logros • Saberes previos Desarrollo • Medidas de asimetría • Diagrama de cajas • Ejercicios resueltos Cierre • Ejercicios propuestos • Autoevaluación (Moodle) 2 ENAHO: Encuesta Nacinal de Hogares sobre Condiciones de Vida y Pobreza 2020 (1º trimestre) Podemos observar que la forma que toma la distribución de los datos correspondientes al ingreso líquido mensual de trabajadores dependientes en Lima Metropolitana, se acumulan en mayor proporción a lado izquierdo (menores ingresos) y en menor medida a lado derecho (mayores ingresos). 3 4 ¿Qué es la forma de la distribución de un conjunto de datos? ¿Para qué sirven las medidas de asimetría? ¿Para que sirve un diagrama de cajas? Al término de la sesión, el estudiante estará en capacidad de: Calcular e interpretar medidas de forma e la distribución. Identificar la forma de distribución de conjuntos de datos. Construir e interpretar un Diagrama de Cajas. Resolver ejercicios propuestos. 5 Autoevaluación (Aula virtual) Ejemplos, ejercicios resueltos y propuestos Interpretación de un diagrama de cajas Diagrama de cajas Coeficiente de asimetría de Pearson Tipos de distribución de un conjunto de datos Las medidas de asimetría permiten determinar la forma de la distribución para un conjunto de datos en lo que se refiere a su simetría o asimetría. Distribución Simétrica. Un conjunto de datos presenta una distribución simétrica, si su curva muestra simetría con respecto al centro de los datos. Distribución asimétrica positiva. Un conjunto de datos presenta una distribución asimétrica positiva, si su curva muestra una cola hacía la derecha. Distribución asimétrica negativa Un conjunto de datos presenta una distribución asimétrica negativa, si su curva muestra una cola hacía la izquierda. Me Me Me 6 Ejemplo 1 Suponga que se tienen los siguientes gráficos (polígonos de frecuencia) que corresponden a la distribución de los ingresos mensuales (miles S/.) de muestras al azar de los clientes de tres sucursales (A, B y C) de una caja rural. Distribución simétrica Distribución asimétrica positiva Distribución asimétrica negativa 7 Los ingresos mensuales de los clientes de la sucursal A, es simétrica, los de la sucursal B una asimetría positiva y los de la sucursal C una asimetría negativa. Coeficiente de asimetría de Pearson Me As 3 3 X me as s Poblacional: Muestral: Interpretación: Si as = 0 Entonces la distribución es simétrica. Si as < 0 Entonces la distribución es asimétrica negativa o a la izquierda. Si as > 0 Entonces la distribución es asimétrica positiva o a la derecha. Un mayor (menor) valor del coeficiente de asimetría de Pearson indica un mayor (menor) grado de asimetría de la distribución de los datos. Es una medida para evaluar el grado de asimetría de un conjunto de datos. 8 Ejemplo 2 Los siguientes datos corresponde a las longitudes de langostinos (cm.) de río para muestras de 12, 15 y 14 seleccionados en tres criaderos (A, B y C). Las medidas calculadas se presentan a continuación: Interpretación. La longitud de langostino en el criadero A muestra una asimetría positiva, en el criadero B una asimetría negativa y en el C una distribución simétrica Criadero Promedio Mediana Desviación estándar A 5.8 4.5 2.8 B 4.6 5.4 1.8 C 5.6 5.5 224.8 𝐚𝐬𝐀 = 𝟑𝐱(𝟓.𝟖 − 𝟒.𝟓) 𝟐.𝟖 = 𝟏.𝟑𝟗 𝐚𝐬𝐁 = 𝟑𝐱(𝟒.𝟔 − 𝟓.𝟒) 𝟏.𝟖 = −𝟏.𝟑𝟑 𝐚𝐬𝐂 = 𝟑𝐱(𝟓.𝟔 − 𝟓.𝟓) 𝟐𝟐𝟒.𝟖 = 𝟎.𝟎𝟎𝟏𝟑𝟑 9 Ejercicio 1 Se ha realizado un estudio sobre la utilización del agua en los hogares en tres zonas rurales (A, B y C) para lo cual se ha registrado el número de litros de agua consumidos por un día. Calcule e interprete el coeficiente de asimetría de Pearson para el número de litros de agua consumidas para cada zona. 10 Cálculo de medidas estadísticas: Zona n Promedio Mediana Desv. Estándar A 8 146.88 152.50 23.59 B 6 228.00 130.00 256.00 C 10 144.5 130.00 52.00 Solución: Interpretación. El número de litros de agua consumidas en los hogares en la zona A muestra una asimetría negativa, mientras que las zonas B y C presentan una asimetría positiva.. 𝐙𝐨𝐧𝐚 𝐀: 𝐚𝐬𝐀 = 𝟑𝐱(𝟏𝟒𝟔.𝟖𝟖 − 𝟏𝟓𝟐.𝟓𝟎) 𝟐𝟑.𝟓𝟗 = −𝟎.𝟕𝟏𝟓 𝐙𝐨𝐧𝐚 𝐁: 𝐚𝐬𝐁 = 𝟑𝐱(𝟐𝟐𝟖.𝟎 − 𝟏𝟑𝟎.𝟎) 𝟐𝟓𝟔.𝟎 = 𝟏.𝟏𝟒𝟖 𝐙𝐨𝐧𝐚 𝐂: 𝐚𝐬𝐂 = 𝟑𝐱(𝟏𝟒𝟒.𝟓 − 𝟏𝟑𝟎.𝟎) 𝟓𝟐.𝟎 = 𝟎.𝟖𝟑𝟔 11 El diagrama de cajas (Box plot) se construye calculando los cuartiles (Q1=P25, Q2=P50 y Q3=P75) de un conjunto de datos. Es una técnica gráfica que permite determinar en un conjunto de datos : La asimetría corresponde al 50% central de los datos. La variabilidad dentro del 50% central de los datos Los valores atípicos o extremos (outliers). 12 Los bigotes son las líneas que se extienden de la parte inferior y superior de la caja hasta la observación más alta o más baja dentro de los intervalos de seguridad. La caja contiene información del 50% central de los datos ya que la línea inferior de la caja es el primer cuartil (Q1 = P25), y la línea superior de la caja es el tercer cuartil (Q3 = P75). La línea que divide a la caja es la mediana y su posición dentro de ella nos brindará información sobre la asimetría de la distribución del 50% central de datos. 13 1. Respecto a la asimetría del 50% central Si Q2 está próximo a Q1; asimetría positiva o hacía la derecha. Si Q2 está próximo a Q3; asimetría negativa o hacía la izquierda. Si Q2 está en medio de Q1 y Q3;simetría. 2. Respecto a la variabilidad dentro del 50% central La caja más alargada (mayor RI), presenta una mayor variabilidad. Interpretación de un diagrama de cajas 3. Respecto a la detección de datos atípicos u outliers Observaciones fuera del intervalo de seguridad inferior (ISI) o superior (ISS). Se representan con asteriscos (*). ISI = Q1 – 1.5 (Q3 - Q1) = Q1 – 1.5 RI ISS = Q3 + 1.5 (Q3 - Q1) = Q3 + 1.5 RI •Si Xi < ISI, entonces Xi es un dato atípico pequeño. •Si Xi > ISS, entonces Xi es un dato atípico alto. 14 Ejemplo 3. Se tienen los pesos de 10 personas del aula A: 50, 52, 53, 54, 63, 64, 75, 76, 85, 120. Con estos datos se obtienen: P25=Q1=52.75, P50=Q2=me=63.5, P75=Q3=78.25 RI=Q3- Q1 =25.5 Se calculan los intervalos de seguridad inferior y superior: ISI = P25 – 1.5 RI = 52.75 – 1.5 (25.5) = 14.5 ISS= P75 + 1.5 RI = 78.25 + 1.5 (25.5) = 116.5 •Si algún Xi < 14.5, entonces Xi es un dato atípico pequeño. •Si algún Xi > 116.5, entonces Xi es un dato atípico alto. Como el dato X10=120 > ISS=116.5, entonces es un dato atípico 15 ISS=116.5 Hay una asimetría positiva, Q2 se aproxima a Q1 Hay un dato atípico alto (120). • El bigote superior llega hasta el máximo valor (descontando el dato extremo 120), este valor será 85. • El bigote inferior llega hasta el mínimo valor (como no hay dato extremo), este valor será 50. Q1=52.75 Q2=63.5 Q3=78.25 16 Ejercicio 2. La gerencia financiera de una empresa que otorgar créditos a pequeños productores ganaderos en la región de Cajamarca, desea evaluar los préstamos otorgados de dos zonas (A y B) del último trimestre. Con esta finalidad se toman muestras aleatorias de 13 y 11 productores de las zonas A y B respectivamente. Zonas 1 2 3 4 5 6 7 8 9 10 11 12 13 A 12 13 20 22 25 28 36 36 40 42 42 46 80 B 8 16 18 20 20 22 22 24 30 34 50 Estadísticos descriptivos: Zona A, Zona B Variable N Media Desv.Est. Q1 Mediana Q3 Zona A 13 34.00 17.83 21.00 36.00 42.00 Zona B 11 24.00 10.9918.00 22.00 30.00 En el siguiente cuadro se presenta los montos de préstamo (miles de $) y las medidas estadísticas. 17 a. Construya el diagrama de cajas Zona A: Q1=21.0, Q2=36.0, Q3=42.0 ISI=21.0-1.5x(42.0-21.0)=-10.5 ISS=42.0+1.5x(42.0-21.0)=73.5 Entonces: X13=80>73.5 es dato atípico Zona B: Q1=18.0, Q2=22.0, Q3=30.0 ISI=18.0-1.5x(30.0-18.0)=0.0 ISS=30.0+1.5x(30.0-18.0)=48.0 Entonces: X11=50>48.0 es dato atípico Z o n a B Z o n a A 8 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 0 D a t o s M o n t o s d e p r é s t a m o s ( m i l e s $ ) b. Realice la comparación de ambas zonas de la asimetría, la variabilidad y la existencia de datos atípicos. Los montos de los préstamos de la zona A presenta una asimetría negativa (Q2 se aproxima a Q3) y en la zona B una asimetría positiva (Q2 se aproxima a Q1). Los montos de préstamo en la zona A son más variables que los de la zona B (mayor RIA=21 > RIB=12). Se encontraron un monto atípico en la zona A (80) y en la zona B (50). 18 Ejercicios propuestos Se sabe que un determinado contaminante industrial vertido sobre un ecosistema fluvial genera en las truchas anticuerpos. Se cree que el número de anticuerpos por cada unidad de sangre, puede ser distinta entre truchas hembras y machos, por lo que se ha seleccionado de un criadero de truchas, ubicado cerca de una industria que vierte el contaminante, una muestra de 70 truchas de las cuales 40 son hembras y 30 machos. Los datos obtenidos se resumen a continuación, según el grupo de hembras o machos. Truchas hembras Truchas machos 220 490 600 730 220 490 630 770 Mean SE Mean StDev Minimo 230 500 640 770 673.0 45.2 247.8 290.4 350 510 640 790 360 510 650 890 Q1 Median Q3 Maximo N 380 520 660 900 476.6 689.2 833.3 1200 30 420 520 670 980 430 540 680 1000 460 590 380 1000 480 600 730 1340 19 a. Complete el siguiente diagrama de cajas. b. Realice la comparación para ambos sexos, acerca de la variabilidad y asimetría para el 50% central y la existencia de datos atípicos. 20 Referencias bibliográficas Anderson D., Sweendy D., Williams T. (2016) Estadística para Administración y Economía. 12ª. Edición. México. Cengage Learning Editores. Capítulo 3. Newbold, P. y Carlson, W. y Thorne, B. (2008). Estadística para Administración y Economía (6ta. ed.) Madrid: Pearson Education. Prentice Hall 21