Logo Passei Direto
Material
Study with thousands of resources!

Text Material Preview

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA 
Dpto. de Estadística e Informática 
Semana 5. Medida de asimetría y Diagrama de cajas 
Inicio 
• Motivación 
• Logros 
• Saberes previos 
Desarrollo 
• Medidas de asimetría 
• Diagrama de cajas 
• Ejercicios resueltos 
Cierre 
• Ejercicios propuestos 
• Autoevaluación (Moodle) 
2 
ENAHO: Encuesta Nacinal de Hogares sobre 
Condiciones de Vida y Pobreza 2020 
(1º trimestre) 
 
Podemos observar que la forma que toma 
la distribución de los datos 
correspondientes al ingreso líquido 
mensual de trabajadores dependientes en 
Lima Metropolitana, se acumulan en mayor 
proporción a lado izquierdo (menores 
ingresos) y en menor medida a lado 
derecho (mayores ingresos). 
3 
4 
¿Qué es la forma de la distribución de un conjunto de 
datos? 
¿Para qué sirven las medidas de asimetría? 
¿Para que sirve un diagrama de cajas? 
Al término de la sesión, el estudiante estará en capacidad de: 
 
Calcular e interpretar medidas de forma e la distribución. 
 Identificar la forma de distribución de conjuntos de datos. 
Construir e interpretar un Diagrama de Cajas. 
Resolver ejercicios propuestos. 
5 
Autoevaluación (Aula virtual) 
Ejemplos, ejercicios resueltos y propuestos 
Interpretación de un diagrama de cajas 
Diagrama de cajas 
Coeficiente de asimetría de Pearson 
Tipos de distribución de un conjunto de datos 
Las medidas de asimetría permiten determinar la forma de la 
distribución para un conjunto de datos en lo que se refiere a su 
simetría o asimetría. 
Distribución Simétrica. Un conjunto 
de datos presenta una distribución 
simétrica, si su curva muestra simetría 
con respecto al centro de los datos. 
Distribución asimétrica positiva. 
Un conjunto de datos presenta una 
distribución asimétrica positiva, si su 
curva muestra una cola hacía la derecha. 
Distribución asimétrica negativa 
Un conjunto de datos presenta una 
distribución asimétrica negativa, si su 
curva muestra una cola hacía la 
izquierda. 
Me 
Me 
Me 
6 
Ejemplo 1 
Suponga que se tienen los siguientes gráficos (polígonos 
de frecuencia) que corresponden a la distribución de los 
ingresos mensuales (miles S/.) de muestras al azar de los 
clientes de tres sucursales (A, B y C) de una caja rural. 
Distribución 
simétrica 
Distribución 
asimétrica positiva 
Distribución 
asimétrica negativa 
7 
Los ingresos mensuales de los clientes de la sucursal A, es 
simétrica, los de la sucursal B una asimetría positiva y los de la 
sucursal C una asimetría negativa. 
Coeficiente de asimetría de Pearson 
 

 Me
As


3  3 X me
as
s

Poblacional: Muestral: 
Interpretación: 
 Si as = 0 Entonces la distribución es simétrica. 
 Si as < 0 Entonces la distribución es asimétrica 
 negativa o a la izquierda. 
 Si as > 0 Entonces la distribución es asimétrica 
 positiva o a la derecha. 
Un mayor (menor) valor del coeficiente de asimetría de 
Pearson indica un mayor (menor) grado de asimetría de la 
distribución de los datos. 
Es una medida para evaluar el grado de asimetría de un 
conjunto de datos. 
8 
Ejemplo 2 
Los siguientes datos corresponde a las longitudes de langostinos 
(cm.) de río para muestras de 12, 15 y 14 seleccionados en tres 
criaderos (A, B y C). Las medidas calculadas se presentan a 
continuación: 
 
Interpretación. La longitud de langostino en el criadero A 
muestra una asimetría positiva, en el criadero B una asimetría 
negativa y en el C una distribución simétrica 
Criadero Promedio Mediana Desviación estándar 
A 5.8 4.5 2.8 
B 4.6 5.4 1.8 
C 5.6 5.5 224.8 
𝐚𝐬𝐀 =
𝟑𝐱(𝟓.𝟖 − 𝟒.𝟓)
𝟐.𝟖
= 𝟏.𝟑𝟗 𝐚𝐬𝐁 =
𝟑𝐱(𝟒.𝟔 − 𝟓.𝟒)
𝟏.𝟖
= −𝟏.𝟑𝟑 𝐚𝐬𝐂 =
𝟑𝐱(𝟓.𝟔 − 𝟓.𝟓)
𝟐𝟐𝟒.𝟖
= 𝟎.𝟎𝟎𝟏𝟑𝟑 
9 
Ejercicio 1 
Se ha realizado un estudio sobre 
la utilización del agua en los 
hogares en tres zonas rurales (A, 
B y C) para lo cual se ha 
registrado el número de litros de 
agua consumidos por un día. 
Calcule e interprete el coeficiente de asimetría de Pearson para el 
número de litros de agua consumidas para cada zona. 
10 
Cálculo de medidas estadísticas: 
Zona n Promedio Mediana Desv. Estándar 
 A 8 146.88 152.50 23.59 
 B 6 228.00 130.00 256.00 
 C 10 144.5 130.00 52.00 
Solución: 
Interpretación. El número de litros de agua consumidas 
en los hogares en la zona A muestra una asimetría 
negativa, mientras que las zonas B y C presentan una 
asimetría positiva.. 
𝐙𝐨𝐧𝐚 𝐀: 𝐚𝐬𝐀 =
𝟑𝐱(𝟏𝟒𝟔.𝟖𝟖 − 𝟏𝟓𝟐.𝟓𝟎)
𝟐𝟑.𝟓𝟗
= −𝟎.𝟕𝟏𝟓 
𝐙𝐨𝐧𝐚 𝐁: 𝐚𝐬𝐁 =
𝟑𝐱(𝟐𝟐𝟖.𝟎 − 𝟏𝟑𝟎.𝟎)
𝟐𝟓𝟔.𝟎
= 𝟏.𝟏𝟒𝟖 
𝐙𝐨𝐧𝐚 𝐂: 𝐚𝐬𝐂 =
𝟑𝐱(𝟏𝟒𝟒.𝟓 − 𝟏𝟑𝟎.𝟎)
𝟓𝟐.𝟎
= 𝟎.𝟖𝟑𝟔 
11 
El diagrama de cajas (Box plot) se construye calculando 
los cuartiles (Q1=P25, Q2=P50 y Q3=P75) de un conjunto 
de datos. 
 
Es una técnica gráfica que permite determinar en un 
conjunto de datos : 
 La asimetría corresponde al 50% central de los datos. 
 La variabilidad dentro del 50% central de los datos 
 Los valores atípicos o extremos (outliers). 
12 
 Los bigotes son las líneas 
que se extienden de la 
parte inferior y superior 
de la caja hasta la 
observación más alta o 
más baja dentro de los 
intervalos de seguridad. 
 La caja contiene 
información del 50% 
central de los datos ya que 
la línea inferior de la caja 
es el primer cuartil (Q1 = 
P25), y la línea superior de 
la caja es el tercer cuartil 
(Q3 = P75). 
 La línea que divide a la caja 
es la mediana y su posición 
dentro de ella nos brindará 
información sobre la 
asimetría de la distribución 
del 50% central de datos. 
13 
1. Respecto a la asimetría del 50% central 
Si Q2 está próximo a Q1; asimetría positiva o hacía la derecha. 
Si Q2 está próximo a Q3; asimetría negativa o hacía la izquierda. 
Si Q2 está en medio de Q1 y Q3;simetría. 
 2. Respecto a la variabilidad dentro del 50% central 
La caja más alargada (mayor RI), presenta una mayor 
variabilidad. 
Interpretación de un diagrama de cajas 
3. Respecto a la detección de datos atípicos u outliers 
Observaciones fuera del intervalo de seguridad inferior 
(ISI) o superior (ISS). Se representan con asteriscos (*). 
ISI = Q1 – 1.5 (Q3 - Q1) = Q1 – 1.5 RI 
ISS = Q3 + 1.5 (Q3 - Q1) = Q3 + 1.5 RI 
•Si Xi < ISI, entonces Xi es un dato atípico pequeño. 
•Si Xi > ISS, entonces Xi es un dato atípico alto. 
14 
Ejemplo 3. 
Se tienen los pesos de 10 personas del aula A: 
50, 52, 53, 54, 63, 64, 75, 76, 85, 120. 
Con estos datos se obtienen: 
P25=Q1=52.75, P50=Q2=me=63.5, P75=Q3=78.25 
 RI=Q3- Q1 =25.5 
Se calculan los intervalos de seguridad inferior y superior: 
ISI = P25 – 1.5 RI = 52.75 – 1.5 (25.5) = 14.5 
ISS= P75 + 1.5 RI = 78.25 + 1.5 (25.5) = 116.5 
•Si algún Xi < 14.5, entonces Xi es un dato atípico pequeño. 
•Si algún Xi > 116.5, entonces Xi es un dato atípico alto. 
 
Como el dato X10=120 > ISS=116.5, entonces es un dato 
atípico 
15 
ISS=116.5 
 Hay una asimetría positiva, Q2 se aproxima a Q1 
 Hay un dato atípico alto (120). 
• El bigote superior llega hasta el máximo valor (descontando el 
dato extremo 120), este valor será 85. 
• El bigote inferior llega hasta el mínimo valor (como no hay dato 
extremo), este valor será 50. 
Q1=52.75 
Q2=63.5 
Q3=78.25 
16 
Ejercicio 2. 
La gerencia financiera de una empresa 
que otorgar créditos a pequeños 
productores ganaderos en la región de 
Cajamarca, desea evaluar los 
préstamos otorgados de dos zonas (A 
y B) del último trimestre. Con esta 
finalidad se toman muestras aleatorias 
de 13 y 11 productores de las zonas A 
y B respectivamente. 
Zonas 1 2 3 4 5 6 7 8 9 10 11 12 13 
 A 12 13 20 22 25 28 36 36 40 42 42 46 80 
 B 8 16 18 20 20 22 22 24 30 34 50 
Estadísticos descriptivos: Zona A, Zona B 
Variable N Media Desv.Est. Q1 Mediana Q3 
 Zona A 13 34.00 17.83 21.00 36.00 42.00 
 Zona B 11 24.00 10.9918.00 22.00 30.00 
En el siguiente cuadro se presenta los montos de préstamo (miles 
de $) y las medidas estadísticas. 
17 
a. Construya el diagrama de cajas 
Zona A: Q1=21.0, Q2=36.0, Q3=42.0 
ISI=21.0-1.5x(42.0-21.0)=-10.5 
ISS=42.0+1.5x(42.0-21.0)=73.5 
Entonces: X13=80>73.5 es dato atípico 
 
Zona B: Q1=18.0, Q2=22.0, Q3=30.0 
ISI=18.0-1.5x(30.0-18.0)=0.0 
ISS=30.0+1.5x(30.0-18.0)=48.0 
Entonces: X11=50>48.0 es dato atípico Z o n a B Z o n a A 
8 0 
7 0 
6 0 
5 0 
4 0 
3 0 
2 0 
1 0 
0 
D
 a
 t 
o
 s 
M o n t o s d e p r é s t a m o s ( m i l e s $ ) 
 
 
b. Realice la comparación de ambas zonas de la asimetría, la 
variabilidad y la existencia de datos atípicos. 
 Los montos de los préstamos de la zona A presenta una 
asimetría negativa (Q2 se aproxima a Q3) y en la zona B una 
asimetría positiva (Q2 se aproxima a Q1). 
 Los montos de préstamo en la zona A son más variables que 
los de la zona B (mayor RIA=21 > RIB=12). 
 Se encontraron un monto atípico en la zona A (80) y en la zona 
B (50). 
18 
Ejercicios propuestos 
Se sabe que un determinado contaminante industrial vertido 
sobre un ecosistema fluvial genera en las truchas anticuerpos. Se 
cree que el número de anticuerpos por cada unidad de sangre, 
puede ser distinta entre truchas hembras y machos, por lo que se 
ha seleccionado de un criadero de truchas, ubicado cerca de una 
industria que vierte el contaminante, una muestra de 70 truchas 
de las cuales 40 son hembras y 30 machos. Los datos obtenidos 
se resumen a continuación, según el grupo de hembras o 
machos. 
Truchas hembras Truchas machos 
220 490 600 730 
 220 490 630 770 
 
Mean SE Mean StDev Minimo 
230 500 640 770 
 
673.0 45.2 247.8 290.4 
350 510 640 790 
 360 510 650 890 
 
Q1 Median Q3 Maximo N 
380 520 660 900 
 
476.6 689.2 833.3 1200 30 
420 520 670 980 
 
 
 
 
430 540 680 1000 
 
 
 
 
460 590 380 1000 
 
 
 
 
480 600 730 1340 
 
 
 
 
 
19 
a. Complete el siguiente diagrama de cajas. 
b. Realice la comparación para ambos sexos, acerca de la 
variabilidad y asimetría para el 50% central y la existencia de 
datos atípicos. 
20 
Referencias bibliográficas 
 Anderson D., Sweendy D., Williams T. (2016) Estadística para 
Administración y Economía. 12ª. Edición. México. Cengage 
Learning Editores. Capítulo 3. 
 Newbold, P. y Carlson, W. y Thorne, B. (2008). Estadística para 
Administración y Economía (6ta. ed.) Madrid: Pearson 
Education. Prentice Hall 
21