Vista previa del material en texto
PONTIFICIA UNIVERSIDAD CATOLICA ARGENTINA INSTITUTO DE CIENCIAS POLITICAS Y RELACIONES INTERNACIONALES CATEDRA: METODOS CUANTITATIVOS GUIA TEMATICA DE EJERCICIOS AUTORES: Mónica Cantoni; Alejandro Coronel; Javier Herrera; Agustín Suárez SEPTIEMBRE 2010 2 NOTA PRELIMINAR El presente cuadernillo-guía de ejercicios está realizado con el exclusivo propósito de poder explicitar situaciones de la vida cotidiana en donde debemos aplicar los conocimientos teóricos de la cátedra Métodos Cuantitativos de la carrera de Ciencias Políticas y Relaciones Internacionales dictada en la Universidad Católica Argentina. Esto conlleva una serie de supuestos que es menester dejar en claro. En primer lugar, que la cátedra adopta la visión de conocer para actuar y no conocer para repetir. Es decir, el perfil de la cátedra es el de poder brindar conocimientos que permitan una lectura, comprensión y tomas de decisiones presentes y futuras en el campo concreto del devenir profesional y no apunta a un esquema de pura repetición de procedimientos de cálculo que nada sirven para interpretar los diversos y siempre cambiantes escenarios de la vida. Es por ello que, a diferencia de otras materias, cátedras o enfoques del conocimiento no hay parámetros únicos, fijos y repetitivos para el abordaje de la observación, medición y análisis de la vasta, mutable y rica realidad social. Esto implica que la pretensión de ver en un ejercicio como responder todas las situaciones mismas de la vida es una quimera que debe ser descartada antes de empezar a leer el presente cuadernillo. Por otra parte, cabe destacar que si bien en algunos casos se ha redactado una pequeña introducción teórica, esta introducción temática de ninguna manera tiene la pretensión de suplantar, polemizar y/o resumir los textos académicos detallados en el Programa de la materia que son los que sí se deben leer, estudiar y, por sobre todas las cosas, comprender. Asimismo, los ejercicios involucrados no son punto de referencia alguno para lo que se vaya a evaluar en los parciales de cursada ni finales. Lo que a continuación se incluye es a título de ilustración, aplicación o ejemplos de situaciones o formas de analizar algunas temáticas vistas en al cátedra pero de ninguna manera, pretenden ser modelos a copiar ni, mucho menos, a memorizar como camino de "comprensión" de los contenidos. Eso lleva a una última especificación. De nada sirve comenzar por este cuadernillo si antes no se hubiera estudiado la teoría sobre el tema en cuestión. Leyendo los ejemplos no se aprende la teoría, eso es algo que cada persona debe hacer utilizando la literatura sugerida en el Programa de la materia sumado a cualquier otro que el lector considerase útil para la comprensión. Cada lector es libre de tener en cuenta o no todo lo aclarado en los párrafos precedentes. Cualquiera fuera su decisión, es pura responsabilidad del lector. 3 INDICE 1. Conceptualización y operacionalización de conceptos .......................................................... 3 Introducción a la conceptualización de variables.............................................................. 3 Operacionalización de conceptos ...................................................................................... 6 Variables ............................................................................................................................ 6 Conceptualización y operacionalización (Análisis de caso) ............................................. 9 Ejercicios .................................................................................................................. 16 2. Hipótesis ............................................................................................................................... 20 Ejercicios .................................................................................................................. 23 3. Análisis de datos ................................................................................................................... 24 A. Análisis de datos para variables cualitativas .............................................................. 28 Ejercicios ................................................................................................................. 32 B. Análisis de datos para variables cuantitativas ............................................................ 34 Ejercicios .................................................................................................................. 45 C. Gráficos ..................................................................................................................... 47 Ejercicios .................................................................................................................. 53 4 1. CONCEPTUALIZACION y OPERACIONALIZACION DE CONCEPTOS INTRODUCCION A LA CONCEPTUALIZACION DE VARIABLES El ser humano percibe el mundo mediante sus sentidos. En muchas ocasiones asociamos un ruido a una imagen que tenemos en nuestro recuerdo: al escuchar una sirena, pensamos en una ambulancia. Pero no todas las personas conceptualizan lo mismo. Para algunas personas que aún sobreviven y fueron víctimas de la segunda guerra mundial, la misma sirena la asocian con un bombardeo por ejemplo. Con animales inferiores sucede lo mismo pero en estos lo que se condiciona es un reflejo 1 . Nosotros también conceptualizamos el mundo mediante nuestro sistema de comunicación verbal. En él se intenta dar una denominación a cada objeto de la realidad (además de las abstracciones). Así cada palabra tiene un significado y un significante. El significado es el concepto o idea que se asocia a cada palabra (o signo lingüístico), ¿Qué quiere decir? Es aquello que define de lo que estamos hablando y se basa en las experiencias con uno o varios objetos (surge de la diversidad): un cuchillo es un objeto cortante que sirve para trozar la comida antes de ingerirla, pero cuidado que la misma palabra puede significar algo diferente por ejemplo, haciendo referencia al mismo cuchillo, objeto cortante que a principios del siglo 20, en las cercanías de la ciudad porteña de Buenos Aires, los malevos y orilleros usaban para atacar a sus víctimas o para defenderse de sus agresores. Para el caso, la ambigüedad existe pero se trata de minimizar. El significante es el conjunto de fonemas que usamos para denominar al objeto (la imagen acústica): por ejemplo cuchillo. En general para percibir el mundo que nos rodea necesitamos de lo antes mencionado que en síntesis se traduce en INFORMACION. 1 Para mayores detalles, consultar el experimento de Pablov 5 INFORMACION, MENSAJE Y DATO La información se puede considerar como un conjunto organizado de DATOS, y/o datos procesados, que constituyen un mensaje, este último es al objeto central de cualquier tipo de comunicación. La información debe cambiar el estado de conocimiento del receptor. Desde el punto de vista de la Teoría General de los Sistemas, cualquier señal o input capaz de cambiar el estado de un sistema constituye un pedazo de información. Por tanto la información debe ser novedosa según esta definición, en caso de que no lo sea se trata de un mensaje repetido. Ejemplo: la energía con que un proyectil impacta sobre su blanco responde a la masa del mismo y al cuadrado de la velocidad. Un dato es una característica de algún objeto real o abstracto, que por si mismo no tiene significado: celeste sin duda es un color, pero cuidado que alguien puede estar pensado en alguna persona llamada así. En cambio si a este dato le sumamos otro como Celeste Gómez, en este caso, con dos palabras (datos), estamos hablando de una persona. Con todo estose quiere dejar expresado que nuestro conjunto de herramientas para percibir el mundo y para comunicarnos, tiene una estructura válida pero con fallas de ambigüedad. Cuando se desea conocer algo, se debe intentar ser lo más claro posible en la redacción, algo que quizás no hice con el texto de arriba, y de ser necesario, recurrir a la redundancia y a ejemplos. ADQUISICION DEL CONOCIMIENTO Existen muchas maneras de adquirir conocimiento, una es por la lectura de algún tema, otro es preguntando a expertos, o al menos a personas más informadas (siempre y cuando exista información sobre este tema y/o expertos en el mismo y/o personas más informadas que uno). Pero también se puede adquirir información por la mera observación: una persona que desea tomar el tiempo que necesita una cajera de supermercado para atender a los clientes es una observación de una parte del sistema de atención donde se registrará la característica tiempo de atención. Otra manera es mediante la indagación a otros sobre un tema, no necesariamente deben ser expertos. En este caso estamos frente a un cuestionario. Sea cual sea el camino, siempre nos vamos a encontrar con características que se desean registrar para luego relacionar, procesar, etc., y sacar conclusiones. Estas características las denominamos variables, en general son datos que en conjunto constituyen información 6 OPERACIONALIZACION DE LOS CONCEPTOS Operacionalizar un concepto en una variable o variable, es hacer que dicho concepto pueda ser medido, o al menos pueda ser comparado para diferenciar entre grupos de observaciones con conceptos iguales o al menos parecidos. Esto implica que se necesita poder definir las operaciones que permiten medir ese concepto o los indicadores observables por medio de los cuales se manifiesta ese concepto. Por ejemplo si deseamos medir la velocidad desarrollada por un corredor de 100 metros llanos, solo necesitamos tomar el tiempo desde el inicio de la carrera (distancia inicial), y el fin de la carrera (a los 10 metros). Esta variable fue fácil de operacionalizar pues existen herramientas de medición: un reloj y un metro para poder precisar la distancia. Pero hay casos en donde la operacionalización no es tan fácil: si se desea medir la capacidad para resolver problemas de ingenio, la operacionalización se llevará a cabo con ciertos test, que deben estar aceptados por la comunidad científica que se especialice en esta disciplina. Dicha aceptación implica que la batería de test debe tener consenso (antes aclarado), debe poder generar mediciones (mediante alguna escala se atribuirá un puntaje a cada persona y debe ser confiable: aplicado varias veces da el mismo resultado) y por último debe tener precisión (debe medir lo que se desea). Solo se puede manejar lo que se puede medir -o al menos comparar- y solo se puede medir lo que se define operativamente. VARIABLES Una variable es una característica que cambia de un objeto de observación a otro. 1. Si a un conjunto de personas se les desea indagar sobre su candidato favorito para las próximas elecciones, la variable será todos los candidatos que se presentan para las próximas elecciones. 2. Otra opción podría ser sobre su nivel de instrucción alcanzado, que por su puesto podrían estar enumerados desde 1 Primario, hasta 6 Doctorado o el más alto nivel que se pueda alcanzar en lo referente a instrucción. 3. Además desearíamos conocer el cociente intelectual (C.I.) de cada persona encuestada, en este caso debemos contar con un instrumento de medición para tal fin, un test de C.I., y desde luego una escala asociada a este instrumento. 4. Por último desearíamos inquirir sobre su nivel de ingreso, en este caso preguntaríamos sobre el ingreso que tiene por mes el ciudadano encuestado. 7 Todos estos ejemplos son de variables pero de distinto tipo. 1. En el primer caso, inclinación de voto, tenemos una variable que solo denomina a cada opción, es decir, candidato 1, candidato 2, etc. Esta variable que solo se puede usar para clasificar la inclinación del ciudadano es sin duda una variable que expresa una característica del ciudadano, a esta variable se la denomina CUALITATIVA, y dentro de esta categoría se manifiesta como NOMINAL, solo nombra los candidatos sin siquiera poder establecer una relación de orden por sí misma, el orden lo dará un ranking, por ejemplo, que asociará a cada candidato con su la frecuencia de opción (dos variables no una sola). 2. La segunda variable, nivel de instrucción, también es una variable CUALITATIVA, pero ésta, a diferencia de la anterior es susceptible de ser ordenada de menor instrucción a mayor instrucción, esta variable se indica como ORDINAL. 3. La tercera variable, el cociente intelectual, es una variable que expresa cantidad, se encuentra dentro de las numéricas, no solo puede ser ordenada, sino que además tiene características numéricas o estabilidad en un rango de la escala, es decir, que en un intervalo que va desde 80% a 120% las diferencias entre las unidades de clasificación son las mismas (ejemplo: la diferencia entre 84 y 80 es la misma que la diferencia entre 114 y 100). El único inconveniente que tiene es que crece de inicio de escala, el cero. Esta variable se la denomina CUANTITATIVA y dentro de esta categoría se la denota como INTERVALICA o INTERVALAR. 4. La cuarta variable, nivel de ingreso, es una variable también numérica por ello se la clasifica dentro de las CUANTITATIVAS. En este caso, a diferencia de la anterior, existe el inicio de escala, es decir el cero. Esta diferencia permite establecer proporcionalidad: si una persona gana $3000.00/mes y otra gana $6000.00/mes, la segunda gana el doble que la primera, esta afirmación se pudo establecer gracias a que hay un inicio de escala que es el referente. Además las variables numéricas pueden clasificarse según el conjunto al que pertenezcan: en Continuas y Discretas: Continuas son las variables donde la cantidad de valores que existen entre dos números es infinita, como ejemplo podemos citar la talla donde si en un momento dado un niño medía 1,25 metros y luego de 6 meses alcanza 1,31metros. El niño no pasó de un valor a otro en forma instantánea, sino que su crecimiento fue progresivo (continuo), pasando por todos los valores intermedios (infinitos), hasta llegar al la segunda medida. 8 Discretas son las variables que su forma de cambio es por saltos (no continuo). Como ejemplo todos los conteos de personas son discretos pues es imposible en un aula tener 45,5 personas sino que son números enteros. El dinero (unidad monetaria operativa) es discreta pues si yo deseo vender un bien a ¢15,5 (15,5 centavos) no podría pues si me dan ¢16 la persona que compra pediría el vuelto y si me paga solo ¢15 no se lo podría vender. El salto es el centavo. Clasificación según tipo de dato Clasificación según nivel de medición Por último, las variables se pueden clasificar en aquellas que manipula el investigador (en caso de tratarse de un estudio experimental), o al menos se cree que la variable es la causa de variación de otra/s variable/s (en casi de ser un estudio observacional). Estas variables se denominan INDEPENDIENTES o EXPLICATIVAS. En asociación a este tipo de variables existen las denominadas respuestas (consecuencia de la variación de la variable independiente), estas variables se denomina DEPENDIENTES o EXPLICADAS. 9 CONCEPTUALIZACIÓN & OPERACIONALIZACIÓN (ANÁLISIS DE CASO) En este caso vamos a trabajar con el artículo de Carla Carrizo y Cecilia Galván (2006) “Presidencialismo y Conflictos Políticos en Argentina: sobre la inestabilidad política a nivel nacional y provincial (1983-2006)”. 2 El tema de investigación: la inestabilidad política en los presidencialismos de Argentina, a nivel nacional y sub-nacional entre 1983y 2006 Objetivo de investigación: estudio comparado de los factores institucionales y políticos que se asocian a las clases de inestabilidad política Variable dependiente: Inestabilidad Política Variable independiente: Factores Institucionales y Políticos Unidad de análisis: - A nivel nacional: 7 mandatos presidenciales entre 1983-2006 - A nivel sub-nacional: 139 mandatos ejecutivos entre 1983-2006 Operacionalizacón de la variable dependiente Inestabilidad Política en democracias presidenciales Concepto: - Inestabilidad Política: alteración del mandato Dimensiones: - Dimensión Inestabilidad del Gobierno: alteración del mandato de alguno de los integrantes del binomio ejecutivo (presidente o vicepresidente) a través del mecanismo de la renuncia por conflictos políticos Sub-dimensiones: - Inestabilidad parcial de Gobierno Indicador: renuncia del vicepresidente o vicegobernador por conflictos políticos - Inestabilidad total de Gobierno Indicador: renuncia del presidente o gobernador por conflictos políticos 2 CARRIZO, Carla y GALVÁN, Cecilia. 2006. “Presidencialismos y Conflictos Políticos en Argentina: sobre la inestabilidad política a nivel nacional y nivel provincial (1983-2006)”. Revista Colección N° 17; pp. 35-113. Buenos Aires: UCA. 10 - Dimensión Inestabilidad del Régimen: alteración ilegal de alguno de los mandatos fijos que establece el diseño presidencial (el poder ejecutivo y el poder legislativo) Sub-dimensiones: - Inestabilidad parcial de Régimen Indicador: alteración ilegal del mandato de uno de los poderes a nivel nacional e intervención federal limitada a nivel sub-nacional - Inestabilidad total de Régimen Indicador: alteración ilegal del mandato de ambos poderes a nivel nacional e intervención federal extensiva a nivel sub-nacional CONCEPTO - DIMENSIONES - INDICADORES 11 Operacionaliación de la variable independiente Factores Institucionales y Políticos que influyen en la inestabilidad política Dimensión: Factores 1. Sub-Dimensión: Factores Institucionales 1.1 Indicador Tipo de Presidencialismo: formato institucional que exhiben los presidencialismos nacional y provincial Sub- Indicadores: - Fórmula electoral genérica para la integración del poder legislativo i. Proporcional: la fórmula para integrar el poder legislativo es proporcional sin piso o piso mínimo (hasta 3%) y magnitud efectiva elevada (15-30) ii. Semi-proporcional: la fórmula para integrar el poder legislativo es proporcional con piso y magnitud efectiva media (7-14) y en sistemas mixtos cuando la mayoría de bancas en disputa se dirime con fórmula de proporcionalidad elevada iii. Mayoría: la fórmula proporcional es con piso y magnitud mínima (1-6) y/o cláusula de gobernabilidad, cuando en un sistema mixto la mayoría de bancas en disputa se dirime por mayoría y cuando se usan fórmulas de mayoría - Estructura del poder legislativo i. Unicameral ii. Bicameral 1.2 Indicador Sistema de Partido i. Media cuantitativa del número efectivo de partidos electorales provista por Calvo y Escolar (2005) 12 1.3 Indicador Incentivos que favorecen la división interna del Partido en el Gobierno Sub-Indicadores: - Tipo de votación i. Orientado al candidato (mayoría uninominal. Lista desbloqueada, abierta o algún sistema de preferencia intra-partidaria como la ley de lemas) ii. Orientado al partido (lista cerrada y bloqueada) - Regulación de la reelección del ejecutivo i. Prohibición de reelección inmediata o reelección intermedia ii. Reelección sucesiva limitada a un mandato iii. Reelección ilimitada - Existencia o no de elecciones intermedias 1.4 Indicador Estabilidad de la dinámica institucional: intensidad de los cambios introducidos en la dinámica institucional de los presidencialismos Sub-Indicadores: - Tipos de cambios en la dinámica institucional aplicados i. Aplicación de reformas que generan cambio radical en la dinámica institucional ii. Aplicación de reformas que generan cambios en forma incremental en la dinámica institucional iii. Aplicación de reformas que no generan cambios en la dinámica institucional 1.5 Indicador Dirección del Cambio Institucional: mide la dirección en la que se desplaza los cambios introducidos en la dinámica institucional presidencial Sub-Indicadores: Fragmentación del espectro partidario o desplazamiento hacia la mayoría 13 2. Sub-Dimensión Factores Políticos 2.1 Indicador Tipo de Gobierno i. Gobiernos monocolor de mayoría ii. Gobiernos monocolor de minoría iii. Gobierno de coalición de mayoría iv. Gobierno de colación de minoría 2.2 Indicador Tipo de Conflicto Político i. Conflicto Político Externo: no remite a una disputa entre facciones o liderazgos del partido o coalición que gobierna ni a una disputa entre partidos sobre la legitimidad de ciertas reglas, siendo de distinto tipo como social, económico ii. Conflicto Político Interno: existencia de facciones o liderazgos del partido o coalición que gobierna o disputa entre partidos sobre la legitimidad de ciertas reglas 2.3 Indicador Status del Partido de Gobierno Provincial i. Aliado al gobierno federal ii. Opositor al gobierno federal iii. Condicional: el gobierno sub-nacional es gestionado por un partido provincial o en las que perteneciendo al mismo partido o a partidos distintos, las facciones internas marcan una diferencia en el vínculo nación-provincia 14 2.4 Indicador Partido que gestiona el Gobierno i. Partido Nacional ii. Partido Provincial Sub-indicador tipo de partido provincial i. Origen militar ii. Origen peronista iii. Origen radical iv. Autónomos 2.5 Indicador Características Políticas de Distrito Sub-Indicadores - Cantidad de diputados que envía al Congreso de la Nación i. Distrito Grande ii. Distrito Mediano iii. Distrito Chico - Ubicación geográfica en el territorio nacional i. Metropolitana ii. Centro iii. Cuyo iv. NOA v. NEA vi. Patagonia 15 2.6 Indicador Nivel de competencia partidaria: se busca medir cuán competitivo es el sistema de partidos Sub-Indicadores - Alternancia partidaria en la competencia por el ejecutivo i. Nula: sin alternancia ii. Baja: una iii. Media: dos iv. Alta: más de dos - Grado de competencia efectiva: diferencia porcentual de votos entre el partido ganador y el ubicado en segundo lugar i. Alta: no supera más de 10 puntos ii. Media: entre 10 y 15 puntos iii. Baja: cuando supera los 15 puntos porcentuales 2.7 Indicador Desenlace Partidario de la Inestabilidad Política i. Alternancia partidaria: en gobiernos de coalición la sucesión legal (vicepresidente o vicegobernador) y/o legislativa implica un cambio de partido entre Presidente y Vicepresidente y además un cambio total de gabinete ii. Permanencia partidaria: sucede lo inverso 16 EJERCICIOS A. Clasificar las siguientes variables en dependientes e independientes. 1) Aumentando el consumo de carne se aumentó el nivel de colesterol en sangre. 2) El método ABC aumenta la probabilidad de fertilización. 3) Al aumentar el ingreso de un conjunto de personas aumenta el gasto familiar. 4) Fumar produce cáncer. 5) El ejercicio mejora el índice de calidad de vida. 6) Al aumentar la cantidad dehoras dedicadas al estudio aumenta la calificación obtenida en el examen. 7) Al aumentar la cantidad de horas de cursada disminuye la atención del alumno en la clase. 8) Al aumentar la cantidad de campañas políticas aumenta la cantidad de votos a favor del candidato. 9) La frecuencia de compra en hipermercados de la Ciudad de Buenos Aires depende de la proximidad del lugar de residencia de los consumidores. 10) En las empresas el tipo de comunicación determina el nivel de rendimiento del personal. 11) La conformidad con la remuneración y el nivel de de empleabilidad determinan el grado de pertenencia de los empleados de una empresa. 12) El nivel de educación de un sujeto determina su grado de consumo de productos culturales Respuestas: 1) Aumentando el consumo de carne (independiente) se aumentó el nivel de colesterol en sangre (dependiente). 2) El método ABC (independiente) aumenta la probabilidad de fertilización (dependiente). 3) Al aumentar el ingreso de un conjunto de personas (independiente) aumenta el gasto familiar (dependiente). 4) Fumar (independiente) produce cáncer (dependiente). 5) El ejercicio (independiente) mejora el índice de calidad de vida (dependiente). 6) Al aumentar la cantidad de horas dedicadas al estudio (independiente) aumenta la calificación obtenida en el examen (dependiente). 7) Al aumentar la cantidad de horas de cursada (independiente) disminuye la atención del alumno en la clase (dependiente). 17 8) Al aumentar la cantidad de campañas políticas (independiente) aumenta la cantidad de votos a favor del candidato (dependiente). 9) La frecuencia de compra en hipermercados de la Ciudad de Buenos Aires (dependiente) depende de la proximidad del lugar de residencia de los consumidores (independiente). 10) En las empresas el tipo de comunicación (independiente) determina el nivel de rendimiento del personal (dependiente). 11) La conformidad con la remuneración (independiente) y el nivel de de empleabilidad (independiente) determinan el grado de pertenencia de los empleados (dependiente) de una empresa. 12) El nivel de educación (independiente) de un sujeto determina su grado de consumo de productos culturales (dependiente). B. Clasificar las siguientes variables en discretas o continuas. 1) Tiempo entre internaciones sucesivas 2) Altura de un grupo de estudiantes. 3) Temperatura corporal del perro. 4) Ingresos mensuales. 5) Pacientes atendidos por un servicio. 6) Total de llamadas a una central telefónica. 7) Superficie corporal de un deportista. 8) Nacimientos en un día específico del año. 9) Lanzamientos de un dado. 10) Cantidad de monedas de un peso del Bicentenario coleccionadas por una persona 11) Cantidad de goles convertidos por la selección nacional en el mundial de fútbol 12) Peso de los alumnos de métodos cuantitativos 13) Edad de los alumnos de métodos cuantitativos 14) Edad de los profesores de métodos cuantitativos 15) Cantidad de profesores en la cátedra 16) Total de libros incorporados a la biblioteca de la Universidad en el último año 17) Tiempo entre llegadas de los electores a la mesa del escrutinio 18) Tiempo de permanencia del elector en el cuarto oscuro 19) Número de sufragios emitidos 20) Número de automóviles en la cochera 18 Respuestas: Discretas: 5 - 6 – 8 – 9 -10 -11 – 15 – 16 - 19 - 20 Continuas: 1 – 2 – 3 – 4 – 7 – 12 – 13 – 14 – 17 – 18 C. Clasificar las siguientes variables en nominales / ordinales / intervalares / proporcionales o de razón. 1) Temperatura. 2) Sensación térmica. 3) Color de ojos. 4) Materias cursadas en una carrera. 5) Notas de un examen (a nivel numérico). 6) Notas de un examen (a nivel de aprobación). 7) Ingresos por mes de una familia. 8) Utilidad de los ingresos. 9) Clasificación de un grupo de personas por edades. 10) Clasificación de las quemaduras. 11) Clasificación académica en Estados Unidos. 12) Precipitación de lluvia en los últimos dos meses. 13) Capacidad de síntesis de un alumno. 14) Coeficiente intelectual. 15) Cantidad de alumnos clasificados por carrera en una determinada facultad. 16) Género de los profesores de la UCA. 17) Orden de mérito obtenido en un concurso docente 18) Cantidad de materias aprobadas de la carrera. 19) Cargo desempeñado en el servicio exterior 20) Clase de pasajero en avión comercial 21) Total de asientos en el avión 22) Clasificación de los sufragios 23) Cantidad de votos impugnados 24) Tiempo de espera de los electores en la mesa del escrutinio 25) Categoría docente en la universidad 26) Cargo de un funcionario diplomático 19 Respuestas: 1) Temperatura (intervalar). 2) Sensación térmica (intervalar). 3) Color de ojos (nominal). 4) Materias cursadas en una carrera (nominal). 5) Notas de un examen (a nivel numérico) (intervalar). 6) Notas de un examen (a nivel de aprobación) (ordinal). 7) Ingresos por mes de una familia (proporción o de razón). 8) Utilidad de los ingresos (proporción o de razón). 9) Clasificación de un grupo de personas por edades (ordinal). 10) Clasificación de las quemaduras (ordinal). 11) Clasificación académica en Estados Unidos (ordinal). 12) Precipitación de lluvia en los últimos dos meses (proporción o de razón). 13) Capacidad de síntesis de un alumno (ordinal). 14) Coeficiente intelectual (intervalar). 15) Cantidad de alumnos clasificados por carrera en una determinada facultad (proporción o de razón). 16) Género de los profesores de la UCA (nominal). 17) Orden de mérito obtenido en un concurso docente (ordinal). 18) Cantidad de materias aprobadas de la carrera (proporción o de razón). 19) Cargo desempeñado en el servicio exterior (ordinal). 20) Clase de pasajero en avión comercial (ordinal). 21) Total de asientos en el avión (proporción o de razón). 22) Clasificación de los sufragios (nominal). 23) Cantidad de votos impugnados (proporción o de razón). 24) Tiempo de espera de los electores en la mesa del escrutinio (proporcional o de razón) 25) Categoría docente en la universidad (ordinal) 26) Cargo de un funcionario diplomático (ordinal). 20 2. HIPOTESIS Una HIPOTESIS es una proposición (oración con valor de verdad), y como tal pude ser refutada. En investigación una hipótesis es una guía para el investigador, pues es una explicación tentativa al fenómeno estudiado. Las hipótesis guardan una relación directa con el problema de investigación y por ello existe una correspondencia entre planteamiento del problema, revisión de la literatura y la hipótesis Este ciclo puede dar muchas vueltas antes de que se pueda plantear correctamente el problema dando como resultado una hipótesis concreta. Un ejemplo sería: si la inquietud es conocer si un aumento en el sueldo en los trabajadores no calificados de una empresa mejora su disposición hacia el puesto de trabajo que ocupan. Una hipótesis posible podría ser: a mayor ingreso, mayor conformidad, en el puesto de trabajo, por parte del trabajador. Esta simple proposición nos está diciendo que el trabajador se sentirá mejor en su trabaja si gana más dinero. Pero cuidado, si bien parece claro lo que el investigador está buscado, la hipótesis carece de precisión. Como se mencionó previamente una hipótesis debe servir de guía de la investigación. Por lo tanto debe ser más estricta en su redacción, por ejemplo: los trabajadores, operarios, no jerarquizados del área de taller de la autopartista TAIF S.R.L., sienten que su puesto de trabajo, donde se llevan a cabo tareas monótono y repetitivo, es más confortable si la remuneración supera los $6.000/mes. Aquí se puede apreciar de quien se está hablando y de un umbral de ingresos concretos. 21 Una breve guía para formular hipótesis sería: Las hipótesis deben referirse a una situación real. Es decir, debenser fácticas y poder someterse a una prueba de verdad en una marco bien definido. Los términos, o variables, deben ser lo mas concretos y precisos posibles. Se deben evitar expresiones vagas y difusas como mucho, poco, grande, chico, etc. La relación entre variables propuesta por una hipótesis debe ser fácil de entender y debe ser coherente. Cuidado con la correlaciones espurias Los términos de la hipótesis y la relación planteada entre ellos deben ser observables y medibles o al menos comparables. Las hipótesis deben estar relacionadas con técnicas disponibles para probarlas. Este requisito se refiere a que al formular una hipótesis se analice si hay al alcance técnicas o herramientas para verificarla. Las hipótesis deben estar libres de los valores propios del investigador. Deben mostrar imparcialidad Las hipótesis deben de ser la transformación directa de las preguntas de la investigación. Tipos de Hipótesis Las hipótesis pueden ser clasificadas como: 1) Hipótesis de investigación o hipótesis de trabajo 2) Hipótesis nulas 3) Hipótesis alternativas 4) Hipótesis estadísticas 1. Las Hipótesis de Investigación, también denominadas hipótesis de trabajo son proposiciones tentativas acerca de las posibles relaciones entre dos o más variables. Esta hipótesis se simboliza como Hi, o en caso de ser mas de una como H1 H2 H3 …. Hn 1. Las hipótesis pueden ser Descriptivas, donde sólo se desea detallar las propiedades de los términos o variables de la investigación. Por ejemplo: al aumentar los ingresos de los trabajadores de la educación, el gobierno les extiende la ley de I.I.B.B. a profesores y maestros, para quitarles el dinero. 22 2. También las hipótesis pueden ser Correlacionales, donde se busca establecer relaciones entre las variables (dos o mas), sin importar cual es la variable/s causa (independiente/s) y la variable respuesta a esa causa (dependiente). Por ejemplo: al disminuir el consumo de ácidos grasos de origen animal, sin variar el volumen energético ingerido, los atletas que participan en pruebas de fondo (resistencia) mejoran su performance. En este ejemplo solo se puede establecer una relación pero no explica el porqué de tal relación y hasta puede ponerse en duda su dirección, pues puede que en entrenamientos para mantener el estado físico, estos ingieran grasas animales y al llegar al punto de entrenar para competencia, esto hito los lleve a disminuir el consumo de grasas animales. 3. Hipótesis de Comparación de dos o más grupos, como se ya se expresó, se formulan en investigaciones que tienen como objetivo comparar grupos. Si se desea conocer la diferencia de potencial e venta de la TV, la Radio, y los Avisos en Periódicos, estamos en presencia de tres grupos donde se desea compara como influyen la publicidad. 4. Por último las hipótesis que establecen relaciones de Causa-Efecto. Estas hipótesis no sólo afirman las relaciones entre dos o más variables y la forma en que se dan estas relaciones, sino que también dan una explicación. Un ejemplo podría ser: al disminuir la exposición al humo de las ratas de laboratorio durante una semana, disminuirá la cantidad de partículas que se pegan a las paredes del pulmón haciéndolo mas rígido y aumentará la capacidad vital de las mismas. En este caso se está dando una explicación tentativa al problema, además del la dirección de la relación; no puede aumentar la capacidad vital si no disminuye la cantidad de humo respirado. Este tipo de hipótesis, si bien presentan el mayor nivel explicativo deben ser tomados con mucha cautela en el marco de las ciencias sociales pues, si bien se pueden plantear condiciones explicativas, no se puede llegar a demostrar que sea LA causa de lo observado ni mucho menos que sea ésta la única causa. En efecto, aún cuando se encuentren escritos académicos que utilizan la palabra experimental (en ciencias sociales), en realidad detallan un enfoque metodológico particular pero de ninguna manera denotan que los hallazgos sean del nivel explicativo que podrían encontrarse en las ciencias médicas o en las llamadas ciencias duras. 2. Las Hipótesis Nulas; las Hipótesis Alternativas y las Hipótesis Estadísticas son hipótesis ligadas a testeos estadísticos que se realizan en al etapa de análisis de datos, 23 diferenciándose conceptualmente de lo denotado por hipótesis cuando hablamos de la etapa de formulación de un problema, construcción de la investigación. Por esa razón dejaremos para más adelante el detalle de las mismas. EJERCICIOS En los siguientes ejercicios se desea poder extraer las variables, operacionalizarlas y enunciar las hipótesis. 1. Se cree que al aumentar la cantidad de horas que un adolescente juega con los juegos electrónicos, su capacidad para resolver problemas matemáticos aumenta. 2. Es sabido que el aumento de horas de ocio en un taller de armado (burócrata mecanicista), genera un aumento en la cantidad de accidentes de trabajo. Detecte las variables y las hipótesis pertinentes. 3. Por mera observación un investigador dice que al aumentar la cantidad de avisos publicitarios (propaganda política), de un determinado candidato y a su vez, disminuyendo la exposición de éste a los debates, el candidato ganará las próximas elecciones. 4. Se quiere investigar sobre el stress que sufren los cajeros cuando aumenta la cantidad de personas que forman fila frente a sus cajas. 5. ¿Cómo investigaría la violencia interna de un conjunto de personas? Defina los pasos las hipótesis y las variables 6. Si se le encomienda generar un índice de desempeño estudiantil respecto a los recién graduados de una carrera como la suya ¿Cómo lo desarrollaría? 24 3. ANALISIS DE DATOS Introducción La estadística actual es un conjunto de técnicas para resumir y transmitir información cuantitativa, que sirve también, y fundamentalmente, para hacer inferencias, generalizaciones y extrapolaciones de un conjunto relativamente pequeño de datos a un conjunto mayor. En este sentido, en ciencias sociales las generalizaciones no son del mismo tipo que una ley física o ley natural, por lo tanto se debe ser prudente al presentar los resultados luego de realizar el análisis de los datos. El análisis de datos se realiza de acuerdo al tipo de variable. Estadística es la ciencia que se ocupa de la ordenación y análisis de datos procedentes de muestras, y de la realización de inferencias acerca de las poblaciones de las que éstas proceden. Definiciones Dato: Es la menor unidad de información. Es el resultado de una observación o medición. Dicho resultado puede ser fruto de una evaluación cuantitativa o cualitativa de un suceso. Información: Conjunto de elementos interrelacionados. La interrelación puede aplicarse a datos que corresponden a la misma variable presentes en distintos elementos o datos que corresponden a distintas variables presentes en un mismo elemento. Universo: Serie real o hipotética de elementos que comparten características definidas relacionadas con el problema de la investigación. El término es empleado generalmente como sinónimo de población. No obstante, cuando se realiza un trabajo puntual, conviene distinguir entre universo ideal: conjunto de elementos a los cuales se quieren extrapolar los resultados, y universo muestral: conjunto de elementos accesibles en nuestro estudio. Todo universo o población debe definirse sin ambigüedades, es decir debe ser posible decidir cuándo un individuo pertenece o no al universo bajo consideración. Población: Se llama población estadística al conjunto de todos los elementos que cumplen una o varias características o propiedades. Censo: Algunas veces resulta útil examinar a todos los elementos de la población, en este caso se denomina censo, como la realización de un censo demanda tiempo y recursos 25 humanos,técnicos y económicos, sólo pueden hacerlo las grandes organizaciones como gobiernos, universidades u otros organismos nacionales e internacionales. Muestra: Es una colección de individuos extraídos de la población a partir de algún procedimiento específico para su estudio o medición directa. Una muestra es una fracción o segmento de una totalidad que constituye la población. La muestra es en cierta manera una réplica en miniatura de la población. Se estudian las muestras para describir a las poblaciones, ya que el estudio de muestras es más sencillo que el de la población completa, porque implica menor costo y demanda menos de tiempo. Parámetro: Es una propiedad descriptiva de la población. Generalmente son desconocidos. Ejemplos: Media poblacional, varianza poblacional, proporción poblacional. Estimador: También llamado estadística. Es una propiedad descriptiva de la muestra. Ejemplos: Media muestral, varianza muestral, proporción muestral. La estadística y la investigación La estadística se aplica en los casos que se tenga la posibilidad de realizar una gran cantidad de observaciones. Luego debe sospecharse que la variable frecuencia de los juegos de observaciones tenga peso con respecto al resto de las variables, es decir, que la variación entre frecuencias correspondientes a diversos juegos de observaciones es significativa. Por último debe plantearse la hipótesis de que esa variación entre las frecuencias correspondientes a diversos juegos de observaciones está influida en cierta medida desconocida, por el azar. Es necesario que la investigación plantee estas posibilidades para que entre a jugar la estadística. Pasos en la administración de datos 1. Recopilación o relevamiento de datos Para disponer de los datos y que estos sean de utilidad al investigador, éstos deben recolectarse o relevarse mediante algún instrumento previamente diseñado (cuestionario, guía de observación) y estar disponibles en tiempo y forma para su procesamiento. Luego se debe determinar qué se desea medir y cuáles son las variables que permiten tal medición. Aquí se debe determinar el tipo de variable y el nivel de medición a fin 26 de realizar el análisis estadístico. 2. Síntesis y presentación de datos Los datos tal como se los ha relevado en general no resultan de mucha utilidad; larga lista de valores, suelen ser imposibles de ser analizados por locuaz se les debe resumir o reagrupar a los efectos de facilitar su comprensión. Síntesis es el primer paso en el análisis de datos. Este proceso generalmente comienza con una representación gráfica a efectos de identificar valores atípicos. Se elaboran las tablas de frecuencias mostrando los valores que toma la variable y la cantidad de observaciones que se presentaron para cada una de las categorías de la variable. 3. Análisis de datos y generalización de resultados. A partir de la graficación surge la necesidad de generar medidas que representen a los valores de la serie, o lo que es lo mismo decir que describen características del conjunto de datos. Las características más relevantes para la toma de decisiones son las medidas de tendencia central y las de dispersión, de menor relevancia son el sesgo y la curtosis. 4. Interpretación de los resultados. Los datos generalmente están incompletos, o bien son una descripción de lo acontecido hasta el momento de su procesamiento; por lo tanto y en general quien deba tomar decisiones en términos de los resultados obtenidos deberá aceptar trabajar con un cierto grado de incertidumbre. La teoría estadística por medio de la medida de la incertidumbre – probabilidad – da técnicas para medir el error probable de cometer, ante una determinada acción definida a partir del análisis de los resultados observados. Medición La estadística no realiza sus funciones directamente sobre las modalidades observadas, sino que éstas se representan por números, y la estadística realiza sus funciones sobre esos números. Se llama medición al proceso de atribuir números a las características. La asignación de números a las características se hace siguiendo unas reglas, del estudio de los modelos mediante los cuales conocemos las reglas para una correcta atribución de los números se ocupa la Teoría de la Medida. 27 Como se mencionara anteriormente, el análisis de datos se realiza de acuerdo al tipo de variable. Así tenemos: 28 A. ANALISIS DE DATOS PARA VARIABLES CUALITATIVAS Razón Una forma de resumir los datos en forma numérica, especialmente cuando se trata de datos dicotómicos, es establecer la relación entre las frecuencias de los datos en cada categoría. Esto es dividir la cantidad de datos presentes en una categoría por la cantidad de datos en la otra. Las dos cantidades que se relacionan no están contenidas una dentro de la otra, se puede decir que se relacionan dos categorías del mismo fenómeno o las intensidades de dos fenómenos en un mismo lugar. Una razón es la medida de la relación entre dos cantidades numéricas. fi = frecuencia de la categoría i fj = frecuencia de la categoría j Ejemplo 1. Las muertes por accidentes de tránsito según sexo en Mar del Plata, año 1977, fueron afectados 51 varones y 21 mujeres, total 72 personas. Si se calculan proporciones se tendrá un porcentaje de 70,4% en varones y un 29,6% en mujeres. Cada cien muertos por accidente de tránsito, 70 pertenecían al sexo masculino y 30 al sexo femenino. Si se calcula la razón 51/21 será 2,428. Ello significa que “por cada muerte del sexo femenino en accidentes de tránsito en la ciudad de Mar del Plata, durante el año 1977 murieron más de dos hombres”. Ejemplo 2. Si estamos analizando el tipo de universidad a la que asiste un grupo de jóvenes encuestados, podemos presentar un cuadro de la siguiente manera: Tabla 1 Tipo de universidad a la que asiste Frecuencias absolutas 1. Pública 120 2. Privada 60 Total 180 29 Para calcular la razón de alumnos de universidad pública a alumnos de universidad privada se realiza el siguiente cociente: Interpretación: Por cada dos estudiantes de la universidad pública hay uno de la universidad privada. Proporción Cuando se trabaja con más de dos categorías, se resume la situación con un conjunto de datos nominales al calcular la proporción correspondiente a esas diferentes categorías. Para el cálculo de la proporción se relaciona (divide) la frecuencia correspondiente a una categoría determinada por el total de datos integrantes del conjunto. La proporción de casos en una categoría está definida como el número de casos en la categoría dividido por el número total de casos. fi = frecuencia de la categoría i n = cantidad de total de elementos Ejemplo 3. Proporción de universidad pública Proporción de universidad privada Tabla 2. Tipo de universidad a la que asiste Frecuencias absolutas Proporción 1. Pública 120 0,67 2. Privada 60 0,33 Total 180 1 30 Porcentaje Es una medición que relaciona una parte del total identificado con 100 al cual pertenece un hecho o problema y se expresa en por ciento. Los porcentajes son de uso muy frecuente para resumir información, figurando junto a las tablas y cifras absolutas. Los porcentajes deben sumar exactamente cien y eso debe figurar en la tabla, a la altura del total que se usa como denominador. Si a la proporción se la multiplica por cien se obtiene el porcentaje. El porcentaje indica que parte del todo le corresponde a una categoría. fi = frecuencia de la categoría i n = cantidad de total de elementos Ejemplo 4. Porcentaje de universidad pública Porcentaje de universidad privada Tabla 3 Tipo de universidad a la que asiste Frecuencias absolutas Porcentaje (%) 1. Pública 120 67 2. Privada 60 33 Total 180 100 Tasa. Paramedir el riesgo de que ocurra un problema en una población, a fin de hacer comparaciones válidas, se debe relacionar ese problema con la población en la cual aconteció o puede acontecer. Esa relación se conoce con el nombre de tasa, la cual constituye un instrumento, es un indicador de comparación. Las tasas son un tipo particular de razones que se emplean cuando el uso de proporciones conduciría a números decimales muy pequeños. Suelen expresarse en relación a 100, 1000, 31 10000 ó 100000 habitantes para facilitar la lectura. fi = frecuencia inicial de la categoría de la variable. ff = frecuencia final de la categoría de la variable. Las tasas pueden expresarse en porcentajes y su signo puede ser positivo o negativo, según sea mayor la frecuencia final que la inicial. Índice Conllevan la construcción de la suma de indicadores específicos sobre lo que se quiere evaluar. Ejemplo 5. “la situación de salud de un país” requiere los siguientes indicadores: esperanza de vida, número de habitantes por profesionales, acceso a agua potable, aporte diario de calorías por habitante, gasto público en salud por habitante, mortalidad infanto-juvenil Ejemplo 6. El índice de desnutrición se construye con los indicadores que evalúan el peso, la talla, el nivel de desarrollo escolar, el coeficiente escolar, repitencia escolar en niños. Ejemplo 7. La unidad de análisis son “electores de la provincia de Buenos Aires”. La variable es “intención de voto”, es de tipo cualitativa nominal y el nivel de medición es nominal. Otro 32 tipo de gráfico que puede utilizarse es el diagrama barras o de columnas. Ante la pregunta: ¿Podría decirme a quien tiene pensado votar? Respecto a candidatos a diputados nacionales para la provincia de Buenos Aires en 2009. Luego de determinar las frecuencias de respuestas para cada candidato, se determina el porcentaje como un cociente entre la cantidad de respuestas para cada candidato y el total de personas que respondieron a la encuesta. Indicador El indicador es una medida cuantitativa o cualitativa que es usada para demostrar cambios y simplificar información de la realidad, que puede servir para entender y valorar fenómenos complejos. EJERCICIOS Ejercicio 1: Interprete cada uno de los siguientes resultados: Razón entre mujeres y varones en puestos jerárquicos públicos y privados. Total urbano 0,42 Razón de femineidad en la EGB y polimodal, terciaria y universitaria combinadas 104,50 Razón de femineidad en la EGB y Polimodal combinada 99 Ejercicio 2. Interprete el siguiente resultado: Proporción de superficie cubierta con bosque nativo 10,30 Ejercicio 3. Interprete cada uno de los siguientes resultados: A modo de ejemplo, el porcentaje de población con ingresos por debajo de la línea de pobreza, se interpreta de la siguiente forma: Cada 100 personas hay 4,4 por debajo de la línea de pobreza. Porcentaje de población con ingresos por debajo de la línea de la pobreza (*) 4,40 Porcentaje de población con ingresos por debajo de la línea de indigencia (*) 4,40 Porcentaje de población desocupada con cobertura social 5,20 Porcentaje de viviendas deficitarias 5,60 Porcentaje de población con acceso seguro a agua potable de red pública 83,10 33 Porcentaje de bancas ocupadas por mujeres en las Legislaturas Provinciales 22,10 Porcentaje de bancas ocupadas por mujeres en el Congreso Nacional 30,60 Ejercicio 4. Interprete cada uno de los resultados anteriores. A modo de ejemplo, la tasa de mortalidad materna se interpreta de la siguiente manera: cada 10000 nacidos vivos, se producen más de 4 muertes maternas. Tasa de Mortalidad Infantil (TMI) 13,30 Tasa de mortalidad materna por diez mil nacidos vivos 4,40 Tasa de incidencia de SIDA (cada 1.000.000 habitantes) 36,46 Tasa de mortalidad por VIH/SIDA (cada 100.000 habitantes) 3,60 Tasa de prevalencia de VIH en embarazadas entre los 15 y 24 años (%) 0,36 Tasa de actividad 46,10 Tasa de desocupación 7,80 34 B. ANÁLISIS DE DATOS PARA VARIABLES CUANTITATIVAS - ESTADÍSTICA DESCRIPTIVA Filas de datos. Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente. Ejemplo 1. Variable: Edad de los alumnos de la carrera de Relaciones Internacionales. Fila de datos: 20 – 34 – 20 – 23 – 21 – 28 – 20 – 24 – 32 – 21 – 30 - 25 –21 – 22 – 28 –20– 22 - 32– 22 – 21– 22 - 23 - 23 - 20 – 23 – 23 – 24 – 24 - 30 – 24 - 21 – 25 – 25 - 20 – 21 - 30 – 20 – 30 - 22 – 20 - 32 - 20 - 35 – 36 Ordenaciones. Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. La diferencia entre el mayor y el menor se llama rango de ese conjunto de datos. Ejemplo de ordenación para el ejemplo anterior: 20 – 20 – 20 – 20 – 20 – 20 – 20 – 20 – 20 – 21 – 21 –21 – 21 – 21 – 21 – 22 - 22 – 22 – 22 – 22 - 23 - 23 - 23 – 23 – 23 – 24 – 24 - 24 – 24 - 25 – 25 – 25 - 28 – 28 - 30 – 30 – 30 – 30 - 32 – 32 - 32 - 34 - 35 – 36 Distribuciones de frecuencias. Cuando se tiene grandes colecciones de datos, es útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de clase. Se llama distribución de frecuencias (o tabla de frecuencias) la disposición tabular de esos datos por clases juntos con las correspondientes frecuencias de clase. Los datos así organizados en clases se llaman datos agrupados. Distribución de frecuencias para las edades: xi 20 21 22 23 24 25 28 30 32 34 35 36 fi 9 6 5 5 4 3 2 4 3 1 1 1 35 Intervalos de clase y límites de clase. El símbolo que define una clase por ejemplo 22-24 se llama intervalo de clase. Los números extremos, 22 y 24, se llaman límite inferior de la clase (22) y límite superior de la clase (24). Un intervalo de clase que carece de límite superior o inferior, se llama intervalo de clase abierto. Por ejemplo refiriéndose a edades de personas, la clase “48 años o más” es un intervalo de clase abierto. Ej. Armado de los intervalos de clase para las edades, en este caso los intervalos son cerrados ya que incluyen a los valores extremos en el conteo de frecuencias. Además no todos tienen la misma amplitud por lo tanto son intervalos de amplitud no constante. Tamaño o anchura de un intervalo de clase El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase superior e inferior. Denotamos la amplitud de cada intervalo de clase con wi Marca de clase La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los límites inferior y superior de la clase. También se denomina punto medio de la clase. Con xi denotamos la marca de clase. Reglas para formar distribuciones de frecuencias 1.- Determinar el mayor y el menor de todos los datos, hallando así el rango (diferencia entre ambos). 2.- Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño. Si ello no es factible, usar intervalos de clase de distintos tamaños o intervalos de clase abiertos. Se suelen tomar entre 3 y 20 intervalos de clase, según los datos. Los intervalos de clase se eligen de modo tal que las marcas de clase (o puntos medios) coincidan con los datos realmente observados. Ello tiende a disminuir el error de agrupamiento que se produce en análisis ulteriores. No obstante, las fronteras de clase no deberían coincidir con datos realmente observados. 3.- Determinar el número de observaciones que caen dentro de cada intervalo de clase; esto es, hallar las frecuencias de clase. Esto se logra con una hoja de recuentos. 36 Frecuencia absoluta, relativa, acumulada. La frecuencia absoluta cuenta la cantidad de observaciones que se encuentran en cada clase. Se denota (fi) La frecuencia relativa es la frecuencia de clase dividido el total de observaciones.Se denota (fr) La frecuencia acumulada es la frecuencia de cada clase sumada a la frecuencia anterior. (Fi) Interpretación como porcentaje y como probabilidad. La frecuencia relativa se puede interpretar como probabilidad o como porcentaje al multiplicarla por 100. Medidas numéricas descriptivas. Medidas de Tendencia Central Media, Media Aritmética o Promedio. La media es una medida de valor central que da la información más precisa, y alrededor de la cual se distribuyen las observaciones individuales. Su valor numérico se obtiene calculando el promedio aritmético de los valores obtenidos de todos los individuos en estudio. Mediana. Es una medida de posición central que divide a la serie de datos en dos grupos de igual cantidad de elementos, el 50% de los datos se encuentran por debajo de la mediana y el otro 50% se encuentran por encima de la mediana. Li: Límite inferior de la clase de la mediana, esta se identifica buscando en la frecuencia acumulada donde se acumula la mitad de los datos. n/2: es la mitad de la cantidad total de datos. Fi-1: es la frecuencia acumulada anterior a la clase de la mediana. fi: es la frecuencia absoluta de la clase de la mediana. wi: es la amplitud de la clase de la mediana. 37 Moda. Es el valor de la variable que presenta la mayor frecuencia. Cuando los intervalos no tienen la misma amplitud la moda se determina a partir de la altura de los intervalos de clase, la clase de la moda es la clase de mayor altura. Li: Limite inferior de la clase de la moda. Se encuentra buscando a mayor altura. d1: diferencia entre altura de la clase de la moda y altura de la clase anterior. d2: diferencia entre altura de la clase de la moda y altura de la clase siguiente. wi: es la amplitud de la clase de la mediana. Medidas de variabilidad: Recorrido o rango. La amplitud de variación, o rango, es la diferencia entre el valor máximo y el valor mínimo observados. Varianza. Es un promedio de los desvíos cuadráticos de cada valor de la variable respecto a la media o promedio. Se necesita calcular este valor antes para luego calcular la desviación estándar. La desviación estándar y la varianza son las formas usuales de medir la variación de una población o de una muestra. La varianza o cuadrado medio es igual al cuadrado de la desviación estándar; las unidades son por lo tanto cuadráticas. Desviación Estándar o Dispersión. Es el valor esperado de la separación de los valores de la variable (valores observados) con respecto al valor esperado. Indica cuanto se alejan en promedio cada uno de los valores de la variable de la media. La desviación típica o estándar es una constante universalmente utilizada para medir la 38 variabilidad de una población. Su valor se expresa de modo absoluto y en las mismas unidades que aquellas que se utilizan para medir las observaciones individuales en la población y establecer las clases. Su valor indica el valor absoluto que en promedio se desvían los datos individuales de una población, más o menos, de la media de dicha población. Una desviación estándar de poco valor absoluto indica que la dispersión de la población alrededor de la media es pequeña, es decir, que en general la intensidad del carácter considerado en los individuos que forman la población difiere poco del promedio; en cambio, si la desviación estándar tiene un valor absoluto más alto, la población será más variable y la intensidad del carácter en estudio se alejará más de la media. Coeficiente de Variación. Otra forma de evaluar la variación en una población o en una muestra es considerar la variación relativa mediante el cálculo del coeficiente de variabilidad, simbolizado por CV. El valor de dicho coeficiente se define como la relación entre la desviación estándar y la media, expresada en porcentaje. Otras medida de ubicación: Cuartiles. Así como la mediana divide a la serie de datos en dos grupos los cuartiles dividen a la serie de datos en cuatro grupos de igual cantidad de elementos. Se denota Qi, se calculan los Q1, Q2, y Q3. El Q2 coincide con la mediana. 39 Deciles. Dividen a la serie de datos en diez grupos de igual cantidad de elementos. Se denota Di, se calculan los D1, D2,…., D9. El D5 coincide con la mediana. Observemos el gráfico y veamos como es la distribución del ingreso por hogares según deciles de la población. Por ejemplo, el 10% más pobre acumula solamente el 1.6% del ingreso total de la población, mientras que el 10% más rico acumula el 35.6%. Queda al lector establecer conclusiones. Percentiles. Dividen a la serie de datos en cien grupos de igual cantidad de elementos. Se denota Pi, se calculan los P1, P2,…., P99. El P50 coincide con la mediana. 40 Medidas de la forma de la distribución Coeficiente de Asimetría. Mide el sesgo de la distribución. Si el coeficiente de Asimetría As es igual a 0 se llama insesgada o simétrica Si el coeficiente de Asimetría As es mayor a 0 se llama sesgada hacia derecha Si el coeficiente de Asimetría As es menor a 0 se llama sesgada hacia izquierda Coeficiente de Curtosis. Cuando los datos tienen una forma campanular la curtosis es igual a 3. Una distribución que tenga las colas más pesadas – más anchas que la distribución campanular tiene una curtosis mayor a 3, en caso de las colas menos pesadas la curtosis es menor a 3. Si el coeficiente de curtosis K es igual a 0 se llama Mesocúrtica Si el coeficiente de curtosis K es menor a 0 se llama Platicúrtica Si el coeficiente de curtosis K es mayor a 0 se llama Leptocúrtica 41 Ejemplo 2: siguiendo con la serie de datos presentada en el ejemplo 1. Tabla de distribución de frecuencias para datos simples: 20 9 180 184,10 0,20 9 21 6 126 74,46 0,14 15 22 5 110 31,82 0,11 20 23 5 115 11,59 0,11 25 24 4 96 1,09 0,09 29 25 3 75 0,68 0,07 32 28 2 56 24,18 0,05 34 30 4 120 120,00 0,09 38 32 3 96 167,73 0,07 41 34 1 34 89,82 0,02 42 35 1 35 109,77 0,02 43 36 1 36 131,73 0,02 44 44 1079 946,98 1 Rango de la variable: Mínimo 20; Máximo 36. El rango es: [20;36] Cálculo de la media aritmética: La edad promedio de los estudiantes es de 24,52 años. Determinación de la mediana Para datos simples, la mediana se ubica en la variable que acumula la mitad de las observaciones en este caso, mirando en la donde se encuentra contenido el valor de la variable es . Determinación de la moda Para datos simples, la moda se ubica en la variable que tiene la mayor frecuencia absoluta, en el ejemplo el valor de la variable es . 42 Cálculo de la varianza: La varianza es de 22,02. Cálculo de la desviación estándar: La desviación estándar es de 4,69. Cálculo de coeficiente de variación: La variable edad de los estudiantes es homogénea ya que el coeficiente de variación es cercano a cero. Ejemplo 3. Dada la siguiente distribución de salarios (en pesos) de empleados de una empresa, se pide determinara las medidas de tendencia central, de dispersión, de ubicación (Percentil 85) y de la forma de la distribución. Distribución de frecuencias para datos agrupados: 500 2000 100 1250 100 125000 292936391 1500 0,067 2000 3500 200 2750 300 550000 8949704,14 1500 0,133 3500 5000 50 4250 350 212500 83006656,8 1500 0,033 5000 6500 20 5750 370 115000 155510355 1500 0,013 6500 8000 15 7250 385 108750 275863536 1500 0,010 8000 9500 5 8750 390 43750 167531435 1500 0,003 Totales 390 1155000 983798077 Rango de la variable: Mínimo 500; Máximo 9500. El rango es: [500;9500] Cálculo de la media aritmética: El salario promedio de los empleados es 2961,54 pesos. 43 Cálculo de la mediana: Pordebajo de 2712,5 pesos se encuentra el 50% de los salarios de los empleados de menor salario y por encima de 2712,5 pesos se encuentra el 50% de los salarios de los empleados que perciben mayores salarios. Cálculo de la moda El salario más frecuente es 2600 pesos. Cálculo de la varianza: La varianza es de 2471854,46. Cálculo de la desviación estándar: La desviación estándar es de 1572,21. Cálculo de coeficiente de variación: Luego el coeficiente de variación es 0,53 se multiplica por 100 y se obtiene 53%. Percentil 85: El salario máximo del 85% de los empleados que menos ganan es 4445 y a su vez es el salario mínimo del 15% de los que más ganan. Asimetría o sesgo. 44 Para determinar la asimetría se puede calcular el coeficiente de asimetría o se pueden comparar las tres medidas de posición ya que los intervalos de clase son de amplitud constante. La relación entre las medidas de posición es Moda < Mediana < Media, y el coeficiente de asimetría da mayor a cero, por lo tanto es sesgada a la derecha. Coeficiente de curtosis Dado que el coeficiente es mayor a cero la distribución se denomina leptocúrtica y significa que su altura es mayor que la distribución normal. Histograma Observando el gráfico anterior la distribución es sesgada a la derecha. Los valores están dispersos hacia la derecha (valores atípicos). Los valores más frecuentes se ubican en la segunda clase. EJERCICIOS 45 Ejercicio 1. Indique media, mediana y moda de las siguientes series de datos: a. 6 – 6 – 3 – 2 – 1 – 3 – 7 – 3 – 5 b. 3 - 6 – 2 – 4 – 5 – 6 – 1 c. 5 – 4 – 3 – 0 – 6 – 2 d. 18 – 19 – 18 – 21 – 25 – 22 – 20 Respuestas: a. Media: 4; Mediana: 3; Moda: 3. b. Media: 3.86; Mediana: 4; Moda: 6. c. Media: 3.3; Mediana: 3.5; Moda: no hay. d. Media: 20.43; Mediana: 20; Moda: 18. Ejercicio 2. Dada la distribución de edades de las personas que respondieron a una encuesta de opinión pública. Clase Límite inferior Límite superior Cantidad de personas 1 21 25 4 2 25 30 12 3 30 35 15 4 35 40 14 5 40 50 5 50 Calcule: 1. Marca de clase. 2. Amplitud de cada intervalo de clase. 3. Frecuencia acumulada. 4. Frecuencia relativa. 5. Altura de cada intervalo de clase. 6. Media. Interprete el resultado. 7. Mediana. Interprete el resultado. 8. Moda. Interprete el resultado. 9. Varianza 46 10. Desviación estándar. Interprete el resultado. 11. Coeficiente de variación. 12. Percentil 25. Interprete el resultado. 13. Percentil 75. Interprete el resultado. 14. Grafique. Respuestas: 6. Media: 33.19, es la edad promedio de los encuestados. 7. Mediana: 33, es la edad máxima del 50% de las personas de menor edad. 8. Moda: 33.75, es la edad más frecuente entre los encuestados. 9. Varianza: 33.09, es el promedio cuadrático de las separaciones entre la edad de cada uno de los encuetados y la edad promedio. 10. Desviación estándar: 6.01, es cuanto se espera que se aleje la edad de cada uno de los encuetados respecto de la edad promedio. 11. Coeficiente de variación: 0.18, la variable es homogénea. 12. Cuartil 1 o Percentil 25: 28.54, es la edad máxima del 25% de los encuestados. 13. Cuartil 3 o Percentil 75: 37.32, es la edad máxima del 75% de los encuestados. 14. Grafico: 47 C. GRAFICOS Los gráficos son una buena forma de sintetizar un conjunto de datos obtenidos y de presentarlos de una manera sencilla, clara y no por eso menos precisa. Pero para ello, hay que estar atentos a que el gráfico seleccionado sea el correcto para el tipo de variable descripta, además de otras cuestiones no menos importantes como ser, la utilización apropiada de las escalas de los ejes x e y; el detalle y precisión de los datos utilizados, un buen título que describa claramente el qué, dónde, cuándo y su unidad de medida, por citar algunos. Veamos algunos ejemplos. Tipos de gráficos para variables cualitativas Gráfico de Columnas Gráfico de Barras 48 Gráfico Circular Gráfico para variables cuantitativas continuas Líneas Histograma 49 Ejemplo 1 Antes de comenzar con el análisis, identifique: Variable: Inversión Pública en Educación Nivel de medición: Escalar/ razón Unidad de análisis: Países Cuestiones formales: a) ¿Es correcto el tipo de gráfico utilizado? ¿Por qué? En este caso no es correcto puesto que si bien la variable es escalar, no está analizada a través del tiempo con lo cual lo que se ubica en el eje X no son más que las unidades de observación estudiadas, las cuales obviamente no tienen/están ubicadas según escala alguna. Para esta situación el gráfico a utilizar debería haber sido uno de barras. b) ¿Hay cuestiones de forma a mejorar? Si las hubiera, ¿cuáles? Para este caso faltan detallar cuestiones importantes como numeración, escala de medición (% de PBI) y lugar (el gráfico pretende ilustrar la situación de América Latina?) Análisis: Observe el siguiente gráfico. A la hora de analizarlo, un politólogo le dice que el modelo chileno es el ejemplo a seguir para cualquier país en Latinoamérica, incluyendo a la Educación. A la luz de los datos del gráfico ¿Ud. qué le responde? Es muy simple. SI bien ya sabemos que no hay una sola forma de “medir” el modelo chileno y que 50 cantidad no implica calidad (en el sentido de recursos destinados vs. calidad impartida) si nos atenemos a la variable en estudio hay muchos otros países que superan la inversión chilena en educación como ser: Cuba, Brasil y muchos otros más. Así que si tenemos como idea que la educación es importante y que un indicador válido es inversión pública en educación el “modelo” chileno dista mucho de ser un ejemplo a seguir. Ejemplo 2 Antes de comenzar con el análisis, identifique: Variable: Nivel de analfabetismo en mayores de 15 años (en AL) Nivel de medición: Escalar / razón Unidad de análisis: Países. Cuestiones formales: a) ¿Es correcto el tipo de gráfico utilizado? ¿Por qué? En este caso es correcto puesto que si bien la variable es escalar, no está analizada a través del tiempo con lo cual lo que se ubica en el eje X no son más que las unidades de observación estudiadas, las cuales obviamente no tienen/están ubicadas según escala alguna. 51 b) ¿Hay cuestiones de forma a mejorar? Si las hubiera, ¿cuáles? Para este caso faltan detallar cuestiones importantes como numeración, escala de medición (cantidad de personas) y lugar (el gráfico pretende ilustrar la situación de América Latina?) Análisis: El siguiente gráfico describe la cantidad de personas analfabetas mayores de 15 años en varios países latinoamericanos. A la hora de analizarlo, un politólogo dice que Brasil es la sociedad que peor está en términos de analfabetismo, mientras que Chile (ejemplo regional) está ostensiblemente mejor. A la luz de los datos ¿Ud. qué le responde? Que tal como se presentan los datos no se puede comparar. Efectivamente Brasil tiene la mayor cantidad de personas analfabetas pero también tiene la mayor población con lo cual si se presentaran los datos en términos relativos tal vez ni Brasil es el país que peor situación detenta ni Chile el mejor. Ejemplo 3 En una publicación se realizó la siguiente tabla en base a una encuesta sobre cuál es el problema más importante que identifican los habitantes del AMBA:3 Antes de comenzar con el análisis, identifique: Variable: Problema más importante Nivel de medición: Nominal Unidad de análisis: Individuo (Habitante del AMBA) 3 Fraga, R. (1997). La cuestión militar al finalizar los 90. Buenos Aires: Editorial Centro de Estudiospara la Nueva Mayoría. pp 221. 52 Cuestiones formales: a) ¿Hay alguna cuestión de forma que mejoraría con respecto a como se organizaron los datos y/o la tabla? En tal caso, explicítelas y fundaméntelas metodológicamente. A la tabla le falta una numeración, un título que además de identificar a la variable a estudiar deje en claro en que momento (fecha), lugar y cómo están medidas las respuestas (%, frecuencias absolutas, en miles, etc.). Por último, también debería citar la fuente. Respecto a las categorías utilizadas no cumple con el principio de exhaustividad (no hay “otros”). b) ¿Cuál sería para Ud. el título para esta tabla? Identificación del principal problema para los habitantes del AMBA, 1997. (en %) c) ¿Cómo graficaría a los datos? Dado que la variable es nominal y teniendo en cuenta la cantidad de categorías en que se divide, lo mejor sería utilizar un gráfico de barras. 53 EJERCICIOS: En cada uno de los siguientes ejercicios identifique: variable, nivel de medición, unidad de análisis. Indique: tipo de gráfico apropiado y forma de análisis de los datos representados. Ejercicio 1 Gasto Militar (Porcentaje del PBI) 1990 1994 1995 Todos los países 4.2 2.5 2.3 Países desarrollados 3.3 2.4 2.2 Países en desarrollo 3.2 3.0 2.6 África 3.3 2.9 3.3 América Latina 1.2 1.2 1.2 Asia 2.9 2.8 2.7 Este de Asia (Taiwán, Corea, Singapur) 4.3 4.1 4.0 Oriente Medio 8.0 6.6 5.7 Países en transición (Ex-Unión Soviética) 19.8 4.8 2.9 FUENTE: Instituto para la Paz Ejercicio 2 Ejercicio 3 54 Ejercicio 4 Ejercicio 5 55 Ejercicio 6 Ejercicio 7