Prévia do material em texto
ESTATÍSTICA BÁSICA ADAUTO JOSÉ VALENTIM NETO e DAYANNA COSTA U N I D A D E 3 Nesta unidade, vamos observar as medidas de tendência central, como a média aritmética, bem como outras formas de medição central, como a mediana. Além disso, abordaremos os conceitos que envolvem outros tipos de medidas de tendência, como as separatrizes e, por fim, as medidas de dispersão. UNIDADE 3 | INTRODUÇÃO 1.Compreender a média aritmética como medida de tendência central; 2.Identificar outras medidas de tendência central; 3.Entender as medidas separatrizes; 4.Conhecer os tipos de medidas de variação ou dispersão. UNIDADE 3 | OBJETIVOS Para se identificar como se caracterizam as tendências de cada distribuição, que podem ser analisadas juntas ou de forma isolada, são necessários estudos de conceitos relacionados aos aspectos numéricos que envolvem as variáveis. Com isso, podemos traduzir tais informações como tendências, que nos permitem interpretar e justificar os dados coletados. Compreender a média aritmética como medida de tendência central • Na estatística, as medidas de posição são uma série de dados que representam a posição da distribuição em relação ao eixo horizontal. • Nesse sentido, as medidas de posição consideradas mais importantes são aquelas denominadas de medidas de tendência central, que representam as informações relativas aos dados observados que, de maneira geral, tendem a se agrupar em torno dos valores centrais. Assim, são as medidas de tendência central: a média aritmética (�x), a mediana (Md), e a moda (Mo). A média aritmética representa o resultado da divisão do somatório dos valores da variável pelo número deles, representada pela seguinte fórmula: �x = ∑xi n Em que: �x representa a média aritmética. xi representa os valores da variável. n representa o número de valores. Temos duas formas de conhecer a média aritmética de uma variável: de forma que os dados não estejam agrupados e de forma que eles estejam agrupados, como por meio de uma distribuição de frequência. Média aritmética com dados não agrupados e média aritmética com dados agrupados A denominada média aritmética simples será utilizada quando desejarmos encontrar a média de dados que não estejam agrupados. No estudo da média aritmética, também precisamos conhecer o desvio em relação à média, que representa a diferença entre cada elemento do conjunto de dados e a média aritmética (�x). • A 1ª propriedade da média determina que a soma algébrica dos desvios encontrados em relação à média é nula. • A 2ª propriedade determina que ao se somar ou a subtrair uma constante (c) de todos os valores de uma variável, a média do conjunto dessa constante fica aumentada ou diminuída. • A 3ª propriedade define que se forem multiplicados ou divididos todos os valores de uma variável por uma constante (c), a média do conjunto ficará multiplicada ou dividida por essa constante. Para a média aritmética com os dados agrupados, precisamos considerar uma distribuição de frequência (fi). As frequências nos indicarão a intensidade de cada valor da variável. Portanto, para a obtenção da média ponderada dessas informações, precisamos incluir na tabela uma coluna correspondente a xifi. cujas frequências nos indicarão a intensidade de cada valor da variável. Além da média aritmética (x̅) utilizada como medida de tendência central, existem outras medidas que podem nos auxiliar na geração e na organização dos dados coletados em nossas pesquisas. Essas medidas são denominadas mediana (Md) e moda (Mo), também consideradas, na literatura estatística, como medidas de tendência central. Outras medidas de tendência central A mediana (Md) será considerada um valor central determinado a partir de um conjunto de valores que serão separados em dois grupos de elementos a partir da mediana (Md). Para Larson e Betsy (2015), o meio dos dados, quando estes estão ordenados, é denominado mediana de um conjunto de dados. Por isso, a mediana indica exatamente o ponto central de um conjunto de dados ordenado, dividindo-o em duas partes com quantidades iguais de valores. Assim, mesmo que um conjunto de dados seja composto por um número ímpar de observações, a mediana é o elemento do meio. Nesse sentido, caso o conjunto de dados seja composto por um número par de elementos, a mediana será a média dos dois elementos que ocupam as posições centrais (LARSON; BETSY, 2015). Para determinação da mediana de dados não agrupados, é necessário que o usuário ordene as informações por meio de uma composição crescente ou decrescente. Na mesma perspectiva dos dados não agrupados, a mediana (Md) dos dados agrupados, a partir de uma distribuição de frequência, dá-se pela determinação da frequência acumulada. Assim, como a média aritmética (x̅) e a mediana (Md), a moda (Mo) também é considerada, pela literatura da estatística, uma medida de tendência central. Nesse sentido, podemos denominar a moda (Mo) como sendo o valor mais frequente, ou seja, que aparece com mais frequência em uma série de elementos analisados. Moda (Mo) Dessa forma, podemos dizer que um valor é modal quando, entre os valores distribuídos em uma série, é o mais comum, ou seja, quando se repete um mais vezes. Larson e Betsy (2015) definem que a moda (Mo) em um conjunto de dados é caracterizada pelo valor que aparece com maior frequência. Desse modo, um conjunto de dados pode ter uma moda, mais de uma moda ou não ter moda, bem como é possível que nenhum valor se repita e que o conjunto de dados não tenha uma moda, chamado de amodal. Dessa forma, quando dois valores ocorrem com a mesma frequência, cada um é considerado uma moda, e tal conjunto é denominado bimodal (LARSON; BETSY, 2015). A moda (Mo) também pode ser calculada a partir dos dados não agrupados, de forma que será identificada com maior facilidade, considerando, de acordo com a definição, o(s) valor(es) que mais se repete(m). A moda (Mo) também pode ser analisada a partir de uma distribuição de frequência, assim denominada de moda (Mo) de dados agrupados. Assim como na análise da moda (Mo) de dados não agrupados, aqui identificaremos o valor da variável com maior frequência. As separatrizes, como vimos nos capítulos anteriores, utilizam, assim como a mediana (Md), características de uma série de valores devido à sua posição central. No entanto, essas medidas possuem uma característica semelhante e muito importante para a continuidade de nossos estudos, que é a separação de uma série de elementos (n) em grupos. Entender as medidas separatrizes Desse modo, além das medidas de posição central que estudamos (média, mediana e moda), existem outras medidas de posição que se baseiam em sua posição na série. Essas medidas são os quartis, os percentis e os decis, que, juntamente à mediana, são conhecidas pelo nome genérico de separatrizes. Para Larson e Betsy (2015), os quartis devem ser ordenados em 4 partes iguais (Q1, Q2 e Q3), que dividirão um conjunto de dados. Geralmente, 25% dos dados de um conjunto de valores estão sobre ou abaixo do primeiro quartil (Q1); da mesma forma, 50% dos dados, geralmente, encontram-se sobre ou abaixo do segundo quartil (Q2), e vale ressaltarmos que o Q2 é o mesmo que a mediana (Md) do conjunto de dados. Por fim, acredita-se que 75% dos dados recaem sobre ou abaixo do terceiro quartil (Q3) (LARSON; BETSY, 2015). Determinar os três principais quartis: • Q1 O primeiro quartil (𝑄𝑄1) é o valor que representa 25% de uma série de dados, ou seja, encontra-se na ¼ parte de uma distribuição. • Q2 O segundo quartil (𝑄𝑄2) é o valor que representa 50% de uma série de dados, e essa informação coincide com a mediana (𝑄𝑄2=Md). • Q3 O terceiro quartil (𝑄𝑄3) é o valor que representa 75% de uma série de dados, ou seja, está situado na 3/4 parte de uma distribuição. Para a determinação dos decis, é necessário seguir os mesmos procedimentos que foram utilizados para os cálculos dos quartis, sendo que os decis dividem a distribuição de elementos em 10 partes iguaisem vez de 4 partes, como se faz no quartil. Decil e percentil Por isso, para se dividir os elementos agrupados, dividem-se os dados em décimas partes, assim, cada parte terá 10% dos dados e será indicada por D1, D2 [...], D9. Os percentis são muito comuns nas áreas que necessitam de informações quanto a comparações. Como é o exemplo das áreas da saúde, demográficas e regionais, pois utilizam tais dados em comparação a outros grupos. Os percentis podem ser utilizados para identificação dos valores que estão abaixo ou acima do normal. Como exemplo, podemos citar as medidas das taxas de mortalidade infantil, desnutrição infantil, entre outros de uma determinada região. Com isso, podemos observar que, se o percentil se aproximar da 99º posição, indicará índices altos, e se o percentil se aproximar da 2º posição, indicará índices mais baixos. É necessário o estudo das medidas de dispersão, pois nos orienta a identificar qual a distância de determinados valores em relação à média aritmética, e essas medidas de dispersão são conhecidas como variância e desvio padrão. Tipos de medidas de variação ou dispersão Desse modo, compreendemos que tanto a variância como o desvio padrão são medidas que consideram a totalidade dos valores da variável estudada, o que faz delas índices de variabilidade estáveis e, por isso, as torna, geralmente, mais empregadas. O desvio padrão (s), por sua vez, representa a raiz quadrada da variância (s²) de forma positiva. Nesse sentido, essa medida reduz os erros existentes durante o cálculo da variância em relação à média. Desvio padrão Nessa perspectiva, consideramos que um desvio é um valor x, em uma população específica, que representará a diferença em relação à média. Logo, o desvio de x = x – �x . Por esse motivo, utilizamos esta nova medida, de fácil utilidade e interpretação, que denominamos desvio padrão (s). Para o seu cálculo, é necessário encontrar a raiz quadrada da variância. Vale ressaltarmos que tanto a variância, como o desvio padrão são medidas consideradas de dispersão, comumente conhecidas por variabilidade. Assim, a utilização de cada uma delas dependerá da necessidade do usuário, lembrando de seus pontos fortes e fracos em relação aos erros que podem ser identificados. Para eliminar os possíveis erros, em relação aos valores extremos que afetam a variância, o desvio padrão é utilizado como alternativa que implica a identificação da volatilidade dos dados, oferecendo, assim que possível, mais confiança em relação aos valores. Nesse sentido, para a identificação do desvio padrão, é necessário extrair a raiz quadrada da variância, desenvolvendo, assim, uma dependência de informações, em que uma dependerá da outra para ser encontrada. OBRIGADA! Número do slide 1 Número do slide 2 Número do slide 3 Número do slide 4 Número do slide 5 Número do slide 6 Número do slide 7 Número do slide 8 Número do slide 9 Número do slide 10 Número do slide 11 Número do slide 12 Número do slide 13 Número do slide 14 Número do slide 15 Número do slide 16 Número do slide 17 Número do slide 18 Número do slide 19 Número do slide 20 Número do slide 21 Número do slide 22 Número do slide 23 Número do slide 24 Número do slide 25 Número do slide 26 Número do slide 27