Prévia do material em texto
Unidade 3 Livro Didático Digital Adauto José Valentim Neto e Dayanna Costa Estatística Básica Diretor Executivo DAVID LIRA STEPHEN BARROS Gerente Editorial CRISTIANE SILVEIRA CESAR DE OLIVEIRA Projeto Gráfico TIAGO DA ROCHA Autor ADAUTO JOSÉ VALENTIM NETO E DAYANNA COSTA OS AUTORES Adauto José Valentim Neto e Dayanna Costa Olá. Somos Adauto José Valentim Neto e Dayanna Costa. Eu, Adauto, sou formado em Administração, Comércio Exterior e Business Administration, além de bacharelando em Direito, com uma experiência técnico-profissional na área de Administração de Empresas. Passei por empresas da área de educação superior, nas quais lecionei, e sou apaixonado pelo que faço e adoro transmitir minha experiência de vida àqueles que estão iniciando em suas profissões. Eu, Dayanna, sou formada em Administração pela Universidade Federal de Campina Grande (UFCG) e tenho Mestrado acadêmico nessa mesma área de conhecimento, com ênfase em Estratégia e Inovação, pela Universidade Federal da Paraíba. Também possuo mestrado acadêmico em Gestão de Recursos Naturais (UFCG) com ênfase de pesquisa em Estratégia Ambiental focada em modelos e ferramentas de gestão na empresa, tendo experiência técnico-profissional no ensino da Administração ao ministrar disciplinas como Marketing, Planejamento Estratégico, Cultura organizacional e liderança e Administração de Recursos Materiais e Patrimoniais a níveis de graduação e pós-graduação. Eu sou apaixonada por Gestão de Atendimento ao Cliente, e lecionar esse conteúdo, para mim, consiste em emergir, junto dos discentes, em um universo de possibilidades de gestão, técnicas e práticas dentro do contexto de atuação dos futuros profissionais em formação. Adoro transmitir meus conhecimentos e minha experiência de vida àqueles que estão iniciando em suas profissões. Por isso, fomos convidados pela Editora Telesapiens a integrar seu elenco de autores independentes. Estamos muito felizes em poder ajudar você nesta fase de muito estudo e trabalho. Conte conosco! ICONOGRÁFICOS Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que: INTRODUÇÃO: para o início do desenvolvimento de uma nova compe- tência; DEFINIÇÃO: houver necessidade de se apresentar um novo conceito; NOTA: quando forem necessários obser- vações ou comple- mentações para o seu conhecimento; IMPORTANTE: as observações escritas tiveram que ser priorizadas para você; EXPLICANDO MELHOR: algo precisa ser melhor explicado ou detalhado; VOCÊ SABIA? curiosidades e indagações lúdicas sobre o tema em estudo, se forem necessárias; SAIBA MAIS: textos, referências bibliográficas e links para aprofundamen- to do seu conheci- mento; REFLITA: se houver a neces- sidade de chamar a atenção sobre algo a ser refletido ou dis- cutido sobre; ACESSE: se for preciso aces- sar um ou mais sites para fazer download, assistir vídeos, ler textos, ouvir podcast; RESUMINDO: quando for preciso se fazer um resumo acumulativo das últi- mas abordagens; ATIVIDADES: quando alguma atividade de au- toaprendizagem for aplicada; TESTANDO: quando o desen- volvimento de uma competência for concluído e questões forem explicadas; SUMÁRIO Média aritmética como medida de tendência central ................10 Média aritmética () ....................................................................................................................... 10 Média aritmética com dados não agrupados ........................................ 12 Média aritmética com dados agrupados .................................................. 14 Outras medidas de tendência central ................................................17 Mediana (Md) ..................................................................................................................................... 17 Mediana de dados não agrupados ................................................................. 18 Mediana de dados agrupados .......................................................................... 20 Moda (Mo) ............................................................................................................................................. 21 Moda de dados não agrupados ........................................................................22 Moda de sados agrupados ...................................................................................23 Entender as medidas separatrizes .......................................................25 Quartil .......................................................................................................................................................25 Decil ..........................................................................................................................................................29 Percentil.................................................................................................................................................. 31 Tipos de medidas de variação ou dispersão ...................................34 Variância ...............................................................................................................................................34 Desvio Padrão ..................................................................................................................................37 7 UNIDADE 03 Estatística Básica 8 INTRODUÇÃO Você sabia que a área estatística é uma das mais demandas no mercado e é responsável pela geração de muitas informações utilizadas para tomadas de decisões nas diversas áreas do conhecimento? Isso mesmo. A área da estatística faz parte da área da matemática que estuda o comportamento dos elementos que compõem o nosso cotidiano. Frente a isso, vamos estudar as medidas de tendências das variáveis estudadas. Nesta unidade, vamos observar as medidas de tendência central, como a média aritmética, comumente utilizadas em nosso dia a dia, e outras formas de medição central, como a mediana, que divide um grupo de dados em duas partes iguais, e a moda, que consiste em identificar os elementos que mais são frequentes em uma distribuição. Também abordaremos os conceitos que envolvem outros tipos de medidas de tendência, como as separatrizes (quartil, decil e percentil), e, por fim, estudaremos as medidas de dispersão, muito utilizadas nas diversas áreas do conhecimento, como é a variância e o desvio padrão, que representam a distâncias de algum valor em relação a sua média. Assim, sua principal responsabilidade é compreender os aspectos básicos e introdutórios da estatística, entendeu? Ao longo desta unidade letiva, você vai mergulhar neste universo! Estatística Básica 9 OBJETIVOS Olá. Seja muito bem-vindo à Unidade 3. Nosso objetivo é auxiliar você na compreensão dos seguintes tópicos até o término desta etapa de estudos: 1. Média aritmética como medida de tendência central; 2. Outras medidas de tendência central; 3. Medidas separatrizes; 4. Tipos de medidas de variação ou dispersão. Então? Preparado para adquirir conhecimento sobre um assunto fascinante e inovador como esse? Vamos lá! Estatística Básica 10 Média aritmética como medida de tendência central INTRODUÇÃO: Ao término deste capítulo, você será capaz de entender como funciona a média aritmética, e isso será fundamental para o exercício de sua profissão. Aqui, serão discutidos os aspectos de interpretação das informações coletadas, de forma a organizá-las para auxiliar o pesquisador em suas tarefas. Assim, neste capítulo, vamos compreender um pouco mais como executar isso. E então? Motivado para desenvolver essa competência? Então, vamos lá! Média aritmética () Até então, estudamos distribuição de frequência, que, geralmente, pode descrever o conjunto de valores que uma variável pode assumir. Dessa forma, podemos encontrar a maior concentração do valor de uma dada distribuição,ou seja, se ela está localizada no início, no meio ou no final, e, ainda, uma distribuição igual. Assim, para se identificar como se caracterizam as tendências de cada distribuição, que podem ser analisadas juntas ou de forma isolada, são necessários estudos de conceitos relacionados com os aspectos numéricos que envolvem as variáveis. Com isso, podemos traduzir tais informações como tendências, que nos permitem interpretar e justificar os dados coletados. Nessa perspectiva, iniciaremos nossos estudos a partir dos elementos típicos de uma distribuição, denominada medidas de posição. Na estatística, as medidas de posição são uma série de dados que representam a posição da distribuição em relação ao eixo horizontal. Estatística Básica 11 Figura 1 – Medidas de tendência central Fonte: Elaborada pelos autores. Nesse sentido, as medidas de posição consideradas mais importantes são aquelas denominadas medidas de tendência central. Essas medidas representam as informações relativas aos dados observados que, de maneira geral, tendem a se agrupar em torno dos valores centrais. Assim, são as medidas de tendência central: a média aritmética (); a mediana (Md); e a moda (Mo). Em primeiro lugar, vamos estudar a média aritmética, que representa o resultado da divisão do somatório dos valores da variável pelo número deles, representada pela seguinte fórmula: Em que: representa a média aritmética. xi representa os valores da variável. n representa o número de valores. Temos, assim, duas formas de conhecer a média aritmética de uma variável: de forma que os dados não estejam agrupados e de forma que eles estejam agrupados, como por meio de uma distribuição de frequência. Estatística Básica 12 Média aritmética com dados não agrupados A denominada média aritmética simples será utilizada quando desejarmos encontrar a média de dados que não estejam agrupados. Podemos exemplificar da seguinte forma: suponha que as idades dos alunos que pertencem a uma turma em uma escola sejam de 10, 14, 13, 15, 16, 18 e 12, dessa forma, vamos obter a média da seguinte maneira: Logo, = 14 Podemos concluir, então, que a média de idade dessa turma é de 14 anos, isso também não implica dizer que a média sempre será um número pertencente a série de dados analisados; pode acontecer de a média ser um número diferente. Ademais, no estudo da média aritmética, também precisamos conhecer o desvio em relação à média, que representa a diferença entre cada elemento do conjunto de dados e a média aritmética (). Representado pela seguinte fórmula: di = xi - Para identificarmos os desvios em relação à média das idades dos alunos, temos: d1 = x1 - d1 = 10 – 14 = -4 d2 = x2 - d2 = 14 - 14 = 0 d3 = x3 - d3 = 13 - 14 = -1 d4 = x4 - d4 = 15 - 14 = 1 d5 = x5 - d5 = 16 - 14 = 2 d6 = x6 - d6 = 18 - 14 = 4 d7 = x7 - d7 = 12 - 14 = -2 Estatística Básica 13 Assim, podemos concluir que cada dado possui uma distância em relação ao ponto central, que, aqui, denominamos de média. Dando continuidade ao estudo sobre a média aritmética (), vamos estudar, a partir de agora, algumas propriedades da média, e são três as principais, como vamos observar a seguir: 1ª Propriedade A 1ª propriedade da média determina que a soma algébrica dos desvios encontrados em relação à média é nula. Assim, podemos obter a partir de: Quando substituímos os valores encontrados no exemplo anterior, concluímos o que propõe essa propriedade: 2ª propriedade A 2ª propriedade determina que, ao se somar ou subtrair uma constante (c) de todos os valores de uma variável, a média do conjunto dessa constante fica aumentada ou diminuída, sendo representada por: yi = xi ± c = ± c Assim, se somarmos 2 a cada um dos valores da variável do exemplo anterior, obtemos as seguintes informações: yi yi = xi ± c y1 10 + 2 = 12 y2 14 + 2 = 16 y3 13 + 2 = 15 y4 15 + 2 = 17 y5 16 + 2 = 18 y6 18 + 2 = 20 y7 12 + 2 = 14 Estatística Básica 14 Dessa forma, a soma dos resultados será: = 12+ 16+ 15+ 17 + 18+ 20+ 14 = 112 Como n = 7, obtém-se: = = 16 = 16 = 14 + 2 = + 2 3ª propriedade A 3ª propriedade define que se forem multiplicados ou divididos todos os valores de uma variável por uma constante (c), a média do conjunto ficará multiplicada ou dividida por essa constante, sendo representada por essas fórmulas: yi = xi x c = x c ou yi = = Se considerarmos que a constante (c) é 3, podemos multiplicar cada um dos valores da variável do exemplo que estamos seguindo, obtendo: yi yi = xi ± c y1 10 x 3 = 30 y2 14 x 3 = 42 y3 13 x 3 = 39 y4 15 x 3 = 45 y5 16 x 3 = 48 y6 18 x 3 = 54 y7 12 x 3 = 36 Dessa forma, a soma dos resultados será: = 30+42+39+45+48+54+36=294 Como n = 7, temos: = = 42 = 42 = 14 x 3 = x c Média aritmética com dados agrupados Em continuidade aos nossos estudos, a partir de agora, vamos estudar como calculamos a média aritmética com os dados agrupados, dessa forma, vamos considerar uma distribuição de frequência (fi) estudada em unidades anteriores. Estatística Básica 15 Para que fique mais clara a identificação da média em dados agrupados, vamos considerar um exemplo específico, em que foi realizado um estudo com 34 mulheres de uma região sobre quantidade de filhos, dessa forma, organizamos as informações coletadas da seguinte forma, por meio de uma tabela de distribuição de frequência: Tabela 1 — Distribuição de frequência Nº de Filhos Frequência (fi) 0 2 1 6 2 10 3 12 4 4 ∑ = 34 Fonte: Elaborada pelos autores. Assim, como já estudamos anteriormente, as frequências nos indicarão a intensidade de cada valor da variável. Dessa forma, para calcularmos a média aritmética ponderada, precisaremos da seguinte fórmula: Portanto, para obtenção da média ponderada dessas informações, vamos incluir, na tabela, uma coluna correspondente a xifi, assim: Tabela 2 – Distribuição de frequência Nº de Filhos (xi) Frequência (fi) xifi 0 2 0 x 2 = 0 1 6 1 x 6 = 6 2 10 2 x 10 = 20 3 12 3 x 12 = 36 4 4 4 x 4 = 16 ∑ = 34 ∑ = 0 + 6 + 20 + 36 + 16 = 78 Fonte: Elaborada pelos autores. Estatística Básica 16 Dessa forma, se substituirmos na fórmula, temos: Isto implica concluirmos que a média será de: = 2,3 filhos. Algumas observações são importantes no estudo da média ponderada, como o resultado de 2,3 filhos. Isso implica dizer que são dois filhos e 3 décimos. Quando os resultados são expressos dessa forma, sugere-se que a interpretação relate a quantidade numérica exata, como 2 filhos, já que não podemos relacionar décimos de pessoas. RESUMINDO: E então? Você gostou do que apresentamos? Conseguiu apreender tudo? Agora, só para termos a certeza de que você realmente entendeu o tema de estudo deste capítulo, vamos resumir tudo o que vimos. Você deve ter aprendido que, para a determinação da média aritmética (), é necessário conhecer os seus conceitos, assim como a medida de tendência central e outras, denominadas mediana (Md) e moda (Mo). Estudamos, ainda, que a média pode ser identificada por meio de dados que estão estruturados e não estruturados, e o primeiro se refere principalmente às informações contidas nas distribuições de frequências, como já estudamos em outros momentos. Compreendemos, ainda, que existem três principais propriedades que envolvem o cálculo da média aritmética. Ademais, vimos que existe, também, uma distância dos dados em relação ao ponto central das variáveis e denominamos de variação em relação à média (di). Com isso, espero que você tenha compreendido como a estatística pode ser importante no nosso cotidiano, principalmente em relação ao agrupamento de informações que nos auxilia nos processos rotineiros de geração de dados. Estatística Básica 17 Outras medidas de tendência central INTRODUÇÃO: Ao término deste capítulo, você será capazde entender as outras medidas de tendência central, como é o caso da mediana e da moda, e isso será fundamental para o exercício de sua profissão. As medidas aqui analisadas serão fundamentais para a identificação dos pontos centrais e frequentes dos dados. Assim, neste capítulo, vamos compreender um pouco mais como executar isso. E então? Motivado para desenvolver essa competência? Então, vamos lá! Mediana (Md) Além da média aritmética () utilizada como medida de tendência central, existem outras medidas que podem nos auxiliar na geração e organização dos dados coletados em nossas pesquisas. Essas medidas são denominadas de mediana (Md) e moda (Mo), também consideradas na literatura estatística como medidas de tendência central. Para iniciarmos este capítulo, vamos compreender como a mediana (Md) se comporta para ser considerada uma forma de medida central. Assim, podemos considerar a mediana (Md) como o número que se encontra no centro de um conjunto de dados de forma ordenada. Assim sendo, a mediana (Md) é considerada um valor central determinado a partir de um conjunto de valores que serão separados em dois grupos de elementos a partir da mediana (Md). Estatística Básica 18 DEFINIÇÃO: Para Larson e Betsy (2015), o meio dos dados, quando estes estão ordenados, denomina-se mediana de um conjunto de dados. Por isso, a mediana indica exatamente o ponto central de um conjunto de dados ordenado, dividindo-o em duas partes com quantidades iguais de valores. Assim, mesmo que um conjunto de dados seja composto por número ímpar de observações, a mediana será o elemento do meio. Nesse sentido, caso o conjunto de dados seja composto por um número par de elementos, a mediana será a média dos dois elementos que ocupam as posições centrais (LARSON; BETSY, 2015). Mediana de dados não agrupados Para determinação da mediana de dados não agrupados, é necessário que o usuário ordene as informações por meio de uma composição crescente ou decrescente. Assim, vamos considerar como exemplo um conjunto de valores, como segue: 5 13 10 2 18 15 6 16 9 Com isso, o primeiro passo para identificação da mediana (Md) desse grupo de valores é ordená-lo. Assim, vamos considerar para esse exemplo a ordem de forma crescente, ou seja, do menor para o maior, como segue: 2 5 6 9 10 13 15 16 18 Em seguida, vamos identificar o valor central, que apresentará o mesmo número de elementos à direita e à esquerda. Nesse caso, o valor identificado é o 10, pois, nessa série, há quatro elementos acima dele e quatro abaixo, como mostra: 2 5 6 9 10 13 15 16 18 Estatística Básica 19 Assim, podemos concluir que a mediana (Md) dessa série de dados é igual a 10, visto que o número de elementos é um número ímpar (9), logo, o centro será o ponto exato da divisão dos dados em dois grupos. Entretanto, se utilizarmos uma série com número par de elementos, calcularemos da seguinte forma: 2 6 7 10 12 13 18 20 Observe que temos, a partir desse exemplo, um número par de elementos (8). Assim, a mediana será calculada a partir de qualquer dos números compreendidos entre os dois valores centrais da série. Entende- se por esses valores centrais o ponto médio. Logo, identificamos como: 2 6 7 10 12 13 18 20 Ponto médio (dois valores centrais) Dessa forma, para determinarmos a mediana (Md) desse grupo de valores, calculamos a média aritmética entre 10 e 12. Logo, a mediana (Md) = Portanto, concluímos que, a partir da ordenação dos dados de uma série, sendo a quantidade de dados (n) ímpar ou par, a forma para determinação da mediana (Md) é diferente. Se a quantidade de elementos (n) for um número ímpar, teremos a seguinte equação: No nosso exemplo, o número de elementos (n) foi 9, logo, temos que = 5, ou seja, a mediana (Md) está no 5º elemento da série, que é o valor de 10, como encontrado no exemplo. Entretanto, se o número de elementos (n) de uma série for um número par, a equação será representada da seguinte forma: + 1. Assim, em nosso exemplo, o número de elementos (n) foi 8, logo, temos que . Agora, a mediana (Md) será determinada a } Estatística Básica 20 partir da média aritmética do 4º e 5º elemento da série, ou seja: Md = = 11, como determinado no exemplo. Mediana de dados agrupados Na mesma perspectiva dos dados não agrupados, a mediana (Md) nesse caso dos dados agrupados, a partir de uma distribuição de frequência, dá-se pela determinação da frequência acumulada. Dessa forma, aqui também será determinado o valor que divide a distribuição dos elementos ao meio, de forma a encontrar o valor central dos dados, ou seja, dividi-los em dois grupos iguais de elementos. Para isso, é necessário, então, aplicar a seguinte fórmula: Nesse sentido, para identificação da mediana (Md) de uma frequência, é necessário compreender a frequência acumulada imediatamente superior à metade da soma das frequências. Assim, a mediana (Md) será representada pelo valor da variável que corresponde a tal frequência acumulada. Para exemplificarmos a situação, suponha os seguintes dados relativos ao número de filhos do grupo de 34 mulheres de uma região, como segue: Tabela 3 – Distribuição de frequência Nº de Filhos (f) Frequência (fi) Frequência Acumulada (Fi) 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 ∑ = 34 Fonte: Elaborada pelos autores. Estatística Básica 21 Nesse caso, para identificarmos a mediana (Md), substituiremos os valores na fórmula, logo: Logo, como não temos, na distribuição da frequência, um valor de frequência acumulada (Fi) de 17, precisamos identificar a menor frequência acumulada que supera esse valor. Assim, determinado o valor de 18, que corresponde ao valor 2 da variável, e esse, então, o valor a mediana (Md) dessa frequência. Agora, a mediana (Md) será de 2 filhos. Concluímos, então, que a mediana (Md) será o centro dos dados analisados, fazendo com que as informações sejam divididas em dois principais grupos, auxiliando o pesquisador ou usuário da informação a encontrar o ponto central das informações e caracterizar a mediana (Md) como uma medida de tendência central. Moda (Mo) Assim como a média aritmética () e a mediana (Md), a moda (Mo) também é considerada, pela literatura da estatística, uma medida de tendência central. Nesse sentido, podemos denominar a moda (Mo) como o valor que é mais frequente, ou seja, ocorre com mais frequência em uma série de elementos analisados. Dessa forma, podemos dizer que um valor é modal quando, entre os valores distribuídos em uma série, é o mais comum, ou seja, quando esse valor se repete mais vezes. Estatística Básica 22 DEFINIÇÃO: Larson e Betsy (2015) definem que a moda (Mo) em um conjunto de dados é caracterizada pelo valor que aparece com maior frequência. Desse modo, em um conjunto de dados, pode ter uma moda, mais de uma moda, ou não ter moda. Assim, é possível que nenhum valor se repita e que o conjunto de dados não tenha uma moda, chamado de amodal. Do mesmo modo, quando dois valores ocorrem com a mesma frequência, cada um é considerado uma moda, e tal conjunto é denominado bimodal (LARSON; BETSY, 2015). Moda de dados não agrupados Assim como nas demais medidas de tendência central que estudamos, a moda (Mo) também pode ser calculada a partir dos dados não agrupados, de forma que será identificada com maior facilidade, considerando, de acordo com a definição, o(s) valor(es) que mais se repete(m). Para exemplificarmos tal definição, vamos considerar a seguinte série ordenada de valores: 7 8 9 10 10 10 11 12 13 15 Nesses dados, podemos concluir que a moda (Mo) é 10, pois é o valor que mais se repete na série analisada. Nessa mesma perspectiva, podemos observar uma série de dados em que não existe moda (Mo), ou seja, não existe um valor que se repita durante a relação dos dados, como o exemplo a seguir: 3 5 8 10 12 13 Percebemos, então, que, nesse exemplo, nenhum valor serepete, logo, essa distribuição é denominada como amodal, ou seja, não possui moda. De mesmo modo, podemos verificar outra situação, quando existem mais de uma moda em uma mesma série de dados, ou seja, existe mais de um valor a ser repetido, como observado no exemplo a seguir: Estatística Básica 23 2 3 4 4 4 5 6 7 7 7 8 9 Logo, nessa situação, podemos observar que os números 4 e 7 se repetem com maior frequência, assim, obtemos duas modas (Mo). Quando tal situação ocorre, denominamos série de dados bimodal, ou seja, quando mais de um valor se repete na mesma distribuição. Moda de sados agrupados A moda (Mo) também pode ser analisada a partir de uma distribuição de frequência, assim denominada moda (Mo) de dados agrupados. Da mesma forma que a análise da moda (Mo) de dados não agrupados, aqui, identificaremos o valor da variável com maior frequência. Para exemplificarmos, vamos imaginar que foram medidas as estaturas de um grupo de 40 pessoas, chegando-se a tais valores: Estaturas (cm) Frequência (fi) 1 150 - 154 4 2 155 - 158 9 3 159 - 162 11 4 163 - 166 8 5 167 - 170 5 6 171 - 174 3 ∑ = 40 Percebemos que, nessa distribuição, a frequência máxima é de 11, logo, o valor da variável que corresponde a essa frequência é 3. Desse modo, podemos concluir que a moda (Mo) dessa distribuição é 3. Ademais, podemos considerar que a classe que apresenta a maior frequência é denominada classe modal, pois possui um único valor máximo de frequência. Assim sendo, podemos afirmar, ainda, que a moda será o valor dominante que está compreendido entre os limites da classe modal. Nesse caso, existe um método simples para o cálculo da moda (Mo), que considera o ponto médio da classe modal. Assim, utilizamos a seguinte fórmula: Estatística Básica 24 Lembrando que li corresponde ao limite inferior da classe modal e Li representa o limite superior da classe modal. Diante disso, quando substituímos a fórmula pelos valores do exemplo, obtemos as seguintes informações: A classe modal encontrada i = 3 Logo, os li = 159 e Li = 162 Assim, a moda Concluímos, então, que a moda dessa distribuição é de 160 cm, pois é a média encontrada da classe modal, ou seja, a 3ª classe. RESUMINDO: E então? Você gostou do que apresentamos? Conseguiu apreendeu tudo? Agora, só para termos a certeza de que você realmente entendeu o tema de estudo deste capítulo, vamos resumir tudo o que vimos. Você deve ter aprendido outras medidas de tendência central, como foi o caso da mediana (Md) e da moda (Mo). Estudamos que a mediana (Md) é o valor que representa o ponto central de uma série de elementos (n), que, se for ímpar ou par, deverá ser calculada de forma distinta, mas que sua essência continua a mesma, a de identificar o centro dos dados, de maneira que divida as informações em dois grupos distintos e com a mesma quantidade de elementos. Também estudamos a moda (Mo), que representa o número que mais se repete em uma série de dados. Nesse sentido, estudamos ainda, que uma distribuição de dados pode conter uma moda, denominada modal, mais de uma moda, denominada bimodal, ou, ainda, não conter uma moda, sendo denominada amodal. Assim, esperamos que, com essas informações, você tenha compreendido como as medidas de tendência central podem auxiliá-lo na análise e interpretação dos dados, facilitando sua organização e transcrição. Estatística Básica 25 Entender as medidas separatrizes INTRODUÇÃO: Ao término deste capítulo, você será capaz de entender quais são as medidas separatrizes, como quartil, decil e percentil, e isso será fundamental para o exercício de sua profissão. As separatrizes dividem um grupo de elementos em diversas partes iguais, a depender do tipo de medida que se deseja analisar, e isso auxilia o usuário na sua interpretação. E então? Você está motivado para desenvolver essa competência? Então, vamos lá! Quartil As separatrizes, como vimos nos capítulos anteriores, utilizam, assim como a mediana (Md), características de uma série de valores devido à sua posição central. No entanto, essas medidas possuem uma características seme- lhante e muito importante para a continuidade de nossos estudos, que é a separação de uma série de elementos (n) em grupos. Desse modo, além das medidas de posição central que estudamos (média, mediana e moda), existem outras medidas de posição que se baseiam em sua posição na série. Essas medidas são os quartis, os percentis e os decis, que, juntamente à mediana, são conhecidas pelo nome genérico de separatrizes. Estatística Básica 26 Figura 2 – Medidas separatrizes Fonte: Elaborada pelos autores. Em primeiro lugar, vamos estudar os quartis, em que consideramos os valores de uma série dividida em quatro partes iguais. DEFINIÇÃO: Para Larson e Betsy (2015), os quartis devem ser ordenados em 4 partes iguais (Q1, Q2 e Q3), que dividirão um conjunto de dados. Geralmente, 25% dos dados de um conjunto de valores estarão sobre ou abaixo do primeiro quartil (Q1). Da mesma forma, 50% dos dados, geralmente, encontram-se sobre ou abaixo do segundo quartil (Q2), e vale ressaltarmos que o Q2 é o mesmo que a mediana (Md) do conjunto de dados. Por fim, acredita-se que 75% dos dados recaem sobre ou abaixo do terceiro quartil (Q3) (LARSON; BETSY, 2015). Então, já sabemos que um grupo de dados pode ser dividido em quatro partes iguais, denominados quartil. Portanto, precisamos determinar os três principais quartis: Q1 O primeiro quartil (Q1) é o valor que representa 25% de uma série de dados, ou seja, encontra-se na ¼ parte de uma distribuição. Q2 O segundo quartil (Q2) é o valor que representa 50% de uma série de dados, e essa informação coincide com a mediana (Q2 =Md). Q3 O terceiro quartil (Q3) é o valor que representa 75% de uma série de dados, ou seja, está situado na 3/4 parte de uma distribuição. Estatística Básica 27 Para exemplificarmos o cálculo do quartil, vamos julgar a seguinte situação: suponha que você coletou os seguintes dados relativos às idades das mulheres de um clube de jogos: 22 25 18 19 21 43 32 35 27 30 42 44 37 28 38 A partir desses dados, vamos encontrar o primeiro quartil (Q1), o segundo quartil (Q2) e o terceiro quartil (Q3) do conjunto de dados. O que devemos fazer, em primeiro lugar, é ordenar o conjunto de dados e encontrar a mediana (Md), ou seja, o segundo quartil (Q2). 18 19 21 22 25 27 28 30 32 35 37 38 42 43 44 Assim, o segundo quartil (Q2) é o número 30, que está localizado no 8º elemento da distribuição ordenada de forma crescente. Para identificação do primeiro quartil (Q1), vamos encontrar a mediana dos valores à esquerda de Q2, já o terceiro quartil (Q3), identificamos a partir da mediana dos valores à direita de Q2. Assim temos: 18 19 21 22 25 27 28 30 32 35 37 38 42 43 44 Assim, podemos concluir o seguinte: • Aproximadamente, 25% das mulheres que pertencem ao clube possuem 22 anos ou menos. • Quase 50% ou metade das mulheres do clube possuem 30 anos ou menos. • Cerca de 75% das mulheres do clube possuem 38 anos ou menos. Desse modo, precisamos atentar que a mediana (Md), considerada aqui como o segundo quartil (Q2), será sempre uma medida de tendência }}Valores à esquerda do Q2 Valores à direita do Q2 Q3Q2Q1 Estatística Básica 28 central para ser utilizada como base de posição. Assim, a medida de variação será utilizada na posição dos quatis. Da mesma forma, podemos analisar o quartil a partir dos dados agrupados, ou seja, por meio de uma distribuição de frequência. Nessa perspectiva, utilizaremos a mesma equação da mediana (Md), substituindo o número 2 pelo número 4, já que estamos falando em quartil. Assim, a equação será: Nessa equação, a letra k representa o número de ordem do quartil. Logo, para calcularmos o valor do quartil, precisamos utilizar a seguinte equação: Para exemplificarmos o cálculo do quartil, vamos utilizar o exemplo anterior, emque foi medida a estatura de 40 pessoas, apresentando os valores a seguir: i Estaturas (cm) Frequência (fi) Frequência acumulada (Fi) 1 150 - 154 4 4 2 154 - 158 9 13 3 158 - 162 11 24 4 162 - 166 8 32 5 166 - 170 5 37 6 170 - 174 3 40 ∑ = 40 Estatística Básica 29 Nesse exemplo específico, vamos considerar que, na distribuição das estaturas, não serão considerados intervalos de uma classe para outra. Assim, para a determinação do primeiro quartil (Q1), vamos substituir as informações da fórmula pelos dados da tabela de distribuição de frequência: Primeiro Quartil (Q1) Em primeiro lugar, vamos identificar o quartil Em seguida, vamos encontrar o valor do quartil Segundo Quartil (Q2) Em primeiro lugar, vamos identificar o quartil Em seguida, vamos encontrar o valor do quartil Terceiro Quartil (Q3) Em primeiro lugar, vamos identificar o quartil Em seguida, vamos encontrar o valor do quartil Decil Além do estudo dos quartis sobre as determinações das medidas de posição, podemos utilizar, também, os percentis e os decis. Assim, podemos determinar que as separatrizes consistem em: Estatística Básica 30 Tabela 4 – Separatrizes Separatrizes Descrição Símbolos Quartis Divide o conjunto de elementos em 4 partes iguais. Q1, Q2 e Q3 Decis Divide o conjunto de elementos em 10 par- tes iguais. D1, D2, D3... D9 Percentis Divide o conjunto de elementos em 100 partes iguais. P1, P2, P3... P99 Fonte: Adaptada de Crespo (2009). Para a determinação dos decis, é necessário seguir os mesmos procedimentos que foram utilizados para os cálculos dos quartis, sendo que os decis dividem a distribuição de elementos em 10 partes iguais em vez de 4 partes, como se faz no quartil. Por isso, para se dividir os elementos agrupados, dividem-se os dados em décimas partes, em que cada parte terá 10% dos dados e será indicada por D1, D2 [...], D9. Desse modo, os decis serão representados por: Para exemplificarmos o cálculo dos decis, vamos analisar os 16 valores ordenados a seguir: 5 7 7 9 10 11 11 12 13 13 15 18 21 22 25 25 Para a determinação dos decis, utilizaremos a fórmula: Posto posição, isso implica dizer que o D1 estará na 2ª posição, logo, o valor do D1 será igual a 7: 5 7 7 9 10 11 11 12 13 13 15 18 21 22 25 25 D1 Estatística Básica 31 Posto , isso implica dizer que o D5 estará na 8ª posição, logo, o valor do D5 será igual a 12: 5 7 7 9 10 11 11 12 13 13 15 18 21 22 25 25 Posto , isso implica dizer que o D9 estará na 15ª posição, logo, o valor do D9 será igual a 25. 5 7 7 9 10 11 11 12 13 13 15 18 21 22 25 25 Percentil Ademais, estudaremos os percentis, que são muito comuns nas áreas que necessitam de informações quanto a comparações, como é o caso das áreas da saúde, demográficas e regionais, pois utilizam tais dados em comparação a outros grupos. Por sua vez, os percentis podem ser utilizados para identificar os valores que estão abaixo ou acima do normal. Como exemplo, podemos citar as medidas das taxas de mortalidade infantil, desnutrição infantil, entre outros de uma determinada região. Com isso, podemos observar que, se o percentil se aproximar da 99º posição, indicará índices altos, e se o percentil se aproximar da 2º posição, indicará índices mais baixos. Dessa forma, os percentis serão divididos em 99 valores, que separarão uma série de dados em 100 partes iguais, sendo identificadas da seguinte maneira: P1,P2…P32,…,P99 Vale destacarmos que, se uma série de dados for dividida em 99 partes iguais, logo, o centro dessa divisão, ou seja, o percentil na posição 50 será a mediana (Md), assim como o percentil na posição 25º será o primeiro quartil e o percentil na 75º posição será o terceiro quartil, como podemos observar a seguir: D5D1 D9D5D1 Estatística Básica 32 Contudo, para a determinação do percentil desejado, ou seja, um valor específico x, usaremos a seguinte fórmula: A partir de então, o valor encontrado deverá ser arredondado para o valor inteiro mais próximo. Para exemplificarmos o cálculo do percentil, vamos analisar a seguinte situação: Suponha que foram pesquisados 30 valores diferentes em relação ao custo de uma máquina fabril em milhares (R$) de reais e que as informações foram ordenadas de forma crescente: 10 12 13 15 17 18 19 21 22 24 25 26 28 29 30 31 32 34 35 37 39 41 42 44 46 47 48 50 52 54 Dessa forma, percebemos que, para a identificação do 25º percentil (P25), é preciso o seguinte cálculo: Isso implica dizer que 34% dos valores em relação a essa máquina fabril é igual ou inferior a 25.000,00. Com isso, podemos concluir que as separatrizes (quartil, decil e percentil) são meios alternativos de cálculo das medidas de tendência central, pois, assim como a média (), a mediana (Md) e a moda (Mo), elas também propõem ao usuário uma noção de posição sobre os dados analisados. Com isso, torna-se mais fácil e prática a realização das interpretações sobre os elementos coletados e ordenados. Estatística Básica 33 RESUMINDO: E então? Você gostou do que apresentamos? Conseguiu apreender tudo? Agora, só para termos a certeza de que você realmente entendeu o tema de estudo deste capítulo, vamos resumir tudo o que vimos. Você deve ter aprendido que existem outras medidas de tendência centrais que podem dividir um conjunto de elementos coletados em diversas partes iguais. Assim, chamamos essas medidas de separatrizes, que são classificadas em quartil (Qi), decil (Di) e percentil (Pi). Vimos que o quartil (Qi) divide os dados em 4 partes iguais e que o segundo quartil (Q2) representa a mediana (Md). Além disso, também vimos que os decis (Di) dividem o conjunto de elementos em 10 partes iguais e, nesse caso, a mediana será o quinto decil (D5). Por fim, e não menos importante, estudamos que um conjunto de dados também pode ser dividido em 100 partes iguais, que serão classificadas em 99 partes. Com isso, a mediana se encontrará na 50º posição do percentil, o primeiro quartil (Q1) se encontrará na 25º posição do percentil e o terceiro quartil (Q3) será encontrado na 75º posição do percentil. Assim sendo, entendemos o quanto é importante o entendimento das separatrizes para geração de informações cotidianas, auxiliando, assim, os usuários nas decisões e na interpretação das informações. Estatística Básica 34 Tipos de medidas de variação ou dispersão INTRODUÇÃO: Ao término deste capítulo, você será capaz de conhecer os tipos de medidas de variação e dispersão, como a variância e o desvio padrão. Este conteúdo é importante, pois o auxiliar na identificação da distância de um valor específico e sua média. E então? Você está motivado para desenvolver essa competência? Então, vamos lá! Variância Como vimos, até então, usamos as medidas de tendência central para identificarmos como os dados estão alocados em uma distribuição, de forma que consigamos identificar suas posições e o que elas podem nos dizer. Para tanto, é necessário o estudo das medidas de dispersão, que nos orienta a identificar qual a distância de determinados valores em relação à média aritmética. Assim, essas medidas de dispersão são conhecidas como variância e desvio padrão. Figura 3 – Medidas de dispersão Fonte: Elaborada pelos autores. Estatística Básica 35 Desse modo, compreendemos que tanto a variância como o desvio padrão são medidas que consideram a totalidade dos valores da variável estudada, que faz delas índices de variabilidade estáveis e, por isso, as torna, geralmente, mais empregadas. Desse modo, iniciamos nossos estudos pela variância, que é uma medida que se baseia nos desvios em torno da média aritmética (). Assim, podemos representar a variância por s2, por meio da fórmula: Para exemplificarmos, vamos imaginar a seguinte situação: existem quatro fábricas que produzem um mesmo produto, dessa forma, precisamos saber quanto, em média, são produzidos por cada fábricadurante os dias da semana, de segunda-feira a sexta-feira. Precisamos ter consciência de que cada fábrica tem desempenho diferente e, por isso, a produção varia entre elas. Dessa forma, chegamos à seguinte tabela de dados: Fábricas Quantidade produzidas por dia da semana (mil) Segunda Terça Quarta Quinta Sexta Fábrica A 10 12 8 14 9 Fábrica B 12 7 10 8 11 Fábrica C 8 10 12 9 10 Fábrica D 11 5 7 8 9 Em primeiro lugar, deve ser determinada a média aritmética de cada uma das fábricas analisadas nesse caso. Assim, a média aritmética () será calculada da seguinte forma: Fábricas Cálculo da média aritmética () Fábrica A A = 10,6 Fábrica B B = 9,6 Estatística Básica 36 Fábrica C C = 9,8 Fábrica D D = 8 A partir desse cálculo, identificamos as médias diárias de cada uma das fábricas. A fábrica A produz, em média, 10,6 produtos por dia, já a fábrica B produz, em média, 9,6 produtos por dia, a fábrica C produz 9,8 produtos por dia e, por fim, a fábrica D produz, em média, 8 produtos por dia. Com essas informações, podemos observar que é variável o resultado obtido por cada uma das fábricas, fazendo com que cada uma tenha desempenho diferente e que seus resultados sejam específicos, de acordo com cada situação. Vale ressaltarmos que, nesse exemplo, estamos lidando com poucos dados, mas que, no dia a dia, a quantidade de informações é muito maior, sendo necessário, muitas vezes, o auxílio de softwares e sistemas que auxiliem a organização das informações. Continuando a resolução do nosso exemplo, vamos identificar, a partir de agora, o valor da variância de cada uma das fábricas estudadas. Assim, os resultados serão obtidos a partir da soma dos quadrados da diferença entre cada valor e a média aritmética () dividida pela quantidade de elementos observados. Então, o valor da variância de cada uma das fábricas será: Variância Fábrica A: Variância Fábrica B: Estatística Básica 37 Variância Fábrica C: Variância Fábrica D: A partir desses dados, podemos afirmar que a fábrica que se mantém mais estável na produção é a fábrica C, pois é a que apresenta a menor distância entre a média aritmética. Por isso, quando estudamos a variância, temos que observar que, quanto maior o resultado, maior a distância do valor em relação à média dos dados. Com isso, podemos definir, ainda, que a fábrica que se mantém menos estável é a fábrica D, pois seus valores são os maiores, e a depender do dia da semana, os valores mudam em relação à média. Vale alertarmos que, a análise da variância, muitas vezes, pode não ser suficiente, pois há valores altos e baixos demais que influenciam ou dispersam muito as informações. Nesse sentido, uma alternativa utilizada para se eliminar tal dispersão causada por essas extremidades é o cálculo por meio do desvio padrão, que estudaremos a seguir. Desvio Padrão Aqui, estudaremos outra medida de dispersão, denominada desvio padrão. O desvio padrão (s), por sua vez, representa a raiz quadrada da variância (s²) de forma positiva. Nesse sentido, essa medida reduz os erros existentes durante o cálculo da variância em relação à média. Nessa perspectiva, consideramos que um desvio é um valor x, em uma população específica, que representará a diferença em relação à média. Logo, o desvio de x = x –. Estatística Básica 38 Por esse motivo, utilizamos esta nova medida, de fácil utilidade e interpretação, denominada desvio padrão (s). Para o seu cálculo, é necessário encontrar a raiz quadrada da variância, como exposto a seguir: Vale ressaltarmos que tanto a variância como o desvio padrão são medidas consideradas de dispersão ou, comumente conhecidas por variabilidade. Assim, a utilização de cada uma delas dependerá da necessidade do usuário, lembrando de seus pontos fortes e fracos em relação aos erros que podem ser identificados. Nesse sentido, vamos dar continuidade ao exemplo citado no tópico anterior em relação à produção das fábricas. Dessa vez, determinaremos o desvio padrão de cada uma delas, lembrando que a variância de cada uma já foi identificada, como representado a seguir: Fábricas Variância (s²) Desvio padrão (s) Fábrica A s² (A) = 3 Fábrica B s² (B) = 3,5 Fábrica C s² (C) = 1,7 Fábrica D s² (D) = 4 Desse modo, a partir dessas informações definidas, utilizaremos os desvios padrão (s) em relação à média para identificarmos a confiabilidade dos valores apresentados. Com isso, precisamos entender que, para a identificação disso, precisamos encontrar: média aritmética () ± desvio padrão (s) Assim, na utilização de nosso exemplo, para identificação da média diária de produção de cada uma das fábricas, precisamos calcular da seguinte forma: Estatística Básica 39 Fábricas Média () ± Desvio padrão (s) Fábrica A A = 10,6 ± 1,73 (por dia) Fábrica B B = 9,6 ± 1,87 (por dia) Fábrica C C = 9,8 ± 1,30 (por dia) Fábrica D D = 8 ± 2 (por dia) Concluímos, então, a partir desses dados, que o desvio padrão (s) em relação à variância aproxima os valores em relação à média, visto que ele elimina os possíveis erros em relação aos valores extremos, fazendo com que os dados se tornem mais confiáveis. Ainda nessa perspectiva, segue uma tabela que o auxiliará no estudo das medidas estudadas até agora: Tabela 5 – Fórmulas Medidas Fórmula Média aritmética () Número de observações N ou n Variância (s²) Desvio padrão (s) Desvio x - Fonte: Elaborada pelos autores. Assim, vimos que a variância (s²) indica a variação dos valores e a distância destes em relação à média () encontrada. Da mesma forma, para eliminar os possíveis erros, em relação aos valores extremos que afetam a variância, o desvio padrão é utilizado como alternativa, implicando a identificação da volatilidade dos dados, oferecendo, assim que possível, mais confiança em relação aos valores. Nesse sentido, para identificação do desvio padrão, é necessário extrair a raiz quadrada da variância, desenvolvendo, assim, uma dependência de informações, em que uma dependerá da outra para ser encontrada. Estatística Básica 40 Por fim, chegamos ao final dos nossos estudos sobre as medidas de tendências na estatística, estudando que tais medidas podem ser centrais (média, mediana e moda), separatrizes (quartil, decil e percentil) e, ainda, de dispersão (variância e o desvio padrão). Todos esses conteúdos são essenciais para o desenvolvimento profissional de qualquer área, pois, como vimos durante nossos estudos, tais informações fazem parte do nosso cotidiano. RESUMINDO: E então? Você gostou do que apresentamos? Conseguiu apreender tudo? Agora, só para termos a certeza de que você realmente entendeu o tema de estudo deste capítulo, vamos resumir tudo o que vimos. Você deve ter aprendido que existem meios alternativos de determinação de medidas e que eles são caracterizados pela identificação do desvio ou pela distância de determinada variável em relação a sua média. Estudamos, então, que são duas as principais medidas consideradas de dispersão ou de variabilidade, a variância e o desvio padrão. Em primeiro lugar, descrevemos o comportamento da variância, em que, para o seu cálculo, foi necessária a identificação da média. Estudamos, ainda, que a variância é uma medida que indica quão distantes da média os valores estão, por isso, quanto maior for o valor encontrado, pior será a análise, visto que se distancia do ponto médio da variável. Da mesma forma, estudamos a medida denominada desvio padrão, que é alternativa e mais segura, pois elimina os possíveis erros que podem ser encontrados na variância. Com isso, para identificarmos o desvio padrão, calculamos a raiz quadrada da variância, assim, o cálculo de um dependerá do resultado do outro, ocasionando uma dependência de informações. Por fim, entendemos o quão importante é o estudo das medidas de dispersão no nosso cotidiano e como ele pode nosauxiliar nas interpretações e informações rotineiras. Estatística Básica 41 REFERÊNCIAS CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009. LARSON, R.; BETSY, F. Estatística aplicada. Tradução de José Fernando Pereira Gonçalves. São Paulo: Pearson Education do Brasil, 2015. Estatística Básica Adauto José Valentim Neto e Dayanna Costa Estatística Básica Média aritmética como medida de tendência central Média aritmética () Média aritmética com dados não agrupados Média aritmética com dados agrupados Outras medidas de tendência central Mediana (Md) Mediana de dados não agrupados Mediana de dados agrupados Moda (Mo) Moda de dados não agrupados Moda de sados agrupados Entender as medidas separatrizes Quartil Decil Percentil Tipos de medidas de variação ou dispersão Variância Desvio Padrão