Prévia do material em texto
1 1. Introdução A aplicação da Estatística aumentou nas últimas décadas, pois direta ou indiretamente a Estatística está presente em todos os aspectos da vida moderna, já que o estudo estatístico colabora como indicador para trabalhar com diversos produtos, possibilitando maiores estratégias na busca e no planejamento de soluções. 2. História da Estatística A Estatística de acordo com Tiboni (2010) já era observada na Antiguidade de forma simples e imprecisa, quando os governantes faziam registros de dados que consideravam importantes, tais como informações sobre suas populações e suas riquezas, tendo como objetivo fins militares ou tributários. Os governantes investigavam o número de habitantes, de nascimentos e óbitos, faziam avaliações dos bens e riquezas do povo para que cobrassem os impostos proporcionais. Em guerras, para avaliar o número de “soldados” do próprio povo ou do adversário. A partir do século XVI começaram a surgir as primeiras análises sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números relativos. A palavra Estatística provém da palavra statu, que em latim significa estado, e apareceu pela primeira vez no século XVIII, sugerida pelo alemão Godofredo Achenwall. Bernoulli define Estatística como um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos. 3. Métodos Estatísticos Com a Administração a Estatística mantém uma relação de complemento, utilizada como instrumento de pesquisa para auxiliar na tomada de decisões. A direção de uma empresa, de qualquer tipo, exige de seu administrador a importante tarefa de tomar decisões, e o conhecimento e o uso da Estatística facilitarão seu tríplice trabalho de organizar, dirigir e controlar a empresa. A Estatística fornece métodos para a coleta, organização, descrição, análise e interpretação de dados. Os resultados podem ser utilizados para planejamentos, tomadas de decisões ou formulação de soluções. A metodologia Estatística consiste em seguir alguns passos: definição dos objetivos, planejamento e elaboração da coleta de dados, classificação dos dados e apresentação dos valores numéricos, análise dos resultados, elaboração do relatório com as conclusões. Divide-se a estatística em duas áreas: - Estatística descritiva: é a parte da estatística que tem por função descrever os dados observados, ou seja, suas atribuições são: Fatec Catanduva CURSO SUPERIOR DE TECNOLOGIA EM GESTÃO EMPRESARIAL ESTATÍSTICA APLICADA A GESTÃO 2 (a) Coleta de dados: é normalmente feita através de um questionário ou de entrevistas. (b) Organização dos dados: classificar os dados, ou seja, estabelecer categorias que permitam a reunião das informações coletadas. (c) Apresentação dos dados: os dados devem ser apresentados da maneira mais clara possível, em tabelas ou gráficos. Ainda faz parte da estatística descritiva o cálculo de medidas de posição e dispersão, permitindo assim a posterior análise e interpretação dos dados. - Estatística Inferencial ou indutiva: é a parte da Estatística que tem por objetivo obter e generalizar conclusões que indiquem as vantagens e as desvantagens dos resultados obtidos. 3.1 Conceitos fundamentais População ou universo estatístico é o conjunto da totalidade de indivíduos que apresentam uma característica em comum, cujo comportamento se quer analisar. A população pode ser finita ou infinita, e pode ser constituída por pessoas, animais, minerais, vegetais, etc. Por exemplo: Pesquisa População Febre aviária Aves Acidentes de trabalho em uma empresa Funcionários da empresa Fiscalização de velocidade numa rodovia Veículos Concentração de monóxido de carbono Ar Treinamento de resistência física Atletas As vantagens de se trabalhar com a população é que o erro processual é zero e tem confiabilidade 100%, porém em grandes populações torna-se impossível colher informações de toda a população (censo), é caro, lento e quase sempre desatualizado. Amostra é qualquer subconjunto não vazio de uma população. Embora a amostra seja constituída por uma parte da população em estudo, a amostra deve permitir a obtenção de dados representativos da população. Como exemplo pode-se citar: para verificar a quantidade de minerais existentes na água de uma fonte, retira-se uma pequena quantidade de água para a análise; a pesquisa de intenção de voto, durante o período que antecede a eleição é feita com uma parte dos eleitores. As vantagens de se trabalhar com amostras é que a pesquisa é mais barata, mais rápida, atualizada, sempre viável, porém tem erro processual positivo e confiabilidade menor que 100% Propriedades Principais da População: - Admite erro processual zero e tem confiabilidade 100%. - É caro. - É lento. - É quase sempre desatualizado. - Nem sempre é viável. Propriedades Principais da amostra - Admite erro processual positivo e tem confiabilidade menor que 100%. - É barata. - É rápida. - É atualizada. - É sempre viável. 3 3.2 Classificação das variáveis Variáveis são características que podem ser observadas (ou medidas) em cada elemento da população, ou, ainda, é um conjunto de resultados possíveis de um fenômeno. Na população caracterizada pelos funcionários de uma empresa, podemos definir variáveis como: tempo de serviço, idade, estado civil, sexo, etc. As variáveis podem ser classificadas em: qualitativas: quando expressa uma qualidade ou atributo. Exemplos: sexo, cor da pele, estado civil, cidade natal, fruta preferida, etc. quantitativas: quando os valores são expressos por números: Exemplos: idade, salários, notas de avaliação, comprimentos, etc. As variáveis quantitativas podem ser: - Quantitativa contínua: assume inúmeros valores numéricos entre dois limites, ou seja, pode assumir valores decimais. Exemplos: tempo de espera em fila de banco, peso, salário, estatura, - Quantitativa discreta: assume apenas valores inteiros. Exemplos: número de filhos, número de peças fabricadas. 3.3 Números aproximados e arredondamento de dados De acordo com a ABNT as regras são: (a) quando o primeiro algarismo a ser abandonado no arredondamento é menor que 5, fica inalterado o último algarismo a permanecer. (b) quando o primeiro algarismo a ser abandonado no arredondamento é maior que 5 aumenta-se uma unidade ao último algarismo a permanecer. (c) quando o primeiro algarismo a ser abandonado no arredondamento é 5, temos dois critérios: se após o algarismo 5 seguir em qualquer casa um número diferente de 0 aumenta-se em uma unidade o n; Exemplos: 237,85001 ficará 237,9; 5,5256 ficará 5,53. Agora se após o algarismo 5 não seguir (em qualquer casa) um número diferente de zero, ao algarismo que antecede o 5 será acrescentada uma unidade, se for ímpar, e permanecerá como está se for par. Exemplos: 247,235 ficará 247,24; 1349,85 ficará 1349,8; 12,1250 ficará 12,12. O Excel e as calculadoras científicas não fazem uso do item (c), nestes casos se o primeiro algarismo a ser abandonado for o 5, o arredondamento será feito com o aumento de uma unidade ao algarismo que antecede o 5. Exercícios: 1. Em cada item estabeleça a variável e classifique em qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua). a) cidade natal dos funcionários de um escritório. b) número de acidentes ocorridos durante o ano. c) número de casamentos entre pessoas que se conheceram pela internet. d) grau de instrução dos funcion 4 3.4 Técnicas de amostragem Existem técnicas adequadas para recolher amostras, de forma a garantir (tanto quanto possível) a representatividade da população e também o sucesso da pesquisa e dos resultados. Devemos estabelecer um número mínimo de elementospara compor a amostra. O tamanho da amostra não segue nenhuma regra fixa, sendo assim, para populações de tamanho relativamente pequeno ou médio, sugere-se que o tamanho da amostra não seja menor que 10% do total da população. 3.4.1 Amostragem casual simples ou aleatória simples Neste tipo de amostragem todos os elementos da população estão disponíveis para serem avaliados na a amostra. A seleção ocorre por meio de sorteio (manual ou eletrônico). 3.4.2 Amostragem proporcional estratificada A amostragem proporcional estratificada considera a população dividida em estratos, em que cada estrato abrange um subconjunto da população que reúne características comuns entre seus elementos. Considera também que o número de elementos extraídos de cada estrato deve ser proporcional aos respectivos estratos. Exemplo 1: Uma empresa de telemarketing conta com 480 funcionários, dos quais 288 são do sexo feminino e os 192 restantes do sexo masculino. Considerando a variável “sexo” para estratificar essa população, foi selecionada uma amostra proporcional estratificada de 50 funcionários. Calcule quantos funcionários do sexo masculino e quantos do sexo feminino deverão compor a amostra. Exemplo 2: Com o objetivo de levantar o estilo de comunicação ideal preferido pelos colaboradores de uma indústria alimentícia, realiza-se o levantamento por amostragem. A população é composta por 200 chefes de seção, 4.400 operários especializados e 1.200 operários não especializados. Obtenha uma amostra com 5% dos colaboradores da indústria, mantendo as mesmas relações de proporcionalidade em cada estrato. 3.4.3. Amostragem sistemática Este método é um procedimento para a amostragem aleatória, utilizado quando os elementos da população já se acham ordenados. Exemplos: as casas e prédios de uma rua, os funcionários de uma empresa, listas dos alunos, etc. Exercícios: 1. Numa indústria, há 650 operários. Qual o tamanho de uma amostra aleatória que represente 10% da população? 2. Dada uma população de 40 pessoas, qual o tipo de amostra que podemos utilizar para obter uma amostra de 6 pessoas. 5 3. Numa linha de produção onde a população se apresentam ordenados, para retirarmos uma amostra, qual tipo de amostra devemos escolher? 4. Uma loja de móveis fez uma pesquisa de opinião com seus clientes cadastrados. Determinada questão sobre a qualidade de atendimento deveria ser respondida mediante a utilização das opções: ótimo, bom, regular, ruim e péssimo. Por meio de uma amostragem proporcional estratificada, alguns clientes foram selecionados para justificar a respectiva opção. Complete a tabela abaixo. Tabela: Pesquisa de opinião Opções de resposta Número de respostas por opção Amostra Ótimo 900 Bom 42 Regular 550 22 Ruim 350 Péssimo Total 117 3.5 Tabelas e Séries Estatísticas As tabelas são recursos utilizados pela estatística, com o objetivo de organizar e facilitar a visualização e comparação dos dados. Toda tabela deverá conter um título (explicando o que a tabela contém), cabeçalhos, dados e rodapé (quando houver a fonte). As tabelas que apresentam um conjunto de dados estatísticos distribuídos em função da época, do local ou da espécie são chamadas de série estatística. 3.6 Distribuição de Frequência Dados brutos é uma sequência de valores numéricos não organizados, obtidos diretamente da observação de um fenômeno coletivo. Notação: X é a característica observada no fenômeno coletivo: x1 é o valor da característica obtido na primeira observação do fenômeno coletivo; x2 é o valor da característica obtido na segunda observação do fenômeno coletivo e assim sucessivamente. Rol é uma sequência ordenada (crescente ou decrescente) dos dados brutos. Em geral uma distribuição de frequências é formada pelos valores da variável que estamos estudando (𝑥𝑖) e pela frequência absoluta (ou simples). Também podemos ter as frequências relativas (𝑓𝑟𝑖), freqüência acumulada (𝑓𝑎𝑐𝑖) e a freqüência acumulada relativa (𝑓𝑎𝑐𝑟𝑖), conforme tabela abaixo: Tabela: Exemplo de distribuição de frequências 𝑥𝑖 𝑓𝑖 𝑓𝑟𝑖(%) 𝑓𝑎𝑐𝑖 𝑓𝑎𝑐𝑟𝑖 (%) 18 15 19 10 21 2 23 3 Total 𝑛 = ∑ 𝑥𝑖 = 30 6 Exemplo 3: Uma empresa de publicidade realizou uma pesquisa sobre o estado civil dos compradores de alimentos congelados de um determinado supermercado, assumindo assim as categorias: solteiro, casado, viúvo e separado. Foram encontradas as respostas constantes na tabela abaixo: Solteiro Separado Casado Casado Separado Solteiro Casado Viúvo Casado Separado Solteiro Casado Viúvo Solteiro Casado Separado Solteiro Casado Separado Separado Casado Casado Solteiro Casado Viúvo Casado Solteiro Casado Separado Solteiro Separado Solteiro Separado Casado Casado Solteiro Separado Casado Separado Solteiro Casado Separado Casado Separado Casado Separado Solteiro Casado Separado Separado Casado Separado Casado Viúvo Solteiro Casado a) Classifique a variável. b) Qual o número de dados da pesquisa? c) Elabore uma distribuição de frequência referente aos dados coletados na pesquisa, inclua todos os tipos de frequências na distribuição. Exercícios: 1. Uma indústria embala peças em caixas com 100 unidades. O controle de qualidade selecionou 48 caixas na linha de produção e anotou em cada caixa o número de peças defeituosas. Obteve os seguintes dados: 2 0 0 3 3 0 0 1 0 0 0 0 1 2 0 0 1 1 2 1 1 1 1 1 1 0 0 0 0 0 2 0 0 0 3 0 0 0 0 0 0 0 1 2 0 0 0 1 (a) Construa uma distribuição de frequências com todas as frequências. (b) Interprete a terceira linha da tabela do item (a). 2.Com o objetivo de regulamentar a configuração interna de aviões de transporte de passageiros, para especificar a distância entre encosto e assente, e a largura das poltronas das aeronaves, uma empresa realizou um levantamento das estaturas dos passageiros, através de uma amostra composta por um grupo de passageiros, sendo os resultados apresentados na tabela abaixo. Construir a distribuição de frequências e porcentagens. Estaturas (em cm) Número de passageiros (fi) 150 |- 157 7 157 |- 164 16 164 |- 171 25 171 |- 178 26 178 |- 185 20 185 |- 192 5 192 |- 199 1 TOTAL 7 3.7 Distribuição de frequência para a variável contínua (distribuição de frequências com intervalo de classe) Podemos usar as variáveis discretas na representação de uma série de valores quantitativos quando o número de dados distintos da série for pequeno, caso contrário é preferível usar variáveis contínuas. Para a construção desse tipo de tabela de distribuição de frequências, é conveniente dar as seguintes definições: Amplitude amostral: é a diferença entre o maior e o menor elemento de uma série. 𝐴𝐴 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 Intervalo de classe: é qualquer subdivisão da amplitude total de uma série estatística. Utilizaremos sempre intervalos semi-abertos à direita ( |- ). Limites de classe: são os valores de máximo e mínimo de cada classe, representados por Li e li respectivamente. Número de classes: sejam k o número aproximado (sempre inteiro) de classes e n o número de elementos da série, assim: 𝐂𝐫𝐢𝐭é𝐫𝐢𝐨 𝐝𝐚 𝐑𝐚𝐢𝐳 𝑘 = √𝑛 𝐅ó𝐫𝐦𝐮𝐥𝐚 𝐝𝐞 𝐒𝐭𝐮𝐫𝐠𝐞𝐬: 𝑘 = 1 + 3,3𝑙𝑜𝑔𝑛 𝑜𝑢 𝑘 = 1 + 3,3 ln 𝑛 ln 10 Observação: para 𝑛 ≤ 70 as duas fórmulas são equivalentes. Neste caso é preferível usar o critério da raiz pela simplicidade. Caso contrário, a fórmula de Sturges dá uma melhor aproximação para o número de classes. Quanto maior o valor de n maior é a diferença entre as fórmulas. Por exemplo, para n = 1000 o critério da raiz fornece 𝑘 ≅ 32 classes, enquanto que a fórmula de Sturges sugere 𝑘 ≅ 11 classes. Geralmente usamosestes critérios para dar uma boa aproximação para o número de classes. O resto é feito pelo bom senso e experiência. Amplitude do intervalo de classe: é a diferença entre os limites de classes, ou o quociente entre a amplitude amostral e o número de classes: ℎ = 𝐴𝐴 𝑘 Observação: o valor obtido no cálculo da amplitude de classe nem sempre é um valor exato, sendo assim, para preservar o número de classes estabelecido, faz-se o arredondamento da amplitude de classe para valores (coerentes e convenientes) acima do valor obtido. 8 Exemplos 4: Com o objetivo de elaborar um relatório, o gerente de produção realizou o levantamento dos salários de todos os operários da linha de produção da empresa. Os dados estão registrados na tabela abaixo: 950 960 980 980 990 1000 1020 1050 1060 1060 1070 1079 1080 1080 1110 1200 1255 1269 1280 1298 1300 1330 1333 1339 1340 1390 1398 1410 1430 1450 1460 1470 1500 1550 1560 1590 1600 1640 1690 1700 1710 1720 1730 1750 1755 1790 1800 1820 1840 1855 a) Identifique a variável em estudo. b) Construa uma distribuição de frequência com intervalo de classe referente aos dados coletados na pesquisa. Inclua todos os tipos de frequência (sugestão h=130). c) Interprete a terceira linha da tabela. Exercícios: 1. Um banco selecionou ao acaso 25 contas de pessoas jurídicas em uma agência, em determinado dia, obtendo os seguintes saldos: R$ 3.250,00 R$ 6.830,00 R$ 7.800,00 R$ 12.521,00 R$ 13.123,00 R$ 13.250,00 R$ 14.751,00 R$ 16.830,00 R$ 17.023,00 R$ 17.603,00 R$ 18.600,00 R$ 20.320,00 R$ 21.133,00 R$ 23.000,00 R$ 23.250,00 R$ 25.600,00 R$ 31.350,00 R$ 33.000,00 R$ 33.250,00 R$ 35.300,00 R$ 37.452,00 R$ 39.610,00 R$ 43.150,00 R$ 48.000,00 R$ 53.240.00 a) Resuma os dados acima, construindo uma tabela de distribuição de frequências e porcentagens (sugestão h = 10000). b) Interprete os dados da terceira linha da tabela construída. 2. Complete o quadro abaixo: 𝑥𝑖 𝑓𝑖 𝑓𝑟𝑖(%) 𝑓𝑎𝑐𝑖 𝑓𝑎𝑐𝑟𝑖 (%) 100 |- 200 1 200 |- 300 25% 300 |- 400 14 400 |- 500 90% 500 |- 600 2 Total 3. Uma distribuidora anotou o número de unidades vendidas para cada um dos seus representantes no mês de janeiro. Sendo apresentado a seguir: 61 65 71 77 78 79 80 81 83 85 89 90 90 91 94 95 96 97 98 99 99 100 100 101 101 105 107 107 108 108 108 109 109 110 110 111 114 114 115 116 116 116 117 117 118 118 118 119 119 119 120 120 120 121 121 122 123 124 125 126 126 127 128 128 129 129 129 130 133 139 a) Quantos representantes a empresa possui. b) Construa uma tabela de frequências e porcentagens (sugestão h = 10). 9 4. Medidas de Posição central ou Medidas de Tendência Central A análise dos dados coletados pode ser feita sob diferentes aspectos, em que cada foco verifica um tipo de informação a respeito do comportamento ou Medidas de posição central preocupam-se com a caracterização e a definição do centro dos dados. Podem ser apresentadas sob diferentes tipos, como a média, a mediana ou a moda. É um valor intermediário da série, ou seja, um valor compreendido entre o menor e o maior valor da série. É também um valor em torno do qual os elementos da série são distribuídos e a posiciona em relação ao eixo horizontal. Em resumo, a medida posição central procura estabelecer um número no eixo horizontal em torno do qual a série se concentra. 4.1. Médias A média é, provavelmente, a mais usual medida empregada em estatística. Corresponde a um valor representativo do centro geométrico de um conjunto de dados. Apresenta a importante característica de ser sensível aos valores discrepantes do conjunto de dados. 4.1.1 Média aritmética simples para dados não agrupados Usualmente denominamos apenas média. Dado um conjunto de dados 𝑥1, 𝑥2, … , 𝑥𝑛 a média será calculada da seguinte maneira: �̅� = ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 Exemplo 5. Um corretor vende apólices de seguro de pessoas (seguros de vida). O número de apólices vendidas mensalmente no último ano estão registrados na tabela abaixo: Jan. Fev. Mar. Abr. Maio Jun. Jul. Ago. Set. Out. Nov. Dez. 16 12 26 29 20 24 13 32 24 15 25 16 Calcule a média mensal de apólices vendidas durante o ano. Exemplo 6: Calcular a média dos dados amostrais X: 1, 5, 6, 8. E verifique as propriedades. Algumas propriedades da média: Propriedade 1: a soma dos desvios calculados de um conjunto de números em relação à média aritmética da distribuição é zero. ix desviomédiaxi 1 5 6 8 Soma 10 Propriedade 2: ao somar ou subtrair uma constante a todos ou de todos os valores de uma série de dados, a média também será somada ou subtraída dessa mesma constante. ix 2ix 2ix 1 5 6 8 Soma = 20 n = 4 Média = 5 Propriedade 3: ao multiplicar ou dividir por uma constante todos os valores da série, a média também será multiplicada ou dividida por esse mesmo valor. ix 2*ix 2ix 1 5 6 8 Soma = 20 n = 4 Média = 5 4.1.2 Média ponderada para dados agrupados sem intervalos de classe Para uma sequência numérica 𝑋: 𝑥1, 𝑥2. 𝑥3, … . , 𝑥𝑛 afetados de frequências 𝑓1, 𝑓2, … , 𝑓2, a média ponderada, que designaremos por�̅�, é definida por: �̅� = ∑ 𝑥𝑖𝑓𝑖 𝑛 𝑖=1 𝑛 Exemplo 7: Se X: 2, 4, 5, com pesos 1, 3, 2 respectivamente, determinar a média. Exemplo 8: Uma faculdade coletou os seguintes dados referentes às idades de seus alunos, apresentadas na tabela. Determine a idade média dos alunos. ixIdade : 𝑓𝑖 17 1 18 11 19 8 20 7 21 10 22 2 23 1 Total 40 11 4.1.3 Média ponderada para dados agrupados com intervalos de classe Usamos o ponto médio da classe para representá-la. Assim, para dados agrupados com intervalo de classe, a média resulta da ponderação dos pontos médios pelas frequências. �̅� = ∑ 𝑥𝑖𝑓𝑖 𝑛 𝑖=1 𝑛 Exemplo 9: Com o objetivo de regulamentar a configuração interna de aviões de transporte de passageiros, para especificar a distância entre encosto e assente, e a largura das poltronas das aeronaves, uma empresa realizou um levantamento das estaturas dos passageiros, através de uma amostra composta por um grupo de passageiros, sendo os resultados apresentados na tabela abaixo: Distribuição das estaturas Estaturas (em cm) Número de passageiros (fi) 150 |- 157 7 157 |- 164 19 164 |- 171 25 171 |- 178 26 178 |- 185 21 185 |- 192 8 192 |- 199 3 Total (a) qual a estatura média dos passageiros? (b) qual a porcentagem de passageiros com altura menor que 164 cm? (c) qual a porcentagem de passageiros com altura maior ou igual a 164 cm? (d) qual a porcentagem com altura maior ou igual a 171 cm e menor que 192 cm? 12 Exercícios 1. A evolução da taxa média mensal de juros ao consumidor está registrada no gráfico abaixo. Com base nesses valores calcule a média aritmética dos juros nesse período. 2. Na equipe de vôlei de um clube, 8% dos atletas tem altura 1,75 m, 26% tem altura 1,80m, 30% tem altura 1,85 m, 20% tem altura um 1,90m, 12% tem altura 1,95m e 4% tem altura 2 m. Calcule a média de altura do time. 3. Foi realizada uma pesquisa em 50 residências da cidade de São Paulo com o objetivo de saber qual o número de computadores em cada casa. A tabela abaixo representa o resultado da pesquisa. Calcule a média ponderada do número de computadores por residência. Computadores por residência na cidade de São Paulo Número de computadores Número de residências 0 4 1 19 2 16 3 9 4 2 Total n = 50 4. A seguradora Leal forte S.A. verifica em determinado produtoquais são os segurados que estão com parcelas atrasadas. O contrato estabelece a cobrança de multa para os pagamentos em atraso. A figura abaixo registra o número de clientes versus o número de meses em atraso. Qual a média de meses de parcelas em atraso? 7,28 7,25 7,25 7,21 7,23 7,18 7,23 7,25 7,28 7,25 7,29 7,33 7,35 Jul. Ago. Set. Out. Nov. Dez. Jan. Fev. Mar. Abr. Maio Jun. Jul. Taxa média mensal dos juros ao consumidor por um ano de Julho a Julho 12 16 21 15 13 10 0 5 10 15 20 25 1 2 3 4 5 6 Número de meses Atraso nos pagamentos Numero de clientes 13 5. Numa indústria têxtil temos: 15 operários com salários de R$ 800,00 25 com salário de R$ 1.200,00, 12 com salário de R$ 1.600,00 e 4 com salário de R$ 1.800,00. Qual a média salarial dessa empresa? 4.2. Mediana É um valor real que separa o rol em duas partes deixando metade à sua esquerda e a outra metade a sua direita. Portanto, a mediana é um valor que ocupa a posição central em uma série. Notação: A mediana será denotada por 𝑀𝑑. 4.2.1 Mediana para dados não agrupados Inicialmente devemos ordenar os elementos caso sejam dados brutos, obtendo o Rol. Se n é ímpar – O Rol admite apenas um termo central que ocupa a posição 𝑛+1 2 . O valor do elemento que ocupa esta posição é a mediana. Se n é par – Neste caso, o rol admite dois termos centrais que ocupam as posições 𝑛 2 𝑒 𝑛 2 + 1. A medida é convencionada como sendo a média dos valores que ocupam estas posições centrais. Exemplo 10: Um corretor vende apólices de seguro de pessoas (seguros de vida). O número de apólices vendidas mensalmente no último ano estão registrados na tabela abaixo: Jan. Fev. Mar. Abr. Maio Jun. Jul. Ago. Set. Out. Nov. Dez. Jan. 16 12 26 29 20 24 13 32 24 15 25 16 17 Calcule a mediana mensal de apólices vendidas durante o período. Exemplo 11: Um corretor vende apólices de seguro de pessoas (seguros de vida). O número de apólices vendidas mensalmente no último ano estão registrados na tabela abaixo: Jan. Fev. Mar. Abr. Maio Jun. Jul. Ago. Set. Out. Nov. Dez. 16 12 26 29 20 24 13 32 24 15 25 16 Calcule a mediana mensal de apólices vendidas durante o ano. 4.2.2 Mediana para dados agrupados sem intervalo de classe O cálculo da mediana para dados agrupados é feito de forma similar àquela empregada para dados não agrupados. Porém, neste caso, é aconselhável utilizar a tabela de frequências acumuladas, o que facilita o trabalho. A mediana corresponde ao valor que divide a série ordenada em duas partes iguais, deixando as mesmas quantidades de elementos acima e abaixo da mediana. Quando a tabela apresenta a frequência acumulada, basta localizar o elemento cuja frequência acumulada superar pela primeira vez 50% do número de elementos analisados. 14 Exemplo 12: Uma faculdade coletou os seguintes dados referentes às idades de seus alunos, apresentadas na tabela. Determine a idade mediana dos alunos. ixIdade : 𝑓𝑖 17 1 18 11 19 8 20 7 21 10 22 2 23 1 Total 40 4.2.3 Cálculo da Mediana para dados agrupados com intervalo de classe Na determinação da mediana com dados agrupados em intervalos de classe devem-se executar os seguintes passos: Passo 1: Calcular a posição da mediana, ou seja, calcular 𝑛 2 . Passo 2: Localizar a classe mediana. Sabendo o valor do passo 1, observar na coluna da frequência acumulada o número maior ou igual a esse valor. A classe correspondente será a classe mediana. Passo 3: determinar a mediana através da fórmula: 𝑀𝑑 = 𝑙∗ + ℎ∗ 𝑓∗ [ 𝑛 2 − 𝑓𝑎𝑐𝑎𝑛𝑡] 𝑙∗ - limite inferior da classe mediana. n - número de elementos da série. 𝑓𝑎𝑐𝑎𝑛𝑡. - Freqüência acumulada da classe anterior à classe mediana. ℎ∗- amplitude do intervalo de classe. 𝑓∗- freqüência simples da classe mediana. De modo geral, todas as medidas calculadas para variável contínua serão valores aproximados para estas medidas, uma vez que ao agruparmos os dados segundo uma variável, há perda de informações quanto a identidade dos dados. Exemplo 13: Considerando a distribuição de frequência abaixo, determine a mediana da distribuição. Variável X FREQÜÊNCIA 50 |- 100 5 100 |- 150 10 150 |- 200 10 200 |- 250 10 250 |- 300 5 15 Exemplo 14: Considerando a distribuição de frequência abaixo, determine a mediana da distribuição. Variável X FREQÜÊNCIA 1000 |- 2000 5 2000 |- 3000 20 3000 |- 4000 50 4000 |- 5000 20 5000 |- 6000 5 4.3 Moda É o valor de mais frequência em um conjunto de dados. Notação: A moda será denotada por 𝑀𝑜. 4.3.1 Moda para dados não agrupados e agrupados sem intervalo de classe Exemplo 15: Calcular a moda dos dados amostrais X: 1, 3, 5, 5, 6, 7, 8, 9, 10. Neste caso a moda será o valor 5, e é dita modal. Exemplo 16: Calcular a moda dos dados amostrais X: 1, 3, 5, 6, 6, 6, 7, 7, 7, 8, 9, 10, 10. Neste caso a moda será Mo1 = 6 e Mo2 = 7. Exemplo 17: Uma faculdade coletou os seguintes dados referentes às idades de seus alunos, apresentadas na tabela. Determine a moda dos alunos. ix 𝑓𝑖 17 1 18 11 19 8 20 7 21 10 22 2 23 1 Total 40 Neste caso a moda será o elemento xi que tiver maior fi, logo Mo = 18. 4.3.2 Cálculo da Moda para dados agrupados com intervalo de classe Quando os dados estão agrupados com intervalos de classe a moda será calculada pela fórmula de Czuber. Primeiro passo é determinar a classe modal, ou seja, a classe que contém o maior valor de frequência. Segundo passo é calcular a moda através da fórmula: Fórmula de Czuber para moda: 𝑴𝒐 = 𝒍∗ + ( 𝒅𝟏 𝒅𝟏+𝒅𝟐 ) . 𝒉∗ , onde 16 𝑙∗ - limite inferior da classe modal. 1d - diferença entre a frequência da classe modal e a frequência da classe imediatamente anterior. 2d - diferença entre a frequência da classe modal e a frequência da classe imediatamente posterior. ℎ∗ - amplitude do intervalo de classe modal. 4.4 Utilização das Medidas de Tendência Central Na maioria das situações, não necessitamos calcular as três medidas de tendência central. Normalmente precisamos de apenas uma das medidas para caracterizar o centro da série. Surge, então, a questão: qual a medida deve ser utilizada? A medida ideal em cada caso é aquela que melhor representa a maioria dos dados da série. Quando todos os dados de uma série estatística são iguais, a média, a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas representará bem a série. No entanto, este caso dificilmente ocorrerá na prática. Na maioria das vezes, teremos valores diferenciados para a série e consequentemente a medida irá representar bem, apenas os dados da série que situam próximos a este valor. Os dados muito afastados em relação ao valor da medida não serão bem representados por ela. Se uma série apresenta forte concentração de dados em sua área central, a média, a mediana e a moda ficam também situadas em sua área central representando bem a série. Como a mais conhecida é a média, optamos por esta medida de tendência central. Concluindo, devemos optar pela média, quando houver forte concentração de dados na área central da série. Se uma série representa forte concentração de dados em seu início, a mediana e a moda estarão posicionadas mais no início da série, representando bem esta concentração. A média que é fortemente afetada por alguns valores posicionados no final da série se deslocara para a direita desta concentração não a representando bem. Como a mais conhecida entre a mediana e moda é a mediana, esta será a medida indicada neste caso. A mesma situação ocorre se a série apresenta forte concentração de dados em seu final. Concluindo, devemos optar pela mediana, quando houver forte concentração de dados no inícioou no final da série. A moda deve ser a opção como medida de tendência central apenas em séries que apresentam um elemento típico, isto é, um valor cuja frequência é muito superior à frequência dos outros elementos da série. Exemplo 18: Consideremos a amostra abaixo, representando a venda diária de uma determinada pizza durante 10 dias, determine a média e a mediana. Qual das duas medidas representa melhor a amostra: 10, 12, 13, 150, 170, 14, 12, 11,10,10. A média será de 41,2 pizzas, porém a mediana será 12 o que representa melhor o conjunto de dados. 17 EXERCÍCIOS 1. Determine a média, mediana e moda das séries: a) X: 1, 2, 8, 10, 12, 12, 16, 21, 30 b) Y: 5, 6, 6, 10, 11, 11, 20 c) Z: 3,4; 7,8; 9,23; 12,15. 2. Um sorveteiro vendeu, nas quatro últimas semanas, 1500, 1300, 1100, e 1800 picolés. Qual é a média, mediana e a moda do conjunto de dados? 3. Considerando a amostra abaixo que representa o saldo de 25 contas de pessoas físicas em uma agência em determinado dia, determine a média e a mediana dos funcionários. Saldos em R$ Número de funcionário 0 |- 5.000 5 5.000 |- 10.000 10 10.000 |- 15.000 8 15.000 |- 20.000 2 TOTAL 25 4. A seguir, apresentamos na tabela a venda diária de uma determinada pizza durante 30 dias. Determine a mediana de vendas? Quantidade Vendida Nº de dias 15 2 18 13 19 10 23 5 Total 30 5. O gerente de produção de uma fábrica quer aumentar a produção de peças para 16500 unidades por mês. O registro da produção diária em uma semana de 5 dias trabalhados foi: 690, 730, 718, 677,710. Tomando-se como base a média diária dessa semana, e que o mês tenha 22 dias trabalhados, o objetivo será alcançado? 6. A redução do número de filhos por família está obrigando segmentos que atendem à classe média, como as escolas particulares, a readaptarem suas atividades para evitar prejuízos. Sendo assim, uma escola pesquisou o número de filhos por família, no bairro Vila Junqueira, conforme consta na tabela abaixo, numa amostra composta por 280 famílias. Responda: Distribuição do número de filhos por família Número de filhos por família (xi) Famílias do bairro de Vila Junqueira (fi) 0 26 1 85 2 130 3 31 4 8 Total 18 a) qual o número médio de filhos por família? b) qual a moda? c) qual a mediana? d) qual o percentual de famílias sem filho? e) qual o percentual de famílias com mais de 2 filhos? f) qual o percentual de famílias com 1 ou 2 filhos? 7. O consumo de energia elétrica verificado em 250 residências de famílias da classe média, com dois filhos, revelou a distribuição abaixo. Determine a média e a mediana da distribuição. Consumo Kwh Número de famílias 0 |- 50 2 50 |- 100 15 100 |- 150 32 150 |- 200 47 200 |- 250 50 250 |- 300 80 300 |- 350 24 Total 8. O departamento de recursos humanos de uma empresa, tendo em vista o aumento de produtividade de seus vendedores, resolveu, premiar com um aumento de 5% no salário, a metade de seus vendedores mais eficientes. Para isso, fez um levantamento de vendas semanais, por vendedor, obtendo a tabela: Vendas Número de vendedores 0 |- 10.000 1 10.000 |- 20.000 12 20.000 |- 30.000 27 30.000 |- 40.000 31 40.000 |- 50.000 10 Total A partir de qual volume de vendas o vendedor será premiado? 5 Gráficos de informações Os gráficos processam as mesmas informações das tabelas, porém produzem comunicação visual mais rápida, permitindo melhor compreensão das principais características dos dados. Os gráficos estatísticos fazem correspondência entre elementos de uma série estatística e uma figura geométrica, de tal modo que haja proporcionalidade nessa representação. Os principais tipos de gráficos são: os diagramas, gráfico polar ou radar, cartogramas e pictogramas. 5.1 Diagramas Os diagramas são gráficos de representação geométrica num universo de duas dimensões. Em geral, utiliza-se o sistema cartesiano para a construção gráfica. Os tipos de gráficos em diagramas são: linhas (ou curvas), colunas ou barras, colunas (ou barras) múltiplas e setores (ou pizza). 19 a) Gráficos em linhas ou em curvas Os gráficos em linha ou em curva são elaborados no espaço cartesiano e utilizam um par de eixo ortogonais, que recebem o nome dos eixos coordenados. Sendo que o eixo das abscissas (eixo x) corresponde ao eixo coordenado horizontal e o eixo das ordenadas (eixo y) corresponde ao eixo coordenado vertical. O gráfico de linha é utilizado para demonstrar uma sequência numérica de um certo dado ao longo do tempo. É indicado para demonstrar evoluções (ou regressões) que ocorrem em sequência para que o comportamento dos fenômenos e suas transformações seja observado. Exemplo 19: Distribuição residencial da população brasileira em um exemplo de gráfico em linhas b) Gráfico em colunas e gráfico em barras Nos gráficos em colunas ou em barras, são feitas correspondências entre elementos de uma série estatística e a figura geométrica de um retângulo, de tal modo que haja proporcionalidade na representação. Os Gráficos de coluna, juntamente aos gráficos em barra, são os mais utilizados. Indicam, geralmente, um dado quantitativo sobre diferentes variáveis, lugares ou setores e não dependem de proporções. Os dados são indicados na posição vertical, enquanto as divisões qualitativas apresentam-se na posição horizontal. Exemplos 20: Gráfico em colunas apontando as maiores populações do mundo por país 20 Os Gráficos em barra, possuem basicamente a mesma função dos gráficos em colunas, com os dados na posição horizontal e as informações e divisões na posição vertical. Exemplo 21: Gráfico em barras indicando a taxa de mortalidade infantil no Brasil c) Gráfico em colunas (barras, linhas) múltiplas É a representação simultânea de dois ou mais fenômenos num mesmo gráfico. Essa simultaneidade tem por objetivo permitir a comparação entre os fenômenos estudados. Exemplo 22: 1. O gráfico abaixo indica o número de roubos e furtos de veículos no Estado de São Paulo. Fonte: Folha de São Paulo, 27 de Janeiro de 2014. 21 2. O gráfico abaixo mostra que o crescimento anual do consumo de energia do setor comercial á maior que a média em 2013, o que vem justificar o pico de energia para o meio da tarde (entre 14h30min e 15h30min). Exemplo 23: Fonte: Folha de São Paulo, 27 de Janeiro de 2014. d) Gráfico de setores (ou pizza) O gráfico de setores não deve ser aplicado se houver muitos setores. O total é representado por um círculo todo, cada subconjunto é representado por um setor, de tal modo que haja proporcionalidade nessa representação. A representação da área de cada setor é obtida por uma regra de três simples. O círculo corresponde ao ângulo de 360º e é associado ao valor total, um ângulo Xº corresponde a um subconjunto do total (um dos dados). Os Gráficos em pizza, são também muito utilizados e indicado para expressar uma relação de proporcionalidade, em que todos os dados somados compõem o todo de um dado aspecto da realidade. 22 Exemplo 24: Gráfico em pizza com a distribuição da água e da água doce no mundo Semelhantes aos gráficos de pizza, existem os gráficos circulares. A lógica é a mesma, a divisão de uma esfera em várias partes para indicar as diferentes partes de um todo em termos proporcionais. e) Gráfico de áreas É semelhante ao gráfico em linhas, diferenciando-se apenas por evidenciar uma noção de proporção sobre o todo. É também usado para apontar a relação dos diferentes dados entre si. Exemplo 25: Gráfico ilustrativo sobre as taxas populacionais em casos de transição demográfica 23 A Estatística utiliza esse tipo de gráfico para representaros dados diretamente sobre o desenho de uma área geográfica. O impacto visual ajuda na compreensão da informação associada ao local. 5.2 Representação gráfica das distribuições de frequências Pode ser feita de três formas: a) Histogramas O histograma é um diagrama de colunas em que cada retângulo está relacionado com uma classe da distribuição de frequência. A principal diferença do diagrama de colunas é que no histograma não há distanciamento entre as colunas. Exemplo 26: b) Polígono de frequência O polígono de frequência é obtido unindo por linhas retas os pontos médios das bases superiores dos retângulos do histograma. Exemplo 27: 8 16 42 30 21 12 8 3 0 5 10 15 20 25 30 35 40 45 6 |- 8 8 |- 10 10 |-12 12 |- 14 14 |- 16 16 |- 18 18 |- 20 20 |- 22 F r e q u ê n c i a Intervalos Histograma 0 8 16 42 30 21 12 8 3 0 0 5 10 15 20 25 30 35 40 45 5 7 9 11 13 15 17 19 21 23 Fr e q u ê n ci a Ponto médio dos intervalos Polígono de frequência 24 c) Polígono de frequência acumulada O polígono de frequência acumulada ou Ogiva de Galton é obtido marcando no eixo das abscissas os pontos médios dos intervalos de classe e no eixo das ordenadas a frequência acumulada. Exemplo 28: Exercício 1. A prefeitura de determinado município realizou uma pesquisa entre as empresas da região para verificar o número de operários alocados por empresa. O objetivo é verificar se há equilíbrio entre o crescimento do número de empresas e o aumento do número de posto de trabalho. Os dados coletados constam na tabela a seguir: Número de empregados por empresa Número de empregados Número de empresas (fi) 20 |- 80 12 80 |- 140 39 140 |- 200 47 200 |- 260 31 260 |- 320 25 320 |- 380 17 380 |- 440 8 Total 179 a) Construa um histograma e o polígono de frequência. b) Construa o polígono da frequência acumulada. 8 24 66 96 117 129 137 140 0 20 40 60 80 100 120 140 160 7 9 11 13 15 17 19 21 Fr e q u ê n ci a A cu m u la d a Pontos médios dos intervalos Ogiva de Galton ou Polígono de frequência Acumulada 25 6. Medidas de dispersão ou de variabilidade 6.1. Desvio em relação à média (DMA) O desvio em relação à média é a diferença entre cada elemento de um conjunto de valores e a média aritmética. O desvio é denotado por di. Em símbolos temos que: xxd ii No exemplo da produção diária de leite pela vaca Mimosa temos que: 01414 41418 21416 21412 21412 11415 31411 77 6655 4433 2211 xxd xxdxxd xxdxxd xxdxxd Note que a soma dos desvios positivos ( 2 + 1 + 4 = 7) é igual a soma dos desvios negativos, desprezando o sinal ( - 3 – 2 – 2 = - 7 ). O que faz sentido já que o valor encontrado como média ( x ) representa o conjunto de dados. Propriedade: A soma algébrica dos desvios tomados em relação à média é nula: 0 1 k i id No exemplo temos que: 0042)2()2(13 7 1 i i d Logo o desvio médio absoluto ficará: 𝑫𝑴𝑨 = ∑|𝒙𝒊−�̅�| 𝒏 6.2 Variância e desvio padrão Observamos no item anterior que a dificuldade em se operar com o DMA (Desvio Médio) se deve à presença do módulo, para que as diferenças x x i possam ser interpretadas como distâncias. Outra forma de se conseguir que as diferenças x x i se tornem sempre positivas ou nulas é considerar o quadrado destas diferenças, isto é: 2i )x x( . Se substituirmos, nas fórmulas do DMA a expressão x x i por 2 i )x x( , obteremos nova medida de dispersão chamada variância. Portanto, variância é uma média aritmética calculada a partir dos quadrados dos desvios obtidos entre os elementos da série e a sua média. O desvio padrão é a raiz quadrada positiva da variância. 26 NOTAÇÕES E FÓRMULAS POPULAÇÃO VARIÂNCIA n xx x i 2 2 )( DESVIO-PADRÃO )x()x( 2 No caso de repetições de elementos na série, definimos a variância como sendo uma média aritmética ponderada dos quadrados dos desvios dos elementos da série para a média da série. NOTAÇÕES E FÓRMULAS POPULAÇÃO VARIÂNCIA n fxx x ii 2 2 )( DESVIO-PADRÃO )x()x( 2 A seguir vamos apresentar uma fórmula simplificada, para a determinação do desvio padrão para dados não agrupados. FÓRMULA SIMPLIFICADA DO DESVIO PADRÃO POPULAÇÃO VARIÂNCIA n x x n x i i 2 22 1)( DESVIO-PADRÃO n x x n x i i 2 21)( A seguir vamos apresentar uma fórmula simplificada, para a determinação do desvio padrão para dados agrupados. FÓRMULA SIMPLIFICADA DO DESVIO PADRÃO POPULAÇÃO VARIÂNCIA n fx fx n x ii ii 2 22 1)( DESVIO- PADRÃO n fx fx n x ii ii 2 21)( 27 6.3. Coeficiente de Variação Dados quantitativos são sintetizados por meio da apresentação de uma medida de posição central, a média, e uma medida de dispersão o desvio padrão. As medidas de dispersão relativamente analisam a média e o desvio padrão de uma única vez, através do cálculo da razão existente entre ambos. A mais usual medida de dispersão relativa é o coeficiente de variação, representado pela razão entre o desvio padrão e a média aritmética. Algebricamente, o coeficiente de variação, ou, simplesmente, CV, pode ser apresentado como: CV ou x s CV Onde: x ou = média aritmética ou s = desvio padrão. Exercícios: 1. O número de acidentes do trabalho ocorridos mensalmente numa empresa, durante o ano de 2009, está registrado no gráfico a seguir. Determine: a) a média b) a moda c) a mediana d) desvio padrão e) coeficiente de variação. 2. Um estudo sobre o comportamento da fila de espera numa loja de uma operadora de telefonia celular revelou os dados conforme a tabela abaixo: Calcule: a) a média b) o desvio – padrão c) coeficiente de variação. Distribuição do tempo na fila de espera Tempo de espera (em minutos) fi 5 4 10 11 15 19 20 24 25 18 30 13 TOTAL 10 19 20 15 9 18 23 17 3 14 8 20 0 2 4 6 8 10 12 14 16 18 20 22 24 26 Jan. Fev. Mar. Abr Mai Jun Jul Ago Set Out Nov Dez N ú m e ro d o s ac id e n te s d e t ra b al h o Acidentes de Trabalho 28 3. Um centro de saúde registrou na tabela seguinte as idades dos pacientes atendidos em uma semana do mês de outubro do ano passado. Para a tabela apresentada, encontre: a) a média; b) o desvio padrão. c) o coeficiente de variação. Idades de Pacientes atendidos no Centro de Saúde Idade fi 3 |- 7 5 7 |- 11 8 11 |- 15 17 15 |- 19 6 19 |- 23 4 TOTAL 40 COMENTÁRIOS 1. No cálculo da variância, quando elevamos ao quadrado a diferença )x x( i , a unidade de medida da série fica também elevada ao quadrado. Portanto, a variância é dada sempre no quadrado a unidade de medida da série. Se os dados são expressos em metros, a variância é expressa em metros quadrados. Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A variância será expressa em litros quadrados. Portanto, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação. 2. Exatamente parasuprir esta deficiência da variância é que se define o desvio padrão. Como o desvio padrão é a raiz quadrada da variância, o desvio padrão terá sempre a mesma unidade de medida da série, e, portanto, admite interpretação. Referências Bibliográficas - BRUNI, A. L. Estatística aplicada à gestão empresarial. Atlas, 2007. - CRESPO, A. A. Estatística Fácil. Saraiva, 2009. - MARTINS, G. de A.; DONAIRE, D. Princípios de Estatística. Atlas, 2006. - BUSSAB, W. e MORETIN, Pedro. Estatística Básica. Saraiva, 2006. - LAPONI, J.C. Estatística usando Excel. São Paulo: Lapponi, 2002. - https://mundoeducacao.bol.uol.com.br/geografia/tipos-graficos.htm. https://mundoeducacao.bol.uol.com.br/geografia/tipos-graficos.htm