Prévia do material em texto
REVISÃO DOS CONCEITOS DE PROBABILIDADE E ESTATÍSTICA METROLOGIA E QUALIDADE Estatística, para que serve? • Ramo da Matemática Aplicada dedicada à análise e tomada de decisão com dados observados por meio do método científico; • Extrai informações dos dados para obter melhor compreensão das situações; • Embasam decisões mais acertadas; • Dispõe de processos apropriados para recolher, organizar, classificar, apresentar e interpretar conjuntos de dados; Estatística e suas aplicações • Análise indutiva (inferência: testes e estimação); • Verificação (ajustamento, previsão e controle). • Técnicas de coleta de dados (amostragem e planejamento de experimentos); • Apresentação de dados (análise exploratória e descrição: tabelas e gráficos); • Modelagem (probabilidade e processos estocásticos); Variáveis estatísticas Variáveis estatísticas Variáveis Qualitativas • Representam atributos ou qualidades - sexo, estado civil e grau de instrução. • Podem ser subdivididas em nominais e ordinais. Variáveis não possuem uma ordem natural Nominais Ordinais Região de procedência - Ensino fundamental - Ensino médio - Ensino superior Exemplo: - Porto Alegre - Bagé - Pelotas Variáveis apresentam uma ordem intrínseca Grau de instrução Exemplo: Variáveis Quantitativas • Representam medidas numéricas - como número de filhos, salário e idade. • Podem ser subdivididas em discretas e contínuas. Variáveis que resultam de contagens Discretas Contínuas - Altura - Peso - Temperatura Exemplo: - Número de filhos - Número de acidentes - Número de vitórias Variáveis que resultam de uma mensuração Exemplo: Variáveis estatísticas Exemplo de classificação de variáveis Fonte: Bussab e Morettin, 2017 Fonte: adaptado de Bussab e Morettin, 2017 Variáveis estatísticas Distribuições de Frequências Distribuições de Frequências • São importantes para analisar o comportamento de uma variável; • As distribuições de frequências permitem resumir um conjunto de dados, fornecendo uma visão global sobre a variável em estudo. • Existem diferentes formas de apresentar essas distribuições, dependendo do tipo de variável. • Dois exemplos são discutidos a seguir. - Tabelas de Frequências - Gráficos Organizam os dados em categorias ou classes, mostrando a contagem de ocorrências. Representações visuais das distribuições, como histogramas e gráficos de barras. Distribuições de Frequências Tabelas de Frequências Fonte: Bussab e Morettin, 2017 • A tabelas de frequência apresenta contagem (frequência absoluta) e a porcentagem (frequência relativa) de cada categoria ou classe da variável. Exemplo para variáveis qualitativas Mostra a distribuição dos funcionários entre os níveis fundamental, médio e superior. Tabelas de Frequências • A tabela de frequências é semelhante à das variáveis qualitativas. Exemplo para variáveis quantitativas discretas • Cada valor possível da variável é listado com sua frequência absoluta e relativa. Variáveis discretas Distribuições de Frequências Tabelas de Frequências Exemplo para variáveis quantitativas contínuas Variáveis contínuas Fonte: Bussab e Morettin, 2017 • A escolha do número e amplitude das classes é importante para uma representação adequada dos dados. • É necessário agrupar os dados em classes ou intervalos. Distribuições de Frequências Gráficos • Mais comuns são os gráficos de barras e os gráficos de setores (pizza). Para variáveis qualitativas Usa retângulos com altura proporcional à magnitude a ser representada (ni ou fi) de cada categoria. Fonte: Bussab e Morettin, 2017 Fonte: Bussab e Morettin, 2017 Divide um círculo em setores proporcionais às frequências relativas. Gráficos de barras Gráficos de setores Distribuições de Frequências Gráficos Para variáveis qualitativas Fonte: Bussab e Morettin, 2017 Fonte: Bussab e Morettin, 2017 Gráficos de barras Gráficos de setores Características - Fácil interpretação - Comparação visual rápida - Adequado para muitas categorias - Menos eficaz para mostrar proporções do todo Características - Ideal para mostrar proporções quando há poucas categorias - Difícil comparar setores de tamanho similar ou interpretar muitas categorias Distribuições de Frequências Gráficos Para variáveis quantitativas discretas • Gráficos de barras ou de dispersão unidimensional. • O gráfico de barras é semelhante ao usado para variáveis qualitativas. Gráficos de dispersão unidimensionais para a variável “número de filhos” Gráfico em barras para a variável “número de filhos” Distribuições de Frequências Gráficos Para variáveis quantitativas contínuas • Os histogramas são gráficos os mais comuns para representar variáveis quantitativas contínuas; • As barras são contínuas representando intervalos de classe; (1) Quando as classes têm amplitudes iguais, a altura pode ser simplesmente a frequência. (2) Para classes com amplitudes diferentes, usa-se a densidade de frequência para manter a proporcionalidade da área. A largura das barras deve ser proporcional à amplitude das classes A altura deve representar a densidade de frequência Observações Fonte: Bussab e Morettin, 2017 Distribuições de Frequências Para variáveis quantitativas contínuas A largura das barras deve ser proporcional à amplitude das classes A altura deve representar a densidade de frequência Etapas para a construção dos histogramas Definir as classes Calcular as frequências Calcular as densidades Construir as barras Histogramas Fonte: Bussab e Morettin, 2017 Distribuições de Frequências Gráficos Gráficos Para variáveis quantitativas contínuas Histograma dos dados de temperatura Existem outros gráficos utilizados para representar variáveis quantitativas, como, por exemplo, o Ramo-e-folhas, entre outros. Observações Gráfico de dispersão unidimensional para os dados de temperatura Distribuições de Frequências Medidas de posição (Tendência central) Medidas de posição (Tendência central) • As tabelas de frequência e os gráficos fornecem informações relevantes sobre o comportamento de uma variável; • As medidas de posição são utilizadas para apresentar um ou alguns valores que sejam representativos do conjunto de dados; • Lembrando que um único valor gera uma redução drástica dos dados; • As principais medidas de posição (localização) central são - Média - Mediana - Moda Medidas de posição (Tendência central) Média aritmética • É definida pela soma das observações divida pelo número delas. 𝑋 = 1 𝑛 𝑥𝑖 𝑛 𝑖=1 𝜇 = 1 𝑁 𝑥𝑖 𝑁 𝑖=1 Onde, N = é o tamanho da população. Onde, n = é o tamanho da amostra. Amostra População Mediana • A mediana de um conjunto ordenado de valores é definida como sendo o valor que separa o conjunto em dois subconjuntos do mesmo tamanho. Onde, X é a lista ordenada de valores no conjunto de dados n é o número de valores no conjunto de dados Medidas de posição (Tendência central) 𝑚𝑑 𝑋 = 𝑥 𝑛+1 2 𝑥 𝑛 2 + 𝑥 𝑛 2+1 2 se 𝑛 ímpar; se 𝑛 par; 𝑚𝑑 𝑋 = 𝑥 𝑛+1 2 𝑥 𝑛 2 + 𝑥 𝑛 2 +1 2 Mediana Exemplo 01 Onde, X é a lista ordenada de valores no conjunto de dados n é o número de valores no conjunto de dados Para o conjunto: 15 18 21 32 45 46 49 A mediana (md) é 32 n é ímpar Para o conjunto: 15 18 21 32 45 46 n é par A mediana (md) é 26,5 Medidas de posição (Tendência central) se 𝑛 ímpar; se 𝑛 par; Moda • Se a variável for qualitativa nominal????? • É o valor que mais se repete, mais frequente, de um conjunto de valores; • Existem casos em que pode haver mais de uma moda, ou seja, a distribuição dosvalores pode ser bimodal, trimodal, etc. Considere o seguinte conjunto de dados: 1 2 2 3 3 4 4 4 7 9 15 A moda é igual a 4. Considere os dados de estado civil referentes a um grupo de funcionários de uma empresa Logo, a moda será o estado civil que mais se repetiu. Medidas de posição (Tendência central) • Na distribuição de frequência..... A moda é igual a 2 faltas. • Na distribuição de frequência por classes ou intervalos..... A moda é igual a 169,5 cm. Medidas de posição (Tendência central) Moda Medidas de dispersão (Variabilidade) Desvio médio • Utilizado para comparar duas distribuições com igual média e saber qual das duas está mais ou menos dispersa; • Analisa a dispersão dos dados em torno da média; • Representa o afastamento médio dos dados em torno da média Amostra População i=1 N i=1 n Medidas de dispersão (variabilidade) Desvio médio considerando a tabela de frequência Amostra População i=1 N i=1 n Medidas de dispersão (variabilidade) Considerando a seguinte amostra…. Qual o valor do desvio médio (DM)? i=1 n Exemplo 02 Medidas de dispersão (variabilidade) Desvio médio considerando a tabela de frequência Variância • É representada por s² (para amostra) e por σ² (para população) • É definida como sendo “a média aritmética dos quadrados dos desvios em relação à média aritmética em termos absolutos”. Amostra População • A variância mede o quanto os dados estão dispersos em torno da média. Medidas de dispersão (variabilidade) Desvio padrão • É uma medida absoluta de dispersão; • Descreve o maior ou menor grau de dispersão da distribuição com respeito à média aritmética; • Permite comparações com a unidade que se está trabalhando; • É definido como a raiz quadrada da variância. Amostra População Medidas de dispersão (variabilidade) Calcular a variância e o desvio padrão dos seguintes dados amostrais: 3 4 0 3 8 6 Exemplo 03 𝑋 = 1 𝑛 𝑥𝑖 𝑛 𝑖=1 = 24 6 =4 = 3−4 2+ 4−4 2+ 0−4 2+ 3−4 2+ 8−4 2+ 6−4 2 5 =7,6 𝑠 = 𝑠2 = 2,76 Média Variância Desvio padrão Medidas de dispersão (variabilidade) Distribuições de probabilidade Descrevendo a variação: Distribuições de probabilidade • Uma distribuição de probabilidade é um modelo matemático que relaciona o valor da variável com a probabilidade de ocorrência desse valor na população. • São fundamentais para modelar e analisar dados de processos de qualidade em diversas aplicações industriais e de engenharia. Lembrando...... Amostra População Uma coleção de medições selecionadas de alguma fonte ou população maior. É um subconjunto da população selecionado para representar a totalidade e permitir inferências sobre a população Discretas Contínuas • Existem dois tipos de distribuições de probabilidade. Fonte: Montgomery, 2016 Fonte: Montgomery, 2016 A variável sendo medida é expressa em uma escala contínua Quando o parâmetro sendo medido só pode assumir certos valores, como os inteiros 0, 1, 2, Exemplo: A distribuição de probabilidade da espessura da camada de metal Exemplo: Distribuição do número de não conformidades ou defeitos em placas de circuito impresso Descrevendo a variação: Distribuições de probabilidade Discretas • Existem dois tipos de distribuições de probabilidade. Fonte: Montgomery, 2016 Descrevendo a variação: Distribuições de probabilidade Definição: Seja X uma variável aleatória discreta. A cada possível resultado xi associaremos um número pi = P(X = xi), denominado probabilidade da variável aleatória X assumir o valor xi , satisfazendo as seguintes condições: A função P é denominada função de probabilidade. Discretas • Existem dois tipos de distribuições de probabilidade. Fonte: Montgomery, 2016 Descrevendo a variação: Distribuições de probabilidade Definição: Dada uma variável aleatória discreta X, definimos F(x) a função de distribuição acumulada ou, simplesmente, função de distribuição (f.d) de X, dada por: Média de uma distribuição de probabilidade • É uma medida da tendência central na distribuição, ou sua localização; • Para o caso de uma variável aleatória discreta com exatamente N valores igualmente prováveis 𝑝 𝑥𝑖 = 1 𝑁 Descrevendo a variação: Distribuições de probabilidade • É o ponto no qual a distribuição exatamente “se equilibra” (centro de massa da distribuição de probabilidade) Média de uma distribuição de probabilidade The mean of a distribution Fonte: Montgomery, 2016 Não é necessariamente o quinquagésimo percentil da distribuição (mediana) Não é necessariamente o valor mais provável da variável (moda). A média simplesmente determina a localização da distribuição Fonte: Montgomery, 2016 Ou seja, Two probability distributions with different means. Descrevendo a variação: Distribuições de probabilidade • A dispersão, espalhamento ou variabilidade em uma distribuição é expressa pela variância σ². Variância de uma distribuição de probabilidade • Para o caso de uma variável aleatória discreta com exatamente N valores igualmente prováveis a variância é a distância quadrática média de cada membro da população em relação à média Neste caso A variância é expressa no quadrado das unidades da variável original. Se não há variabilidade na população, σ²= 0. Descrevendo a variação: Distribuições de probabilidade Desvio padrão de uma distribuição de probabilidade • O desvio padrão é a raiz quadrada da variância; Fonte: Montgomery, 2016 Two probability distributions with the same mean but different standard deviations. • É uma medida de dispersão ou espalhamento na população expressa nas unidades originais; • Um desvio padrão maior indica uma maior dispersão dos dados em torno da média. Descrevendo a variação: Distribuições de probabilidade Distribuições discretas importantes • Várias distribuições de probabilidade discretas surgem frequentemente no controle estatístico de qualidade. - distribuição hipergeométrica - distribuição binomial - distribuição de Poisson - distribuição Pascal ou binomial negativa. São elas: É interessante revisar as distribuições discretas de probabilidade Dica Descrevendo a variação: Distribuições de probabilidade (1) Distribuição binomial Distribuições discretas importantes • Considere um processo que consiste em uma sequência de n tentativas independentes. • Por ensaios independentes, - queremos dizer que o resultado de cada tentativa não depende de forma alguma do resultado de tentativas anteriores. • Quando o resultado de cada tentativa é um “sucesso” ou um “fracasso”, as tentativas são chamados ensaios de Bernoulli. Descrevendo a variação: Distribuições de probabilidade (1) Distribuição binomial Distribuições discretas importantes Se a probabilidade de “sucesso” em qualquer tentativa (p) for constante, então o número de “sucessos” x em n tentativas de Bernoulli tem a distribuição binomial com os parâmetros n e p A distribuição binomial com parâmetros n ≥ 0 e 0 0. A média e a variância de uma distribuição binomial são e A distribuição de Poisson é Descrevendo a variação:Distribuições de probabilidade (2) Distribuição de Poisson Distribuições discretas importantes • É uma distribuição discreta útil no controle estatístico da qualidade. • Uma aplicação típica da distribuição de Poisson no controle de qualidade é como modelo do número de defeitos ou não conformidades que ocorrem em uma unidade de produto. • Qualquer fenômeno aleatório que ocorre por unidade é frequentemente bem aproximado pela distribuição de Poisson. unidade de área, unidade de volume, unidade de tempo, etc. Descrevendo a variação: Distribuições de probabilidade (2) Distribuição de Poisson Distribuições discretas importantes À medida que o parâmetro aumenta... a distribuição de Poisson torna-se simétrica na aparência. Poisson probability distributions for selected values of λ. Fonte: Montgomery, 2016 Tem uma cauda longa para a direita Numa distribuição binomial com parâmetros n e p, se deixarmos n aproximar-se infinito e p se aproximam de zero de tal forma que np = λ é uma constante, então o resultado é a distribuição de Poisson. Descrevendo a variação: Distribuições de probabilidade Distribuições contínuas importantes • Várias distribuições de probabilidade são importantes no controle estatístico de qualidade. - distribuição normal - distribuição gamma - distribuição lognormal - distribuição de Weibull São elas: É interessante revisar as distribuições contínuas de probabilidade Dica Descrevendo a variação: Distribuições de probabilidade (1) Distribuição Normal Distribuições contínuas importantes • É provavelmente a distribuição mais importante tanto na teoria quanto na aplicação de estatísticas; Se x é uma variável aleatória normal, então a distribuição de probabilidade normal de x é A média e a variância de uma distribuição normal são e Descrevendo a variação: Distribuições de probabilidade (1) Distribuição Normal Distribuições contínuas importantes • A distribuição normal é tão usada que frequentemente empregamos uma notação especial. Indica que x é normalmente distribuído com média µ e variância 𝜎2 Curva simétrica, unimodal ou em forma de sino Fonte: Montgomery, 2016 Descrevendo a variação: Distribuições de probabilidade (1) Distribuição Normal Distribuições contínuas importantes • A distribuição normal acumulativa é definida como a probabilidade que uma variável aleatória x é menor ou igual a soma do valor a. Como essa integral não pode ser avaliada na forma fechada...... ......utilizando a mudança de variável a avaliação pode ser feita independente do µ e 𝜎2 Descrevendo a variação: Distribuições de probabilidade Distribuições contínuas importantes (1) Distribuição Normal Onde, é a função de distribuição normal padrão acumulada (média = 0, desvio padrão = 1). • A distribuição normal padrão acumulada é disponibilizada em tabelas; • É geralmente chamada de padronização, porque ela converte uma variável aleatória em uma variável aleatória Descrevendo a variação: Distribuições de probabilidade Distribuições contínuas importantes (1) Distribuição Normal A resistência à tração do papel usado para fazer sacolas de supermercado é uma importante característica de qualidade. Considerando que tensão (x) é normalmente distribuída com média O comprador das sacolas exige que elas tenham uma resistência de pelo menos 35 lb/in². Calcule a probabilidade de que as sacolas sejam produzidas deste documento atenderão ou excederão as especificações. Exemplo 05 e desvio padrão . Solução: A probabilidade de que uma sacola produzida com este papel atenda ou exceder a especificação é Para avaliar esta probabilidade a partir das tabelas normais padrão, padronizamos o ponto 35 e encontramos Ou seja, Descrevendo a variação: Distribuições de probabilidade Distribuições contínuas importantes (1) Distribuição Normal Exemplo 05 . Descrevendo a variação: Distribuições de probabilidade Fonte: Montgomery, 2016 Distribuições contínuas importantes (1) Distribuição Normal Exemplo 06 . Descrevendo a variação: Distribuições de probabilidade O diâmetro de um eixo de metal usado em uma unidade de disco é normalmente distribuído com média 0,2508 pol. e desvio padrão 0,0005 pol. As especificações do eixo foram estabelecidas como 0,2500 ± 0,0015 pol. Qual fração dos eixos produzidos está em conformidade com as especificações? Solução: Distribuições contínuas importantes (1) Distribuição Normal . Descrevendo a variação: Distribuições de probabilidade Solução: Suponha que possamos recentrar o processo de fabricação, talvez ajustando a máquina, para que a média do processo é exatamente igual ao valor nominal de 0,2500. Fonte: Montgomery, 2016 Exemplo 06 Distribuições contínuas importantes (1) Distribuição Normal Descrevendo a variação: Distribuições de probabilidade Teorema do Limite Central. A distribuição normal é frequentemente assumida como o modelo de probabilidade apropriado para uma variável aleatória. Na seleção de uma amostra de uma população qualquer com média µ e desvio padrão σ, a distribuição amostral de 𝑥 é aproximadamente normal com média µ e desvio padrão 𝜎/ 𝑛 quando n é grande. A distribuição reduzida é dada por: pode-se afirmar que a distribuição de erros experimentais tende para a normalidade quando n é grande Referências Partes desta aula foram retiradas das seguintes fontes bibliográficas: MONTGOMERY, D.C. Introdução ao Controle Estatístico da Qualidade. Rio de Janeiro - RJ: LTC, 2016. BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017. 554 p., il. Inclui índice remissivo e tabelas. ISBN 978-85- 472-2022-8. Teoria e prática em estatística para cursos de graduação F. C. W. Sindelar, S. M. de Conto, L. Ahlert - Lajeado : Editora da Univates, 2014