Prévia do material em texto
BIOESTATÍSTICA Unidade 1 Conceitos básicos e análise exploratória de dados CEO DAVID LIRA STEPHEN BARROS Diretora Editorial ALESSANDRA FERREIRA Gerente Editorial LAURA KRISTINA FRANCO DOS SANTOS Projeto Gráfico TIAGO DA ROCHA Autoria LEANDRO VINHAS DE PAULA 4 BIOESTATÍSTICA U ni da de 1 A U TO RI A Leandro Vinhas de Paula Olá! Meu nome é Leandro Vinhas de Paula. Sou bacharel e licenciado em Educação Física (Faculdade de Educação Física e Fisioterapia – Universidade Federal de Uberlândia), mestre em Ciências do Esporte (Escola de Educação Física, Fisioterapia e Terapia Ocupacional – Universidade Federal de Minas Gerais – EEFFTO/UFMG) e especialista em Estatística Aplicada (Departamento de Estatística – Instituto de Ciências Exatas – ICEX/ UFMG) com uma experiência técnico-profissional na área de Educação Física e esportes por mais de 10 anos em atividades de ensino, pesquisa e extensão na Universidade Federal de Ouro Preto e no meio privado. Atualmente sou doutorando na área de Biomecânica (EEFFTO – UFMG). Por isso fui convidado pela Editora Telesapiens a integrar seu elenco de autores independentes. Estou muito feliz em poder ajudar você nesta fase de muito estudo e trabalho. Conte comigo! 5BIOESTATÍSTICA U ni da de 1 ÍC O N ESEsses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos: OBJETIVO No início do desenvolvimento de uma nova competência. DEFINIÇÃO Caso haja a necessidade de apresentar um novo conceito. NOTA Quando são necessárias observações ou complementações. IMPORTANTE Se as observações escritas tiverem que ser priorizadas. EXPLICANDO MELHOR Se algo precisar ser melhor explicado ou detalhado. VOCÊ SABIA? Se existirem curiosidades e indagações lúdicas sobre o tema em estudo. SAIBA MAIS Existência de textos, referências bibliográficas e links para aprofundar seu conhecimento. ACESSE Se for preciso acessar sites para fazer downloads, assistir vídeos, ler textos ou ouvir podcasts. REFLITA Se houver a necessidade de chamar a atenção sobre algo a ser refletido ou discutido. RESUMINDO Quando for preciso fazer um resumo cumulativo das últimas abordagens. ATIVIDADES Quando alguma atividade de autoaprendizagem for aplicada. TESTANDO Quando uma competência é concluída e questões são explicadas. 6 BIOESTATÍSTICA U ni da de 1 Definindo conceitos básicos .................................................. 10 Introdução ...........................................................................................................10 Tipos de estudos ................................................................................................11 Amostragem .......................................................................................................12 Variáveis...............................................................................................................16 Aprendendo a estimar parâmetros populacionais e amostrais descrevendo dados ............................................... 19 Medidas de tendência central .........................................................................19 Média aritmética e ponderada ........................................................................20 Mediana ................................................................................................21 Moda ......................................................................................................22 Medidas de dispersão: absoluta e relativa ...................................................23 Amplitude .............................................................................................23 Desvio médio .......................................................................................24 Variância ...............................................................................................24 Desvio padrão ......................................................................................25 Coeficiente de variação ......................................................................26 Medidas separatrizes ........................................................................................27 Construindo tabelas e gráficos no pacote Microsoft Excel® ....................................................................................... 30 Organização de Dados em Tabelas ................................................................30 Princípios de organização de dados em tabelas ............................................................................................30 Tabelas de frequência para dados qualitativos e quantitativos . 31 Uso de tabelas para resumir e apresentar dados de forma eficiente.................................................................................................32 SU M Á RI O 7BIOESTATÍSTICA U ni da de 1 Gráficos para Dados Qualitativos ..................................................... 33 Diagramas de barra, setores (pizza) e pictóricos .......................... 33 Seleção do tipo de gráfico adequado ao tipo de dado ................ 35 Interpretação de gráficos e erros comuns a evitar ...................... 37 Gráficos para Dados Quantitativos .................................................. 39 Histogramas, boxplots e gráficos de dispersão ............................ 39 Como escolher o gráfico adequado para a representação de dados .....................................................................................................41 Análise e interpretação de tendências e padrões nos dados .... 43 Aplicando conceitos em um banco de dados no pacote Microsoft Excel® ..................................................................... 45 Introdução ao Excel® para Bioestatística ..................................................... 45 Visão geral das funcionalidades do Excel® relevantes para análise estatística ..............................................................................................45 Importação e organização de dados em planilhas. ..................... 47 Dicas de gestão e manipulação de grandes conjuntos de dados .....................................................................................................48 Análise Descritiva no Excel® ...........................................................................49 Uso de fórmulas estatísticas para calcular medidas de tendência central e dispersão. ...........................................................................49 Geração de tabelas de frequência e resumos estatísticos. ........ 51 Visualização de dados: construção de gráficos adequados diretamente no Excel® ......................................................................53 Aplicação de Testes Estatísticos no Excel® ..................................................69 Realização de testes estatísticos básicos usando o Excel®. ..... 69 Limitações do Excel® na análise estatística e quando buscar programas estatísticos especializados............................................ 72 8 BIOESTATÍSTICA U ni da de 1 A PR ES EN TA ÇÃ O Você sabia que a área de Estatística foi considerada a melhor carreira do ano de 2017 nos Estados Unidos e a segunda carreira com maior rentabilidade no Brasil no mesmo período? Apesar de pouco difundida, a Estatística pode ser definida como uma ciência que está interessada nos métodos científicos para coleta, organização, sumarização, apresentação de dados e análise de dados, bem como a obtenção de conclusões válidas e na tomada de decisões razoáveis com base em tais análises em diversas áreas como a Política, Economia, Marketing, Negócios, Esportes, Ciências da Saúde etc. A subárea de Bioestatística se ocupa dos métodos estatísticos para investigação quantitativa de problemas nas áreas de Saúde. Está preparado para se inteirar um pouco mais desta área fascinante? Ao longo desta unidade letiva você irá mergulharilustram como o Excel® pode ser utilizado para criar rapidamente tabelas de frequência, utilizando funções e fórmulas para calcular as frequências absolutas e relativas. Levine et al. (2011) sugerem o uso de funções como COUNTIF para a geração de frequências absolutas e fórmulas personalizadas para calcular as frequências relativas, baseadas no total de observações. Bussab & Morettin (2013) enfatizam a importância dos resumos estatísticos, que incluem não apenas as tabelas de frequência, mas também medidas de tendência central e dispersão, como média, mediana, moda, variância e desvio padrão. Esses resumos oferecem uma visão compreensiva dos dados, facilitando a identificação de características chave do conjunto de dados, como a centralidade e a variabilidade. No Excel®, a geração desses resumos estatísticos é facilitada pelo uso de funções integradas, permitindo aos pesquisadores executar análises descritivas complexas de forma eficiente e precisa. A combinação de tabelas de frequência com outras medidas estatísticas proporciona uma base sólida para a análise de dados, apoiando a tomada de decisões informadas e a interpretação científica. 53BIOESTATÍSTICA U ni da de 1 Visualização de dados: construção de gráficos adequados diretamente no Excel® A visualização de dados é uma etapa crucial na análise estatística, especialmente em bioestatística, onde os dados complexos precisam ser compreendidos e comunicados de forma eficaz. Levine et al. (2011) e Bussab & Morettin (2013) concordam sobre a importância de selecionar e construir gráficos adequados para representar conjuntos de dados, uma habilidade que o Excel® facilita notavelmente bem. O software oferece uma ampla gama de tipos de gráficos, incluindo histogramas, gráficos de dispersão, linhas e barras, cada um adequado para diferentes tipos de dados e análises. A seguir são descritas as variáveis observadas nas colunas do banco de dados na aba “descrição do arquivo”. Quadro 1.1 – Descrição da base de dados (passo 1) Dados contidos no arquivo de nome aeusp As informações se referem a uma pesquisa realizada pela Associação dos Educadores da USP (AEUSP), sobre aspectos socioeconômicos e culturais de comunidades de baixa renda da região do Butantã, São Paulo. Sendo um conjunto de dados reais, poderão aparecer incoerências oriundas de equívocos na digitação ou na coleta de dados. Nesses casos, adote uma alternativa que permita contornar a dificuldade encontrada. coluna 1: Número do questionário (Num). coluna 2: Comunidade (Comun). coluna 3: Sexo (Sexo): M: masculino/F: feminino coluna 4: Faixas de idade, em anos (Idade): 1: de 14 (inclusive) a 25 (exclusive) 2: de 25 (inclusive) a 35 (exclusive) 3: de 35 (inclusive) a 45 (exclusive) 4: 45 anos ou mais 54 BIOESTATÍSTICA U ni da de 1 coluna 5: Estado Civil (Ecivil): 1: solteiro/2: casado/3: divorciado/4: viúvo/ 5: outro coluna 6: Região de Procedência (Reproce). coluna 7: Tempo de residência em São Paulo, em anos (Temposp). coluna 8: Número de residentes na casa (Resid). coluna 9: Trabalho (Trab): 1: sim/2: não/3: aposentado coluna 10: Tipo de trabalho, só para os que responderam trabalham (Ttrab): 1: empregado com carteira 2: empregado sem carteira 3: profissional liberal 4: autônomo 5: rural coluna 11: Idade que começou a trabalhar, em anos (Itrab). coluna 12: Renda familiar em faixas de reais (Renda): 1: de 0 (inclusive) a 150 (exclusive) 2: de 150 (inclusive) a 300 (exclusive) 3: de 300 (inclusive) a 450 (exclusive) 4: de 450 (inclusive) a 900 (exclusive) 5: de 900 (inclusive) a 1500 (exclusive) 6: 1500 ou mais coluna 13: Acesso a computador (Acompu): 1: sim/2: não coluna 14: Série em que parou de estudar (Serief): em branco: não parou de estudar 1 a 8: séries do ensino fundamental 9 a 12: séries do ensino médio Fonte: Elaborada pela autoria (2023). A seguir é feita uma breve descrição dos passos a seguir, para a construção de uma tabela dinâmica. Para construir uma tabela univariada, seleciona-se todas as cédulas das variáveis, incluindo o rótulo, clica-se na aba “inserir” e janela em “tabela dinâmica”. 55BIOESTATÍSTICA U ni da de 1 Imagem 1.8 – Inserção de tabela dinâmica e seleção de dados (passo 2) Fonte: Elaborada pela autoria (2023). Na nova janela “Criar Tabela Dinâmica”, escolhe-se os dados ou tabela que se deseja analisar e escolhe-se onde se deseja que o relatório de tabela dinâmica seja colocado (“Nova Planilha”) e clica-se em “OK”. Imagem 1.9 – Inserção de tabela dinâmica e seleção de dados (passo 3) Fonte: Elaborado pela autoria (2023). 56 BIOESTATÍSTICA U ni da de 1 Na nova planilha observam-se os campos de: - (1) “Soltar Campos de Filtros do Relatório aqui”: são os campos onde a variável vai ser resumida. - (2) “Campos da Tabela”: esses campos aparecem no lado direito da planilha. Na área “Escolha os campos para adicionar ao relatório”, aparece o nome da variável ou variáveis a resumir. No exemplo aparece o nome da variável “Sexo”. - (3) “Arraste os campos entre as áreas abaixo”, onde existem os campos de (a) “Filtros”, onde se pode especificar algum filtro para aplicar aos dados; (b) “Colunas”, caso a variável vá ser resumida em coluna; (c) “Linhas”, quando a variável escolhida vai ser resumida em linha; e (d) “∑ valores”, onde se tem diversas formas de resumir a variável, aparece o primeiro tipo de cálculo a resumir que é Soma. No exemplo anterior, para resumir a variável “Sexo” em linha e a variável “Resid”; arrasta-se então a variável “Sexo” ao campo “Linhas” e a variável “Resid” para o campo de colunas, para que cada categoria da variável seja alocada em uma linha; e arrastei a variável ao campo “∑ Valores”. Observe que na tabela dinâmica se tem a contagem de quantas vezes as variáveis sexo se repetem. Imagem 1.10 – Tabela univariada para a variável “Sexo” (passo 4) Fonte: Elaborada pela autoria (2023). 57BIOESTATÍSTICA U ni da de 1 Para mudar o tipo de cálculo a resumir, clique duas vezes no campo “Contagem de Sexo”, e observe que se abre outra janela de “Configurações do Campo de Valor”, onde temos diversas maneiras de resumir a variável (inclusive usando medidas de tendência central A tabela dinâmica obtida pode ser editada, mudando os rótulos das colunas, nome das categorias, e ser representada com um gráfico de coluna, barras ou circular. Para isso, deve-se selecionar a aba “Análise de Tabela Dinâmica” e clicar em “Gráfico Dinâmico”. Imagem 1.11 – Inserindo o gráfico dinâmico (passo 5) Fonte: Elaborada pela autoria (2023). Após de selecionar a janela “Gráfico Dinâmico”, tem- se uma nova janela que mostra todos os gráficos que podemos selecionar. Para este tipo de variável nominal (“Sexo”), podemos selecionar as alternativas de “Colunas”, “Pizza” ou “Barras”. Após selecionar e clicar em “OK”, aparecerá o gráfico selecionado, em que pode ser editado o título, legenda e toda a área do gráfico. 58 BIOESTATÍSTICA U ni da de 1 Imagem 1.12 – Inserindo gráfico de pizza (passo 6) Fonte: Elaborada pela autoria (2023). Para apresentar os dados da variável termos de frequência relativa (%), na mesma tabela, devemos colocar o cursor na tabela dinâmica, e arrastar a variável “Sexo” novamente ao campo “∑ valores”. Observe que, na tabela dinâmica, há uma nova coluna à direita da frequência absoluta, e no campo “∑ valores” aparece uma nova soma de sexo (“Contagem de Sexo2”). que devemos mudar para contagem (duplo clique). Para mudar a forma de resumir a variável, devemos mudar a forma de “Mostrar valores como” e clicar na linha “Sem cálculo”. Observe que há diversas alternativas para mostrar valores. Selecione a alternativa “% do Total Geral”. Após clicar em “OK”, observe a mudança na tabela dinâmica. 59BIOESTATÍSTICA U ni da de 1 Imagem 1.13 – Percentual sobre o total e gráfico de pizza (passo 7) Fonte: Elaborada pela autoria (2023). Nesta tabela univariada, observa-se que a maior proporçãode alunos é do sexo feminino (“F”), representado no gráfico de pizza pela cor azul. Adicionalmente podem ser construídas tabelas bivariadas, imprescindível no futuro para a construção de tabelas de contingência, muito empregadas na área de Ciências da Saúde. Após selecionar as colunas de dados a serem analisados, deve-se clicar na aba “inserir” e clicar em “tabela dinâmica”. Observe, na nova planilha, que o exemplo se resume à variável “Sexo” em “Linha”, e arrasta-se a variável “Idade” ao campo “Coluna”, e, por fim, para que cada categoria da variável seja alocada em uma coluna, esta variável é adicionada ao campo “∑ valores”. Observe que, na tabela dinâmica, tem-se a Contagem de “Sexo”. A seguir verifica-se a tabela bivariada para as variáveis sexo e idade. 60 BIOESTATÍSTICA U ni da de 1 Imagem 1.14 – Tabela bivariada (passo 8) Fonte: Elaborada pela autoria (2023). Após ser editada a tabela dinâmica, mudando os rótulos de linha e rótulos de colunas e nome das categorias, observamos que o maior número de entrevistados é da faixa etária de 14 a 25 anos (1) e do sexo feminino (2). Imagem 1.15 – Gráfico bivariado: contagem (passo 9) Fonte: Elaborada pela autoria (2023). 61BIOESTATÍSTICA U ni da de 1 Para representar os dados da tabela bivariada em forma de gráfico, deve-se clicar na janela superior “Análise de Tabela Dinâmica” e, nas alternativas abertas, selecionar “Gráfico Dinâmico”. Após selecionar a janela “Gráfico Dinâmico”, tem- se uma nova janela que mostra todos os gráficos que podemos selecionar para este tipo de variável nominal. Podemos selecionar as seguintes alternativas de gráficos de “colunas” ou “barras”, veja a imagem a seguir. Novamente, após clicar em “OK”, aparece o gráfico selecionado. Pode ser editado no título do gráfico, a legenda e toda a área do gráfico, a seguir um exemplo do gráfico da distribuição de entrevistados segundo sexo e faixa etária, em que se observa que o maior número de entrevistados é do sexo feminino e da faixa etária maior que 14 anos e menor que 25. Imagem 1.16 – Gráfico bivariado (passo 12) Fonte: Elaborada pela autoria (2023). Em diversas situações, variáveis podem ser expressas como tabelas com intervalos de classe, em que cada classe possui limites superiores e inferiores para a classificação da amostra. O procedimento de determinação dos intervalos de classe é 62 BIOESTATÍSTICA U ni da de 1 mostrado para construir uma distribuição de frequências em intervalos de classe. Imagem 1.17 – Intervalos de classe para a variável “ITRAB” (passo 13) Fonte: Elaborada pela autoria (2023). No exemplo acima, uma tabela dinâmica foi construída com a variável de interesse “Itrab”, que aparece em uma nova planilha. Na tabela dinâmica criada, coloca-se o cursor em uma das células e seleciona-se “agrupar”. Imagem 1.18 – Variável ITRAB agrupada em 7 intervalos de classe (passo 14) Fonte: Elaborada pela autoria (2023). 63BIOESTATÍSTICA U ni da de 1 Após a seleção da janela “Agrupar Seleção”, abre-se uma nova janela “Agrupamentos”, na qual se observa os seguintes campos que devemos indicar: “Iniciar em”, o limite inferior do primeiro intervalo de classe; “Finalizar em”, o limite superior do último intervalo de classe e “Por”, para a amplitude do intervalo. No exemplo, para agrupar a variável “Itrab”, dado que o valor mínimo é 0 e o máximo é 34, indicamos que agrupamento deve iniciar em 0 e terminar em 35, com uma amplitude de 5 (7 intervalos de classe, veja a imagem anterior). Subsequentemente, a apresentação da distribuição de frequências é apresentada em formato de histograma e polígono de frequências. No exemplo, os dados são posicionados para representar (frequência absoluta incluindo o rótulo) e, em seguida, a opção “Gráfico Dinâmico”. Por fim, define-se o tipo de gráfico adequado ao tipo de variável. Após fechar a janela, temos o histograma da variável. É possível editá-lo para mudança do título e os rótulos do eixo horizontal. A seguir, é apresentado o procedimento para a construção do histograma e do polígono de frequências. Para editar a entrada de dados, clica-se com o botão direito dentro da janela aberta marcando “Selecionar Dados” e, na nova janela, “Selecionar Fonte de Dados”. Devem ser selecionados os seguintes itens: (a) “Intervalo de dados do gráfico”, as células onde os dados se encontram; (b) “Alterar entre linha e coluna”, alteração dos dados, entre linha e coluna; e (c)“Entrada de legenda Série”, se estamos adicionando outra série de dados, e/ou editar a série de dados apresentada e/ou remover a série apresentada. É recomendável que você explore as diferentes opções de edição do gráfico. 64 BIOESTATÍSTICA U ni da de 1 Imagem 1.19 – Histograma de frequência da variável “ITRAB” (passo 15) Fonte: Elaborada pela autoria (2023). Para construir o polígono de frequências no mesmo histograma, devemos colocar o mouse do lado direito e, dentro da janela aberta, marcar “Selecionar Dados”, e, na nova janela, “Selecionar Fonte de Dados”. Esta nova janela está no campo “Entrada de Legenda Série”. Adicione a mesma série de dados. Após clicar em OK temos duas colunas que representam a frequência absoluta. 65BIOESTATÍSTICA U ni da de 1 Imagem 1.20 – Edição de histograma de frequência (passo 16) Fonte: Elaborada pela autoria (2023). 66 BIOESTATÍSTICA U ni da de 1 Podemos construir também um histograma acompanhado de um polígono de frequências relativas. Para isso, basta selecionar o intervalo de dados e mudar o tipo de gráfico para linhas na opção “Gráfico Dinâmico”, como mostrado a seguir. Imagem 1.21 – Histrograma e polígono de frequências para a variável “Itrab” (passo) Fonte: Elaborada pela autoria (2023). Outra figura que podemos construir são as ogivas, que são as representações das frequências relativa acumuladas. A seguir, a tabela com essas frequências acumuladas e colunas indicando os limites inferiores (LI) e limites superiores (LS) dos intervalos de classe. 67BIOESTATÍSTICA U ni da de 1 Imagem 1.22 – Histrograma e polígono de frequências para a variável “Itrab” Fonte: Elaborada pela autoria (2023). Após selecionar as células da frequência relativa acumulada Abaixo de, abrimos a janela “Ferramentas de Gráfico”, selecionamos um gráfico de linha e, após editar o título do gráfico e o eixo horizontal com os valores do limite inferior, temos a ogiva Abaixo de, como se mostra na imagem a seguir. Imagem 1.23 – Distribuição de frequências relativas acumuladas (ogivas) Fonte: Elaborada pela autoria (2023). 68 BIOESTATÍSTICA U ni da de 1 Da mesma forma, selecionando as células da frequência relativa acumulada Acima de, abrimos a janela “Ferramentas de Gráfico”, selecionamos um gráfico de linha e, após de editar o título do gráfico e eixo horizontal com os valores do limite superior, temos a ogiva Acima de, como se mostra na seguinte imagem. Imagem 1.24 – Distribuição de frequências relativas acumuladas (ogivas) Fonte: Elaborada pela autoria (2023). 69BIOESTATÍSTICA U ni da de 1 A construção de gráficos adequados no Excel®, conforme discutido por Levine et al. (2011) e Bussab e Morettin (2013), é uma competência essencial para pesquisadores em bioestatística. A escolha cuidadosa do tipo de gráfico, juntamente com uma atenção meticulosa aos detalhes de design, pode significativamente melhorar a análise e comunicação de dados complexos. O Excel® serve como uma ferramenta poderosa nesse aspecto, proporcionando aos pesquisadores os meios para visualizar dados de maneira eficaz, facilitando assim a interpretação e a tomada de decisões baseadas em evidências. ACESSE Após mostrar as opções de apresentação de dados na plataforma Excel, chega o momento de você treinar melhor os conceitos trabalhados na Unidade 1: explore os demais tipos de gráficos a partir da base dados trabalhada nesta seção. Agora é com você! Aplicação de Testes Estatísticos no Excel® Realização de testesestatísticos básicos usando o Excel®. Atualmente, existem vários pacotes estatísticos para tratamento de dados, gratuitos (R Statistical Software, Python) e pagos (SPSS, Minitab, Microsoft Excel). Para expressar as medidas descritivas, será empregado o software Excel por meio de um procedimento simples para sumarização das medidas https://www.ime.usp.br/~noproest/dados/aeusp.xls 70 BIOESTATÍSTICA U ni da de 1 descritivas, permitindo ao usuário a exploração dos dados. Para isso, na aba “Dados” do Excel, clique na ferramenta de análise de dados. Para isso inicialmente, você terá de habilitar a ferramenta “Análise de Dados”. Após habilitar esta ferramenta, clique no ícone “Análise de Dados”. Imagem 1.25 – Icone “Análise de Dados” da plataforma Excel® Fonte: Elaborada pela autoria (2023). Após selecionar o ícone, você deverá escolher a opção de análise de dados “Estatística descritiva”, de Análise de Dados, conforme a imagem a seguir: Imagem 1.26 – Estatística descritiva Fonte: Elaborada pela autoria (2023). 71BIOESTATÍSTICA U ni da de 1 Após a seleção da opção “Estatística descritiva”, você deverá selecionar o conjunto de dados de entrada (opção “Coluna”), a opção de saída “Nova planilha” e “Resumo estatístico”, conforme se vê na imagem a seguir. Imagem 1.27 – Seleção de dados da variável de interesse Fonte: Elaborada pela autoria (2023). Imagem 1.28 – Resumo estatístico: medidas descritivas Fonte: Elaborada pela autoria (2023). 72 BIOESTATÍSTICA U ni da de 1 Após selecionar o “resumo estatístico”, você terá acesso a um conjunto de medidas que incluem tendência central, dispersão e separatrizes. Analisando o resumo estatístico específico para a variável “Tempo de residência em São Paulo em anos”, será possível aprimorar sua interpretação das variáveis de interesse. Limitações do Excel® na análise estatística e quando buscar programas estatísticos especializados. Embora o Excel® seja amplamente utilizado para análise estatística em diversos campos, incluindo a bioestatística, Levine et al. (2011) reconhecem que existem limitações na sua utilização para análises mais complexas ou especializadas. Uma dessas limitações é a capacidade de lidar com grandes volumes de dados. À medida que os conjuntos de dados se tornam excepcionalmente grandes, o Excel® pode se tornar menos eficiente, com tempos de processamento mais lentos e maior suscetibilidade a erros. Outra limitação significativa do Excel® mencionada por Levine et al. (2011) diz respeito à profundidade e à abrangência dos testes estatísticos disponíveis. Enquanto o Excel® oferece um conjunto robusto de ferramentas para testes estatísticos básicos, como t-tests, ANOVA e correlações, ele pode não suportar análises estatísticas mais avançadas ou específicas, como modelos lineares generalizados, análises multivariadas complexas, e testes não paramétricos sofisticados. Além disso, a precisão de algumas funções estatísticas no Excel® tem sido questionada. Estudos anteriores identificaram problemas com a precisão dos resultados fornecidos por algumas das funções estatísticas do Excel®, especialmente em versões anteriores do software. Embora melhorias contínuas tenham 73BIOESTATÍSTICA U ni da de 1 sido feitas, essas questões destacam a importância de verificar os resultados e, quando possível, utilizar programas estatísticos especializados para análises mais precisas e confiáveis. Levine et al. (2011) também discutem a questão da documentação e replicabilidade das análises. Em pesquisa científica, é fundamental que as análises possam ser replicadas e verificadas por outros pesquisadores. Embora o Excel® permita a análise de dados, ele pode não oferecer o mesmo nível de documentação de processo e rastreabilidade que programas estatísticos especializados, como R ou SPSS, que permitem aos usuários escrever e salvar scripts de análise, facilitando a replicação e revisão das análises. Nesse contexto, Levine et al. (2011) sugerem que, para análises estatísticas mais avançadas, complexas ou de grande escala, os pesquisadores devem considerar a utilização de programas estatísticos especializados. Programas como R, SAS, SPSS e Stata oferecem funcionalidades mais avançadas, capazes de lidar com grandes volumes de dados e fornecer uma gama mais ampla de opções analíticas. Além disso, esses programas oferecem maior precisão, documentação detalhada das análises e suporte para a replicação de estudos, aspectos essenciais para a pesquisa científica rigorosa. Portanto, enquanto o Excel® continua sendo uma ferramenta valiosa para muitas aplicações estatísticas, especialmente para análises descritivas e testes estatísticos básicos, Levine et al. (2011) destacam a importância de reconhecer suas limitações. Os pesquisadores devem estar preparados para buscar programas estatísticos especializados quando as demandas de suas análises excederem as capacidades do Excel®, garantindo assim a integridade, precisão e replicabilidade de suas pesquisas científicas. 74 BIOESTATÍSTICA U ni da de 1 RESUMINDO E então? Gostou do que lhe mostramos? Aprendeu mesmo tudinho? Agora, só para termos certeza de que você realmente entendeu o tema de estudo, vamos revisar brevemente os principais pontos abordados. O objetivo principal deste capítulo foi proporcionar ao leitor uma compreensão sólida e aplicável dos conceitos de bioestatística, utilizando o pacote Excel® como ferramenta. Esperamos que você agora seja capaz de realizar análises descritivas e aplicar testes estatísticos relevantes em bancos de dados, com um foco particular em aplicações dentro do campo da bioestatística. Além disso, esse conhecimento deve aprimorar suas habilidades analíticas e capacitá-lo a interpretar e apresentar dados de forma eficaz e profissional. 75BIOESTATÍSTICA U ni da de 1 TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2011. 836p. SAMPAIO, I. B. M. Estatística aplicada à experimentação animal. Belo Horizonte: FEPMVZ, 2010. 264p. SHAHBABA, B. Biostatistics with R. Nova Iorque: Springer, 2012. 352p. SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na área da saúde: conceitos, metodologia, aplicações e prática computacional. Belo Horizonte: Coopmed, 2011. 520p. PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. 2. ed. São Paulo: Pioneira Thompson Learning, 2004. 522p. ZAR, J. H. Biostatistical analysis. Nova Jersey: Prentice-Hall. 1984. 718p. LEVINE, D. M.; BERESON, M.L.; DAVID, S. Estatística: teoria e aplicação usando o Microsoft Excel. 6. ed: LTC, 2011. BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 8. ed. Saraiva, 2013. BRUNI, A.L. Estatística aplicada à gestão empresarial. 4. ed. Atlas, 2013. VIEIRA, S. Elementos da estatística. 5. ed. Atlas, 2012. RE FE RÊ N CI A S Definindo conceitos básicos Introdução Tipos de estudos Amostragem Variáveis Aprendendo a estimar parâmetros populacionais e amostrais descrevendo dados Medidas de tendência central Média aritmética e ponderada Mediana Moda Medidas de dispersão: absoluta e relativa Amplitude Desvio médio Variância Desvio padrão Coeficiente de variação Medidas separatrizes Construindo tabelas e gráficos no pacote Microsoft Excel® Organização de Dados em Tabelas Princípios de organização de dados em tabelas Tabelas de frequência para dados qualitativos e quantitativos Uso de tabelas para resumir e apresentar dados de forma eficiente. Gráficos para Dados Qualitativos Diagramas de barra, setores (pizza) e pictóricos Seleção do tipo de gráfico adequado ao tipo de dado Interpretação de gráficos e erros comuns a evitar Gráficos para Dados Quantitativos Histogramas, boxplots e gráficos de dispersão Como escolher o gráfico adequado para a representação de dados Análise e interpretação de tendências e padrões nos dados Aplicando conceitos em um banco de dados no pacote Microsoft Excel® Introdução ao Excel® para Bioestatística Visão geraldas funcionalidades do Excel® relevantes para análise estatística Importação e organização de dados em planilhas. Dicas de gestão e manipulação de grandes conjuntos de dados Análise Descritiva no Excel® Uso de fórmulas estatísticas para calcular medidas de tendência central e dispersão. Geração de tabelas de frequência e resumos estatísticos. Visualização de dados: construção de gráficos adequados diretamente no Excel® Aplicação de Testes Estatísticos no Excel® Realização de testes estatísticos básicos usando o Excel®. Limitações do Excel® na análise estatística e quando buscar programas estatísticos especializados.um pouco neste universo! 9BIOESTATÍSTICA U ni da de 1 O BJ ET IV O S Olá. Seja muito bem-vindo à Unidade 1. Nosso objetivo é auxiliar você no desenvolvimento das seguintes competências profissionais até o término desta etapa de estudos: 1. Definir conceitos básicos. 2. Aprender a estimar parâmetros populacionais e amostrais descrevendo dados. 3. Construir tabelas e gráficos. 4. Aplicar conceitos em um banco de dados no pacote Excel®. Vamos começar? Está preparado? Então vamos ao trabalho! 10 BIOESTATÍSTICA U ni da de 1 Definindo conceitos básicos OBJETIVO Ao término deste capítulo, espera-se que você domine conceito e aplique os métodos para exploração e apresentação de dados. Isso será de suma importância para o exercício de sua profissão. E então? Motivado para desenvolver esta competência? Sigamos adiante! O principal objetivo deste capítulo é fornecer aos leitores uma compreensão sólida e abrangente dos conceitos básicos de bioestatística. Esse conhecimento fundamental serve como alicerce para explorar tópicos mais complexos dentro da bioestatística e suas aplicações práticas. Ao abordar os tipos de estudos, amostragem e variáveis, este e-book visa equipar os estudantes, profissionais e pesquisadores com as ferramentas necessárias para realizar análises estatísticas rigorosas e interpretar dados de maneira eficaz, contribuindo assim para avanços significativos nos campos de pesquisas. Introdução A importância da Estatística tem sido reportada em diversas áreas, como nas Ciências da Saúde. A Estatística é uma ciência que está interessada nos métodos científicos para coleta, organização, sumarização, apresentação, análise de dados, obtenção de conclusões válidas e tomada de decisões razoáveis com base em tais análises. Em todas as áreas surgem questionamentos, tais como a evolução do salário-mínimo real, consumo de energia per capita, a eficácia de um novo medicamento em relação a um preexistente em diferentes grupos de indivíduos, testagem da efetividade de um novo método de treinamento, quais doenças 11BIOESTATÍSTICA U ni da de 1 decorrentes do consumo de bebidas alcoólicas, entre outros. Na subseção seguinte são relatados alguns tipos de estudos e particularmente aqueles em que é imprescindível o emprego da Bioestatística para solução ou estudo de tais problemas. Tipos de estudos Para solução de problemas em Bioestatística, os profissionais envolvidos devem seguir alguns passos preconizados pelo método científico, como observação, descrição minuciosa de fenômenos e problemas, elaboração e testagem de hipóteses. O propósito de exploração dos dados proposto nesta unidade é fundamental para cumprir as etapas de observação e descrição minuciosa de fenômenos e problemas. Para suplantar essas etapas, os profissionais devem pesquisar bibliografias a respeito do tema e procurar resultados prévios, bem como informações relevantes para entender o problema traçado. Nesse sentido, para solucionar e/ou entender melhor esses problemas, as etapas de planejamento e execução de pesquisas de descrição, explicação, predição e/ou controle de dados observados devem ser respeitadas. De forma indissociável, o tratamento estatístico é dependente do planejamento experimental adotado e coleta de dados realizada. De forma geral, os estudos podem ser classificados como: (1) Estudos retrospectivos, em que são utilizados estudos históricos. (2) Estudos de observação, em que o profissional observa processos ou população e extrai grandezas de interesse para a solução do problema. 12 BIOESTATÍSTICA U ni da de 1 (3) Estudos experimentais, em que o profissional responsável faz avaliações deliberadas ou propositais sobre as variáveis controláveis do sistema ou de um processo, geralmente precedido por um estudo-piloto. (4) Estudos de caso, necessariamente realizados na área de Saúde, definidos por uma cuidadosa e minuciosa descrição, por um ou mais profissionais, do diagnóstico e evolução de uma doença de um reduzido número de indivíduos. (5) Estudos comparativos de coorte. Nesses estudos se compara um grupo exposto a um determinado tratamento em estudo com outro sem exposição ao tratamento (controle). (6) Estudos comparativos de caso-controle, em que são comparados um grupo de doentes que apresentam o desfecho pesquisado (os casos) e um grupo de pessoas sem a doença estudada ou sem o desfecho pesquisado (os controles). SAIBA MAIS A taxonomia de classificação de tipos de estudos oscila, dependendo das referências adotadas, então atenha-se às referências que melhor ajudam a visualizar as situações-problema traçadas por você! Amostragem Em linhas gerais, uma população pode ser definida como um conjunto total de objetos ou indivíduos de interesse em estudo. Por outro lado, o procedimento de amostragem envolve a extração de uma amostra de uma população-alvo, onde a amostra é, nesse contexto, um subconjunto representativo da população. 13BIOESTATÍSTICA U ni da de 1 SAIBA MAIS Em outras palavras, a população é um conjunto ou coleção de dados que descreve algum fenômeno de nosso interesse (“N” é o número de observações da população). A amostragem é usada intuitivamente em nosso cotidiano. A amostra é uma parte representativa da população (“n” é o número de observações de uma amostra). A seguir, os conceitos de população e amostra são expressos matematicamente. Em pesquisas científicas, em que se quer conhecer algumas características de uma população, é muito comum se observar apenas uma amostra de seus elementos e, a partir dos resultados desta amostra, obter valores aproximados para as características populacionais. No levantamento por amostragem, a seleção dos elementos que serão efetivamente observados deve ser feita sob uma metodologia adequada, de tal forma que os resultados das amostras sejam informativos para avaliar características de toda a população. REFLITA Por que amostrar? Economia: torna-se bem mais econômico o levantamento de somente uma parte da população. Tempo: em pesquisa, pode não haver tempo suficiente para pesquisar toda a população, mesmo de posse de recursos financeiros. Confiabilidade dos dados: em um número reduzido de elementos, dar-se-á mais atenção aos casos individuais, evitando erros nas respostas obtidas. Operacionalidade: operações de pequena escala são mais fáceis de produzir. Por exemplo, um dos problemas típicos nos grandes censos é o controle dos entrevistadores. 14 BIOESTATÍSTICA U ni da de 1 Nesse sentido, basicamente, as técnicas de amostragem simples podem ser classificadas como não probabilísticas e probabilísticas. Na amostragem não probabilística são selecionadas as unidades de amostras que consideramos típicas ou representativas. São os estudos de casos tão comuns em diversas áreas de atividade, como nas Ciências da Saúde. Nesse tipo de amostragem, a amostra obtida é não representativa da população. Os dados não se prestam a tratamento estatístico que leva a inferências sobre a população. Os resultados são válidos apenas dentro dos limites da própria amostra. Por outro lado, a amostragem probabilística ou aleatória caracteriza-se pela aleatoriedade na seleção das unidades amostrais. Nesse tipo de amostragem, a amostra obtida deve ser representativa da população. Os dados devem se prestar ao tratamento estatístico. Os resultados obtidos para a amostra podem ser estendidos para a população com grau de confiança determinado. Porém, existem situações em que o uso de amostragem deve ser melhor avaliado, como no caso de uma população reduzida (por exemplo, indivíduos experts em determinado domínio musical, cientistas etc.). A amostragem não é necessária, se a população for reduzida, para termos uma amostra capaz de gerar resultados precisos. Além disso, quanto às características- alvo são de fácil mensuração, a população não é tão pequena e a variável que se quer observar é pode ser mensuradafacilmente, talvez não compense investir em um plano de amostragem. A amostragem aleatória pode ser subdividida em amostragem aleatória simples (AAS), amostragem sistemática (AS), amostragem aleatória estratificada (AAE) e amostragem estratificada proporcional (AEP). 15BIOESTATÍSTICA U ni da de 1 A AAS é, do ponto de vista conceitual e computacional, o método mais direto de se amostrar uma população. Para a seleção de uma amostra aleatória simples, precisamos ter uma lista completa dos elementos da população. Este tipo de amostragem consiste em selecionar a amostra por meio de um sorteio aleatório, sem restrições. Na amostragem aleatória simples, cada elemento da população tem a mesma probabilidade de pertencer à amostra. Na amostragem sistemática, se queremos extrair uma amostra de “n” elementos, dentre uma população de “N” elementos, podemos extrair, sistematicamente um elemento a cada grupo definido por um intervalo de amplitude (N/n). Uma amostra sistemática poderá ser tratada como uma amostra simples se os elementos da população estiverem ordenados de forma aleatória. Adicionalmente, a amostragem aleatória estratificada (AAE) consiste em dividir a população em subgrupos (estratos). Esses estratos devem ser internamente mais homogêneos do que a população, com respeito às variáveis em estudo. São realizadas seleções aleatórias para os diversos estratos da população, de forma independente entre as seleções. Por fim, a amostra completa é obtida por meio da agregação das amostras de cada estrato. Obviamente, neste contexto um prévio conhecimento sobre a população em estudo é fundamental. Por fim, no caso particular da AEP, a proporção do tamanho de cada estrato da população é mantida. Caso um estrato amostral corresponda a 10% da população, o estrato também deve corresponder a 10% da amostra. Porém, esta relação entre amostra e população é eventualmente muito difícil de ser estabelecida. Porém, uma vantagem da AEP reside na garantia de que cada elemento da população tem a mesma probabilidade de ocorrência na amostra. 16 BIOESTATÍSTICA U ni da de 1 Variáveis O conceito de variável consiste em um valor ou qualidade que pode variar de objeto para objeto ou de um indivíduo para outro, de um instante a outro. EXEMPLO: A estatura é uma variável, pois seus valores podem oscilar de uma pessoa a outra (por ex.: 1.85m). Assim como o número de acidentes em uma estrada é uma variável (por ex.: 135 acidentes). Os nomes das variáveis são frequentemente abreviadas por uma letra (por ex.: “QI”, que representa Quociente de Inteligência). As variáveis são classificadas como qualitativas, quando se usa a escala nominal ou ordinal para medição ou contar as características ou grandezas que estamos interessados em estudar. Basicamente, a variável é nominal ou categórica quando se é usada a escala nominal para medir seus valores. Uma variável pode ser classificada como nominal se ela é composta por nomes simples ou categorias (por ex.: masculino ou feminino) e as categorias ou nomes não têm ordem. A variável é ordinal se é usada a escala ordinal para medir seus valores. A variável é ordinal se ela é composta de categorias que tem ordenamento natural (por ex.: Satisfeito, Insatisfeito; Estágio I, Estágio II, Estágio III). EXEMPLO: Variáveis ordinais podem tomar os seguintes valores: Não-numéricos: por exemplo, variável com valores resultantes de “níveis de satisfação”: ( ) a favor, ( ) contra. Numéricos: quando usamos escalas numéricas, as escalas da razão, tais como a escala likert, que são usadas na área de Ciências da Saúde: 17BIOESTATÍSTICA U ni da de 1 ( ) 1 – Discordo totalmente, ( ) 2 – Discordo parcialmente, ( ) 3 - Indiferente, ( ) 4 – Concordo parcialmente, ( ) 5 – Concordo totalmente. Variável qualitativa ordinal: se dá, por exemplo, quando se mede a perspectiva de funcionários no início e final de um treinamento (01 – Nenhuma; 10 – A melhor): (01)(02) (03)(04)(05)(06)(07)(08)(09)(10). Por outro lado, as variáveis quantitativas se referem a quantidades medidas em escala numérica. As variáveis quantitativas são discretas quando assumem valores inteiros ou contáveis (por ex.: 0, 1, 2, 3...). As variáveis quantitativas são denominadas contínuas quando não são contáveis, isto é, assumindo qualquer valor do conjunto dos números reais (por ex.: 1,60; 1,72; 1,85; 2,04). Imagem 1.1 – Tipos de variáveis VARIÁVEL QUALITATIVA Nominal Ordinal Discreta Contínua QUANTITATIVA Fonte: Elaborada pela autoria (2023). RESUMINDO E então? Gostou do que lhe mostramos? Aprendeu mesmo tudinho? Agora, só para termos certeza de que você realmente entendeu o tema de estudo, mergulhamos na essência da bioestatística, começando com a definição e a importância de compreender diferentes tipos de estudos. Essa base inicial é crucial para identificar qual design de estudo melhor se 18 BIOESTATÍSTICA U ni da de 1 aplica a cada contexto de pesquisa, variando de estudos observacionais a experimentais. A escolha correta do tipo de estudo é fundamental para a validade e confiabilidade dos resultados obtidos. Avançando, a discussão sobre amostragem esclarece como selecionar representações adequadas da população para análise. Este segmento enfatiza métodos de amostragem e seus impactos na precisão dos estudos. Entender a amostragem é essencial para evitar viés e garantir que as inferências estatísticas sejam aplicáveis a um grupo maior. Você já refletiu sobre como uma amostra mal selecionada pode distorcer os resultados de uma pesquisa? Por fim, a exploração de variáveis introduz os leitores aos diferentes tipos de dados que podem ser coletados em pesquisas específicas e como sua classificação impacta na escolha das técnicas estatísticas apropriadas. A diferenciação entre variáveis quantitativas e qualitativas, juntamente com a compreensão de como elas são usadas para formular hipóteses e testá-las, é crucial para a interpretação correta dos dados. Este capítulo estabelece o alicerce para os leitores se aventurarem com confiança em análises mais complexas, reforçando a importância da bioestatística como ferramenta indispensável nos estudos da área. 19BIOESTATÍSTICA U ni da de 1 Aprendendo a estimar parâmetros populacionais e amostrais descrevendo dados OBJETIVO Este capítulo visa equipar os leitores com conhecimentos fundamentais para estimar parâmetros populacionais e amostrais, por meio da compreensão detalhada de medidas de tendência central, medidas de dispersão e medidas separatrizes. Enfatizando a aplicação prática desses conceitos, o capítulo prepara os leitores para uma análise de dados eficaz, permitindo-lhes identificar tendências, avaliar a variabilidade dos dados e compreender a distribuição de conjuntos de dados. A meta é promover uma compreensão profunda que facilite a tomada de decisões baseada em dados. Medidas de tendência central Até agora você teve uma breve introdução sobre alguns conceitos básicos em Estatística, tais como tipos de estudos, variáveis, amostragem e população. Esses conceitos são imprescindíveis para a realização de seus trabalhos e estudos. Nesta seção serão abordadas medidas de tendência central, dispersão e separatrizes. Basicamente, as medidas de tendência central são conceituadas como valores centrais (média, moda e mediana) aos quais os dados obtidos se encontram agrupados. Por outro lado, as medidas de dispersão são necessárias ao estudo da variação de variáveis de estudo (variância, desvio médio, desvio padrão, coeficiente de variação). Por fim, como o próprio nome já reporta, as medidas separatrizes são valores que separam o conjunto de 20 BIOESTATÍSTICA U ni da de 1 dados obtidos em partes iguais (quartis, decis e percentis). Nesse sentido, o objetivo desta seção é conceituar essas medidas e entendê-las de forma correta. Os conceitos e medidas que você verá a seguir serão necessários para a resoluçãode exercícios e construção de relatórios nas atividades da disciplina. As medidas de tendência central ou de posição são amplamente empregadas para expressar resultados de experimentos e bases de dados, além de resumir variáveis aleatórias. A determinação das medidas de tendência central tem como objetivo definir o valor mais provável de uma dada variável. Desta forma, a média possui a função de transformar um conjunto de valores de uma amostra ou população em apenas um valor, fornecendo uma ideia ou tendência do conjunto de dados. Média aritmética e ponderada Basicamente, a média aritmética simples (μ, média populacional; ẋ, média amostral) pode ser obtida a partir da relação entre o somatório dos valores de um determinado conjunto de dados populacionais ou amostrais e o número de valores deste conjunto de dados (Equação X). EXEMPLO: Em uma turma de judô para crianças, verificou- se o seguinte conjunto de dados referente à massa corporal (kg): Massa = (34; 40; 33; 29; 37; 38,5; 30; 32). Logo, o valor médio é de: 21BIOESTATÍSTICA U ni da de 1 A média de massa corporal da turma de judô é de 34,18 kg. Por outro lado, a média aritmética ponderada determina o valor médio considerando o peso dos valores observados. Na média ponderada, a alteração da posição dos números pode ocasionar resultados errados, ao contrário da média aritmética simples. EXEMPLO: Suponhamos que, no Exame Nacional de Desempenho de Estudantes (ENADE), para cômputo da nota final dos concluintes no ensino superior, sejam avaliadas as seguintes competências, com pesos diferentes: (1) conhecimentos teóricos do curso; (2) conhecimentos gerais; (3) conhecimentos práticos. As 3 competências possuem respectivamente os pesos de 2, 1 e 3. Logo, se você, ao final do curso, obtiver as notas de 72, 65 e 88, sua média ponderada será: Nesse caso, a média ponderada de desempenho no ENADE será de 78,83 pontos. Mediana A mediana pode ser conceituada como o valor que divide o conjunto de dados em partes iguais com o mesmo número de elementos, constituindo uma medida de posição. O valor da mediana se situa na posição central do conjunto de dados organizado em ordem crescente, de forma que o número de dados 22 BIOESTATÍSTICA U ni da de 1 situados antes desse valor seja igual ao número de dados que se encontram após esse valor. O cálculo da mediana é dependente do número de observações do conjunto de dados. EXEMPLO: Calcular a mediana para conjunto ímpar de dados (9, 12, 8, 6, 14, 11, 5): Em um primeiro momento, ordenam-se os dados (n=7) de forma crescente (5, 6, 8, 9, 11, 12, 14). Logo, a mediana será determinada pelo elemento que divide o conjunto de dados em partes iguais, neste caso, igual a 9. Para o conjunto de dados ímpar, a mediana é definida como o valor da variável que ocupa a posição de ordem . Em conjunto de dados par, não há valor o central, a mediana é determinada como a média dos valores que ocupam as posições de ordem e . EXEMPLO: Calcular a mediana para conjunto par de dados (9,8,6,12,11,14). Primeiramente, ordena-se o conjunto par de dados (n=6) de forma crescente (6,8,9,11,12,14) e calculam-se a posições: ; . Logo, a mediana será dada pela média entre os elementos que ocupam respectivamente a terceira e quarta posições do conjunto de dados: Moda Em síntese, a moda é o valor mais comum no conjunto de dados de uma determinada variável, ou ainda o valor mais frequente, denominado valor modal. Logo, um mesmo conjunto de dados pode apresentar mais de uma moda, ou seja, mais de um valor frequente, classificado como multimodal. 23BIOESTATÍSTICA U ni da de 1 EXEMPLO: Calcule a moda para as idades dos candidatos à presidência de um clube desportivo: idade = (75, 87, 39, 58, 75, 75, 67, 83, 87, 79). Logo, a Moda = 75 (é frequente por 3 vezes). Medidas de dispersão: absoluta e relativa Após a definição conceitual das medidas de tendência central, um aspecto de suma importância para a exploração de dados é o estudo da variação das respostas obtidas relativamente às medidas de tendência central da amostra ou população. A seguir são apresentadas medidas estatísticas para estudo da variabilidade de respostas em torno da medida de tendência central principal, a média. Amplitude De forma simplificada, a amplitude dos dados corresponde à diferença entre os valores máximos e mínimos de uma variável ordenada de forma crescente. A seguir, a amplitude é apresentada matematicamente, em que representa o valor mínimo e , o valor máximo do conjunto de dados: EXEMPLO: A partir de 2 conjuntos de dados x = [3,5,6,12,15] e y = [60,60,60,60,60], a amplitude dos dados é: 24 BIOESTATÍSTICA U ni da de 1 Logo a variável “x” possui amplitude igual a 12 e a variável “y” possui amplitude igual a 0 (dispersão nula), ou seja, os valores da variável “y” não variam entre si. A utilização isolada da amplitude dos dados como medida de dispersão é limitada, uma vez que considera apenas 2 dados extremos. Dessa forma, quanto maior a amplitude total dos dados, maior a variação da variável. Desvio médio O desvio médio, diferentemente da amplitude, leva em consideração o valor médio do conjunto de dados. O desvio médio pode ser definido como o somatório do módulo das diferenças dos dados em relação à média, dividido pelo número total de dados. A seguir, o desvio médio é definido matematicamente: EXEMPLO: Considerando o conjunto de dados da variável x = (12,8,9,10,7,13), calcule o desvio médio. Logo, a dispersão média dos dados é da ordem de 1,83. Variância A variância é uma medida de dispersão que verifica a distância entre os valores obtidos pela medida de tendência central amostral ou populacional (média aritmética). Em suma, a variância pode ser entendida como o somatório dos desvios elevados ao quadrado, dividido pelo total de observações no caso da variância populacional, ou dividido pelo total de observações Highlight 25BIOESTATÍSTICA U ni da de 1 menos 1 no caso da variância amostral. A seguir são definidas as variâncias populacional e amostral. EXEMPLO: Para melhorar o atendimento semanal, a administração de um hospital registrou o tempo médio de atendimento de pacientes junto ao Sistema Único de Saúde. Os resultados obtidos em minutos nos setores de especialidades A, B, C e D para cada dia da semana são destacadas a seguir: Setor Segunda Terça Quarta Quinta Sexta Sábado Domingo A 52 55 63 76 55 66 77 B 35 42 37 45 41 47 44 C 42 35 44 49 43 45 46 D 27 32 36 35 36 39 31 ; ; ; ; ; ; ; ; Em suma, os setores A e D possuem maior e menor tempo de espera semanalmente, respectivamente. Por outro lado, os setores A e D possuem maior e menor dispersão em relação à média. Desvio padrão Apesar da variância ser extensivamente estudada, o desvio padrão é a medida mais usada na testagem de hipóteses estatísticas entre conjuntos de dados, devido à sua maior precisão. Este parâmetro determina a dispersão dos valores do conjunto de 26 BIOESTATÍSTICA U ni da de 1 dados em relação à média, determinado por meio da extração da raiz quadrada da variância. A seguir, a fórmula do desvio padrão amostral é definida matematicamente: EXEMPLO: Relembrando o exemplo anterior, a seguir é calculado o desvio padrão do tempo de espera para os setores hospitalares de A a D. Coeficiente de variação O coeficiente de variação é uma medida de dispersão (instabilidade) relativa de uma variável reposta, permitindo a comparação de dispersão entre variáveis diferentes e para a mesma variável em momentos diferentes. O coeficiente de variação (CV) é determinado pela relação percentual entre o desvio padrão e a média, conforme descrito abaixo: EXEMPLO: Ainda considerando o exemplo anterior, abaixo é determinado o coeficiente de variação para a variável tempo de espera em diferentes setores hospitalares: 27BIOESTATÍSTICA U ni da de 1 A dispersão relativa do desvio padrão em relação à médiaoscilou de 10,02% a 16,04% para a variável tempo de espera. Em geral, o CV de 0,1% a 15% denota uma baixa instabilidade de medida. Uma dispersão de 15,1% a 30% indica uma moderada instabilidade de medida e, por fim, valores maiores que 30% indicam uma elevada dispersão relativa em relação à média. Medidas separatrizes Uma outra categoria de medidas para exploração de dados são as separatrizes. Essas medidas consistem valores de separação do conjunto de dados em partes iguais. Para a realização da separação do conjunto de dados, estes devem ser previamente ordenados de forma crescente. Além da mediana, as medidas separatrizes mais empregadas são: • Os quartis, em que o conjunto de dados é dividido em quatro partes iguais e em cada quartil são alocados 25% dos dados; • Os decis, em que o conjunto de dados é dividido em dez partes iguais; • Os percentis, em que o conjunto de dados é dividido em cem partes iguais. A partir das medidas separatrizes, é construído um diagrama de caixas (denominado em língua inglesa de box- plot), que tem sido extensivamente empregado para exploração do conjunto de dados por evidenciar os principais aspectos da distribuição dos dados. A construção do diagrama box-plot é realizada empregando cinco números, formados pelo valor mínimo, primeiro quartil, segundo quartil (mediana), terceiro quartil e valor máximo. Este tipo de gráfico, além de denotar características da distribuição, é útil para comparar distribuições 28 BIOESTATÍSTICA U ni da de 1 de frequência de dados. Na imagem a seguir, o diagrama box-plot para exploração do conjunto de dados é exemplificado. O diagrama box-plot representa os dados de forma resumida, de forma que as arestas laterais do retângulo representam o primeiro e o terceiro quartis (Q1 e Q3) e a linha central dentro do retângulo, a mediana ou segundo quartil. Entre o valor mínimo e Q1, Q1 e Q2, Q2 e Q3 e de Q3 ao valor máximo, são determinados os quartis. Cada um dos quartis possui 25% dos dados e, obviamente, entre os limites de Q1 e Q3 situam-se 50% dos dados (intervalo interquartil). Dessa forma, para representar os 25% restantes dos dados, em cada cauda serão considerados dados atípicos, caso o valor do dado for menor que o valor observado de Q1 – 1,5(Q3-Q1) ou maior que o valor observado de Q3 + 1,5(Q3- Q1). Adicionalmente, os dados são classificados como valores discrepantes ou outliers, caso o valor do dado for menor que o valor observado de Q1 – 3(Q3-Q1) ou maior que o valor observado de Q3 + 3(Q3-Q1). Por fim, para representar o domínio de variação dos dados que não são discrepantes, a partir do primeiro quartil é traçada uma linha para cima e, para trás, é traçada até o ponto mais remoto. A seguir, é exemplificado o diagrama box-plot. Imagem 1.2 – Diagrama box-plot Q1-3(Q3-Q1) Q3+1,5(Q3-Q1) Q3+3(Q3-Q1) Q1-1,5(Q3-Q1) Atípicos Atípicos Típicos Outliers * * ** Q1 Q2 Q3 Fonte: Elaborada pela autoria (2023). 29BIOESTATÍSTICA U ni da de 1 RESUMINDO E então? Gostou do que lhe mostramos? Aprendeu mesmo tudinho? Agora, só para termos certeza de que você realmente entendeu o tema de estudo, exploramos em profundidade as ferramentas estatísticas fundamentais para estimar parâmetros populacionais e amostrais, descrevendo dados com precisão. Inicialmente, abordamos as medidas de tendência central, incluindo a média aritmética e ponderada, mediana e moda. Esses conceitos são importantes para identificar a centralidade dos dados, oferecendo insights sobre a distribuição dos valores dentro de um conjunto de dados. Mas como essas medidas se aplicam quando precisamos interpretar grandes volumes de dados de forma eficaz? Avançando, discutimos as medidas de dispersão, que incluem amplitude, desvio médio, variância, desvio padrão e coeficiente de variação. Essas medidas são essenciais para compreender a variabilidade dos dados, permitindo-nos avaliar o quão dispersos estão os valores em relação à média. Uma compreensão sólida desses conceitos é vital para analisar a consistência ou variabilidade de um conjunto de dados. Finalmente, exploramos as medidas separatrizes, ferramentas estatísticas que nos ajudam a dividir um conjunto de dados em partes iguais. Essas medidas, que incluem quartis, decis e percentis, são fundamentais para a compreensão detalhada da distribuição dos dados. Elas nos permitem identificar e interpretar os valores que ocupam posições específicas dentro de um conjunto de dados, facilitando a compreensão de suas características gerais. Como as medidas separatrizes podem ser aplicadas para melhorar a análise de dados em sua área de atuação? 30 BIOESTATÍSTICA U ni da de 1 Construindo tabelas e gráficos no pacote Microsoft Excel® OBJETIVO A capacidade de apresentar dados de forma clara e efetiva é uma habilidade fundamental na bioestatística, essencial para a comunicação de descobertas científicas e para a tomada de decisões. Neste capítulo, você será introduzido às técnicas primordiais para a organização de dados em tabelas e para a criação de gráficos que comunicam eficientemente os resultados de suas análises. Ao dominar essas ferramentas, você ampliará sua habilidade de compartilhar insights significativos com a comunidade científica e profissional. As pessoas que tentaram apresentar ou interpretar dados sem a devida instrução enfrentaram dificuldades significativas, desde a seleção inadequada do tipo de gráfico até a incapacidade de identificar padrões e tendências nos dados apresentados. A compreensão profunda dos princípios abordados neste capítulo evitará esses problemas, proporcionando uma base sólida para a análise estatística e a visualização de dados. E então? Motivado para desenvolver esta competência essencial na bioestatística? Vamos lá. Avante! Organização de Dados em Tabelas Princípios de organização de dados em tabelas A organização de dados em tabelas é um componente fundamental na análise estatística, servindo como alicerce para a visualização e interpretação dos dados coletados em pesquisas. 31BIOESTATÍSTICA U ni da de 1 Como destacado por Triola (2011), a clareza na organização dos dados facilita a compreensão das informações apresentadas e potencializa a eficácia da comunicação dos resultados de uma pesquisa. Segundo, Shahbaba (2012), a forma como os dados são organizados em tabelas pode afetar diretamente a facilidade de manipulação e análise estatística desses dados em programas, evidenciando a necessidade de uma estruturação pensada e adaptada às ferramentas de análise utilizadas. Por outro lado, Siqueira e Tibúrcio (2011) discutem a aplicabilidade dos princípios de organização de dados em contextos específicos da área da saúde, enfatizando a relevância da organização de dados para aplicações mais complexas e práticas computacionais. Eles argumentam que uma organização eficaz de dados em tabelas pode significativamente aprimorar a qualidade da pesquisa científica, ao permitir análises mais detalhadas e precisas. Em resumo, a organização de dados em tabelas é uma competência essencial que sustenta a integridade e a eficácia da pesquisa científica em bioestatística. A capacidade de apresentar dados de maneira clara e estruturada é fundamental para a análise, interpretação e comunicação eficaz dos resultados de pesquisas, reforçando a necessidade de uma formação sólida e abrangente nesta área. Tabelas de frequência para dados qualitativos e quantitativos A capacidade de sumarizar os dados em forma de tabelas (uni e bivariadas) é fundamental ao método científico, para suplantar a formulação de hipóteses estatísticas. Pagano e Gauvreau (2004) destacam a importância das tabelas de frequência para a compreensão dos conceitos de probabilidade associados aos dados. Ao organizar os dados de forma que sua distribuição 32 BIOESTATÍSTICA U ni da de 1 seja facilmente compreensível, pesquisadores e estudantes podem melhor aplicarconceitos probabilísticos para interpretar os resultados estatísticos, uma habilidade crucial para a análise de dados em bioestatística. A distribuição de frequências consiste em uma lista das categorias ou valores que uma ou mais variáveis apresentam em conjunto com a quantidade de ocorrências (número) de cada valor ou categoria. Esta quantidade é denominada frequência absoluta e pode ainda ser expressa em forma de frequência percentual de cada categoria (%). A apresentação de dados é dependente do tipo de variável estudada. Basicamente, os gráficos de colunas, barras e linhas geralmente são empregados para expressar frequências absolutas, relativas e medidas de tendência central juntamente com medidas de dispersão. Por outro lado, histogramas e polígonos de frequências são empregados para expressar a distribuição de frequências de variáveis discretas e contínuas. Para sumarizar variáveis nominais, o gráfico de setores é um recurso muito utilizado. Por outro lado, para expressar simultaneamente medidas de tendência central e frequência relativa acumulada, tem sido empregado o gráfico de Pareto. Devem ser destacados, ainda, os gráficos em formato de ogiva, muito usados para expressar processos e empreendimentos a partir da frequência acumulada de determinada variável de controle. Uso de tabelas para resumir e apresentar dados de forma eficiente. A eficiência na apresentação de dados é crucial no campo da bioestatística, onde a capacidade de resumir grandes volumes de informações de forma clara e concisa pode significativamente impactar a interpretação e a tomada de decisões baseada em 33BIOESTATÍSTICA U ni da de 1 evidências. O uso de tabelas para resumir e apresentar dados oferece uma ferramenta poderosa para pesquisadores e profissionais da saúde, facilitando a comunicação de resultados complexos de maneira compreensível. Triola (2011) ressalta a importância das tabelas como mecanismos para organizar dados de maneira lógica, permitindo aos leitores identificar rapidamente as informações mais relevantes de um estudo. Sampaio (2010) destaca que os dados podem variar grandemente, as tabelas permitem um resumo eficaz que facilita comparações entre grupos e condições experimentais. A capacidade de apresentar dados quantitativos e qualitativos lado a lado em formatos tabulares ajuda na visualização de padrões ou discrepâncias que podem não ser imediatamente evidentes em formatos textuais ou por meio de análises estatísticas brutas. As tabelas podem ser usadas para resumir dados e para destacar resultados importantes de análises bioestatísticas, tais como testes de hipóteses e intervalos de confiança. A habilidade de apresentar esses resultados de forma tabular permite que os pesquisadores comuniquem suas descobertas de maneira eficaz, promovendo uma compreensão mais ampla dos seus estudos. Gráficos para Dados Qualitativos Diagramas de barra, setores (pizza) e pictóricos A representação gráfica de dados qualitativos é uma ferramenta essencial na bioestatística, permitindo a visualização de padrões, a comparação de categorias e a facilitação da interpretação dos resultados de pesquisa. Dentre os diversos tipos de gráficos disponíveis, os diagramas de barra, setores (ou pizza) e pictóricos se destacam pela sua eficácia em apresentar dados categóricos de forma intuitiva e acessível. 34 BIOESTATÍSTICA U ni da de 1 Os diagramas de barra podem ser utilizados para comparar a frequência ou proporção de categorias em um conjunto de dados. Este tipo de gráfico é particularmente útil para destacar diferenças entre grupos, facilitando a compreensão rápida das relações entre as categorias. A clareza na apresentação dos dados qualitativos por meio de barras facilita a análise comparativa e a disseminação dos resultados de pesquisa. Imagem 1.3 – Demonstração do gráfico de barras Fonte: Elaborado pela autoria (2023). Os gráficos de setores são frequentemente usados para representar proporções de um todo, proporcionando uma visão clara da distribuição de categorias dentro de um conjunto de dados. Embora este tipo de gráfico seja intuitivo e amplamente reconhecido pelo público, Sampaio (2010) adverte sobre a importância de usá-lo com moderação, especialmente quando se trata de conjuntos de dados com muitas categorias, onde a diferenciação entre as partes pode se tornar difícil. Imagem 1.4 – Demonstração do gráfico de setores Fonte: Elaborado pela autoria (2023). 35BIOESTATÍSTICA U ni da de 1 Os gráficos pictóricos trazem uma forma criativa e atraente de apresentar dados qualitativos, utilizando ícones ou imagens para representar as frequências dos dados. Essa abordagem pode tornar a informação mais relatable e atraente para o público, especialmente em apresentações ou materiais de divulgação para leigos. No entanto, a precisão e a clareza não devem ser sacrificadas pelo apelo visual, e os pictogramas devem ser usados de maneira que os valores representados sejam facilmente compreensíveis. Siqueira e Tibúrcio (2011) discutem a importância da seleção apropriada do tipo de gráfico com base no objetivo da análise e na natureza dos dados. Eles enfatizam que a escolha entre um diagrama de barra, setor ou pictórico deve considerar a facilidade de interpretação dos dados e a eficácia na comunicação das principais conclusões da pesquisa. A seleção criteriosa do tipo de gráfico garante que os dados qualitativos sejam apresentados de forma que melhor destaque as descobertas relevantes. Zar (1984) complementa a discussão, salientando a importância da precisão e da objetividade na representação gráfica de dados. Os gráficos devem ser desenhados e interpretados com cuidado para evitar a distorção da informação, garantindo que as conclusões baseadas na análise gráfica dos dados sejam válidas e confiáveis. Seleção do tipo de gráfico adequado ao tipo de dado A seleção do tipo de gráfico adequado para apresentar dados qualitativos é uma etapa crucial na análise e interpretação estatística, que requer uma compreensão clara dos objetivos da pesquisa e das características dos dados. Cada tipo de gráfico possui suas particularidades e é mais eficaz para comunicar 36 BIOESTATÍSTICA U ni da de 1 certos tipos de informação. A escolha adequada pode facilitar significativamente a compreensão dos resultados por parte do público-alvo, enquanto uma escolha inadequada pode levar a interpretações errôneas ou confusas. Triola (2011) enfatiza a importância de considerar o objetivo da visualização dos dados ao escolher um tipo de gráfico. Por exemplo, se o objetivo é comparar as frequências ou proporções de categorias dentro de uma variável qualitativa, os diagramas de barra podem ser particularmente eficazes, pois permitem uma comparação visual direta entre as categorias. A clareza e simplicidade dos diagramas de barra os tornam uma escolha popular para apresentar diferenças entre grupos ou categorias. Sampaio (2010) destaca que, em alguns casos, os gráficos de setores (ou pizza) podem ser mais apropriados, especialmente quando o interesse está em mostrar como as categorias se distribuem proporcionalmente em relação ao todo. Este tipo de gráfico é particularmente útil para enfatizar a composição de um conjunto de dados, permitindo que os espectadores visualizem rapidamente a contribuição relativa de cada categoria. No entanto, é importante limitar o número de categorias em um gráfico de setores para evitar sobrecarga visual e confusão. Shahbaba (2012) argumenta que a escolha do gráfico deve também levar em conta a facilidade com que os dados podem ser analisados e interpretados pelos usuários finais. Gráficos pictóricos, por exemplo, podem ser muito eficazes para audiências não técnicas, pois usam imagens ou ícones para representar dados, tornando a informação mais acessível e envolvente. A apresentação de dados deve sempre visar a clareza e a precisão, evitando o uso de elementosgráficos desnecessariamente complicados que possam obscurecer a mensagem central dos Highlight Highlight 37BIOESTATÍSTICA U ni da de 1 dados. Também se faz necessário uma avaliação cuidadosa das vantagens e limitações de cada tipo de gráfico, considerando tanto a capacidade de comunicar efetivamente as descobertas quanto a possibilidade de interpretações equivocadas. É de responsabilidade do pesquisador garantir que a seleção do gráfico contribua para uma interpretação correta e útil dos dados. Em resumo, a escolha do tipo de gráfico para apresentar dados qualitativos deve ser guiada por uma compreensão clara dos objetivos da pesquisa, das características dos dados e das necessidades do público-alvo. Uma seleção cuidadosa é fundamental para garantir que os gráficos comuniquem as descobertas de forma eficaz, bem como promovam uma interpretação precisa e informada dos resultados. Interpretação de gráficos e erros comuns a evitar A interpretação correta de gráficos é uma habilidade crucial em bioestatística, tanto para a análise quanto para a comunicação eficaz de resultados de pesquisa. Contudo, a interpretação pode ser comprometida por diversos erros comuns, que devem ser evitados para garantir a precisão e a clareza da informação transmitida. Uma escolha inadequada pode levar a uma interpretação errada da magnitude das diferenças ou das relações entre as variáveis. Por exemplo, um eixo y que não começa em zero pode exagerar as diferenças visuais entre as categorias, induzindo o leitor a interpretar uma diferença significativa onde ela pode não existir na realidade. Outro ponto crucial é a necessidade de clareza na legenda e nos rótulos dos eixos. Gráficos que apresentam categorias 38 BIOESTATÍSTICA U ni da de 1 ou variáveis sem a devida identificação ou com nomenclatura confusa dificultam significativamente a interpretação dos dados. Portanto, é primordial que cada elemento gráfico seja claramente identificado para que os leitores possam entender o que cada parte do gráfico representa. Shahbaba (2012) aponta para o perigo de sobrecarregar um gráfico com muita informação. Enquanto se pode ser tentado a incluir várias variáveis ou categorias em um único gráfico para uma comparação direta, isso pode resultar em um gráfico confuso e difícil de interpretar. A simplicidade é frequentemente a chave para uma comunicação eficaz, e pode ser mais prudente dividir os dados em vários gráficos menores e mais focados. De acordo com Siqueira e Tibúrcio (2011), os gráficos que usam elementos decorativos desnecessários ou formatos complicados podem distrair ou até mesmo enganar o leitor. A escolha de um tipo de gráfico deve sempre ser guiada pela clareza e pela precisão, com o objetivo de facilitar a compreensão dos dados, e não de embelezá-los ou complicá-los. Eles alertam sobre a interpretação excessiva dos dados baseada apenas em elementos gráficos. É crucial que a análise estatística acompanhe a interpretação visual, pois os gráficos podem sugerir tendências ou relações que não são estatisticamente significativas. A análise visual deve sempre ser complementada por testes estatísticos apropriados para confirmar qualquer conclusão sugerida pelo gráfico. Em resumo, a interpretação de gráficos em bioestatística requer uma abordagem cuidadosa e crítica, atenta aos erros comuns que podem distorcer a compreensão dos dados. Evitar esses erros garante a integridade e a confiabilidade da comunicação científica. A habilidade de apresentar dados qualitativos de forma clara e precisa em gráficos é um componente essencial da competência em bioestatística. 39BIOESTATÍSTICA U ni da de 1 Gráficos para Dados Quantitativos Histogramas, boxplots e gráficos de dispersão A análise de dados quantitativos em bioestatística beneficia significativamente do uso de gráficos específicos, como histogramas, boxplots e gráficos de dispersão. Cada um desses tipos de gráficos oferece insights únicos sobre a distribuição, a variação e as relações entre conjuntos de dados, facilitando a interpretação e a comunicação dos resultados de pesquisa. Histogramas são fundamentais para visualizar a distribuição de frequências de um conjunto de dados quantitativos. A utilidade dos histogramas em identificar a forma da distribuição dos dados, permitindo que pesquisadores rapidamente vejam se os dados são normalmente distribuídos, assimétricos ou possuem qualquer outra forma específica. Histogramas são particularmente úteis para identificar modas, assimetrias e a presença de outliers, elementos críticos na análise estatística preliminar. Imagem 1.5 – Demonstração de Histograma Fonte: Elaborado pela autoria (2023). Highlight Highlight 40 BIOESTATÍSTICA U ni da de 1 Boxplots, ou diagramas de caixa, são destacados por Zar (1984) como uma ferramenta eficaz para resumir a distribuição de dados por meio dos seus quartis, mediana, valores extremos e potenciais outliers. A capacidade do boxplot de fornecer uma visão concisa da variação dos dados e de destacar discrepâncias é inestimável, especialmente quando comparando distribuições entre vários grupos ou condições. A eficiência dos boxplots em apresentar uma comparação visual entre grupos, facilita a identificação de diferenças na centralidade e dispersão dos dados. Imagem 1.6 – Demonstração de Boxplots Fonte: Elaborado pela autoria (2023). Gráficos de dispersão são ferramentas essenciais para examinar as relações entre variáveis quantitativas. Eles permitem que os pesquisadores visualizem padrões de correlação, identifiquem tendências e detectem a presença de relações não lineares ou agrupamentos de dados. A importância dos gráficos de dispersão na avaliação preliminar da adequação de modelos estatísticos e na identificação de variáveis que podem influenciar uns aos outros de maneiras complexas. 41BIOESTATÍSTICA U ni da de 1 Imagem 1.7 – Demonstração de Gráficos de dispersão Fonte: Elaborado pela autoria (2023). Em resumo, a escolha entre histogramas, boxplots e gráficos de dispersão deve ser guiada pela natureza dos dados e pelos objetivos específicos da análise. De acordo com Pagano e Gauvreau (2004), uma combinação desses gráficos pode ser frequentemente a melhor abordagem para uma análise exploratória de dados completa, permitindo que os pesquisadores obtenham uma compreensão multifacetada das características dos dados. A complementaridade desses gráficos fornece uma base sólida para a interpretação dos dados e para decisões subsequentes sobre análises estatísticas mais detalhadas. Como escolher o gráfico adequado para a representação de dados A escolha do gráfico adequado para a representação de dados quantitativos é uma decisão fundamental no processo de análise estatística, que pode influenciar significativamente a interpretação e compreensão dos resultados por parte do público. Essa escolha deve ser informada tanto pela natureza dos dados quanto pelos objetivos específicos da análise. 42 BIOESTATÍSTICA U ni da de 1 A compreensão do tipo de dado e da pergunta de pesquisa é crucial na seleção do gráfico apropriado. Histogramas são ideais para visualizar a distribuição de uma única variável quantitativa. Quando o objetivo é sumarizar dados quantitativos, mostrando medidas de tendência central e dispersão, os boxplots se tornam uma escolha preferencial. Quando a intenção é explorar relações entre duas variáveis quantitativas, o uso de gráficos de dispersão é a melhor escolha. Esses gráficos permitem a visualização de padrões de correlação, a identificação de tendências e a detecção de comportamentos não lineares ou agrupamentos, facilitando a análise preliminar de possíveis relações causais ou associações entre as variáveis. A simplicidade e clareza devem ser priorizadas, escolhendo-se gráficos que comunicam efetivamente a essência dos dados sem introduzir ambiguidades ou mal-entendidos. Em muitos casos, pode ser benéficocombinar diferentes tipos de gráficos para proporcionar uma visão mais completa dos dados. Por exemplo, um estudo pode beneficiar-se da apresentação de histogramas para mostrar a distribuição dos dados, complementados por gráficos de dispersão que exploram as relações entre variáveis. Além disso, a escolha do gráfico adequado também deve considerar o público-alvo. Sampaio (2010) lembra que gráficos que são intuitivos para especialistas podem não ser tão acessíveis para um público leigo ou não especializado. Portanto, entender a audiência é fundamental para garantir que a representação gráfica dos dados seja não só tecnicamente correta, como também eficaz na comunicação com o público pretendido. 43BIOESTATÍSTICA U ni da de 1 Análise e interpretação de tendências e padrões nos dados A análise e interpretação de tendências e padrões em dados quantitativos são fundamentais para a compreensão de fenômenos biológicos e de saúde, permitindo aos pesquisadores formular hipóteses, identificar relações causais e prever comportamentos futuros. Já vimos que os gráficos desempenham um papel crucial neste processo, oferecendo uma representação visual que pode revelar insights que não são imediatamente aparentes por meio da análise estatística numérica. A compreensão de características como: normalidade, assimetria e bimodalidade, presentes em histogramas, é essencial, pois elas podem afetar a escolha dos testes estatísticos aplicados e, consequentemente, a interpretação dos resultados. Por exemplo, uma distribuição assimétrica pode indicar uma tendência subjacente que necessita de investigação adicional. A análise de boxplots pode revelar dispersões, tendências centrais e disparidades entre populações ou condições experimentais. Os gráficos de dispersão são fundamentais para examinar as relações entre variáveis quantitativas. A presença de padrões lineares ou não lineares pode fornecer evidências preliminares de correlações ou associações, orientando análises mais profundas. Em suma, a análise e interpretação de tendências e padrões em dados quantitativos exigem um equilíbrio entre a análise visual proporcionada por gráficos e a aplicação de métodos estatísticos rigorosos. A habilidade de identificar corretamente essas tendências e compreender suas implicações pode revelar insights valiosos sobre os fenômenos estudados, contribuindo significativamente para o avanço do conhecimento científico na bioestatística e áreas relacionadas. 44 BIOESTATÍSTICA U ni da de 1 RESUMINDO E então? Gostou do que lhe mostramos? Aprendeu mesmo tudinho? Agora, só para termos certeza de que você realmente entendeu o tema de estudo, vamos resumir o que foi visto neste capítulo. Primeiramente, mergulhamos profundamente na arte e na ciência de construir tabelas e gráficos, fundamentais para a análise exploratória de dados. Por meio deste capítulo, exploramos como a organização eficaz dos dados em tabelas não só facilita a compreensão e a interpretação dos dados coletados, mas também serve como base para análises estatísticas subsequentes. Discutimos detalhadamente os diferentes tipos de gráficos – incluindo diagramas de barra, gráficos de setores e pictóricos para dados qualitativos, além de histogramas, boxplots e gráficos de dispersão para dados quantitativos – e como cada um pode ser usado para ilustrar aspectos específicos dos dados, desde a distribuição até as relações entre variáveis. Enfatizamos a importância da seleção criteriosa do tipo de gráfico mais adequado para representar os dados, considerando o que se deseja comunicar ao público-alvo. Além disso, discutimos os erros comuns na construção de gráficos e como evitá-los, sublinhando a necessidade de uma apresentação clara e precisa para facilitar a interpretação e a análise crítica dos dados. A análise e interpretação de tendências e padrões nos dados foram destacadas como componentes essenciais da análise exploratória de dados. Este capítulo não apenas forneceu as ferramentas necessárias para realizar essas tarefas de forma eficaz, mas também procurou encorajar o leitor a desenvolver uma mentalidade analítica, questionando constantemente o que os dados revelam e como essas revelações podem ser aplicadas para responder a perguntas de pesquisa específicas. 45BIOESTATÍSTICA U ni da de 1 Aplicando conceitos em um banco de dados no pacote Microsoft Excel® OBJETIVO O objetivo deste capítulo é proporcionar ao leitor uma compreensão sólida e aplicável dos conceitos de bioestatística utilizando o pacote Excel® como ferramenta. Espera-se que, ao final deste capítulo, o estudante seja capaz de efetuar análises descritivas e aplicar testes estatísticos relevantes em bancos de dados, com um enfoque particular em aplicações dentro do campo da bioestatística. Esse conhecimento aprimorará a habilidade analítica do leitor e também o capacitará a interpretar e a apresentar dados de forma eficaz e profissional. Introdução ao Excel® para Bioestatística Visão geral das funcionalidades do Excel® relevantes para análise estatística A introdução ao Excel® para bioestatística abre um vasto leque de possibilidades para o pesquisador moderno. A visão geral das funcionalidades do Excel® relevantes para análise estatística não só facilita a gestão de grandes conjuntos de dados biológicos e de saúde, mas também democratiza a análise estatística, tornando-a acessível a profissionais e estudantes de diversas áreas. Levine et al. (2011) destacam a importância do Excel® como uma ferramenta robusta para análise estatística, capaz de realizar desde as mais simples até as mais complexas análises. 46 BIOESTATÍSTICA U ni da de 1 Além disso, Bruni (2013) ressalta a capacidade do Excel® de apresentar dados por meio de uma variedade de gráficos e tabelas, o que facilita a interpretação e a comunicação dos resultados das análises. A visualização de dados é uma competência chave para a bioestatística, permitindo aos pesquisadores e profissionais da saúde identificar padrões, tendências e outliers em seus dados de forma intuitiva. A habilidade de criar gráficos dinâmicos e personalizáveis no Excel® é uma vantagem significativa, pois permite ajustes rápidos conforme a análise evolui, garantindo que as apresentações dos dados sejam tanto precisas quanto informativas. A ferramenta também é poderosa para a gestão de dados, com funcionalidades que permitem a limpeza, a transformação e a organização de grandes volumes de dados, preparando-os para uma análise estatística rigorosa. A capacidade de filtrar, classificar e explorar dados por meio de tabelas dinâmicas facilita o reconhecimento de inconsistências e a preparação de conjuntos de dados para análises mais profundas, destacando a versatilidade do Excel® como uma ferramenta indispensável na prática da bioestatística. Portanto, a compreensão detalhada das funcionalidades do Excel® relevantes para a análise estatística é fundamental para qualquer profissional envolvido na área. A facilidade de uso, combinada com a capacidade de realizar análises complexas, faz do Excel® uma ferramenta valiosa. Ao dominar essas funcionalidades, os profissionais estão bem equipados para enfrentar os desafios estatísticos na pesquisa em saúde, garantindo que suas conclusões sejam baseadas em análises precisas e confiáveis. 47BIOESTATÍSTICA U ni da de 1 Importação e organização de dados em planilhas. A importação e organização de dados em planilhas Excel® constituem etapas fundamentais para qualquer análise estatística no campo da bioestatística. A eficiência e a precisão na manipulação desses dados são cruciais para garantir a qualidade e a confiabilidade das análises subsequentes. Uma vez importados, os dados podem ser organizados, filtrados e classificados de maneira a facilitar análises estatísticas. A utilização de tabelas dinâmicas, por exemplo, permite uma manipulação rápida e flexível dos dados,possibilitando aos pesquisadores examinar e agrupar informações sob diversas perspectivas sem alterar os dados originais. Esta capacidade de reorganizar dados com facilidade é essencial para a identificação de padrões, tendências e anomalias. Além disso, a organização de dados no Excel® abrange também a limpeza dos mesmos, processo este que Levine et al. (2011) afirmam ser vital para a preparação de análises estatísticas. A limpeza de dados pode incluir a remoção de duplicatas, a correção de erros de entrada e a tratativa de valores ausentes. Essas ações são indispensáveis para assegurar a integridade e a precisão dos dados, evitando-se assim conclusões errôneas derivadas de dados imprecisos ou mal organizados. A organização efetiva de dados em planilhas também inclui a categorização adequada das variáveis, o que, segundo Bruni (2013), facilita a aplicação de testes estatísticos e a interpretação dos resultados. A definição clara de variáveis dependentes e independentes, bem como a classificação correta de dados qualitativos e quantitativos, são passos cruciais que afetam diretamente a escolha dos métodos estatísticos a serem aplicados e a validade dos resultados obtidos. 48 BIOESTATÍSTICA U ni da de 1 Dicas de gestão e manipulação de grandes conjuntos de dados A gestão e manipulação de grandes conjuntos de dados no Excel® apresentam desafios únicos, especialmente no contexto da bioestatística, onde os dados não só são volumosos, mas também complexos e muitas vezes sensíveis. Levine et al. (2011) oferecem uma série de dicas valiosas para enfrentar esses desafios, enfatizando a necessidade de estratégias eficientes para a manipulação desses grandes volumes de dados. Uma dessas estratégias é a utilização de tabelas dinâmicas, que permitem uma análise rápida e flexível de grandes conjuntos de dados, facilitando a sumarização, a análise e a apresentação dos dados de maneira compreensível. Outra recomendação importante de Levine et al. (2011) é a utilização de funções de filtro e classificação, que podem ajudar significativamente na gestão de grandes volumes de dados. Além disso, a segmentação de dados pode ser particularmente útil, permitindo aos pesquisadores trabalhar com amostras de dados mais manejáveis para testes preliminares antes de aplicar análises mais complexas ao conjunto de dados completo. A organização dos dados em várias planilhas dentro de um mesmo workbook do Excel® é outra dica valiosa para a gestão de grandes conjuntos de dados. Isso não só ajuda a manter os dados organizados e acessíveis, mas também permite uma manipulação mais eficiente dos dados, reduzindo o risco de erros e facilitando a realização de análises complexas. Levine et al. (2011) também destacam a importância de utilizar as funcionalidades avançadas do Excel®, como as fórmulas matriciais e as funções de banco de dados, para manipular e analisar grandes volumes de dados. Essas ferramentas são 49BIOESTATÍSTICA U ni da de 1 extremamente poderosas para realizar cálculos complexos e análises detalhadas, permitindo que os pesquisadores extraiam insights valiosos de seus dados de forma eficiente. Em resumo, a gestão e manipulação de grandes conjuntos de dados no Excel® requerem uma abordagem meticulosa e estratégica, conforme recomendado por Levine et al. (2011). Ao seguir essas dicas, os pesquisadores em bioestatística podem maximizar a eficiência de suas análises, garantindo ao mesmo tempo a integridade e a confiabilidade dos seus dados. Análise Descritiva no Excel® Uso de fórmulas estatísticas para calcular medidas de tendência central e dispersão. O Excel® oferece uma gama extensiva de funcionalidades que facilitam a realização de análises estatísticas, incluindo o cálculo de medidas de tendência central e dispersão, fundamentais para a compreensão das características gerais de um conjunto de dados. Levine et al. (2011) discutem a importância dessas medidas para a análise descritiva, apontando que o Excel® possui fórmulas integradas que permitem calcular média, mediana, modo, variância e desvio padrão com facilidade. Essas medidas fornecem insights essenciais sobre a distribuição dos dados, indicando o valor central em torno do qual os dados estão agrupados, bem como a variabilidade dos dados em torno desse centro. Vieira (2012) complementa essa discussão ao destacar a aplicabilidade dessas medidas no contexto da análise estatística, enfatizando a importância de se entender a natureza dos dados 50 BIOESTATÍSTICA U ni da de 1 antes de selecionar a medida de tendência central ou dispersão mais apropriada. Por exemplo, enquanto a média é útil para dados distribuídos de maneira uniforme, a mediana pode ser mais representativa para distribuições com outliers significativos, que podem distorcer a média. O Excel® simplifica a aplicação dessas medidas por meio de suas funções estatísticas, que podem ser aplicadas diretamente a conjuntos de dados. Levine et al. (2011) ilustram como o uso dessas funções pode ser feito de maneira intuitiva, permitindo aos pesquisadores realizar análises descritivas complexas sem a necessidade de cálculos manuais extensos. Além disso, a capacidade do Excel® de atualizar automaticamente os resultados das fórmulas quando os dados de entrada são alterados torna o processo de análise mais dinâmico e adaptável às mudanças nos dados. Vieira também aponta para a importância da dispersão dos dados, argumentando que medidas como a variância e o desvio padrão são cruciais para entender a dispersão dos dados em torno da média. O Excel® facilita o cálculo dessas medidas, permitindo aos pesquisadores avaliar rapidamente a consistência dos dados e identificar possíveis outliers ou anomalias nos dados. Adicionalmente, a capacidade do Excel® de visualizar dados por meio de gráficos complementa a análise descritiva, oferecendo uma representação visual das tendências, da centralidade e da dispersão dos dados. Essa funcionalidade, conforme discutido por Levine et al. (2011), não apenas enriquece a análise estatística, mas também facilita a comunicação dos resultados das análises para um público mais amplo, que pode não estar familiarizado com os detalhes técnicos da estatística. Em resumo, a análise descritiva no Excel®, enfocando o uso de fórmulas estatísticas para calcular medidas de 51BIOESTATÍSTICA U ni da de 1 tendência central e dispersão, é uma ferramenta poderosa para pesquisadores em bioestatística. Ao dominar as técnicas no Excel®, os pesquisadores estão bem equipados para realizar análises descritivas eficazes, fundamentais para a investigação estatística em diversas áreas. Geração de tabelas de frequência e resumos estatísticos. As tabelas de frequência, tanto absoluta quanto relativa, desempenham um papel crucial na identificação de padrões, tendências e anomalias nos dados, oferecendo uma visão clara da distribuição dos dados coletados. Sua elaboração é uma prática essencial para a análise descritiva em bioestatística, permitindo aos pesquisadores visualizar e compreender a distribuição dos dados de forma eficiente. Para exemplificar, imagine um conjunto de dados representando a contagem de diferentes espécies em uma amostra ambiental. A tabela de frequência absoluta listaria cada espécie junto com a quantidade de vezes que cada uma foi encontrada na amostra. Por outro lado, uma tabela de frequência relativa converteria essas contagens em proporções ou percentuais do total, oferecendo uma perspectiva diferente sobre a importância relativa de cada espécie dentro da amostra. Tabela 1.1: Exemplo de Tabela de Frequência Absoluta: Espécie Frequência Absoluta Espécie A 20 Espécie B 15 Espécie C 30 Espécie D 10 Fonte: autor 52 BIOESTATÍSTICA U ni da de 1 Tabela 1.2: Exemplo de Tabela de Frequência Relativa: Espécie Frequência Relativa (%) Espécie A 25% Espécie B 18.75% Espécie C 37.5% Espécie D 12.5% Fonte: autor Esses exemplos