Prévia do material em texto
Bioestatística Autores: Profa. Carina Helena Fraga Prof. Roberto Bianco Colaboradoras: Profa. Vanessa Santhiago Profa. Laura Cristina da Cruz Dominciano Professores conteudistas: Carina Helena Wasem Fraga / Roberto Bianco Carina Helena Wasem Fraga Possui licenciatura plena pela Universidade Federal do Rio Grande do Sul (UFRGS), mestrado em Ciências do Movimento Humano pela Universidade Federal do Rio Grande do Sul (UFRGS) e doutorado em Ciências da Motricidade pela Universidade Estadual Paulista (UNESP). Desenvolve Pesquisa na linha de Biomecânica do Movimento Humano. Atua como pesquisadora colaboradora no Laboratório de Biomecânica da Universidade de São Paulo (USP). É professora titular da Universidade Paulista (UNIP) do curso de Educação Física, líder da disciplina de Bioestatística nessa instituição, e coordenadora de cursos de especialização na área de Biomecânica e Aprendizagem Motora. Ainda, é professora convidada de cursos de especialização de diversos lugares do Brasil. Roberto Bianco Possui graduação e mestrado em Educação Física pela Escola de Educação Física e Esporte da Universidade de São Paulo (EEFE‑USP). Atualmente desenvolve seu doutorado em Educação Física no Laboratório de Biomecânica da Escola de Educação Física e Esporte da Universidade de São Paulo (EEFE‑USP). É professor assistente da Universidade Paulista (UNIP) do Curso de Educação Física e líder das disciplinas de Biomecânica e Biomecânica Aplicada ao Esporte. Coordena os cursos de especialização na área de Biomecânica, Cinesiologia e Aprendizagem Motora, e é professor convidado de cursos de especialização de diversos lugares do Brasil. © Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem permissão escrita da Universidade Paulista. Dados Internacionais de Catalogação na Publicação (CIP) F811 Fraga, Carina Helena. Bioestatística / Carina Helena Fraga. – São Paulo: Editora Sol, 2019. 140 p. il. Nota: este volume está publicado nos Cadernos de Estudos e Pesquisas da UNIP, Série Didática, ano XXV, n. 2‑020/19, ISSN 1517‑9230. 1. Estatística. 2. Distribuição de dados. 3. Testes. I. Título. CDU 57.087 U500.56 – 19 Prof. Dr. João Carlos Di Genio Reitor Prof. Fábio Romeu de Carvalho Vice-Reitor de Planejamento, Administração e Finanças Profa. Melânia Dalla Torre Vice-Reitora de Unidades Universitárias Prof. Dr. Yugo Okida Vice-Reitor de Pós-Graduação e Pesquisa Profa. Dra. Marília Ancona‑Lopez Vice-Reitora de Graduação Unip Interativa – EaD Profa. Elisabete Brihy Prof. Marcelo Souza Prof. Dr. Luiz Felipe Scabar Prof. Ivan Daliberto Frugoli Material Didático – EaD Comissão editorial: Dra. Angélica L. Carlini (UNIP) Dra. Divane Alves da Silva (UNIP) Dr. Ivan Dias da Motta (CESUMAR) Dra. Kátia Mosorov Alonso (UFMT) Dra. Valéria de Carvalho (UNIP) Apoio: Profa. Cláudia Regina Baptista – EaD Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos Projeto gráfico: Prof. Alexandre Ponzetto Revisão: Carla Moro Luanne Batista Sumário Bioestatística APRESENTAÇÃO ......................................................................................................................................................7 INTRODUÇÃO ...........................................................................................................................................................7 Unidade I 1 CONCEITOS GERAIS DE ESTATÍSTICA ..........................................................................................................9 1.1 Definições de estatística .......................................................................................................................9 1.2 População e amostra .......................................................................................................................... 11 2 ESTATÍSTICA DESCRITIVA .............................................................................................................................. 16 2.1 Tipos de variáveis: quantitativas e qualitativas ....................................................................... 17 2.2 Variáveis de posição: valores máximos, mínimos, moda, média e mediana ................ 26 3 MEDIDAS DE VARIABILIDADE ..................................................................................................................... 42 3.1 Variância .................................................................................................................................................. 44 3.2 Desvio‑padrão ....................................................................................................................................... 50 3.3 Coeficiente de variação ..................................................................................................................... 52 4 GRÁFICOS E TABELAS .................................................................................................................................... 56 4.1 Elaboração de tabelas ......................................................................................................................... 56 4.2 Representações gráficas .................................................................................................................... 59 Unidade II 5 ANÁLISE NA DISTRIBUIÇÃO DOS DADOS .............................................................................................. 77 5.1 Distribuição normal ............................................................................................................................. 77 5.2 Testes de normalidade ........................................................................................................................ 81 6 FORMULAÇÃO DE HIPÓTESES .................................................................................................................... 84 6.1 Estratégias de busca de artigos científicos ................................................................................ 90 7 TESTES ESTATÍSTICOS: TESTE T .................................................................................................................... 95 7.1 Teste t para uma amostra ................................................................................................................. 95 7.2 Teste t pareado ...................................................................................................................................... 98 7.3 Teste t para amostras independentes ........................................................................................101 8 OUTROS TESTES ESTATÍSTICOS .................................................................................................................104 8.1 Teste de Anova ....................................................................................................................................104 8.2 Teste de Friedman ..............................................................................................................................108 8.3 Teste de Correlação............................................................................................................................109 8.4 Teste de Regressão Linear ...............................................................................................................119 7 APRESENTAÇÃO Em Educação Física, invariavelmente, é necessário realizar análises entre o desempenho de diferentes grupos ou investigar até que ponto uma intervenção ou treinamento alcançou seus objetivos previamente propostos. Para tanto, uma análise estatística permite uma comparação ou caracterização confiável do grupo de dados coletados. Nesse sentido, a disciplina Bioestatística visa a conceituar a estatística aplicada à pesquisa científica, relacionando os projetos• Aluno 1: valores de moda – 6 e 7; classificação – bimodal. • Aluno 2: valor de moda – 6; classificação – unimodal. • Aluno 3: sem nenhum valor de moda; classificação – amodal. • Aluno 4: valores de moda – 6, 8 e 7; classificação – multimodal. Observação Um conjunto de dados pode ser classificado como amodal (sem moda), unimodal (um valor de moda), bimodal (dois valores de moda), e multimodal (mais de dois valores de moda). Valor de Mediana A mediana é uma medida de tendência central correspondente ao valor da variável que ocupa a posição central de um conjunto de n dados ordenados. Assim, para calcularmos o valor de mediana, o primeiro procedimento importante é colocarmos os valores do conjunto de dados em ordem crescente. Esse valor é geralmente expresso pelo símbolo Md. 37 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Assim, pode‑se dizer que o valor Md divide o conjunto de dados em duas partes de igual tamanho, ou seja, há mesma quantidade de valores menores e maiores em torno desse valor. Por exemplo, considere o conjunto de dados (A) formado pelos valores 2, 6, 3, 7, 8. Ao ordenarmos esse conjunto de dados, teremos a seguinte sequência de valores: Dados ordenados: Conjunto (A) = 2, 3, 6, 7, 8. A partir disso, o valor de mediana corresponde àquele valor que está no “meio”, ou seja, o valor central. Como nesse exemplo temos poucas variáveis (apenas cinco números), torna‑se mais fácil identificar esse valor. Temos dois valores para esquerda (números 2 e 3) e dois valores para direita (números 7 e 8), sendo que a variável correspondente ao número 6 ocupa a posição central, sendo, portanto, o valor da mediana. 2 3 6 7 8 ↑ Posição mediana Assim, Md = 6. Entretanto, nem sempre esse valor é identificável tão rapidamente, pois quando há um grande número de dados, essa rápida visualização torna‑se inviável. Exatamente por isso, após a primeira etapa de ordenamento dos dados, sugere‑se a aplicação da seguinte fórmula para identificar a posição da mediana: Posição da mediana = n+1 2 Nesse caso, n corresponde ao número de variáveis do conjunto de dados. Vamos aplicar essa fórmula no nosso exemplo anterior em que tínhamos o conjunto de dados (A) e você perceberá que o mesmo valor determinado anteriormente será obtido. O conjunto de dados (A) apresenta cinco valores; portanto, n é igual a 5. Assim, para identificar a posição da mediana no conjunto de dados (A), temos: Posição da mediana = 5 1 2 3 � � Portanto, para o conjunto (A), a valor de mediana está na posição 3 dos dados ordenados. 38 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Dados ordenados: Conjunto (A) = 2, 3, 6, 7, 8. Valor da mediana na posição 3 = 6 Md = 6 Vamos a um exemplo aplicado à Educação Física: você registrou o número de saques no voleibol realizados com sucesso para nove alunos e obteve os seguintes valores: 13, 8, 7, 11, 9, 8, 12, 5, 10. Para calcular a mediana, a primeira coisa a se fazer é ordenar esses valores: Dados ordenados: Valores de saques realizados com sucesso = 5, 7, 8, 8, 9, 10, 11, 12, 13. Para esse conjunto de dados, temos o valor de n igual a 9 (número de variáveis do conjunto). Agora, usando a fórmula para encontrar a posição da mediana, temos: Posição da mediana = 9 1 2 5 � � Valor da mediana na posição 5 = 9 Md = 9 Dessa forma, a utilização desse procedimento permitirá a identificação de forma simples e rápida do valor correspondente à mediana. Entretanto, a identificação direta desse valor ocorre apenas quando temos um número ímpar de variáveis no nosso conjunto de dados. Note que nos dois exemplos anteriores o valor de n era ímpar (no conjunto de dados (A), o n era igual a 5; e 9 alunos realizaram saques no voleibol – portanto, nessa condição o n era 9). Lembrete A mediana corresponde ao valor da variável que ocupa a posição central de um conjunto de n dados ordenados. Quando o valor correspondente a n for um número ímpar, ao encontrar a posição da mediana, você terá exatamente a mesma quantidade de valores superiores e inferiores ao valor da Md. E quando o conjunto de dados tiver um número par de variáveis? Como devemos proceder nessa situação? 39 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Figura 19 – Registro do número de saques no voleibol realizados com sucesso para nove alunos Para ficar mais claro, vamos a um exemplo: imagine que você tenha os seguintes valores no conjunto de dados (B). Conjunto de dados (B) = 4, 8, 2, 1, 9, 6 Como vimos, o primeiro passo é ordenar os dados desse conjunto. Dessa forma, temos: Conjunto de dados (B) = 1, 2, 4, 6, 8, 9 O próximo passo é aplicar a fórmula para encontrar a posição da mediana: n+1 2 Como o conjunto de dados (B) apresenta seis variáveis, temos nosso valor de n nessa condição correspondente a 6. Então, aplicando a fórmula anterior para determinarmos a posição da mediana, teremos: Posição da mediana = 6 1 2 3 5 � � , 40 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 O problema é que não existe a posição 3,5, existe um valor correspondente à posição 3 e outro correspondente à posição 4, mas a posição 3,5 não é real e, portanto, não podemos atribuir diretamente um valor de Md. Nessa situação, utilizamos os valores em torno da posição encontrada e calculamos a média desses dois valores. Seguindo o nosso exemplo anterior, encontramos a Md na posição 3,5. Assim, vamos tomar os valores de uma posição imediatamente superior e de uma posição imediatamente inferior para calcularmos a média desses valores. A posição imediatamente superior a 3,5 é o valor na posição 3, e aquela imediatamente inferior é o valor na posição 4. Considerando o conjunto de dados ordenados, temos: • valor na posição 3 = 4; • valor na posição 4 = 6. Agora, calculamos a média entre esses dois valores. Dessa forma, temos: Média entre os valores das duas posições = (4+6)/ 2 = 5 Portanto, para o conjunto de dados (B), em que o valor de n corresponde a um número par, encontramos o seguinte valor de Md. Valor da mediana na posição 3,5 = 5 Md = 5 Vamos a outro exemplo mais diretamente relacionado à área da Educação Física. Imagine oito crianças pulando corda e que queira determinar quantas vezes elas conseguem saltar seguidamente sem cometer nenhum erro. Considerando o desempenho de cada criança, você chega ao seguinte conjunto de dados: Saltos realizados com sucesso: 23, 41, 9, 17, 22, 39, 12, 28. Agora, vamos calcular o número de Md para esse conjunto de dados, sendo a primeira etapa ordenar os dados. Saltos realizados com sucesso (ordenados): 9, 12, 17, 22, 23, 28, 39, 41. A segunda etapa é achar a posição da mediana. Considerando que temos 8 valores (oito crianças saltaram), nosso n é igual a 8. Posição da mediana= n� � � � 1 2 8 1 2 4 5, 41 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Como o valor de n é par,a posição da Md não é real nesse conjunto de dados (4,5). Portanto, precisamos calcular a média entre o valor da posição inferior (posição 4) e o valor da posição superior (posição 5), a partir do conjunto de dados ordenados. Valor da posição 4 = 22 Valor da posição 5 = 23 Média entre os valores das duas posições = (22+23)/ 2 = 22,5 Md = 22,5 saltos Dessa forma, o desempenho mediano das oito crianças que brincaram de pular corda foi 22,5 saltos. Observação Quando o valor de n é par em um conjunto de dados, para calcular a mediana, deve‑se obter a média entre o valor da posição inferior e da posição superior no conjunto de dados ordenados. Uma característica importante da Md é que ela não é influenciada pelos valores extremos do conjunto de dados. Imagine que, no exemplo dado anteriormente você tivesse uma criança com desempenho extraordinário que conseguisse saltar 160 vezes, em vez de 41 vezes. Note que ainda assim, o valor de Md continuaria sendo 22,5 saltos, pois nessa variável não importa o pior e o melhor desempenho; apenas os desempenhos centrais. Isso já não acontece quando calculamos a média, a qual é fortemente influenciada por todos os valores, uma vez que para calculá‑la precisamos primeiro somar todos os valores do conjunto de dados (conforme já discutimos anteriormente). Saiba mais No final do livro Bioestatística: princípios e aplicações, da autora Sidia M. Callegari‑Jacques, Editora Artmed, há uma lista de exercícios da qual constam mais alguns exemplos para que os valores de média, moda e mediana sejam determinados. Utilize mais essa oportunidade para aprimorar seus conhecimentos. Como discutimos, existem diferentes valores de tendência central, sendo os mais importantes os de média, moda e mediana. Geralmente, estes diferem em um conjunto de dados, mas isso não necessariamente ocorrerá sempre. 42 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Considere uma situação em que o conjunto de dados mostre uma distribuição exatamente simétrica, ou seja, os dados se distribuem de modo uniforme, o que pode ser observado na figura 20 (B), na qual os valores de média, moda e mediana coincidem. Quando a distribuição dos dados mostra‑se assimétrica e os valores se localizam mais direita no gráfico, ou seja, mais em direção aos maiores valores (figura 20 (A)), podemos observar que os valores de moda serão maiores que os de mediana, os quais por sua vez serão maiores que os de média. Ao contrário, quando a distribuição dos dados é assimétrica, mas eles se localizam mais à esquerda no gráfico, em direção aos menores valores (figura 20(C)), podemos observar que os valores de média agora são maiores que os valores de mediana, os quais por sua vez são maiores que os valores de moda. Média Mediana Moda (A) (B) (C) Média Mediana Moda Média Mediana Moda Figura 20 – Identificação dos valores de média, moda e mediana em gráficos com dados em distribuição simétrica (B) e assimétrica (A e C) Lembrete Quando a distribuição dos dados for simétrica, teremos os mesmos valores de média, moda e mediana. Quando a distribuição dos dados for assimétrica, esses valores não irão coincidir. 3 MEDIDAS DE VARIABILIDADE As medidas de variabilidade, também conhecidas como medidas de dispersão, permitem avaliar a diversidade da distribuição das variáveis em um conjunto de dados, ou seja, indicam como os dados estão neste dispostos. Se os fenômenos naturais fossem sempre estáveis de modo que as mesmas causas produzissem sempre efeitos idênticos, não teríamos desenvolvido a noção de variabilidade. Desse modo, as medidas de variabilidade são muito importantes, pois muitas vezes as medidas de posição não fornecem informações suficientes que permitam caracterizar adequadamente um conjunto de dados. 43 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Figura 21 – Exemplo de dois alunos que somam trinta pontos em uma avaliação e, assim, atingem médias iguais Para ficar mais claro, vamos a um exemplo prático. Imagine que dois alunos tenham tirado as seguintes notas em seis avaliações: • aluno I: 5, 5, 5, 5, 5, 5; • aluno II: 8, 2, 7, 4, 6, 3. Nesse exemplo, os dois alunos somam trinta pontos na avaliação e atingem uma média igual a cinco, já que nos dois casos temos um total de seis avaliações. Entretanto, existe uma diferença clara entre os dois alunos: ambos apresentam dados com variabilidades distintas. Uma das formas mais básicas de avaliar a variabilidade corresponde ao cálculo da amplitude de variação. Para tanto, basta calcular a diferença entre os valores extremos. Assim, para o aluno I, temos a amplitude de variação igual a zero, enquanto que, para o aluno II, a amplitude de variação foi 6, conforme mostram os cálculos a seguir: amplitude de variação para o aluno I: 5 (maior valor) – 5 (menor valor) = 0; amplitude de variação para o aluno II: 8 (maior valor) – 2 (menor valor) = 6. Como, quanto maior a amplitude maior é a variação, podemos afirmar que o aluno II apresentou uma variação em suas notas maior que o aluno I. Vamos a outro exemplo: agora outros dois alunos que atingiram o mesmo valor de média final (6) apresentaram as seguintes notas nas seis avaliações propostas: • aluno III: 7, 3, 8, 9, 2, 7; • aluno IV: 4, 7, 5, 8, 5, 7. 44 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 A partir desses dados, qual aluno teve maior amplitude de variação? Vamos aos cálculos: amplitude de variação para o aluno III: 9 (maior valor) – 2 (menor valor) = 7; amplitude de variação para o aluno IV: 8 (maior valor) – 4 (menor valor) = 4. Com isso, chegamos à conclusão de que o aluno III apresentou maior variação nos dados, embora os valores de média tenham sido os mesmos para os dois alunos. Contudo, o cálculo da amplitude variação apresenta uma importante limitação. Como apenas os valores extremos são considerados para os cálculos, não é informado nada a respeito sobre a variabilidade dos valores intermediários. Além disso, em situações em que uma medida se afasta muito da média (apenas um valor é muito alto ou muito baixo), a variação pode ser descrita como alta, mesmo sem refletir a realidade para a maioria dos dados daquele conjunto. Por esse motivo, em muitas situações, a amplitude de variação pode ser uma estimativa inadequada e insuficiente para determinar a variabilidade de um conjunto de dados. Pensando nisso, serão abordados a partir de agora os conceitos de variância, desvio padrão e coeficiente de variação. Observação Para a determinação da amplitude de variação, basta calcular a diferença entre os valores extremos. Entretanto, a amplitude de variação desconsidera os valores intermediários do conjunto de dados. Lembrete A forma mais comum para determinarmos a variabilidade de um conjunto de dados corresponde ao cálculo da variância, do desvio padrão e do coeficiente de variação. 3.1 Variância Com o intuito de considerarmos todos os valores de um conjunto de dados para determinarmos a variabilidade, surge a possibilidade de calcularmos a variância. Primeiro, podemos pensar que para afirmarmos que algo variou será necessário utilizarmos um ponto de referência, para conhecermos o quanto todos os valores do conjunto de dados oscilam em torno 45 Re vi sã o: C ar la - D ia gr am aç ão :M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA desse valor de referência comum. No caso específico do cálculo da variância, esse valor de referência comum corresponde à média aritmética. Quanto maior a variância de um conjunto de dados, podemos afirmar que maior será a variabilidade dos valores que o compõem. Dessa forma, se a variância de conjunto de dados é 0,27 e de outro é 0,91, podemos afirmar que a variabilidade é maior no segundo caso. Quando não houver nenhuma variabilidade, a variância será igual a zero. Para calcularmos a variância, torna‑se fundamental seguirmos as quatro etapas: 1. Subtrair de cada valor a média aritmética do conjunto ao qual pertence. 2. Elevar cada diferença encontrada ao quadrado. 3. Somar os quadrados. 4. Dividir a soma dos quadrados pelo número de parcelas. Para ficar mais claro, vamos a um exemplo prático, relacionado à nossa área de atuação. Imagine a situação em que temos dois conjuntos de atiradores: atiradores do grupo (A) e atiradores do grupo (B). Cada grupo possui oito atiradores, e você quantificou os acertos individuais de cada atirador, em cada grupo, obtendo os seguintes valores: • desempenho dos atiradores do grupo (A) = 8, 9, 10, 8, 6, 11, 7, 13 acertos; • desempenho dos atiradores do grupo (B) = 7, 3, 10, 6, 5, 13, 18, 10 acertos. Figura 22 – Desempenho dos dois grupos de atiradores (A e B) 46 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Note que o desempenho dos dois grupos é o mesmo se o considerarmos como a soma dos acertos individuais de todos os atiradores em cada grupo. Dessa forma, temos: desempenho do grupo (A) = 72 acertos (soma do desempenho de todos os atiradores); desempenho do grupo (B) = 72 acertos (soma do desempenho de todos os atiradores). Se avaliarmos o desempenho médio de cada grupo, novamente obteremos valores iguais, uma vez que a soma leva aos mesmos valores (72 acertos) e temos o mesmo número de atiradores em cada grupo (oito atiradores no grupo A e B). Com isso, chegamos ao seguinte desempenho médio para os dois grupos: • desempenho médio = 72/ 8 = 9 acertos. E será que a variabilidade dos dois grupos de atiradores é a mesma? E se não for, qual grupo de atiradores possui maior variação de desempenho? Para responder a essas questões, vamos ao cálculo da variância. Para tanto, vamos cumprir todas as etapas propostas anteriormente para os dois grupos: primeiro para o grupo de atiradores (A) e depois para o grupo de atiradores (B). Cálculo da variância a partir do desempenho dos atiradores do grupo (A) • Primeira etapa: subtrair de cada valor a média aritmética do conjunto ao qual pertence. Média do grupo (A) = 9 acertos. Tabela 1 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor 8 8 – 9 = ‑1 9 9 – 9 = 0 10 10 – 9 = 1 8 8 – 9 = ‑1 6 6 – 9 = ‑3 11 11 – 9 = 2 7 7 – 9 = ‑2 13 13 – 9 = 4 • Segunda etapa: elevar ao quadrado cada diferença (resultado) obtida na primeira etapa. 47 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Tabela 2 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor Resultado 8 8 – 9 = ‑1 (‑1)2 = 1 9 9 – 9 = 0 (0)2 = 0 10 10 – 9 = 1 (1)2 = 1 8 8 – 9 = ‑1 (‑1)2 = 1 6 6 – 9 = ‑3 (‑3)2 = 9 11 11 – 9 = 2 (2)2 = 4 7 7 – 9 = ‑2 (‑2)2 = 4 13 13 – 9 = 4 (4)2 = 16 Note que agora todos os valores se tornaram positivos. • Terceira etapa: somar todos os valores ao quadrado obtidos na segunda etapa. Tabela 3 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor Resultado 8 8 – 9 = ‑1 (‑1)2 = 1 9 9 – 9 = 0 (0)2 = 0 10 10 – 9 = 1 (1)2 = 1 8 8 – 9 = ‑1 (‑1)2 = 1 6 6 – 9 = ‑3 (‑3)2 = 9 11 11 – 9 = 2 (2)2 = 4 7 7 – 9 = ‑2 (‑2)2 = 4 13 13 – 9 = 4 (4)2 = 16 Soma dos quadrados → 36 • Quarta etapa: dividir esse valor corresponde à soma dos quadrados pelo número de parcelas (no nosso exemplo, o número de atiradores). Soma dos quadrados = 36 Número de atiradores = 8 Variância = 36/8 = 4,5 acertos2 Para fixar esse cálculo, vamos repetir esse procedimento para os atiradores do grupo (B). 48 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Cálculo da variância a partir do desempenho dos atiradores do grupo (B) • Primeira etapa: subtrair de cada valor a média aritmética do conjunto ao qual pertence. Média do grupo (B) = 9 acertos. Tabela 4 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor 7 7 – 9 = ‑2 3 3 – 9 = ‑6 10 10 – 9 = 1 6 6 – 9 = ‑3 5 5 – 9 = ‑4 13 13 – 9 = 4 18 18 – 9 = 9 10 10 – 9 = 1 • Segunda etapa: elevar ao quadrado cada diferença (resultado) obtida na primeira etapa. Tabela 5 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor Resultado 7 7 – 9 = ‑2 (‑2)2 = 4 3 3 – 9 = ‑6 (‑6)2 = 36 10 10 – 9 = 1 (1)2 = 1 6 6 – 9 = ‑3 (‑3)2 = 9 5 5 – 9 = ‑4 (‑4)2 = 16 13 13 – 9 = 4 (4)2 = 16 18 18 – 9 = 9 (9)2 = 81 10 10 – 9 = 1 (1)2 = 1 • Terceira etapa: somar todos os valores ao quadrado obtidos na segunda etapa. Tabela 6 – Valores referentes ao cálculo do valor de mediana Acertos individuais Subtrair a média de cada valor Resultado 7 7 – 9 = ‑2 (‑2)2 = 4 3 3 – 9 = ‑6 (‑6)2 = 36 10 10 – 9 = 1 (1)2 = 1 6 6 – 9 = ‑3 (‑3)2 = 9 5 5 – 9 = ‑4 (‑4)2 = 16 49 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA 13 13 – 9 = 4 (4)2 = 16 18 18 – 9 = 9 (9)2 = 81 10 10 – 9 = 1 (1)2 = 1 Soma dos quadrados → 164 • Quarta etapa: dividir esse valor corresponde à soma dos quadrados pelo número de parcelas (no nosso exemplo, o número de atiradores). Soma dos quadrados = 164 Número de atiradores = 8 Variância = 164/8 = 20,5 acertos2 Lembrete Para calcularmos a variância, devemos: (1) subtrair de cada valor a média; (2) elevar cada diferença ao quadrado; (3) somar os quadrados; (4) dividir essa soma pelo número de dados. Após termos calculado a variância para os dois grupos de atiradores, podemos responder as nossas duas questões iniciais: (1) A variabilidade dos dois grupos de atiradores é a mesma? Não, pois verificamos que os valores de variância mostraram‑se diferentes para os dois grupos: 4,5 acertos2 para o grupo (A) e 20,5 acertos2 para o grupo (B). (2) Sendo esses valores diferentes, qual grupo de atiradores possui maior variação de desempenho? Para responder essa questão, precisamos lembrar que quanto maior a variância, maior a heterogeneidade dos dados, ou seja, maior a variabilidade dos dados daquele conjunto. Dessa forma, o grupo (B) de atiradores apresentou maior variação no desempenho, pois o valor de variância desse grupo de atiradores (variância = 20,5 acertos2) foi superior ao do grupo (A) de atiradores (variância = 4,5 acertos2). Observação Note que quanto maior for o resultado da variância, mais heterogênea será a distribuição dos dados dentrode um determinado conjunto; sendo assim, maior será a variabilidade desses dados. 50 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 3.2 Desvio‑padrão Uma das grandes limitações da aplicação da variância para determinar a variabilidade de um conjunto de dados é que os valores de variância obtidos não estão na mesma unidade dos dados originais. Note que, no exemplo anterior, os dados referentes ao desempenho de cada grupo são expressos na unidade acertos. Já, quando calculamos a variância para os dois grupos de atiradores, chegamos à unidade acertos2. Isso aconteceu porque em uma das etapas necessária para calcularmos a variância, todas as diferenças encontradas foram elevadas ao quadrado. Dessa forma, o que temos a partir disto são valores ao quadrado obtidos a partir dos dados originais. Então, independente do tipo de variável para qual calculamos a variância, sempre chegaremos a um resultado em que a variável será expressa como o quadrado da unidade de mensuração original. Para ficar mais claro, imagine que seu conjunto original de dados tenha valores referentes à altura de diferentes indivíduos e que esses valores estão expressos na unidade m. O resultado da variância desse conjunto de dados certamente será expresso na unidade m2. Da mesma forma, se no conjunto de dados você tem a velocidade de corrida atingida por seus atletas em uma prova, sendo expressos na unidade km/h, a variância desse conjunto de dados será expressa em (km/h)2. Figura 23 – Velocidade de corrida atingida por atletas em uma prova, sendo expressos na unidade km/h A solução para essa problemática seria extrairmos a raiz quadrada dos valores correspondentes à variância, pois, assim, chegaríamos novamente à unidade original da medida. Essa nova medida de variabilidade é conhecida como desvio‑padrão. Em trabalhos científicos da Educação Física, é muito comum vermos o desvio‑padrão sendo representado pelas letras DP. Dessa forma, uma vez que os valores de variância tenham sido obtidos, o cálculo do desvio‑padrão será muito facilmente empregado: basta calcularmos a raiz quadrada dos valores de variância calculados. 51 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Vamos voltar ao nosso exemplo original em que calculamos os valores de variância para o grupo de atiradores (A) e (B). Veja a seguir a determinação dos valores correspondentes ao desvio‑padrão para cada grupo de atiradores: Grupo de atiradores (A): Variância = 4,5 acertos2 Desvio‑padrão = 4 5 2, acertos Assim, chegamos a: desvio‑padrão = 2,1 acertos. Grupo de atiradores (B): Variância = 20,5 acertos2 Desvio‑padrão = 20 5 2, acertos Assim, chegamos a: desvio‑padrão = 4,5 acertos. Note que, ao calcularmos os valores de desvio‑padrão para os dois grupos de atiradores, os resultados obtidos estão expressos novamente na mesma unidade dos dados originais, ou seja, estão expressos em número de acertos, e não mais em acertos2. Os valores de desvio‑padrão podem ser interpretados como uma medida capaz de medir a variação em torno de um valor de referência que, nesse caso, corresponde ao valor da média. Por isso, o desvio‑padrão pode ser entendido com uma oscilação dos valores originais em torno da média. Com isso, podemos chegar às seguintes conclusões: • o grupo de atiradores (A) apresentou uma variação de 2,1 acertos; • o grupo de atiradores (B) apresentou uma variação de 4,5 acertos. Assim, o grupo de atiradores (B) apresenta maior variação no desempenho, pois os desempenhos individuais oscilaram mais em torno da média obtida para o grupo. Lembrete O desvio padrão é calculado a partir da raiz quadrada dos valores correspondentes à variância. 52 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 3.3 Coeficiente de variação Dessa forma, observamos que quando uma mesma variável é comparada para dois grupos distintos (por exemplo, desempenho para dois grupos de atiradores), o cálculo do desvio‑padrão permite avaliar em que grupo a variação é menor. Contudo, isso já não pode ser realizado quando comparamos variáveis diferentes. Para ficar mais claro, vamos a um exemplo específico. Imagine que você pretenda avaliar a variabilidade da distribuição dos dados de medidas correspondentes à massa corporal e à estatura de cinco alunos, que foram divididos em dois grupos (A e B), conforme mostra a seguir a tabela 7: Tabela 7‑ Valores de massa corporal e estatura para dois grupos de alunos Grupo de alunos (A) Grupo de alunos (B) Massa corporal Estatura Massa corporal Estatura 59 kg 1,54 m 78 kg 1,81 m 67 kg 1,65 m 81 kg 1,60 m 72 kg 1,70 m 79 kg 1,81 m 61 kg 1,69 m 77 kg 1,94 m 76 kg 1,77 m 80 kg 1,74 m Para determinarmos o desvio padrão, devemos primeiro calcular a variância para cada conjunto de dados, ou seja: variância para a variável massa corporal para o grupo de alunos (A); variância para a variável estatura para o grupo de alunos (A); variância para a variável massa corporal para o grupo de alunos (B); variância para a variável estatura para o grupo de alunos (B). Para tanto, torna‑se necessário, primeiro, calcularmos a média para cada conjunto de dados, conforme apresentado a seguir: • média da massa corporal para o grupo de alunos (A) = 335/5 = 67 kg; • média da estatura para o grupo de alunos (A) = 8,35/5 = 1,67 m; • média da massa corporal para o grupo de alunos (B) = 395/5 = 79 kg; • média da estatura para o grupo de alunos (B) = 8,90/5 = 1,78 m. A partir disso, os cálculos para determinarmos a variância para massa corporal e estatura para os grupos (A) e (B) são apresentados a seguir nas tabelas 8 e 9, respectivamente. 53 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Tabela 8‑ Cálculo da variância para massa corporal e estatura para os indivíduos do grupo (A) Massa corporal grupo (A) Estatura grupo (A) 59 – 67 = (‑8)2 = 64 1,54 – 1,67 = (‑0,13)2 = 0,0169 67 – 67 = (0)2 = 0 1,65 – 1,67 = (‑0,02)2 = 0,0004 72 – 67 = (5)2 = 25 1,70 – 1,67 = (0,03)2 = 0,0009 61 – 67 = (‑6)2 = 36 1,69 – 1,67 = (0,02)2 = 0,0004 76 – 67 = (9)2 = 81 1,77 – 1,67 = (0,10)2 = 0,01 Soma dos quadrados = 206 Soma dos quadrados = 0,0286 Variância = 206/5 = 41,2 kg2 Variância = 0,0286/5 = 0,0057 m2 Tabela 9‑ Cálculo da variância para massa corporal e estatura para os indivíduos do grupo (B) Massa corporal grupo (B) Estatura grupo (B) 78 – 79 = (‑1)2 = 1 1,81 – 1,78 = (0,03)2 = 0,0009 81 – 79 = (2)2 = 4 1,60 – 1,78 = (‑0,18)2 = 0,0324 79 – 79 = (0)2 = 0 1,81 – 1,78 = (0,03)2 = 0,0009 77 – 79 = (‑2)2 = 4 1,94 – 1,78 = (0,16)2 = 0,0256 80 – 79 = (1)2 = 1 1,74 – 1,78 = (‑0,04)2 = 0,0016 Soma dos quadrados = 10 Soma dos quadrados = 0,0614 Variância = 10/5 = 2 kg2 Variância = 0,0614/5 = 0,01228 m2 Como anteriormente mencionado, extraindo a raiz quadrada dos valores de variância para cada conjunto de dados, chegamos aos seguintes valores de desvio‑padrão: • desvio‑padrão para massa corporal do grupo (A) = 412, = 6,42 kg; • desvio‑padrão para estatura do grupo (A) = 0,0057 = 0,0755 m; • desvio‑padrão para massa corporal do grupo (B) = 2 = 1,41 kg; • desvio‑padrão para estaturado grupo (B) = 0,01228 = 0,1108 m. A partir do cálculo desses valores, podemos inferir algo importante na nossa discussão sobre variabilidade. Se considerarmos apenas os valores absolutos de cada tipo de variável, seremos levados a crer que a variação na massa corporal é sempre superior à variação nos dados de estatura. Entretanto, essa é uma visão equivocada. O desvio‑padrão só nos permite a comparação da variabilidade do mesmo tipo de variáveis, ou seja, nesse exemplo, possibilita comparar a massa corporal do grupo (A) com a massa corporal do 54 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 grupo (B); ou comparar a estatura do grupo (A) com a estatura do grupo (B). Com essa comparação específica, poderíamos afirmar que: a variabilidade da massa corporal foi maior para grupo A quando comparado ao grupo B; contudo, a variabilidade da estatura foi maior para grupo B quando comparado ao grupo A. No entanto, não conseguiremos comparar a variabilidade da massa corporal com a variabilidade da estatura para o grupo utilizando os valores de desvio‑padrão, pois são variáveis expressas em unidades distintas. Para cumprirmos esse objetivo, precisamos calcular o Coeficiente de Variação (CV), que é uma medida de dispersão independente da unidade de medida da variável. O CV permite avaliar a variabilidade sendo essa representada como uma fração em relação à média. É utilizada a seguinte fórmula para o seu cálculo: CV DP m dia = é *100 Dessa forma, para calcularmos o CV, devemos dividir o desvio‑padrão pela média e multiplicarmos o resultado dessa razão por 100. Essa multiplicação final é realizada para que o resultado do CV seja expresso em valor percentual (%). Vamos agora calcular o CV considerando nosso exemplo anterior para as variáveis de massa corporal e de estatura para os dois grupos de indivíduos (A e B). • CV da variável massa corporal para o grupo (A): DP = 6,42 kg Média = 67 kg CV DP m dia = é *100 CV = 6 42 67 100 , * CV = 9,58% • CV da variável estatura para o grupo (A): DP = 0,0755 m Média = 1,67 m 55 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA CV DP m dia = é *100 CV = 0 0755 167 100 , , * CV = 4,52% • CV da variável massa corporal para o grupo (B): DP = 1,41 kg Média = 79 kg CV = DP m diaé *100 CV = 141 79 100 , * CV = 1,78% • CV da variável estatura para o grupo (B): DP = 0,1108 m Média = 1,78 m CV DP m dia = é *100 CV = 0 1108 178 100 , , * CV = 6,22% Dessa forma, chegamos aos seguintes resultados de CV apresentados na tabela 10: Tabela 10 – CV para diferentes tipos de variáveis de dois grupos de indivíduos CV da variável massa corporal CV da variável estatura Grupo A 9,58% 4,52% Grupo B 1,78% 6,22% 56 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Note que o CV é expresso em percentual e, por isso, permite a comparação de variáveis que originalmente eram expressas em unidades diferentes (por exemplo, em kg e m). Os resultados da tabela 10 permitem observar que a variabilidade na variável massa corporal foi maior do que para a variável estatura para o grupo A. Todavia, para o grupo B, pode‑se observar que a variabilidade foi maior para os dados de estatura do que para os dados de massa corporal. Se utilizássemos apenas os valores de DP do grupo B, não chegaríamos corretamente a essa conclusão, já que os valores absolutos do DP da variável massa corporal são sempre maiores do que o DP da variável estatura. Portanto, o cálculo do CV torna‑se importante para possibilitar a comparação da variabilidade de dois conjuntos de dados que tenham unidades diferentes. Lembrete O CV é obtido dividindo o desvio‑padrão pela média e multiplicando esse resultado por 100. Como o CV é expresso em percentual, torna‑se possível comparar variáveis com unidades diferentes. 4 GRÁFICOS E TABELAS Fazer representações gráficas de uma série de dados ou apresentá‑las em uma tabela são ferramentas indispensáveis à análise estatística de um estudo. Essas representações permitem uma visualização plena da análise e das variáveis que queremos comparar. Para tanto, torna‑se necessário conseguir interpretar gráficos de forma adequada, pois dessa maneira uma série de discussões pode ser atribuída ao fenômeno que desejamos investigar. Contudo, para que essa estratégia funcione de forma eficiente, é necessário interpretar os resultados adequadamente. É nesse sentido que os tópicos a seguir buscarão aumentar a compreensão sobre como os dados de um estudo, de uma análise, devem ser apresentados e interpretados. 4.1 Elaboração de tabelas Uma tabela representa um conjunto de dados dispostos em número finito de colunas e número ilimitado de linhas, ou seja, ela pode ter várias linhas, mas geralmente apresenta algumas colunas. As tabelas permitem a apresentação de dados individuais discriminados, oferecendo uma visão global dos resultados. É importante notar que não existe apenas uma forma de se apresentar uma tabela, portanto a melhor é aquela mais clara para o leitor a interpretar. O objetivo principal de uma tabela é permitir que os resultados possam ser facilmente analisados e interpretados. Para tanto, é importante sempre buscar a apresentação mais limpa e simples dos resultados que queremos discutir. 57 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Por exemplo, muitas vezes em pesquisa, coletamos vários dados para ver como o fenômeno se apresenta, mas apenas alguns conjuntos de dados serão discutidos. Portanto, não há motivo para apresentar todos os dados se apenas uma ou duas variáveis serão analisadas. Coluna 1 Coluna 2 (↓) (↓) Linha 1 (→) Linha 2 (→) Linha 3 (→) Figura 24 – Ilustração de uma tabela com suas linhas e colunas Na tabela, teremos colunas e linhas conforme observado na figura 24. A escolha da forma como os dados serão apresentados é de opção do pesquisador, e não há regra, mas alguns aspectos precisam ser seguidos na elaboração das tabelas para que ela possa ser adequadamente interpretada: • Todos os dados devem ser visíveis: o tamanho da fonte deve ser escolhido a ponto que seja visível. Embora pareça óbvio, muitas tabelas apresentam dados em excesso e com isso o tamanho da fonte se torna ilegível. Nesses casos, melhor considerar dividir os dados em duas ou mais tabelas. • Todas as variáveis devem ter sua descrição clara, para que se possa interpretar o que os dados representam. • Todas as variáveis devem ter suas unidades apresentadas; por exemplo, distância em metros (m), frequência cardíaca em batimentos por minuto (bpm) ou força em Newtons (N). • Toda tabela deve ter um título que deve ser apresentado antes dela e suficientemente descritivo a ponto de permitir que a análise dos dados independa do texto escrito. • Toda tabela deve ser inserida no texto escrito e discutida com base nos objetivos propostos pelo estudo ou análise. Observação A principal finalidade de uma tabela é permitir que os resultados possam ser facilmente analisados e interpretados. Para tanto, é importante que as informações sejam claras e precisas. Os dados apresentados numatabela podem ser valores discretos de uma variável, ou seja, apenas pontos de uma observação qualquer, ou valores sequenciais apresentados em função do tempo, como, por exemplo, as variações da frequência cardíaca ao longo do tempo da realização de uma corrida com velocidades progressivamente mais altas até a exaustão. 58 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 A tabela 11 ilustra uma situação hipotética de dados sequenciais, ou seja, que seguem uma ordem em função do tempo. A coluna do eixo de x indica os valores sequenciais de 1 a 10, que indicam momentos no tempo nos quais dados foram coletados; por exemplo, registros feitos a cada 1 minuto. Os valores apresentados nas colunas azul e vermelho são fictícios, mas poderiam ser registros de frequência cardíaca, de lactato sanguíneo ou outra variável qualquer. Tabela 11 ‑ Duas séries de dados (azul e vermelho) Eixo X Azul (Y) Vermelho(Y) 1 1 2 2 2 52 3 4 102 4 8 152 5 16 202 6 32 252 7 64 302 8 128 352 9 256 402 10 512 452 Na figura 25, observa‑se a representação gráfica dos dados da tabela 11. A curva em vermelho corresponde aos dados da tabela da coluna vermelho, já a curva em azul representa os dados da tabela da coluna azul. Os pontos em cada curva correspondem aos exatos valores observados na tabela. Por exemplo, na curva em vermelho, o valor 5 do eixo de X apresenta o valor correspondente a 202 no eixo de Y. Isso significa que cada ponto apresenta um valor no sistema de coordenadas que permite localizá‑lo em relação à origem nos dois eixos, ou seja, no caso (5, 202) para X e Y, respectivamente. 500 100 300 400 0 1 53 7 92 64 8 10 200 Figura 25 – Representação gráfica dos dados apresentados na tabela 11. A curva em azul reflete os dados da tabela na coluna azul, e a curva em vermelho, os dados da tabela correspondentes à coluna vermelha Embora os dados apresentem certa ordem temporal, dados coletados de qualquer natureza são discretos, pois toda vez que realizamos um registro, este ocorre em apenas um instante no tempo, por isso não é contínuo. Apenas os dados analógicos, ou seja, reais na natureza, são contínuos. 59 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Para entender esse conceito, imagine o avançar dos segundos num relógio digital; entre um segundo e outro, há uma possibilidade infinita de divisões do tempo. Quando observamos a mudança dos segundos, isso representa apenas um instante no tempo. Outro exemplo poderia ser o que ocorre quando realizamos uma sequência de fotos de alguém correndo. Entre cada foto que registra um instante no tempo há infinitos registros possíveis que não foram feitos. Na figura 25 essa ideia pode ser visualizada. Cada ponto representa um registro, mas entre os pontos observamos uma reta conectando‑os. Essa reta contém ilimitados pontos que não foram registrados no tempo. Por isso, toda coleta visa a reconstruir o fenômeno real, porém ele será sempre apenas uma reconstrução próxima do comportamento real, nunca o comportamento real em si. Lembrete As tabelas mostram um conjunto de dados dispostos em número finito de colunas e número ilimitado de linhas. 4.2 Representações gráficas Os dados de uma tabela podem e devem sempre que possível ser representados por meio de gráficos, pois dessa forma será possível ver o comportamento da variável na análise em questão. 70 80 90 100 10 50 40 60 0 1 53 7 92 64 8 10 14 1812 16 2011 15 1913 17 30 20 Figura 26 – Dados discretos de vinte sujeitos para uma variável fictícia Vejamos o exemplo da figura 26 no qual temos valores de Y para vinte sujeitos. Quando temos dados discretos que não apresentam relação temporal, estes podem ser analisados por meio de vários gráficos. Uma forma de representação é o gráfico de barras e colunas. Cada barra representa o valor da variável para um sujeito nesse exemplo. Cada número no eixo de X representaria um sujeito, e o tamanho da barra representaria o valor registrado. 60 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Figura 27 – Prática da corrida na condição de os pés descalços Sempre que um gráfico nos for apresentado, o primeiro passo é identificar o que este nos informa. Essa informação deve ser extraída da legenda que deve se encontrar imediatamente após o gráfico. Veja o exemplo da figura 28, em que se observam valores de primeiro pico de força vertical da Força de Reação do Solo (força de impacto) na corrida para dez sujeitos, em duas condições distintas, com os pés descalços e com calçados próprios para a atividade. 2,5 3,0 3,5 4,0 0,5 1,5 Fy 1 (P C) Sujeitos Calçado Descalço 2,0 0,0 1 53 7 92 64 8 10 1,0 Figura 28 – Valores de primeiro pico de força vertical da Força de Reação do Solo (Fy1) para dez sujeitos em duas condições de corrida, com os pés descalços e com calçados de corrida 61 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA No gráfico, observamos força medida em peso corporal, para dez sujeitos; cada cor de coluna representa uma condição. Nesse gráfico, os dados são discretos de medida de força, no caso força de impacto. Repare que, nos sujeitos 1, 3, 5, 6 e 8, os valores de força de impacto na corrida com os pés descalços e com o calçado foram muito semelhantes. Já nos sujeitos 2, 7, 9 e 10, a força de impacto na corrida com os pés descalços foi maior que com os calçados. Por outro lado, no sujeito 4, o impacto foi maior na corrida com os pés descalços do que com o calçado de corrida. Não temos como objetivo, no momento, investigar se correr descalço ou com calçado seria melhor para a atenuação do impacto, mas, sim, ver como um gráfico deve ser interpretado, em função das informações que ele apresenta. Vejamos outro exemplo de Fisiologia Aplicada à Atividade Motora. A figura 30 agrupa valores de consumo máximo de oxigênio (VO2 máx.) para atletas de diferentes modalidades esportivas, sedentários e cardiopatas. Observe que abaixo da legenda VO2 máx., há a unidade de medida dessa variável, ml/kg/min. Essa unidade é muito importante para que possamos fazer comparações entre estudos, pois se não houvesse a indicação dela, eventualmente dois estudos poderiam ter unidades diferentes e isso teria implicação na comparação dos resultados. Figura 29 – Nadadores de longa distância em sua prática que faz com que o VO2 máx. seja maior que indivíduos sedentários Note que na figura 30 há várias colunas e cada uma corresponde a uma população específica. Por exemplo, na extremidade direita do gráfico, observamos o VO2 máx. de pacientes imediatamente após infarto de miocárdio e na extremidade esquerda, notamos atletas esquiadores de cross country, ou seja, os valores mais baixos e mais altos de VO2 máx., respectivamente. Para iniciar uma análise, é sempre importante ter algum valor referencial. Nesse caso, poderíamos pensar nos valores de consumo máximo de oxigênio de sedentários saudáveis. Procure a coluna correspondente a essa população e faça a leitura do valor de VO2 máx. Isso se faz acompanhando o valor máximo dessa coluna, sedentários saudáveis, até o eixo de Y e fazendo a leiturado valor; no caso, aproximadamente, 35 ml/kg/min. 62 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 50 60 70 80 90 100 10 30 40 0 20 Es qu ia do re s d e cr os s c ou nt ry Re m ad or es Se de nt ár io s sa ud áv ei s Pa tin ad or es n o ge lo d e en du ra nc e VO2máx (ml/kg/min) N ad ad or es d e lo ng a di st ân ci a Pa ci en te s q ue so fr er am in fa rt o do m io cá rr di o Co rr ed or es At le ta s d e gi ná st ic a ae ró bi ca De fic ie nt es se de nt ár io s Ci cl ist as d e ru a Le va nt ad or es de p es o Pa ci en te s i m ed ia ta m en te ap ós in fa rt o do m io cá rd io Figura 30 – Valores médios de consumo máximo de oxigênio (VO2 máx.) para atletas de diferentes modalidades esportivas, sedentários e cardiopatas Tendo esse valor de sedentários saudáveis como referência, podemos observar que, à direita dessa coluna, temos populações com condições patológicas, o que significa que qualquer acometimento faz com que o consumo máximo de oxigênio diminua em relação ao sedentário. Por outro lado, à esquerda da coluna dos sedentários saudáveis, notamos apenas populações de indivíduos ativos ou atletas, ou seja, qualquer exercício físico que seja praticado regularmente já serve para tornar o VO2 máx. mais alto que em sedentários, independente de a modalidade envolver metabolismo aeróbio ou anaeróbio predominantemente. Contudo, observamos diferenças entre as modalidades praticadas, indicando que a característica da modalidade interfere nos ganhos em VO2 máx. Façamos a leitura do valor de VO2 máx. da modalidade mais próxima dos sedentários saudáveis, levantadores de peso, e da modalidade mais distante dos sedentários, esquiadores de cross country. A coluna dos levantadores de peso indica um valor de VO2 máx. de 45 ml/kg/min, aproximadamente. Já a coluna dos esquiadores de cross country, indica um valor de VO2 máx. de 85 ml/kg/ min. A diferença entre esses dois extremos é bastante grande, mesmo analisando apenas qualitativamente. Vejamos se conseguimos atribuir essas diferenças a alguma característica das modalidades. Acompanhe as modalidades, perceba que, com exceção dos levantadores de peso, todas as outras apresentam como característica alta exigência de produção de energia pela via aeróbia. Com isso, poderíamos inferir que as modalidades que apresentam maior consumo máximo de oxigênio são, 63 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA justamente, as modalidades que predominantemente usam o oxigênio para produção de energia, ou seja, as atividades aeróbias. Repare quantas informações conseguimos extrair de um gráfico quando a análise é mais aprofundada. Note também que essa discussão foi feita exclusivamente com os dados apontados no gráfico e com as informações contidas na legenda. Se tivéssemos o texto do livro adicionalmente, a compreensão e o aprofundamento na análise poderiam ter sido maiores. Esse é o motivo pelo qual é tão importante treinar a capacidade de interpretar gráficos e tabelas. Sigamos com a nossa análise usando outros exemplos de tipos de gráficos. Vejamos agora um gráfico de barras. Não existe muita regra para quando usar um estilo de gráfico de colunas ou de barras. Isso realmente depende do objetivo que se tem ao apresentar os dados. Observe a figura 31 a contribuição relativa das vias metabólicas de creatina fosfato (CrP), glicolítica (glicólise anaeróbia) e mitocondrial (via oxidativa) para a ressíntese de ATP em diferentes intervalos de tempo em exercícios intensos. 120 10 90 CrP Glocólico Mitocondrial 0 4020 6010 5030 70 Porcentagem da ressíntese de ATP Te m po (s ) 30 Figura 31 – Contribuição relativa das vias metabólicas de creatina fosfato (CrP), glicolítica (glicólise anaeróbia) e mitocondrial (via oxidativa) para a ressíntese de ATP em diferentes intervalos de tempo em exercícios intensos Observe que estamos nos referindo à contribuição dessas vias para a quantidade total de energia que foi produzida em 10, 30, 90 e 120 segundos de atividade. Nesse gráfico, não há como saber quanto de energia foi produzida, apenas quanto cada via contribuiu para essa energia total para a ressíntese de ATP. 64 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Figura 32 – Local onde é realizado o treinamento para corridas em alta intensidade Repare que em cada duração de atividade, 10, 30, 90 ou 120 segundos, as três vias estão atuando, mas com contribuições diferentes. Na atividade de 10 segundos, a barra de creatina fosfato é muito maior que na atividade de 120 segundos. Isso não significa, necessariamente, que mais energia foi produzida pela creatina fosfato aos 10 segundos do que aos 120 segundos, pois o gráfico mostra contribuição percentual das vias. Portanto, da energia total usada para a atividade de 10 segundos, um pouco mais de 50% foi obtida pela via da creatina fosfato. Já aos 120 segundos, o gasto energético total foi muito maior que aos 10 segundos, e dessa energia, menos de 10% foi obtido pela via da creatina fosfato. Inversamente, se observarmos a via da respiração mitocondrial, ou seja, a via oxidativa ou aeróbia, notaremos que o comportamento é inverso ao comportamento da via creatina fosfato. A contribuição dessa via na atividade de 10 segundos foi, aproximadamente, de 3%, enquanto que na atividade de 120 segundos, a via da respiração mitocondrial foi responsável por cerca de 60% da energia total necessária. Não cabe agora discutirmos as razões desse comportamento, embora isso seja importante, mas, sim, nos interessa agora compreender o que a representação gráfica nos informa sobre as variáveis de análise. Por último, ainda analisando a figura 31, notamos que, para cada duração de atividade, as três vias deveriam somar 100%. Se o objetivo principal fosse visualizar a distribuição na energia total, essa distribuição dos dados pode não ser a mais adequada, pois não nos dá a visualização do todo. Nesse sentido, mais eficiente seria usar um gráfico de pizzas, também conhecidos como tortas, ou de colunas empilhadas em 100%. Esses gráficos ilustram de forma mais clara a contribuição de cada valor para o todo. Vejamos, portanto, como seriam esses mesmos dados agrupados em um gráfico de pizzas. 65 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A figura 33 ilustra os mesmos dados apresentados pela figura 31, contudo com outra disposição. 3% 42% 55% 8% 32% 42% 12% 46% 25% 47% 60% 28% 90s 120s CrP Glicolítica Mitocondrial 30sTempo 10s Figura 33 – Contribuição relativa das vias metabólicas de creatina fosfato (CrP), glicolítica (glicólise anaeróbia) e mitocondrial (via oxidativa) para a ressíntese de ATP em diferentes intervalos de tempo em exercícios intensos No gráfico de barras, podemos notar que uma barra é maior que a outra, mas no gráfico de pizzas, temos a dimensão da contribuição que cada via tem para o todo. Isso não significa que o gráfico de barras apresentado anteriormente está errado, mas apenas que ele quer chamara atenção para a maior contribuição que podemos observar para cada duração de atividade física realizada. A outra forma que temos para analisar a contribuição parcial das variáveis para o todo é o gráfico de colunas empilhadas em 100%. A figura 34 apresenta os resultados de três modelos distintos para a determinação de composição corporal. 66 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 20 40 60 80 100 0 0 1 2 3 Modelo Mineral Co m po si çã o (% ) Massa corporal livre de gordura MCG MCG MCG MCLG MCM Água corporal Água corporal Tecido magro Figura 34 – Apresentação dos resultados de três modelos para a determinação de composição corporal. MCG indica massa corporal gorda, MCM indica massa corporal magra e MCLG indica massa corporal livre de gordura Nesse gráfico, MCG indica massa corporal gorda, MCM indica massa corporal magra e MCLG indica massa corporal livre de gordura. Repare que cada coluna apresenta‑se com o valor máximo de 100%, mas essa coluna é subdividida em função da contribuição que cada variável tem ao valor total. Por exemplo, veja a coluna correspondente ao modelo 1. Podemos observar que a massa corporal total está dividida em dois componentes, a massa corporal gorda e a massa corporal magra, sendo que a massa corporal magra apresenta maior contribuição à massa corporal total. Figura 35 – Figura representativa das medidas de massa corporal Note que, nos três modelos, o percentual de contribuição da massa corporal gorda não muda, apenas a massa corporal magra passa a ser subdividida do modelo 1 para os modelos 2 e 3. No modelo 2, podemos 67 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA observar que a massa corporal magra é em grande parte composta por água corporal e, no modelo 3, podemos ainda notar que o tecido magro, apresentado no modelo 2, aparece ainda mais subdividido em massa corporal livre de gordura e minerais. Em cada um dos modelos, as subdivisões se aprofundam nos oferecendo a ideia da contribuição que cada parte tem ao todo. Perceba que essa apresentação não é a mais eficiente para apresentar valores numéricos, embora estes possam ter sido incluídos, pois podemos perceber que a contribuição de minerais para a composição corporal é pequena, mas não há como saber o valor percentual preciso. Certamente, é inferior a 10%, mas pode ser 3 a 6%, não há como saber. Contudo, isso pouco importa se o objetivo do autor do estudo for apenas permitir a visualização geral do comportamento. Nos casos discutidos anteriormente, pudemos observar exemplos de valores de variáveis discretas e atemporais, ou seja, nos quais não nos interessava saber o comportamento da variável ao longo do tempo. Contudo, em alguns casos, nos interessa saber de que forma uma variável muda seu comportamento ao logo do tempo. Nesses casos, nos referimos a séries temporais e é mais interessante usarmos gráficos de pontos ou de linhas. Os valores da variável seguem uma sequência temporal, que pode ser de segundos, minutos, horas ou anos. Também podemos usar esses gráficos quando os valores encontram‑se ordenados em relação a algum critério como intensidade, por exemplo. Figura 36 – Fadiga que pode ser proveniente da realização de testes de exaustão Veja a figura 37, na qual quantidades de hormônios (adrenalina e noradrenalina) presentes na circulação sanguínea em função de intensidades progressivamente maiores de exercício. Nesse gráfico, as intensidades relativas apresentam‑se em relação %VO2 máx. e o exercício consiste num teste de esforço em cicloergômetro até a exaustão. 68 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 0,5 1 1,5 2 2,5 0 1 20 40 60 80 100 Norandrenalina Adrenalina % VO2máx. Ca te co la m in as (n g/ m L) Figura 37 – Aumento na concentração de catecolaminas circulantes (adrenalina e noradrenalina) em função de intensidade relativa medida em %VO2 máx., obtido durante teste de esforço em cicloergômetro Note que nesse gráfico existe uma sequência, uma ordem nos acontecimentos, mas os valores apresentados são discretos, pois ocorreram em um instante no tempo, não foram coletados continuamente. Interessa‑nos a relação que a variável apresenta com o tempo ou com a ordem dos fatos; por isso, esse gráfico se torna mais eficiente para a visualização. Olhando cuidadosamente para as informações do gráfico, que tendências de comportamento podemos extrair? Existe uma tendência bem clara de maior liberação de catecolaminas (adrenalina e noradrenalina) com intensidades progressivamente mais altas. Outra constatação possível é que a relação da liberação dos hormônios não é linear, ou seja, não é uma reta. O aumento na quantidade de hormônios circulantes não é a mesma quando aumentamos a intensidade de 20% para 40% do VO2 máx. e quando aumentamos a intensidade de 80% para 100% do VO2 máx. Essa relação é exponencial, não linear. Essa análise poderia ser feita em tabelas também, mas o gráfico ilustra essa característica no comportamento do fenômeno, de forma muito mais eficiente. 69 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA 100 0 02 24 27 7 105 110 115 120 VO2máx. % dos valores iniciais Período de treinamento 1 Semanas Semanas Período de treinamento 2 Inatividade, 7 semanas Figura 38 – Valores médios e individuais de VO2 máx. de mulheres sedentárias saudáveis submetidas a 7 semanas de treinamento aeróbio em cicloergômetro, seguido de 7 semanas de inatividade e novas 7 semanas de treinamento Observe outra situação de variável com valores sequenciais, mas, nesse caso, vejamos uma sequência de valores temporais. Na figura 38, podemos observar valores médios e individuais de VO2 máx. de mulheres sedentárias saudáveis submetidas a sete semanas de treinamento aeróbio em cicloergômetro, seguido de sete semanas de inatividade e novas sete semanas de treinamento. Observe que o primeiro valor corresponde a 100%, ou seja, as participantes desse estudo fizeram uma avaliação inicial e esse valor de consumo máximo de oxigênio foi denominado de 100%. É a partir desse valor inicial que a análise se iniciou. Repare como, no primeiro período de treinamento, em média (linha mais espessa), o VO2 máx. das participantes aumentou progressivamente, após 2, 4 e 7 semanas de treinamento. Podemos observar também que cada participante apresentou valores de VO2 máx. bastante diferentes ao longo desse período (linhas mais finas), mas que na média apontou para aumento geral. Nas sete semanas de inatividade, houve perdas nos valores médios e individuais de VO2 máx., e, no segundo período de treinamento, novamente houve aumento nos valores de consumo de oxigênio. Os valores de VO2 máx. ao término dos dois períodos de treinamento são muito semelhantes; podemos visualizar isso fazendo a leitura dos últimos pontos de cada período de treinamento no eixo de Y. 70 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da/ Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Na análise desse gráfico de VO2 máx. nota‑se uma sequência temporal, mas, na verdade, a ideia é de investigar momentos específicos e discretos na linha de tempo para averiguar efeitos de treinamento. Esse tipo de análise é bastante diferente de um registro de alguma variável em uma determinada janela temporal, como o que ocorre no uso de uma plataforma de força para registrar a Força de Reação do Solo. A figura 39 apresenta uma curva média, com desvio‑padrão ponto a ponto, da componente vertical da Força de Reação do Solo medida a partir da plataforma de força para 10 fases de apoio na corrida. A força está apresentada em função do peso corporal (PC) e o tempo em porcentagem do tempo total de apoio (%). 0,5 1,0 1,5 2,0 2,5 3,0 0,0 0 20 40 60 80 100 Tempo (%) CV = 5,29% Fo rç a (P C) Figura 39 – Curva média, com desvio‑padrão ponto a ponto, da componente vertical da Força de Reação do Solo medida a partir da plataforma de força para 10 fases de apoio na corrida. A força está apresentada em função do peso corporal (PC) e o tempo em porcentagem do tempo total de apoio (%). CV indica o coeficiente de variação da curva O gráfico apresenta força em função do tempo, correspondente à fase de apoio na corrida, ou seja, o contato com o solo se inicia no tempo zero e termina no tempo correspondente a 100%. Repare que vários registros são feitos na força durante a fase de apoio para poder reconstruir as forças presentes durante a corrida. A cada ponto de registro, em cada fase de apoio, as medidas de força foram ligeiramente diferentes, por isso podemos observar uma média e um desvio‑padrão a cada instante. O valor indicado de coeficiente de variabilidade (CV) indica quanto a força variou na média ao longo da curva. Esse valor não é a variação nas magnitudes de força, pois isso é natural que varie, uma vez que, logo no início do contato as forças, são muito mais baixas que na fase de médio apoio. A cada ponto, podemos 71 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA observar certa variação nos valores de força. Se a média da variação a cada ponto for calculada, teremos o valor de CV de 5,29%. Com base nos exemplos explorados, buscamos mostrar as possibilidades e aplicações que os mais diversos gráficos e tabelas podem ter. Poderíamos analisar muitos outros exemplos, mas, com base no que foi visto, acreditamos que a extrapolação das ideias para outras situações seja possível. Lembrete A representação gráfica é um recurso indispensável à estatística, porque permite visualizar mais facilmente o comportamento de variáveis e interpretar seus resultados. Reforçamos que, para toda interpretação de dados, é fundamental, inicialmente, se inteirar do assunto, das variáveis de análise e dos objetivos propostos. Em segundo lugar, proceda a uma análise sistemática do gráfico ou da tabela, faça a leitura dos eixos, para saber o que é analisado e, em terceiro, leia as informações do gráfico ou da tabela à luz dos objetivos que foram sugeridos logo no início do estudo. Exemplo de aplicação Com base no que foi discutido, reflita sobre os resultados do gráfico a seguir (figura 40). Procure extrair as informações mais relevantes e compreender seu significado. Peso corporal total Gordura corporal Massa isenta de gordura 4 11,7 10,6 12,6 12,0 13,1 9,3 Dieta Exercício Combinação 2,4 2,0 1,1 ‑4 0 ‑8 ‑12 2 ‑6 ‑2 ‑10 ‑14 M ud an ça s ( kg ) Figura 40 – Mudanças (kg) no peso corporal total, na gordura corporal e na massa isenta de gordura após certo período mantendo uma dieta restritiva, apenas exercícios ou a combinação dos dois, dieta e exercícios 72 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Saiba mais Consulte o capítulo 5 do livro Análise de Dados em Atividade Física, de Barros e Reis (2003), para obter mais informações sobre disposição de dados em gráficos e tabelas. Observação São formas comuns de representação gráfica: gráficos de barras e colunas; histogramas; gráficos circulares; gráficos de pontos; gráficos de linhas. Resumo Na unidade I, definimos os conceitos básicos de Bioestatística e suas possíveis aplicações; discutimos as diferenças entre população e amostra; classificamos os tipos de variáveis; aprendemos como determinar e aplicar medidas de posição (valor máximo, valor mínimo, média, moda e mediana) e medidas de variabilidade (variância, desvio‑padrão e coeficiente de variação). Vimos que a Estatística representa um conjunto de técnicas que possibilita a padronização e a adequação das formas de coleta, organização e análise de dados. Dessa forma, a Bioestatística é a aplicação desses métodos estatísticos buscando investigar os fenômenos biológicos. São as ferramentas estatísticas que nos permitem descrever as características de um grupo de pessoas, testar associações entre dois ou mais conjuntos de dados, ou comparar as características de grupos distintos de dados. A população é um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. Já a amostra, é uma redução representativa da população a dimensões menores, porém sem perda dessa característica específica. Para uma determinada amostra, analisamos variáveis que são definidas como todas as características, atributos ou medidas que podem ser analisadas em um experimento, apresentando variações entre os indivíduos avaliados. Essas variáveis podem ser classificadas como qualitativas ou quantitativas de acordo com sua natureza. 73 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A variável qualitativa é uma medida de natureza não numérica, ou seja, ela não é representada por um número, mas, sim, por uma qualidade. Por exemplo, forte ou rápido são classificações atribuídas a variáveis qualitativas. As variáveis qualitativas podem ser classificadas como nominal ou ordinal. Uma variável é qualitativa nominal quando não expressa nenhum critério de ordenação, ou seja, as variáveis não podem ser classificadas como melhores ou piores. Um exemplo é a variável qualitativa nominal cor dos olhos. Uma variável é qualitativa ordinal quando ela apresenta um ordenamento que permita classificar uma variável como superior e outra como inferior. Como exemplo, podemos citar a variável nível de condicionamento físico. Já a variável quantitativa, é uma medida de natureza numérica, sendo que ela necessariamente é expressa por um valor. Podemos citar como exemplo as variáveis estatura e massa corporal. As variáveis quantitativas podem ser classificadas como discretas ou como contínuas. As variáveis quantitativas discretas são aquelas expressas exclusivamente por números inteiros, sendo que números fracionados não fazem sentido lógico. Pode‑se citar como exemplo o número de esteiras de uma academia. As variáveis quantitativas contínuas podem ser expressas em números fracionados; por exemplo, a variável tempo de exercício. Formas importantes de quantificar as variáveis correspondem às medidas de posição e às medidas de variabilidade. Existem dois principais tipos de medidas de posição: os valores extremos e os valores de tendência central. Os valores extremos são conhecidos como valor máximo (maior valor do conjunto de dados) e como valor mínimo (menor valor desse conjunto).Os valores de tendência central mais conhecidos são: média, moda e mediana. Para calcular a média, devem‑se somar todos os valores de um conjunto de dados e dividir pelo número de dados. A moda é o valor que mais se repete no conjunto de dados. Um conjunto de dados pode ser classificado como amodal (sem valor de moda), unimodal (apresenta um valor de moda), bimodal (apresenta dois valores de moda) e multimodal (apresenta mais de dois valores de moda). A mediana correspondente ao valor da variável que ocupa a posição central de um conjunto de n dados ordenados. As medidas de variabilidade, também conhecidas como medidas de dispersão, permitem avaliar a diversidade da distribuição das variáveis em um conjunto de dados. A forma mais comum para determinarmos a variabilidade de um conjunto de dados corresponde ao cálculo da variância, do desvio‑padrão e do coeficiente de variação. 74 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 A variância possibilita a quantificação da variação dos valores em um conjunto de dados em torno de um valor de referência comum – a média. A variância é representada como o quadrado da unidade de mensuração original. O desvio‑padrão é calculado a partir da raiz quadrada dos valores correspondentes à variância. Já o coeficiente de variação, é obtido dividindo o desvio‑padrão pela média e multiplicando o resultado dessa razão por 100. Como o coeficiente de variação é expresso em percentual, torna‑se possível a comparação de variáveis originalmente expressas em unidades diferentes. Por fim, vimos que a representação gráfica é um recurso indispensável à Estatística, porque permite visualizar mais facilmente o comportamento de variáveis e interpretar seus resultados. São formas comuns de representação gráfica: gráficos de barras e colunas; histogramas; gráficos circulares; gráficos de pontos; gráficos de linhas. As tabelas, por sua vez, mostram um conjunto de dados dispostos em número finito de colunas e número ilimitado de linhas. Exercícios Questão 1. (TJ/SP 2014) Certa competição tem 6 etapas eliminatórias. Sabe‑se que a média aritmética do número de pessoas que participaram da primeira e da segunda etapa é igual ao quádruplo da média aritmética do número de pessoas que participaram de cada uma das quatro etapas seguintes. Desse modo, a razão entre o número de pessoas que participaram da primeira e da segunda etapa e o número total de pessoas que participaram dessa competição é de: A) 1/2. B) 1/3. C) 1/4. D) 2/3. E) 3/4. Resposta correta: alternativa D. Análise da questão Justificativa geral: vamos representar cada etapa pelas letras a, b, c, d, e, f, nesta ordem. Utilizando o conceito de média aritmética, temos, pelo enunciado, que: (a + b)/2 = 4.(c + d + e + f)/4 (a + b)/2 = (c + d + e + f) 75 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Somando (a + b) em ambos os lados, temos: (a + b)/2 + (a + b) = (c + d + e + f) + (a + b) (a + b)/2 + 2(a + b)/2 = (a + b + c + d + e + f) (a + b)3/2 = (a + b + c + d + e + f) (a + b) = (a + b + c + d + e + f)2/3 Logo, a quantidade de participantes das duas primeiras etapas representa 2/3 do total. Questão 2. (Enem 2013) As notas de um professor que participou de um processo seletivo, em que a banca avaliadora era composta por cinco membros, são apresentadas no gráfico. Sabe‑se que cada membro da banca atribuiu duas notas ao professor, uma relativa aos conhecimentos específicos da área de atuação e outra, aos conhecimentos pedagógicos, e que a média final do professor foi dada pela média aritmética de todas as notas atribuídas pela banca avaliadora. 20 18 16 14 12 10 8 6 4 2 0 Avaliador A Notas (em pontos) Avaliador B Avaliador C Avaliador D Avaliador E Conhecimentos específicos Conhecimentos pedagógicos 18 16 17 13 1 14 19 14 16 12 Utilizando um novo critério, essa banca avaliadora resolveu descartar a maior e a menor notas atribuídas ao professor. A nova média, em relação à média anterior, é: A) 0,25 ponto maior. B) 1,00 ponto maior. C) 1,00 ponto menor. D) 1,25 ponto maior. E) 2,00 pontos menor. Resolução desta questão na plataforma. 76 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Unidade II Na unidade II, abordaremos as formas para realizarmos diferentes tipos de análise de dados, dependendo das características dos seus dados e do objetivo do seu estudo. Uma característica importante do conjunto de dados que influencia a escolha do teste estatístico corresponde à análise da distribuição dos dados, conforme veremos logo no início desta dos nossos estudos. Obviamente, o objetivo do seu estudo depende da natureza da pergunta de pesquisa, conhecida como problema de pesquisa. As possíveis respostas a essa pergunta darão origem às hipóteses do estudo. A hipótese é o que você espera encontrar como resultado quando realizar um determinado experimento. E, no intuito de avaliarmos se essas hipóteses se confirmarão ou não, é que utilizamos os testes estatísticos. Existem inúmeros testes estatísticos, mas a sua escolha deve ser pautada nas características e objetivos do seu estudo; por exemplo, o número de comparações que se deseja realizar. Assim, torna‑se possível determinar o teste estatístico mais adequado para cada situação de análise. Por exemplo, o teste t para uma amostra é utilizado quando temos como objetivo comparar as características de um único grupo com um valor de referência. Já quando desejamos comparar dois grupos de dados, alguns testes são frequentemente aplicados, dependendo, é claro, de algumas condições para que eles possam ser adequadamente empregados. Nessa situação, os testes mais comuns são o teste t pareado e o teste t para amostras independentes. Para comparações entre mais de dois conjuntos de dados, podemos utilizar o teste conhecido como Anova ou o teste de Friedman, sendo que a escolha entre um e outro dependerá de alguns pressupostos básicos que discutiremos mais adiante nesta unidade. Se o objetivo do seu estudo for correlacionar uma variável com outra, ou seja, avaliar o comportamento de uma variável em relação ao comportamento de outra, poderemos utilizar um teste de correlação. No entanto, se o objetivo for avaliar o quanto que o comportamento de uma variável depende do comportamento de outra, utilizaremos o teste de regressão linear. As aplicações desses diferentes tipos de teste serão aqui discutidas; mostraremos, inclusive, exemplos práticos da área da Educação Física que representam condições em que tais testes devem ser aplicados. Obviamente, existe um número muito grande de diferentes tipos de teste, e não temos aqui a meta de apresentar todas essas opções (até porque essa seria uma tarefa impossível). Nosso objetivo aqui é simplesmente mostrar alguns testes mais recorrentes na nossa área de atuação, ilustrando possibilidades de aplicação, que serão ou não indicadas nas situações que futuramente você poderá encontrar em um trabalho de conclusão de curso. 77 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA 5 ANÁLISE NA DISTRIBUIÇÃO DOS DADOS Uma vez que nossas variáveis de análise foram adquiridas (coletadas), precisamos agora avaliar como elas se distribuem em um gráfico. Elas poderão se distribuir de forma a confirmar normalidade oude pesquisa e a bioestatística em Educação Física. Após a leitura deste livro, você estará apto para utilizar a Bioestatística como ferramenta de organização, descrição, análise e interpretação de dados relacionados à sua prática profissional. Na unidade I, abordaremos as ferramentas para a compreensão da linguagem estatística, discutindo os conceitos e aplicações práticas das medidas descritivas de posição e de dispersão. A partir do cálculo desses dados, vamos tratar sobre as possibilidades de construção e interpretação de tabelas e gráficos. Na unidade II, serão discutidas as formas de aplicação de testes comparativos, de regressão e de correlação entre grupos e condições, o que proporcionará ferramentas para determinar a escolha do teste estatístico mais adequado a ser empregado na análise das diversas situações práticas vinculadas à área de Educação Física. INTRODUÇÃO A Estatística pode ser definida como um conjunto de técnicas que promove a padronização e a adequação das formas de coleta, organização e análise de dados. Para muitos alunos de quase todas as áreas do conhecimento, os conceitos dessa disciplina acabam parecendo muito abstratos, o que faz com que seja considerada, muitas vezes, como altamente complexa. Muitas pessoas, inclusive, contratam serviços particulares de profissionais de Estatística por desconhecerem as ferramentas mais básicas de aplicação dessa matéria. Neste livro, veremos que a estatística não está distante da nossa realidade, pois seus procedimentos estão presentes de várias formas no nosso cotidiano. Usamos esses procedimentos quando tentamos interpretar nosso consumo mensal de água ou de luz; quando dividimos a conta do restaurante com amigos; quando precisamos trocar nosso dinheiro por outra moeda e avaliamos diferentes cotações; entre tantos outros exemplos. Além disso, entender Estatística torna‑se fundamental em nossa vida profissional. São as ferramentas estatísticas que nos permitem descrever as características de um grupo de pessoas e também comparar as características de dois grupos diferentes. Em Educação Física, isso também é válido, independente da área de atuação do profissional: escola, academias, clubes, entre outros. Vamos a dois exemplos práticos de comparação entre grupos que somente torna‑se possível utilizando as ferramentas estatísticas: (1) na academia, você pode ter por objetivo comparar os níveis de força de mulheres que praticam duas modalidades diferentes; (2) no clube, você pode ter como meta comparar a distância de salto de meninos de diferentes faixas etárias. 8 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Dessa forma, como a atuação em Educação Física envolve, geralmente, a prescrição de exercícios físicos e a implantação de programas de treinamento, um profissional pode, por exemplo, ter como objetivo investigar até que ponto a sua intervenção afetou as características da população com a qual o trabalho foi realizado. Para tanto, não basta apenas medir a característica do grupo de praticantes, mas é necessário saber, por exemplo, quanto foi o ganho médio a partir de sua intervenção; se houve diferença entre os sujeitos ou se todos apresentaram os mesmos ganhos; se os valores medidos antes e depois da intervenção podem ser considerados diferentes ou se a diferença é tão pequena que não pode ser considerada significativa. Para essa e outras situações, usualmente presentes na vida do profissional de Educação Física, é que a Estatística torna‑se tão importante. Contudo, para que se possa ter segurança nos resultados obtidos a partir de uma análise estatística, é necessário conhecer essas ferramentas de análise e conhecer os cuidados na sua aplicação. Pode‑se perceber que a leitura de dados de qualquer artigo de nossa área de atuação pressupõe que o aluno seja apto a identificar se os testes utilizados foram adequadamente empregados no estudo. Por isso, o intuito da disciplina é apresentar e discutir os conceitos e definições básicos que lhe permitam a proficiência necessária para a adequada utilização das ferramentas estatísticas. 9 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Unidade I 1 CONCEITOS GERAIS DE ESTATÍSTICA Nesta unidade, iniciaremos nossos estudos definindo os conceitos básicos de Bioestatística, analisando algumas aplicações possíveis. Em seguida, discutiremos as diferenças entre população e amostra, classificaremos os tipos variáveis existentes e aprenderemos como são calculados e para que servem as variáveis de posição e de variabilidade. Por fim, abordaremos, ainda, os diferentes tipos de representações gráficas e quais as situações mais indicadas para aplicar cada tipo. 1.1 Definições de estatística Figura 1 – Exigência de força de flexão do cotovelo A Estatística é uma disciplina que busca estratégias e meios para descrever ou interpretar um conjunto de dados observados sobre um grupo ou um fenômeno. Portanto, ela envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados provenientes de experimentos ou observações. A partir daí, Bioestatística é a aplicação de métodos estatísticos buscando investigar os fenômenos biológicos. Sendo assim, é uma disciplina de grande aplicação à Educação Física. A técnica para se analisar um conjunto de dados depende de sua origem, de onde eles provêm e do que se busca alcançar com uma ferramenta estatística. Por exemplo, podemos estar interessados em como duas características de um grupo de sujeitos se relacionam. Vamos supor que, nessa situação, estejamos interessados em avaliar o quanto a circunferência do braço pode estar relacionada com a força de flexão do cotovelo. Lembrete A Estatística é um conjunto de técnicas que possibilita padronização das formas de coleta, organização e análise de dados. A Bioestatística aplica esses métodos estatísticos buscando investigar os fenômenos biológicos. 10 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Um segundo exemplo que poderia ser investigado é quanto um período de treinamento interfere na execução de uma habilidade motora, como o arremesso da bola de basquete ao cesto. Poderíamos estar interessados em saber quantas bolas um grupo de pessoas acerta no cesto em dez tentativas, antes e depois de uma intervenção (sessão de treinamento). Outra possibilidade de análise poderia ser investigar quanto varia a pontuação no arremesso de dardo ao longo de vinte tentativas em função da distância de arremesso e do membro dominante ou não dominante. Nesse caso, há a interferência de duas variáveis: a distância de arremesso e o membro superior usado para o arremesso (dominante ou não dominante). Vale a pena observar que são intermináveis os exemplos e as aplicações possíveis das ferramentas estatísticas. Basta ter muito claro o que se quer saber por meio da análise e escolher a ferramenta que melhor responda à pergunta que foi levantada. Exemplo de aplicação Os procedimentos estatísticos embasam praticamente todas as informações presentes nos livros didáticos da nossa área de conhecimento. Reflita de que forma a Estatística foi utilizada nos dados descritos no último livro didático que você utilizou para outra disciplina do curso de Educação Física. Técnicas diferentes de análise são usadas para obter objetivos diferentes como: • descreverde rejeitar essa distribuição normal. A avaliação da normalidade de distribuição dos dados torna‑se extremamente importante, pois é um dos principais critérios a serem considerados para escolher qual teste estatístico utilizaremos para estabelecer a comparação proposta em nosso estudo. 5.1 Distribuição normal Muitas variáveis biológicas se distribuem de uma forma equilibrada, na qual os valores centrais são mais frequentes e os valores extremos (máximos e mínimos) são mais raros no conjunto de dados. Isso pode ser observado no exemplo na figura 41, que mostra uma série de diferentes curvas que tem como característica comum concentrarem a maior parte dos seus valores no centro da curva. Média Figura 41 – Exemplos de curvas em que a maioria dos valores se posiciona no centro, se distribuindo em torno da média A curva normal é uma linha contínua com a forma aproximada de um sino, utilizada para avaliar a normalidade de distribuição dos dados. Exatamente por esse motivo, essa forma é conhecida como linha teórica, pois mostra o modo como os dados deveriam se distribuir para terem o pressuposto de normalidade aceito. Dessa forma, essa linha teórica é conhecida como curva de distribuição normal ou curva de Gauss, a qual necessariamente apresentará menor incidência em valores baixos e altos, e maior frequência em valores centrais. 78 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 A figura 42 mostra quatro exemplos de gráficos, sendo que em dois deles temos a maioria dos valores se distribuindo em torno dos valores centrais, ou seja, essas curvas podem ser consideradas como normais (curvas correspondentes às letras c e d). Já as curvas representadas pelas letras a e b, mostram uma distribuição assimétrica: na letra a, a maioria dos valores estão deslocados à esquerda, enquanto que na letra b, a maioria dos valores encontra‑se deslocada à direita. a c b d Figura 42 – Exemplos de gráficos com distribuição de dados assimétrica (letras a e b) e com distribuição simétrica (letras c e d) Assim, a curva normal é unimodal, ou seja, apresenta apenas um valor de pico, e simétrica (idêntica em ambos os lados da média). Contudo, a curva normal pode apresentar diferentes curtoses, como veremos na figura 43. A curtose pode ser definida como o achatamento de uma curva. Dessa forma, uma curva normal pode apresentar diferentes níveis de curtoses, permitindo sua classificação como platicúrtica, leptocúrtica e mesocúrtica. A curva platicúrtica é mais achatada, enquanto que a curva leptocúrtica é mais alongada. Já a curva classificada como mesocúrtica, apresenta uma forma mais tradicional, com um achatamento intermediário (entre os formatos das curvas platicúrticas e mesocúrticas). 79 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA 0Z ‑3 ‑2 ‑1 +1 +2 +3 Leptocúrtica Mesocúrtica Platicúrtica Figura 43 – Representação de três curvas normais com diferentes curtoses Observação As curvas normais podem apresentar diferentes curtoses, podendo ser classificadas como platicúrtica (mais achatada), leptocúrtica (mais longada) e mesocúrtica (forma mais tradicional). Já que nossa discussão está contextualizada na Bioestatística, torna‑se importante mencionar que a distribuição normal não ocorre apenas em pessoas sadias. Esse conceito não possui nenhuma relação com o fato ser saudável ou não, normal ou anormal, dentro de um quadro esperado de desenvolvimento. Os conceitos aqui discutidos referem‑se exclusivamente à forma como as variáveis são analisadas se distribuem em gráfico. Exatamente por não apresentar nenhuma associação com os conceitos de saúde, classificamos os dados por apresentarem uma distribuição normal ou não normal (note que não usamos o termo anormal). Dessa forma, a curva de distribuição normal se apresenta simétrica em torno da média. Se ela for perfeitamente simétrica em torno da média, conforme os exemplos apresentados anteriormente na figura 43, então poderemos afirmar que os valores referentes à média, mediana e moda coincidirão (figura 44). 80 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Média Mediana Moda Figura 44 – Curva perfeitamente simétrica com os valores de média, mediana e moda coincidindo Nesse sentido, podemos afirmar que a média e os valores de desvio‑padrão são representativos de dados de distribuição normal. Isso ocorre, pois a curva de distribuição normal apresenta dois pontos de inflexão correspondentes à média somada e à média subtraída ao desvio‑padrão. Observe a figura 45 que mostra uma curva com distribuição normal rigorosamente simétrica, na qual a média está representada pela letra M e o desvio‑padrão pela letra s. Perceba que a área total sob a curva totaliza 100%. Já a área entre os pontos de inflexão (M – s e M + s), representa aproximadamente 68%, ou seja, dois terços de todos os valores. A área que representa a média ± 2 vezes o desvio‑padrão (M – 2s e M + 2s) corresponde a 95% dos valores. Por fim, essa curva engloba 99,73% dos valores no intervalo entre a média ± 3 vezes o desvio‑padrão (M – 3s e M + 3s). Com isso, quando os valores de desvio‑padrão são acrescentados aos valores da média, nós temos a maioria dos dados representativos da sua variável de análise. Podemos afirmar que, seguindo esse pressuposto de normalidade, o conjunto de dados pode ser adequadamente representado por meio dos valores de média e desvio‑padrão. A 68% 95% Escores de variáveis de interesse Fr eq uê nc ia d e um e sc or e ‑3s ‑2s ‑1s M +1s +2s +3s C B ponto de inflexão ponto de inflexão Figura 45 – Curva que ilustra uma distribuição normal na prática 81 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Exemplo de aplicação A figura 46 a seguir mostra quatro exemplos de curvas com diferentes formas de distribuição dos dados. Procure determinar quais são os exemplos de curvas que podem ser consideradas normais. Aponte quais são as implicações dessa determinação. A C D B Figura 46 – Exemplos de curvas representativas de diferentes conjuntos de dados 5.2 Testes de normalidade É válido lembrar que a curva de distribuição normal é uma curva teórica, a partir da qual faremos uma tentativa de encaixar as curvas obtidas a partir de dados reais que serão parecidos ou não com essa curva normal. Dificilmente os dados apresentarão uma distribuição normal perfeita. Por isso, determina‑se a normalidade de distribuição dos dados por meio de testes de normalidade. Quando nossos dados se aproximarem dessa distribuição, poderemos confirmar que os pressupostos de normalidade foram aceitos e, portanto, testes chamados de paramétricos poderão ser utilizados posteriormente para comparação das variáveis. Testes estatísticos paramétricos são geralmente preferíveis, pois apresentam maior poder estatístico. Contudo, existem inúmeras variáveis de distribuição assimétrica ou descontínua que não apresentam curva normal de distribuição dos dados. Nessas condições, em que a distribuição dos dados é considerada não normal, deveremos optar por testes chamados de não paramétricos para realizar a comparação das variáveis. A figura 47 mostra um conjunto de dados que não apresenta normalidade de distribuição, uma vez que o formato do histograma obtido a partir desse conjunto de dados não se assemelha à curva normal, representada pela linha no gráfico. 82 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ªR ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Fr eq uê nc ia Idade 16,9 25,6 34,4 43,1 51,9 60,6 69,4 78,1 Histograma Curva normal sobreposta ao histograma indicando a distribuição que os dados deveriam apresentar para atender aos pressupostos de normalidade. Std. Dev = 18,87 Mean = 32,1 N = 79,00 50 30 10 40 20 0 Figura 47 – Gráfico do tipo histograma sendo comparado á curva normal Os testes para avaliação da normalidade de distribuição de dados são realizados a partir das medidas de assimetrias e curtoses (achatamentos) das curvas compostas pelo nosso conjunto de dados. Lembrete A avaliação da normalidade de distribuição dos dados é fundamental, pois estabelece os critérios a serem considerados para escolher qual teste estatístico utilizaremos na comparação proposta em nosso estudo. Existem diversos pacotes estatísticos que utilizam diferentes procedimentos para essa avaliação da normalidade. Os testes mais comuns são: • Teste de Shapiro‑Wilk: utilizado quando temos um conjunto de dados composto por até 50 observações. • Teste de Kolmogorov Smirnov: utilizado nas demais situações, ou seja, quando temos um conjunto de dados composto por mais de 50 observações. Lembrete Os testes mais comuns utilizados para a avaliação da normalidade são: Teste de Shapiro‑Wilk e Teste de Kolmogorov‑Smirnov. 83 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Podemos entender como número de observações o número de variáveis que gostaríamos de comparar em um determinado estudo. Para ficar mais claro, vamos a dois exemplos práticos. Imagine que você deseja comparar a altura alcançada em 30 saltos realizados antes e após um período de treinamento. Como o número de observações é igual a 30, nesse caso, usaríamos o Teste de Shapiro‑Wilk para avaliar a distribuição dos dados. Agora, imagine outro exemplo em que você pretende comparar o desempenho de sessenta homens com o desempenho de sessenta mulheres em um teste de flexibilidade. Nesse caso, como temos sessenta observações para cada grupo avaliado, devemos utilizar o Teste de Kolmogorov‑Smirnov para avaliar a distribuição dos dados. Independente do teste a ser empregado, devemos utilizar um ponto referencial para avaliar se há ou não normalidade. Esse referencial é conhecido como nível de significância, o qual é geralmente representado pela letra p. Na área da Educação Física, o nível de significância que é mais frequentemente adotado é de 5%. Isso significa que o valor de p será de 0,05, ou seja, p=0,05. Dessa forma, se realizarmos um teste de normalidade e encontrarmos um nível de significância inferior ao estabelecido (por exemplo, p0,05), a condição de normalidade será confirmada. Com isso, poderemos afirmar que o conjunto de dados avaliados mostra uma distribuição normal, o que possibilita a utilização de um teste paramétrico para comparar os grupos. Observação Ao aplicarmos testes de normalidade, se encontrarmos um nível de significância superior ao estabelecido (por exemplo, p>0,05), a condição de normalidade será confirmada. Saiba mais Consulte o capítulo 6 do livro Análise de Dados em Atividade Física, de Barros e Reis (2003), para ter mais informações sobre a avaliação da curva normal e os diferentes tipos de testes utilizados para avaliar a normalidade de distribuição de dados. 84 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 6 FORMULAÇÃO DE HIPÓTESES Quando realizamos um estudo, estamos investigando um problema. O problema de pesquisa é o contexto que estamos analisando; nesse sentido, é fundamental enxergarmos as variáveis de análise no nosso estudo, em particular as variáveis dependentes e independentes. Portanto, estamos interessados no efeito que a variável independente pode ter sobre a variável dependente. Conforme visto anteriormente, a variável independente é a que estamos manipulando, enquanto que a variável dependente é o efeito da variável independente; é a variável que sofrerá a interferência da variável independente. Se pensarmos numa proposta de causa e efeito, a causa é a variável independente e o efeito é a variável dependente. Vejamos alguns exemplos: Figura 48 – Imagem exemplificando situação de hidratação relacionado ao problema de pesquisa intitulado Investigar a interferência da hidratação sobre o rendimento no teste de 12 minutos • Problema de pesquisa: Investigar a interferência da hidratação sobre o rendimento no teste de 12 minutos. Variável independente: hidratação. Variável dependente: resultado no teste de 12 minutos. 85 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Figura 49 – Imagem exemplificando situação de corrida, relacionada ao problema de pesquisa intitulado Investigar como o tempo de uso afeta a capacidade de absorção de impacto do calçado • Problema de pesquisa: investigar como o tempo de uso afeta a capacidade de absorção de impacto do calçado. Variável independente: tempo de uso do calçado. Variável dependente: absorção de impacto. Figura 50 – Imagem exemplificando situação de salto vertical, relacionado ao problema de pesquisa intitulado Investigar como o aumento de força de quadríceps afeta a capacidade de salto vertical 86 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 • Problema de pesquisa: investigar como o aumento de força de quadríceps afeta a capacidade de salto vertical. Variável independente: força de quadríceps. Variável dependente: altura de salto. Figura 51 – Imagem exemplificando situação de alongamento, relacionado ao problema de pesquisa intitulado Investigar qual alongamento traz maiores ganhos em flexibilidade • Problema de pesquisa: investigar qual alongamento traz maiores ganhos em flexibilidade. Variável independente: tipos de alongamentos. Variável dependente: ganho de flexibilidade. Figura 52 – Imagem exemplificando situação de prática de exercício, relacionado ao problema de pesquisa • Problema de pesquisa: investigar índices de sedentarismo em função dos diferentes níveis de escolaridade em adultos. 87 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Variável independente: nível de escolaridade em adultos. Variável dependente: índices de sedentarismo. Uma vez que o problema de pesquisa foi delimitado e as variáveis independente e dependente foram identificadas, precisamos formular as hipóteses. A hipótese é o resultado que esperamos obter pela nossa investigação. Geralmente, ao levantar o problema, já imaginamos o que teremos como resultado. A partir dessa ideia, teremos que formular duas hipóteses, no mínimo: hipótese de pesquisa (H1) e a hipótese nula (H0). A hipótese de pesquisa ou hipótese alternativa é o resultado esperado pelo pesquisador; geralmente surge da experiência, da dedução lógica ou de resultados de outras investigações. Já a hipótese nula, serve para avaliar a confiabilidade dos resultados; segundo ela, não há diferença entre os resultados, ou seja, não há relação entre as variáveisindependente e dependente. Vejamos como as hipóteses poderiam ser formuladas nos exemplos apresentados anteriormente: • Problema de pesquisa: investigar a interferência da hidratação sobre o rendimento no teste de 12 minutos. H1: a hidratação afeta o resultado no teste de 12 minutos. H0: a hidratação não afeta o resultado no teste de 12 minutos. • Problema de pesquisa: investigar como o tempo de uso afeta a capacidade de absorção de impacto do calçado. H1: o tempo de uso afeta a capacidade de absorção de impacto do calçado. H0: o tempo de uso não afeta a capacidade de absorção de impacto do calçado. • Problema de pesquisa: investigar como o aumento de força de quadríceps afeta a capacidade de salto vertical. H1: a força do quadríceps afeta a altura de salto vertical. H0: a força do quadríceps não afeta a altura de salto vertical. • Problema de pesquisa: investigar qual alongamento traz maiores ganhos em flexibilidade. H1: os diferentes tipos de alongamentos trazem ganhos distintos na flexibilidade. H0: os diferentes tipos de alongamentos trazem ganhos semelhantes na flexibilidade. • Problema de pesquisa: investigar índices de sedentarismo em função dos diferentes níveis de escolaridade em adultos. 88 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 H1: o nível de escolaridade afeta os índices de sedentarismo. H0: o nível de escolaridade não afeta os índices de sedentarismo. Figura 53 – Imagem exemplificando situação de prática de exercício, relacionado ao problema de pesquisa intitulado Investigar índices de sedentarismo em função dos diferentes níveis de escolaridade em adultos Exemplo de aplicação Agora que já vimos diversos exemplos aplicados à nossa área de atuação, procure formular um novo problema de pesquisa relacionado à Educação Física, que ainda não tenha sido comentado nesse material. Depois, procure desenvolver também a hipótese alternativa para esse problema. Uma vez formuladas essas hipóteses, devemos proceder ao teste para verificar os resultados que teremos. Esse processo é conhecido como teste de hipótese ou teste de significância. O teste de hipóteses envolve os seguintes passos: • delimitar o problema de pesquisa; • definir as hipóteses nula e alternativa; • coletar dados em uma amostra da população; • uso de ferramentas estatísticas para testar a hipótese; • comparação dos resultados com a literatura. Uma vez que a hipótese alternativa ou de pesquisa (H1) é uma alternativa para a hipótese nula (H0), o que buscamos são evidências para rejeitar H0, ou seja, provas de que ela não seja verdadeira. Se H0 não é verdadeira, H1 passa a ser a resposta aceita. 89 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Em situações nas quais não se sabe para qual direção os resultados tenderão, teremos que usar um teste estatístico bicaudal. Quando já imaginamos para qual lado os resultados poderão tender, podemos usar um teste unicaudal. Vejamos um exemplo com base numa das situações apresentadas anteriormente. • Problema de pesquisa: investigar como o tempo de uso afeta a capacidade de absorção de impacto do calçado. H1: o tempo de uso afeta a capacidade de absorção de impacto do calçado. H0: o tempo de uso não afeta a capacidade de absorção de impacto do calçado. Nessa situação, a hipótese alternativa indica que a absorção de impacto será afetada pelo tempo de uso do calçado, mas não sabemos se para mais ou para menos, ou seja, pode ser que a absorção de impacto melhore ou piore. Por não saber para qual lado os resultados tenderão, deveremos usar um teste bicaudal. Por outro lado, se imaginarmos que a absorção de impacto não possa melhorar, apenas piorar, estamos imaginando para qual lado os resultados tenderão; assim, ou a absorção de impacto piorará (H1) ou não será afetada (H0). Nesse caso, um teste unicaudal deverá ser usado. Os testes estatísticos vão identificar e comparar os dados coletados com dados conhecidos de uma população ou comparar dados coletados em duas condições distintas. Por exemplo, altura de salto antes de treinamento de força em quadríceps e depois de treinamento de força em quadríceps, quilometragem percorrida no teste de 12 minutos com hidratação prévia e sem hidratação prévia, ganho em flexibilidade após 8 sessões de alongamento estático e após 8 sessões de alongamento dinâmico. A comparação que será realizada permite identificar o valor de p, que varia de 0,0 a 1,0. O p representa a probabilidade dos resultados encontrados na amostra, para as duas condições, serem idênticos. O que se procura é aceitar ou rejeitar H0, ou seja, é evidência para afirmar que os resultados das duas condições, por exemplo, são idênticos ou diferentes. Isso será feito pela determinação de um valor de corte para p, que também é conhecido como nível de significância. Geralmente, o valor crítico de p fica entre 5% (0,05) e 1% (0,01). Na comparação entre as duas distribuições de dados, quanto menor for o valor de p, maior a evidência para rejeitar a hipótese nula, ou seja, de que os dois conjuntos de dados são diferentes. O valor de p corresponde à probabilidade dos dois conjuntos de dados serem iguais; portanto, o p de 0,05 significa que há 5% de chance das distribuições dos dados nas duas condições serem iguais, ou seja, eles são diferentes. Com isso, se rejeita H0 e aceita H1. Observação Quanto mais forte tiver que ser a evidência, menor terá que ser o valor de p, por exemplo, 0,01. 90 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Como vimos, as formulações das hipóteses alternativas (hipóteses do pesquisador) são geralmente provenientes de resultados de outras investigações. Entretanto, torna‑se fundamental que sejam utilizadas fontes científicas de qualidade, e, por isso, no tópico que segue abordaremos as formas de buscar tais referências. As fontes bibliográficas podem ser classificadas como primárias ou secundárias. Fontes primárias correspondem aos artigos científicos experimentais, ou seja, as conclusões apresentadas nesses textos são oriundas de algum trabalho realizado por pesquisadores, envolvendo um desenho experimental definido. Já as fontes secundárias, são os artigos de revisão e os livros. Esses materiais têm como objetivo sistematizar informações divulgadas principalmente por meio de outras fontes primárias. Dessa forma, o grande objetivo desse tipo de fonte não é produzir uma informação nova, mas sistematizar e organizar conteúdos para que as informações já divulgadas possam ser mais bem organizadas e entendidas. Nesse sentido, ao realizarmos uma pesquisa bibliográfica em que o objetivo primordial é formular as hipóteses do nosso estudo, devemos sempre preferir as fontes primárias, pois elas permitem uma leitura do texto diretamente a partir da escrita dos autores do trabalho original. Já as fontes secundárias, promoverão uma releitura dessas informações contidas no texto original, servindo mais especificamente para promover uma ideia geral sobre o tema abordado. 6.1 Estratégias de busca de artigos científicos Nos dias de hoje, a informação e o conhecimento são facilmente obtidos por meio da internet. No entanto, justamente devido à facilidade em acessar e em postar informação e conhecimento é que o maior desafio torna‑se a adequada seleção desse conhecimento. A escolha do conhecimento de qualidade é o grande segredo da atualidade. Hoje em dia, qualquer pessoa é capaz de criar um site, mesmo que não domine o assunto discutido. Esse é justamente o problema: não há nenhuma classificação na informação apresentada e, às vezes, sites bem elaborados podem conterconteúdos altamente questionáveis. Figura 54 – Trabalhos atraentes podem ser desenvolvidos; entretanto com conteúdo questionável 91 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Por exemplo, pense num conteúdo que não seja de seu domínio: pintar, cozinhar, tecer ou qualquer outro. Com criatividade, um site interessante e atraente pode ser criado e atrairá muitos visitantes que usarão o seu conteúdo. Infelizmente, os visitantes do site não fazem ideia que o seu conhecimento sobre o assunto possa ser limitado. Lembre‑se de que, nesse exemplo, um conteúdo que não é do seu domínio foi escolhido. Por ser atraente e bem estruturado, muitos irão adotar os ensinamentos do site e passá‑los adiante. Perceba como isso pode ser perigoso quando se trata da saúde de uma pessoa. É necessário desenvolver um olhar crítico a tudo que nos é apresentado, independente de quão lógico a informação ou o conhecimento possa parecer. A internet é uma fonte vasta de conhecimento e informação e que se encontra ao alcance de todos. Infelizmente, junto aos sites, não aparece nenhuma indicação da confiabilidade das informações transmitidas. Por isso, cabe a nós aprender a selecionar o conhecimento mais confiável. Para tanto, é importante saber as origens dos conteúdos apresentados. Atualmente, não é difícil montar um site atraente que convide o acesso de todos, basta um projetista competente e uma “pitada” de criatividade. Entretanto, nem sempre conhecemos a pessoa que desenvolveu o conteúdo postado; em muitos casos, aparece um breve currículo do autor do conteúdo. Mesmo assim, ainda é possível que a pessoa tenha criado o conteúdo em grande parte usando conhecimento empírico, ao invés de conhecimento científico. O conhecimento empírico é obtido por um método, no qual dados são coletados com base na experiência. Não desmerecendo a experiência, vale lembrar que esta apresenta certas limitações. Por exemplo, o conhecimento pautado na experiência depende das vivências de uma pessoa e às vezes elas induzem a interpretações incorretas e a conclusões que eventualmente são válidas apenas em certas circunstancias. Contudo, o maior problema está na baixa capacidade de extrapolar a experiência a outras condições, pois a adquirimos sem controle das variáveis que poderiam interferir nos resultados e assim induzir a interpretações incorretas. Figura 55 – Momento decisivo de uma partida de futebol; momento do chute a gol Por exemplo, muitas vezes buscamos explicações para fracassos, como em uma cobrança de pênalti perdida durante uma partida de futebol. O número de variáveis que podem ter influenciado a perda do 92 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 pênalti são inúmeros. No entanto, cada torcedor terá uma opinião e uma justificativa para o insucesso, sendo que cada um acredita ser sua a razão verdadeira do fracasso. É importante perceber que nessa situação, cada justificativa é meramente uma especulação e que pode não ser o real motivo da perda do pênalti. Gostaríamos de deixar claro que não é um desmerecimento à experiência, mas certo cuidado deve ser dado à importância que se destina a ela. Por outro lado, o conhecimento científico é uma forma mais estruturada de adquirir conhecimento e que envolve objetividade e controle das variáveis para a solução de um problema específico. Vale lembrar que ele também apresenta limitações, porém permite uma segurança maior na interpretação dos resultados pesquisa e uma garantia maior de que, em qualquer outra região do mundo, se alguém refizer o estudo nas mesmas circunstâncias, a chance é razoável em obter um resultado semelhante. Por conta dessa característica do estudo científico, é que o mais seguro é buscar conhecimento em revistas e fontes científicas. É claro que mesmo que os editores das revistas científicas submetam os artigos a revisores competentes, é possível que resultados questionáveis sejam observados. Entretanto, a segurança na informação é maior. São muitos os locais nos quais é possível se obter conhecimento científico. No quadro a seguir, há uma lista dos principais sites de busca de artigos científicos, onde se encontram materiais direcionados à área da Educação Física. Quadro 1 – Principais bases de dados nas quais é possível encontrar artigos científicos em revistas indexadas Bases de dados (referências e resumos): Pubmed www.pubmed.com • Indexa revistas significativas na área da saúde. • Indexa principalmente revistas americanas, pois é pago com dinheiro público. • Principal site de busca usado. • Principalmente resumos. • Oferece links para as revistas eletrônicas para obter artigos completos (muitos pagos). Bireme www.bireme.br • Banco de dados Latino‑Americano. • Acesso à informação científica e técnica em saúde (BVS – Biblioteca Virtual em Saúde). • Indexa diversos bancos de dados virtuais. • LILACS (Literatura Latino‑Americana e do Caribe de Informação em Ciências da Saúde). Dedalus www.dedalus.usp.br • Indexa toda a produção científica da USP. • Entrar: interface portal USP. Scielo www.scielo.br • Scientific Eletronic Library On‑line. • Indexa 114 revistas brasileiras. • Textos completos. • Maior parte da área biológica. • Suportada inicialmente pela Fapesp e, a partir de 2002, também pela Capes. 93 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Periódicos www.periodicos.capes.gov.br • Base com textos completos. • Banco de dados de teses e dissertações. • Diversas revistas especificamente na área de EF. Elsevier http://www.elsevier.com • Oferece informação técnico‑científica sobre saúde. • Indexa diversas revistas ao redor do mundo. • Indexa 75% da produção Europeia. • Interligada com PubMed. • Principais áreas: Ciências da saúde, físicas e sociais. Google http://scholar.google.com.br • Não é especificamente científica. • Localiza revistas virtuais na internet, caso o link não esteja acessível em outros bancos de dados. • Nem sempre o artigo completo é acessível. • Busca por institutos de pesquisa; linhas de pesquisa; pesquisadores; publicações sobre o assunto. Teses e dissertações USP www.usp.br • Banco de dados da produção acadêmica da USP. • Textos completos em pdf. • Acesso em Biblioteca. Site de busca USP www.usp.br/sibi • Sistema Integrado de Bibliotecas da USP. • Busca por revistas eletrônicas. • A partir de pontos de internet ou computadores da USP, muitos artigos podem ser obtidos em versão completa. É importante lembrar que há outras formas de busca e de conseguir artigos científicos, dissertações e teses, diferentes das apresentadas anteriormente. Entretanto, o objetivo do presente texto não é determinar o caminho correto, e sim mostrar possibilidades para que o profissional ou aluno comece a se familiarizar com a leitura de artigos científicos. Nessa mesma perspectiva, observe, a seguir, um roteiro para levantamento bibliográfico sobre um assunto qualquer: Levantando referências bibliográficas 1. Pensar no assunto de interesse. 2. Pensar em palavras‑chaves. Ser criativo e persistente. 3. Busca inicial por referências em livros‑textos e nos sites de busca. 4. Montar lista relevante de artigos. 5. Tentar conseguir artigos completos. 6. Leitura inicial do artigo para fazer fichamento. 7. Usar referências bibliográficas dos artigos para conseguir mais artigos. 94 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 As revistas científicas apresentam uma classificação segundo alguns critériospredefinidos. A classificação se dá em função do Qualis da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) e do fator de impacto. O Qualis é uma avaliação feita pela Capes e tem o objetivo de classificar revistas impressas e virtuais segundo a sua abrangência de sua circulação (local, nacional ou internacional) e segundo a qualidade (A, B, C), nas diferentes áreas de conhecimento. Os critérios para a classificação são: números de exemplares da revista lançados ou publicados por ano, número de banco de dados nos quais a revista se encontra indexada e número de instituições que publicam na revista para evitar que ela seja mantida por uma única instituição. Segundo o Qualis, as revistas podem ser classificadas como de nível A1 ou A2, que são os níveis mais altos e internacionais, níveis B1, B2, B3, B4 e B5, que englobam níveis altos e baixos de classificação e o nível C. Quanto mais alto for o nível, mais bem conceituada e procurada ela é para publicação pelos pesquisadores de todo o mundo. Por outro lado, não criteriosa ela é com relação aos métodos empregados no estudo e com a relevância do tema; por isso, mais dificil é publicar nessas revistas. O fator de impacto é outra forma de classificar as revistas que veiculam artigos científicos. É um indicador de quantas vezes um artigo científico publicado em um periódico foi citado. Esse fator reflete quanto os artigos de uma determinada revista foram lidos e seus conteúdos citados em outros artigos. Nesse sentido, quanto maior for o fator de impacto de uma revista, maior o prestígio desla, pois mais pessoas a leem e a citam. Essa forma de classificação é calculada pela relação de citações por artigos publicados em um período; reflete a relação de citações e publicações dos dois anos anteriores ao atual. Para entender melhor, vamos supor o fator de impacto de uma revista em 2010; equivale ao número de vezes em que os artigos desse periódico foram citados entre os anos 2008 e 2009. Exemplo: cinquenta artigos foram citados cem vezes, dividido pelo número total de publicações de todos os artigos de todas as revistas entre os anos 2008 e 2009. Portanto, o fator de impacto da revista será 100 dividido por 50, ou seja, 100/50 = 2, sendo que este será divulgado em 2011. Essas duas formas de classificações são tentativas de categorizar a importância que as revistas apresentam em suas áreas de atuação. Ambas apresentam falhas, mas, mesmo assim, elas ainda servem como um indicador. Vale lembrar que muitos artigos de excelência podem ser encontrados em revistas de fator de impacto e Qualis baixos. Por isso, o ideal é realmente ler os artigos encontrados e, de forma crítica, analisar o seu conteúdo. Este, mesmo que apresente falhas metodológicas, traz contribuições importantes. Como no exemplo, devemos ter ciência de que o artigo tem limitações e os resultados podem não ser completamente confiáveis. 95 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA 7 TESTES ESTATÍSTICOS: TESTE T Os testes estatísticos podem ser definidos como procedimentos que, com algum nível de precisão, possibilitam avaliar se as hipóteses estatísticas podem ou não ser consideradas como verdadeiras. Como já mencionamos anteriormente, existem inúmeros tipos de testes estatísticos que são utilizados com diferentes finalidades e a partir de condições distintas de aplicação (por exemplo, a partir da condição de normalidade comprovada ou não). Nesse sentido, esses tipos distintos de testes estatísticos permitem a comparação entre as proporções e as distribuições das observações. Entre outras possíveis formas de aplicação, destacamos aqui as seguintes situações: • comparação de um conjunto de dados a uma categoria de referência; • comparação entre dois conjuntos de dados de um único grupo; • comparação entre proporções de mais de dois grupos de dados; • comparação entre as proporções de dois grupos de dados. Embora exista um número muito grande de testes estatísticos disponíveis, vamos começar a discutir aqueles que julgamos mais comuns na área da Educação Física. 7.1 Teste t para uma amostra O Teste t para uma amostra é empregado em situações em que características de um único grupo precisam ser comparadas com um valor de referência. Dessa forma, podemos afirmar que esse teste foi desenvolvido para comparar duas médias em um experimento. Entretanto, para que esse teste possa ser adequadamente utilizado, torna‑se fundamental que sejam atendidos os critérios de normalidade de distribuição de dados. Dito de outra forma, o conjunto de dados a ser comparado deve ter antecipadamente sua normalidade confirmada por meio dos testes já descritos no tópico 1.2 desta Unidade. Caso o conjunto de dados a ser testado não apresente normalidade de distribuição de dados, a opção não paramétrica para o teste de uma amostra corresponde ao Teste dos Sinais. Lembrete O Teste t para uma amostra é empregado em situações em que características de um único grupo precisam ser comparadas com um valor de referência. 96 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Vamos a três exemplos de situações em que o Teste t para uma amostra deve ser empregado para realizar as comparações almejadas. Figura 56 – Ambiente em que testes de resistência aeróbia (testes de corrida) podem ser realizados, como relatado no exemplo 1 a seguir. Exemplo 1 Comparação entre a média de desempenho dos alunos do curso de Graduação em Educação Física no teste de resistência aeróbia, conhecido como Teste de 12 minutos, em relação ao desempenho médio nesse teste esperado para a faixa etária dessa população. Para esse exemplo, temos a formulação das seguintes hipóteses: H0 → a média dos resultados no teste de resistência aeróbia para o grupo alunos do curso de graduação em Educação Física é semelhante à média do grupo referencial estipulado. H1 → a média dos resultados no teste de resistência aeróbia para o grupo alunos do curso de graduação em Educação Física é diferente da média do grupo referencial estipulado. Figura 57 – Display de uma esteira motorizada. Outro exemplo de ambiente em que testes de resistência aeróbia (testes de corrida) podem ser realizados, como relatado no exemplo 1 a seguir 97 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Exemplo 2 Comparação entre a média nacional de desempenho dos alunos de graduação do curso de Educação Física, com a média do desempenho dos alunos de Educação Física da Universidade Paulista (UNIP), que estejam cursando o último ano. Para esse exemplo, temos a formulação das seguintes hipóteses: H0 → A média do desempenho dos alunos de Educação Física da Universidade Paulista (UNIP) é semelhante à média nacional de desempenho dos alunos de graduação do curso de Educação Física. H1 → A média do desempenho dos alunos de Educação Física da Universidade Paulista (UNIP) é diferente da média nacional de desempenho dos alunos de graduação do curso de Educação Física. Considere, hipoteticamente, que você já tenha realizado a coleta dos seus dados e que os seguintes valores foram obtidos: • média dos alunos da UNIP (± desvio‑padrão): 9,63 ± 0,7; • média nacional (± desvio‑padrão): 6,20 ± 0,9. Nesse caso, a hipótese alternativa (H1) foi confirmada, pois, após aplicação do Teste t para uma amostra, foi verificada diferença entre a média dos alunos da UNIP e a média nacional. Foi possível observar que a média do desempenho dos alunos de Educação Física da UNIP foi estatisticamente superior à média nacional de desempenho dos alunos de graduação do curso de Educação Física. Figura58 – Prova de corrida, conforme exemplo 3, intitulado Comparação entre a média do desempenho dos atletas do seu grupo de corrida com a média dos participantes na prova de 10 km na qual eles pretendem concorrer 98 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Exemplo 3 Comparação entre a média do desempenho dos atletas do seu grupo de corrida com a média dos participantes na prova de 10 km na qual eles pretendem concorrer. Para esse exemplo, temos a formulação das seguintes hipóteses: H0 → A média do desempenho dos atletas do seu grupo de corrida mostra‑se semelhante à média dos participantes na prova de 10 km na qual eles pretendem concorrer. H1 → A média do desempenho dos atletas do seu grupo de corrida mostra‑se diferente da média dos participantes na prova de 10 km na qual eles pretendem concorrer. Novamente, imagine que você já tenha realizado a coleta dos seus dados e que os seguintes valores foram obtidos: • média do desempenho dos atletas do seu grupo de corrida na prova de 10 km (± desvio‑padrão): 41,3 ± 1,4 min; • média dos participantes na prova de 10 km: 41,5 ± 4,6 min. Nesse caso, a hipótese nula (H0) foi confirmada, pois, após aplicação do Teste t para uma amostra, não foi verificada diferença significativa entre a média do desempenho dos atletas do seu grupo de corrida quando comparado com a média dos participantes na referida prova de 10 km. Foi possível observar que as médias do desempenho dos dois grupos comparados foram muito semelhantes entre si. Dessa forma, o teste estatístico permitiu refutar a hipótese H1. Observação O Teste t só deve ser utilizado para uma amostra quando o conjunto de dados apresenta distribuição normal. A opção não paramétrica corresponde ao Teste dos Sinais. 7.2 Teste t pareado O Teste t pareado é utilizado em situações nas quais um mesmo grupo é avaliado em duas condições distintas, sendo que o objetivo é comparar essas duas médias entre si. Esse é um dos testes mais utilizados em Educação Física, pois frequentemente temos como objetivo avaliar o efeito de uma determinada forma de intervenção; por exemplo, uma determinada modalidade de treinamento. Dessa forma, usando o Teste t pareado conseguimos afirmar se uma variável (por exemplo, a força ou a flexibilidade) altera depois de um período ou uma sessão de treinamento. 99 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Figura 59 – Sessão de treinamento de força, que pode ser utilizado como forma de intervenção em nossa área de atuação Esse tipo de teste também necessita atender aos critérios de normalidade de distribuição para que possa ser aplicado. Assim, apenas dados paramétricos, ou seja, que tiveram sua normalidade de distribuição de dados confirmada, podem ser comparados usando o Teste t pareado. Para situações em que a normalidade for refutada, deve‑se utilizar uma das seguintes opções não paramétricas: Teste de Wilcoxon e Teste dos Sinais. Outra condição fundamental para a aplicação do Teste t pareado é que a amostra dos dados nas duas condições a serem comparadas (antes e depois) deve ter o mesmo tamanho. Caso contrário, a relação de dependência ou pareamento será perdida. Exemplificando, se na condição pré‑treinamento foi avaliada a força de dez indivíduos, na condição pós‑treinamento a força dessas mesmas dez pessoas deverá ser avaliada novamente, para que se estabeleça corretamente uma relação causa‑efeito. Com isso, conseguiríamos afirmar, por exemplo, que o treinamento (causa) gera um aumento de força (efeito). Lembrete O Teste t pareado é utilizado nas situações em que um mesmo grupo é avaliado em duas condições distintas; por exemplo, condição pré e pós um treinamento. Para ficar mais claro, vamos a dois exemplos de aplicação do Teste t pareado na área específica da Educação Física: 100 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Figura 60 – Trabalhadores que podem ser acometidos por dor lombar em função do seu tipo de atividade laboral Exemplo 1 Comparação da dor lombar para um grupo de trabalhadores que foi submetido a um período de ginástica laboral entre as condições pré e pós‑treinamento. Para esse exemplo, formulamos as seguintes hipóteses: H0 → A dor lombar, para o grupo de trabalhadores avaliados, mostra‑se semelhante antes e após um período de ginástica laboral. H1 → A dor lombar, para o grupo de trabalhadores avaliados, mostra‑se diferente entre as condições pré e pós um período de ginástica laboral. Nesse caso, obviamente o pesquisador procura investigar se o treinamento realizado na ginástica laboral mostra‑se efetivo para reduzir a dor lombar dos trabalhadores. O que ele espera é encontrar menores valores na condição pós‑treinamento. Dessa forma, deseja confirmar a hipótese alternativa (H1) a partir da utilização do Teste t pareado. Figura 61 – Atividades físicas realizadas em meio líquido por indivíduos idosos 101 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Exemplo 2 Comparação do desempenho de um grupo de pessoas idosas em testes funcionais antes e depois de um período de treinamento realizado em meio líquido. A partir desse exemplo, formulam‑se as seguintes hipóteses: H0 → O desempenho dos idosos avaliados nos testes funcionais é semelhante antes e após um período de treinamento realizado em meio líquido. H1 → O desempenho dos idosos avaliados nos testes funcionais é diferente quando comparadas as condições pré e pós um período de treinamento realizado em meio líquido. Nesse caso, o pesquisador tem por intuito investigar se o treinamento realizado em meio líquido é capaz de melhorar a funcionalidade de indivíduos idosos. Para tanto, o que ele possivelmente espera encontrar são maiores valores em testes de funcionalidade na condição pós‑treinamento. Dessa forma, o Teste t pareado permitiria‑lhe confirmar a hipótese alternativa (H1). Observação Para aplicação Teste t pareado, é necessária a normalidade de distribuição nos dados e que a amostra dos dados tenha o mesmo tamanho nas condições pré e pós. 7.3 Teste t para amostras independentes O Teste t para amostras independentes deve ser utilizado em situações em que se planeja comparar uma característica comum de dois grupos que são compostos por indivíduos diferentes (grupos são independentes). Figura 62 – Imagem de uma prova de ciclismo, relacionada à pesquisa com objetivo intitulado Comparar o consumo máximo de oxigênio (VO2max.) entre um grupo de ciclistas e um grupo de corredores Dessa forma, pode‑se presumir que a condição fundamental para a aplicação desse teste é que os sujeitos de um grupo não estejam relacionados aos sujeitos de outro grupo. 102 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Por exemplo, imagine que um pesquisador deseja comparar o consumo máximo de oxigênio (VO2max.) entre um grupo de ciclistas e um grupo de corredores. Entretanto, como um dos indivíduos avaliados é triatleta e participa dessas duas formas de treinamento, esse pesquisador decide colocar os valores de VO2max. desse sujeito nos dois grupos a serem comparados. Esse procedimento se mostra inadequado para a utilização do Teste t para amostras independentes, o que poderia conduzir o pesquisador a uma análise errônea e, consequentemente, levá‑lo a interpretações equivocadas a partir do seu conjunto de dados. Para aplicaçãodo Teste t para amostras independentes, é necessário, também, que os dados mostrem uma distribuição normal (normalidade aceita em teste realizado previamente). As opções não paramétricas que permitem comparações semelhantes são: Teste da Soma dos Ranks de Wilcoxon e Teste t. Lembrete O Teste t para amostras independentes permite a comparação da média dos valores de um grupo com a média de valores de outro grupo compostos necessariamente por indivíduos diferentes. Vamos a dois exemplos de aplicação do teste t apara amostras independentes. Figura 63 – Imagem associada ao exemplo 1 explicitado a seguir, intitulado: Comparação da altura de salto vertical obtida por uma amostra composta por jogadores de basquete com aquela obtida por uma amostra composta por lutadores de judô Exemplo 1 Comparação da altura de salto vertical obtida por uma amostra composta por jogadores de basquete com aquela obtida por uma amostra composta por lutadores de judô. 103 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA A partir desse exemplo, formulam‑se as seguintes hipóteses: H0 → a altura de salto vertical é semelhante entre jogadores de basquete e lutadores de judô. H1 → a altura de salto vertical é diferente entre jogadores de basquete e lutadores de judô. O objetivo dessa comparação é investigar se participantes de modalidades esportivas distintas (jogadores de basquete e lutadores de judô) possuem desempenho diferente no teste que determina a altura máxima de salto vertical. Imagina‑se que, nessa condição, o pesquisador espere encontrar jogadores de basquete que atinjam uma altura de salto significativamente superior aos lutadores de judô, em função da característica específica de cada modalidade. Se isso ocorrer, a hipótese alternativa (H1) será confirmada. Figura 64 – Imagem associada ao exemplo 2 explicitado a seguir, intitulado: Comparação da força máxima do grupo muscular do quadríceps de atletas halterofilistas com atletas jogadores de futebol Exemplo 2 Comparação da força máxima do grupo muscular do quadríceps de atletas halterofilistas com atletas jogadores de futebol. Para esse exemplo, são formuladas as seguintes hipóteses: H0 → A força máxima do grupo muscular do quadríceps é semelhante entre atletas halterofilistas e atletas jogadores de futebol. H1 → A força máxima do grupo muscular do quadríceps mostra‑se diferente entre atletas halterofilistas e atletas jogadores de futebol. A finalidade desse estudo é investigar se a capacidade de produzir força máxima mostra‑se diferente entre grupos distintos de atletas: halterofilistas e jogadores de futebol. Acredita‑se que, como esses atletas utilizam tipos diferentes de força em suas modalidades, o pesquisador deve imaginar que os atletas halterofilistas produzirão maior força máxima quando comparados aos atletas jogadores de futebol. Dessa forma, a hipótese alternativa (H1) seria confirmada. 104 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Lembrete Para aplicação do Teste t para amostras independentes é necessária normalidade de distribuição dos dados. As opções não paramétricas são: Teste da Soma dos Ranks de Wilcoxon e Teste t. 8 OUTROS TESTES ESTATÍSTICOS Basicamente, tratamos até aqui de situações em que dois grupos de dados são comparados entre si. Entretanto, como devemos proceder quando queremos comparar simultaneamente mais de dois grupos de dados entre si? E como fazemos para avaliar as proporções entre dois grupos de dados para analisar se existe alguma relação entre o comportamento desses dados? Para responder a essas questões, vamos agora discutir mais alguns tipos de testes estatísticos. 8.1 Teste de Anova O teste de análise de variância, conhecido também como Anova, deve ser empregado em uma pesquisa em que o objetivo seja estabelecer a comparação de mais de dois grupos simultaneamente. Imagine que tenhamos uma condição em que uma variável quantitativa deverá ser comparada entre quatro grupos distintos. O pesquisador poderia utilizar vários testes t entre os grupos para compará‑los dois a dois. Contudo, esse procedimento mostra‑se estatisticamente inadequado, pois aumenta o erro de se concluir inapropriadamente que existe diferença entre as médias. Isso significa que de forma errada esse pesquisador poderia concluir que existe diferença entre dois grupos quando, na verdade, não há. Por isso, o procedimento correto consiste em usar o Teste de Anova, o que possibilita comparar mais de duas médias de um experimento em um único teste. Com isso, torna‑se possível identificarmos as diferenças entre os grupos (se essas existirem), mantendo o adequado controle sobre o nível de significância do teste. O Teste de Anova permite atribuir as possíveis diferenças encontradas a causas ou fontes de variação diferentes. O número de causas de variação ou fatores dependerá dos objetivos de cada estudo. Quando esse teste apresenta apenas uma fonte de variação, ele é conhecido como Anova one‑way, ou Anova de um fator; quando o teste apresenta duas fontes de variação, ele é conhecido como Anova two‑way (ou Anova de dois fatores). A Anova de um fator apresenta apenas uma causa de variação. Já na Anova de dois fatores, as variáveis são divididas em dois blocos, sendo que cada bloco representa um conjunto de unidades experimentais homogêneas entre si. A grande vantagem desse tipo de teste é que os efeitos existentes em diferentes blocos podem ser separados entre si, ou seja, aplicando‑se apenas um teste estatístico podemos explicar efeitos de fatores diferentes. 105 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Lembrete O teste de análise de variância (Anova) deve ser utilizado em estudos quando o objetivo é estabelecer uma comparação de mais de dois grupos simultaneamente. Um experimento pode conter um ou mais fatores com diferentes níveis. Os níveis de um fator representam as características diferentes deste. Assim, o procedimento estatístico detecta qual a influência desses fatores na variação dos grupos analisados, ou seja, identifica qual fator (ou quais fatores) são as possíveis causas de variação observada. Para ficar mais claro, vamos a um exemplo prático de aplicação dos conceitos de fatores e de níveis no teste de Anova. Figura 65 – Imagem associada ao exemplo de aplicação do teste de Anova com o objetivo de comparar a estatura de indivíduos do gênero feminino e masculino com diferentes níveis de escolaridade: Ensino Médio, graduação e pós‑graduação Imagine que você deseja comparar a estatura de indivíduos do gênero feminino e masculino com diferentes níveis de escolaridade: Ensino Médio, graduação e pós‑graduação. Nesse exemplo, o gênero é um fator com dois níveis: masculino e feminino. O nível de escolaridade pode ser considerado outro fator, com três níveis: Ensino Médio, graduação e pós‑graduação. Os dados hipotéticos desse caso são apresentados na tabela 12. 106 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Tabela 12 – Dados correspondentes à estatura em metros de estudantes de Ensino Médio, graduação e pós‑graduação, do sexo masculino e feminino Estatura Nível de escolaridade Ensino Médio Graduação Pós-graduação Gênero Masculino 1,78 ± 0,8 m 1,8 ± 0,7 m 1,79 ± 1,0 m Feminino 1,62 ± 0,6 m 1,65 ± 0,8 m 1,64 ± 0,7 m A aplicação de um teste de Anova de dois fatores nos dados da tabela 12 permitiria verificar que os alunos do gênero masculino são estatisticamente mais altos que os alunosdo sexo feminino. Todavia, possivelmente não seriam encontradas diferenças significativas em função do fator nível de escolaridade. Dessa forma, a Anova permite a comparação simultânea de dados que são influenciados por diferentes fatores, em diferentes níveis. Observação Os testes de Anova devem ser aplicados em dados de distribuição normal, e as comparações podem ser do tipo Anova one‑way (um fator) ou Anova two‑way (dois fatores). Para que o teste de Anova possa ser adequadamente empregado, torna‑se necessário cumprir alguns pressupostos, tais como: • os dados devem apresentar distribuição normal; • as variações amostrais devem ser semelhantes nas diferentes amostras dos grupos; • o tamanho das amostras dos grupos necessita ser semelhante; • considerar o fato que quanto maior a amostra, mais confiáveis serão os resultados obtidos nesse tipo de teste. Vamos a um exemplo prático de aplicação do teste de Anova de um fator. Imagine que você deseja avaliar um grupo de indivíduos que foi submetido à prática de seis meses de treinamento de pilates. De acordo com os objetivos do seu estudo, você fará avaliação da flexibilidade desses praticantes na condição inicial (antes de começar o treinamento), após dois meses, quatro meses e seis meses. 107 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Figura 66 – Imagem associada ao exemplo de aplicação do teste de Anova com objetivo avaliar um grupo de indivíduos submetido à prática de seis meses de treinamento de pilates. Será realizada avaliação da flexibilidade desses praticantes na condição inicial (antes de começar o treinamento), após dois meses, quatro meses e seis meses Nesse exemplo, nós temos apenas um fator (prática de uma modalidade) com quatro diferentes níveis de comparação (a cada dois meses). Para esse exemplo, são formuladas as seguintes hipóteses: H0 → A flexibilidade é semelhante ao longo do tempo de prática de treinamento de pilates. H1 → A flexibilidade é diferente ao longo do tempo de prática de treinamento de pilates. Assim, o teste de Anova nos permite verificar se todas as condições foram diferentes entre si ou se as diferenças podem ser observadas apenas entre algumas das condições testadas. Hipoteticamente, aplicando o teste de Anova no exemplo anterior, poderíamos encontrar diferença nos valores de flexibilidade entre a condição inicial e após seis meses de treinamento. Contudo, poderíamos verificar que entre as demais condições testadas não foram observadas diferenças significativas. Nesse caso, a hipótese alternativa (H1) foi confirmada, mas apenas uma diferença significativa foi verificada. 108 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 8.2 Teste de Friedman O Teste de Friedman deve ser utilizado para comparar os resultados de três ou mais amostras, quando a normalidade de distribuição de dados não for confirmada. Podemos afirmar, então, que o teste de Friedman é uma alternativa não paramétrica correspondente à Anova. Esse teste ordena os resultados para cada um dos casos e depois calcula a média das ordens para cada amostra. Assim, se não existem diferenças entre as amostras, as suas médias das ordens devem ser similares. Vamos a um exemplo prático de aplicação do teste Friedman, pressupondo que a normalidade de distribuição dos dados tenha sido previamente rejeitada nessa condição. Figura 67 – Imagem associada ao exemplo de aplicação do Teste de Friedman com o objetivo de comparar a ativação de diferentes músculos do membro inferior durante dez passadas de corrida Imagine que um pesquisador deseje comparar a ativação de diferentes músculos do membro inferior durante dez passadas de corrida. A ativação dos diferentes músculos é apresentada na figura 68. A partir dessa situação, formulam‑se as seguintes hipóteses: H0 → A ativação dos diferentes músculos é semelhante durante a corrida. H1 → A ativação dos diferentes músculos é diferente durante a corrida. 109 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA RF VL BF IC VM TA Time GL Figura 68 – Ativação de diferentes músculos do membro inferior ao longo do tempo correspondente a dez passadas: Reto Femoral (RF); Ílio costal (IC); Vasto Lateral (VL); Vasto Medial (VM); Biceps Femoral (BF); Tibial Anterior (TA); Gastrocnêmio Lateral (GL) Novamente, temos a possibilidade de encontrar diferenças entre apenas dois músculos ou diferenças entre vários músculos simultaneamente. De qualquer forma, sempre que alguma diferença for verificada, afirma‑se que a hipótese alternativa (H1) foi confirmada. Lembrete O teste de Friedman é uma alternativa não paramétrica correspondente à Anova. Esse teste também permite comparar os resultados de três ou mais amostras simultaneamente. 8.3 Teste de Correlação Muitas vezes, gostaríamos de saber quanto uma variável depende de outra, por exemplo, quanto um céu nublado serve como indicador de chuva, quanto um piso molhado indica que ele está mais escorregadio ou quanto a circunferência do braço de uma pessoa serve como indicador de força. É para estabelecer essas relações que existe a ferramenta conhecida como correlação simples. 110 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Figura 69 – Imagem da circunferência de braço utilizada como parâmetro de análise de medidas antropométricas; geralmente essa medida é correlacionada com a força A Correlação Simples investiga em que grau se relaciona duas variáveis, ques podem ou não estar associadas. Quando duas variáveis apresentam alguma relação entre si, isso significa que a variação nessa característica afeta outra característica do sujeito. Por exemplo, quanto mais avançada for a idade de uma pessoa, maior a tendência dessa pessoa em apresentar um percentual de gordura maior. Portanto, a correlação simples analisa a interferência de uma variável (dependente) sobre outra variável (independente). Poderíamos querer saber qual o efeito do tempo de fumo (variável independente) sobre a pressão arterial, a captação máxima de oxigênio ou o percentual de gordura (variável dependente). Vela notar que esta é apenas uma tendência de resposta, não significa necessariamente que uma pessoa de 40 anos terá sempre um percentual de gordura maior que uma pessoa de 20 anos. Observação Diagrama de dispersão é um gráfico no qual os escores de cada sujeito da amostra são plotados na relação entre as duas variáveis de análise. Observe a figura 70 para mais um exemplo. Esse gráfico se chama diagrama de dispersão. Neste, duas variáveis foram registradas de uma amostra: estatura e salto em distância sem corrida. Isso significa que cada ponto no gráfico representa os valores de estatura e se salto em distância dos indivíduos da amostra. Com esses dois valores em mãos, cria‑se um gráfico posicionando os pontos representantes de cada sujeito na posição correspondente aos valores coletados de estatura e distância de salto. É possível notar 111 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA uma distribuição característica nos resultados dos dados que nos indica que pode haver uma correlação entre essas duas variáveis. Nota‑se uma tendência de distâncias maiores de salto quanto maior a estatura dos sujeitos. Essa tendência de resposta não implica em certeza. Não se pode afirmar que uma pessoa, por ter a estaturade 1,80 m, saltará mais baixo que uma de 1,90 m, mas permite criar essa expectativa. 7'0" 6'3" 5'6" 4'9" 6'9" 6'0" 5'3" 4'6" 6'6" 5'9" 5'0" 4'3" 4'0" 5'0" 5'8"5'4" 6'0"5'2" 5'10"5'6" Estrutura Sa lto e m d ist ân ci a se m c or rid a 5'1" 5'9"5'5"5'3" 5'11"5'7" Figura 70 – Relação entre estatura e salto em distância sem corrida prévia A correlação pode ser quantificada pelo coeficiente de correlação de Pearson (r), que é uma medida quantitativa, um número, que expressa a relação entre as variáveis analisadas (independentes e dependentes). A relação entre duas variáveis, portanto, pode apresentar diferentes níveis de associação. O valor do coeficiente de correlação pode variar de 0,0 (zero) a 1,0 (um). Quanto maior o valor da correlação, maior o grau de dependência entre as variáveis. Dessa forma, quando o valor do coeficiente é 1,0, isso indica uma correlação perfeita, e o valor de coeficiente de correlação igual a 0,0 (zero) indica que não existe nenhuma correlação entre as variáveis. 112 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Observação Coeficiente de correlação → número que expressa grau de relação entre duas ou mais variáveis. Por outro lado, quanto menor for o valor da correlação (r), significa que pode existir certa associação, mas que outras variáveis também interferem na associação. O valor da correlação ser tão baixo indica que ele se aproxima de zero, apontando que não há relação entre as duas variáveis, ou seja, o aumento ou a diminuição no valor da variável. Por exemplo, a cor dos olhos de uma pessoa não apresenta nenhuma relação com o percentual de gordura do sujeito. O coeficiente de correlação ainda pode apresentar valores positivos e negativos, o que significa que ele pode apresentar de ‑1,0 a 1,0. É possível que a associação seja inversa, ou seja, o aumento no valor de uma variável pode estar associado à diminuição no valor de outra variável. Nesse sentido, o valor da correlação também é alto, mas com valores negativos, aproximando‑se de ‑1,0. Em casos de valores de correlação próximos de 1,0, classifica‑se a correlação como positiva. Já em situações nas quais são próximos de ‑1,0, considera‑se que o aumento no valor de uma variável induz à diminuição no valor de outra variável. Portanto, os valores de correlação positiva e negativa indicam que a correlação pode ser positiva ou negativa. Observação Correlação positiva → valores maiores que zero e próximos de 1,0. Sem correlação → valores próximos de zero. Correlação negativa → valores menores que zero e próximos de ‑1,0. A correlação positiva existe quando duas variáveis, por exemplo, apresentam uma relação direta, ou seja, valores de correlação maiores em uma variável induzem a valores maiores na outra variável. Nessa condição, o valor da correlação é maior que 0,0 (zero) e menor ou igual a 1,0 (um). Um coeficiente de correlação com valor igual a 1,0 indica uma correlação positiva perfeita, ou seja, uma relação perfeita de dependência entre as variáveis de análise. Uma correlação perfeita é raramente observada, pois na natureza normalmente há muitas variáveis que interferem na relação entre duas variáveis. 113 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Figura 71 – Prática de futebol, que é correlacionada no exemplo a seguir com a densidade mineral óssea Vejamos um exemplo extraído de um artigo numa situação real (figura 72). Karlsson et al. (2001) investigaram a densidade mineral óssea de várias regiões do corpo, dentre elas a densidade óssea do colo do fêmur. A densidade óssea indica a quantidade de cristais de cálcio, em gramas, por unidade de área de osso (cm2). A figura 72 ilustra a distribuição de dados da densidade óssea em função das horas de treino de jogadores de futebol por semana. Cada ponto representa os escores de cada um dos jogadores da amostra. O coeficiente de correlação entre essas duas variáveis é de r = 0,40. Observa‑se uma tendência de maior densidade óssea do colo do fêmur com a maior quantidade de horas de treino por semana, que pode ser notada nas duas retas apresentadas entre os dados e são usadas para predizer os resultados em situações que não foram medidas ou observadas e também indicam que a relação entre as variáveis muda em função da quantidade de horas de treino por semana. As retas observadas na figura 72 são obtidas por uma ferramenta estatística conhecida como regressão linear, que será discutida mais adiante. 1,0 1,2 1,4 1,6 Densidade óssea de colo do fêmur X nível de atividadeg/cm2 horas de treino / semana Figura 72 – Coeficiente de correlação entre a densidade óssea do colo do fêmur e as horas de treinamento por semana (r = 0,40). Em bolas pretas, praticantes de futebol com volume de treino inferior a 6 horas semanais; e, em bolas brancas, superior a 6 horas 114 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Um coeficiente de correlação positiva, por exemplo, pode apresentar vários valores diversos entre 0,0 e 1,0. Não existe um único valor que possa ser considerado como suficientemente alto para que a correlação positiva seja considerada válida. Cada variável apresenta um valor diferente para que a correlação entre elas exista. Para saber a partir de qual valor de coeficiente de correlação a relação de dependência entre as variáveis é significativa, ou seja, pode ser considerada como existente entre as variáveis, usa‑se um critério estatístico de significância, indicada pela letra p. Essa análise envolve o uso de uma tabela que leva em consideração a quantidade de valores apresentados. A partir dessa tabela, é possível saber se o valor do coeficiente de correlação é suficiente para considerar que existe correlação ou não. Como já discutido, geralmente é usado um nível de significância de 0,05 ou 0,01. Nota‑se que quanto maior o número de dados (sujeitos), menor o valor de coeficiente de correlação que pode ser considerado significativo. Ou seja, com maior número de sujeitos há mais dados que permitem tecer correlações, e, assim, um valor menor de coeficiente pode ser considerado suficiente para afirmar que há correlação positiva ou negativa entre as variáveis. Observação Significância → indica quanto os resultados obtidos são confiáveis, até que ponto se podem esperar resultados semelhantes caso a análise seja refeita. Vejamos um exemplo simplificado de como a tabela 13 pode ser usada para determinar o coeficiente mínimo para que se tenha uma significância que permita afirmar que existe correlação entre duas variáveis. Para usar a tabela, sugerimos seguir os seguintes passos: 1. Escolher um nível de significância: os níveis de significância mais usados são de 0,05 ou 0,01. Ambos são aceitos, mas 0,01 atribui maior confiança à correlação. 2. Ler a tabela de acordo com os graus de liberdade (gl) dos seus dados: o grau de liberdade, para um coeficiente de correlação, é obtido a partir do número de sujeitos ou número de pares de escores (N), por exemplo. A fórmula para os graus de liberdade é: gl = N - 2 em que: gl: graus de liberdade N: número de sujeitos 115 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Para o nosso exemplo, vamos supor a situação da análise da correlação entre a estatura e o comprimento de passada na corrida para uma determinada velocidade. Primeiro, gostaríamos de deixar claro que os valores aqui apresentados são fictícios e criados para que possamos exemplificar o uso da tabela.Pois bem, fizemos a coleta dos dados analisando dez sujeitos. Para cada sujeito, temos um valor de estatura medida e o valor correspondente ao comprimento de passada para uma determinada velocidade. Ao calcular o coeficiente de correlação, observamos que o valor da variável foi de r = 0,49. Com esse valor de coeficiente, parece haver uma correlação, mas será que esta é alta o suficiente para afirmarmos que existe relação direta entre as duas variáveis? Para responder a essa pergunta, é que a significância se torna importante. Vamos então usar a tabela 13. O primeiro passo, conforme apontado anteriormente é estipular a significância desejada. No nosso caso, vamos escolher o valor 0,05. O segundo passo é calcular os graus de liberdade para o nosso coeficiente. Como temos dez sujeitos, isso significa que temos dez pares de escores. Segundo a fórmula, o gl é obtido pelo número de sujeitos (10) menos 2. Assim, temos que gl = 8. Fazendo a leitura da tabela para gl = 8, no nível de significância 0,05, temos o valor do coeficiente de correlação, (r), de 0,6319, conforme destacado na tabela. Isso significa que o valor de r obtido na nossa análise deveria ser igual ou superior a 0,6319 para que fosse significativo, ou seja, o r = 0,49 obtido na correlação da estatura e o comprimento de passada na corrida não é alto o suficiente para que possamos afirmar que existe uma correlação positiva entre essas duas variáveis. Observe que o número de sujeitos da nossa amostra interfere na correlação que desejamos estipular. Quanto maior o número de sujeitos, maior o valor de graus de liberdade e menor o valor de coeficiente de correlação a partir do qual podemos considerar a correlação significativa. Por exemplo, com 17 sujeitos, o gl seria de 15 e o valor de r para nossa condição, para a significância 0,05, seria 0,4821. Isso não significa que basta analisar mais sujeitos para que a correlação seja estipulada, pois, com mais indivíduos, o coeficiente dos nossos resultados seria outro. 116 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 Tabela 13 – Valores críticos de coeficiente de correlação Nível de significância para teste bicaudal df–N–2 0,10 0,05 0,02 0,01 0,001 1 0,9877 0,9969 0,9995 0,9999 10,000 2 0,9000 0,9500 0,9800 0,9900 0,9990 3 0,8054 0,8783 0,9343 0,9587 0,9912 4 0,7293 0,8114 0,8822 0,9172 0,9741 5 0,6694 0,7545 0,8329 0,8745 0,9507 6 0,6215 0,7067 0,7887 0,8343 0,9249 7 0,5822 0,6664 0,7498 0,7977 0,8982 8 0,5494 0,6319 0,7155 0,7646 0,8721 9 0,5214 0,6021 0,6851 0,7348 0,8471 10 0,4973 0,5760 0,6581 0,7079 0,8233 11 0,4762 0,5529 0,6339 0,6835 0,8010 12 0,4575 0,5324 0,6120 0,6614 0,7800 13 0,4409 0,5139 0,5923 0,6411 0,7603 14 0,4259 0,4973 0,5742 0,6226 0,7420 15 0,4124 0,4821 0,5577 0,6055 0,7246 16 0,4000 0,4683 0,5425 0,5897 0,7084 17 0,3887 0,4555 0,5285 0,5751 0,6932 18 0,3783 0,4438 0,5155 0,5614 0,6787 19 0,3687 0,4329 0,5034 0,5487 0,6652 20 0,3598 0,4227 0,4921 0,5368 0,6524 25 0,3233 0,3809 0,4451 0,4869 0,5974 30 0,2960 0,3494 0,4093 0,4487 0,5541 35 0,2746 0,3246 0,3810 0,4182 0,5189 40 0,2573 0,3044 0,3578 0,3932 0,4896 45 0,2428 0,2875 0,3384 0,3721 0,4648 50 0,2306 0,2732 0,3218 0,3541 0,4433 60 0,2108 0,2500 0,2948 0,3248 0,4078 70 0,1954 0,2319 0,2737 0,3017 0,3799 80 0,1829 0,2172 0,2565 0,2830 0,3568 90 0,1726 0,2050 0,2422 0,2673 0,3375 100 0,1638 0,1946 0,2301 0,2540 0,3211 Adaptado de: Fisher; Yates (1974) apud Thomas; Nelson (2002). De qualquer forma, uma análise qualitativa pode ser feita em cima dos valores de coeficiente de correlação. Veja, a seguir, como poderia ser classificada a correlação entre duas variáveis. Vale lembrar que para saber se a correlação é significativa ou não, a análise deve proceder conforme descrito anteriormente, com o uso da tabela. 117 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA • Correlação perfeita: r = 1,0 • Correlação forte: r > 0,70 • Correlação moderada: r > 0,30 e r 0,0 e rcaracterísticas dos dados; • testar associações entre dois ou mais conjuntos de dados; • testar diferenças entre dois ou mais conjuntos de dados. Descrever características dos dados: suponha que estivéssemos interessados em caracterizar um grupo de pessoas, por exemplo, avaliar os alunos de uma universidade, com relação ao seu percentual de gordura. Nessa situação, escolhemos um teste para determinação dessa característica e avaliamos todos os alunos dessa instituição. Na posse dos dados dessas pessoas, naturalmente, observaríamos valores bem diferentes entre elas, mas digamos que desejássemos saber em torno de qual valor o percentual de gordura dos alunos varia; quanto o percentual de gordura varia; se ele varia muito ou se os valores são semelhantes; qual o percentual de gordura mínimo e máximo, entre outras tantas possíveis aplicações. Observação Note que nesse exemplo estamos interessados em caracterizar os nossos alunos, não estamos interessados nas causas nem na relação dessa variável com outras variáveis. 11 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Testar associações entre dois ou mais conjuntos de dados: ainda usando o exemplo da determinação do percentual de gordura dos alunos de uma universidade, vamos supor que o objetivo seja testar quanto o percentual de gordura está relacionado à quantidade de vezes que essas pessoas praticam exercícios físicos na semana. Nesse caso, estaríamos interessados em saber se existe relação entre o percentual de gordura e a frequência semanal de prática de exercícios físicos. Poderíamos, então, observar que as duas variáveis estão inversamente relacionadas, ou seja, quanto maior a frequência semanal de treino, menor o percentual de gordura dos alunos, por exemplo, ou observar que essas duas variáveis não estão relacionadas, ou seja, não importa quantas vezes a pessoa faça exercício na semana, isso não interfere no percentual de gordura. Observação Note que, nessa estratégia, o objetivo é encontrar alguma relação que uma característica de um grupo apresenta com outra característica. Testar diferenças entre dois ou mais conjuntos de dados: ainda usando o mesmo exemplo, vamos supor que o objetivo seja identificar se existe diferença entre o percentual de gordura de alunos de Educação Física e os alunos de outros cursos da universidade. Para tanto, deveríamos agrupar os resultados dos alunos do curso de Educação Física e os resultados dos alunos de outros cursos e ver se a possível diferença é suficientemente alta para podermos afirmar que os resultados são diferentes ou se a diferença é pequena a ponto de considerá‑los semelhantes. Observação Note que, nessa estratégia, o objetivo é comparar os resultados de dois grupos diferentes de pessoas. 1.2 População e amostra Para poder realizar alguma descrição ou comparação entre variáveis, torna‑se necessário entender o conceito de população e amostra. A população é um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. Por exemplo, de um universo como o Brasil, digamos que estamos interessados em avaliar uma população específica, todos os possíveis praticantes de exercícios físicos, todos aqueles que praticam corrida de rua ou todos os indivíduos idosos do país. 12 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Figura 2 – População de indivíduos com pelo menos uma característica em comum A população pode se apresentar em diferentes níveis dependendo dos objetivos da investigação ou do estudo que queremos conduzir. Nesse sentido, pode se apresentar em âmbito nacional, municipal ou local. Sendo de âmbito nacional, teríamos uma característica comum ao universo de pessoas presentes no país; por exemplo, praticantes de atividade física no Brasil. Uma população de âmbito municipal, poderia ainda ser, segundo o exemplo, praticantes de atividade física da cidade de São Paulo. Repare que praticantes de atividade física da cidade do Rio de Janeiro não fazem parte dessa população, pois estes se encontram em outra cidade, ou seja, eles compartilham da característica comum, praticar atividade física, mas não compartilham da característica de pertencerem à mesma cidade. Nessa mesma perspectiva, uma população de âmbito local seria aquela composta por praticantes de atividade física, da cidade de São Paulo, alunos da Universidade Paulista. Nesse caso, os indivíduos dessa população precisam atender a estas três características em comum: (1) praticarem atividade física; (2) morarem na cidade de São Paulo; (3) estudarem na Universidade Paulista. Portanto, a população da nossa pesquisa dependerá exclusivamente dos objetivos da investigação. Não há nenhum critério que defina como deve ser a população de um estudo. Os critérios são definidos pelos objetivos impostos, aos quais, obviamente, necessitam ser coerentes. Uma população pode apresentar mais de uma característica em comum, isso a torna mais homogênea, ou seja, mais semelhante, mas não necessariamente apresentará duas características em comum. Por isso, é importante definir corretamente qual característica que necessitamos que seja comum à nossa população. Por exemplo, se quisermos analisar a influência da maturação no ganho de massa muscular, teremos que buscar a população que ainda se encontra em uma fase específica de maturação, mas teremos que excluir indivíduos que treinem alguma modalidade que desenvolva força, caso contrário, ocorreria a interferência de uma variável que poderia comprometer os resultados da análise. Lembrete A população é um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. 13 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A amostra é uma redução representativa da população a dimensões menores, porém sem perda da característica específica, conforme ilustra a figura 3. Figura 3 – Representação dos conceitos de população e amostra, sendo esta classificada com um subconjunto da população específica, no caso uma amostra de praticantes de Tai Chi Em quase todas as ocasiões, não é possível fazer medições em todos os indivíduos de uma população. Imagine, seguindo o exemplo anterior, que seria inviável avaliarmos todos os praticantes de atividade física de São Paulo. Por isso, escolhemos um número de indivíduos que possam servir como representantes dessa população e que permitam uma análise rápida, mas fiel do que seria a resposta da população como um todo. Por exemplo, certamente não é possível avaliar a marcha de todas as pessoas com lesão no ligamento cruzado anterior, mas podemos selecionar uma amostra dessa população, que conte com indivíduos que apresentem uma lesão no ligamento cruzado anterior e que sirvam como representantes. É claro que dez pessoas não permitem entendermos o que acontece com uma população em sua totalidade, mas possibilitam termos uma ideia geral do comportamento. Obviamente, há aqueles dessa amostra podem apresentar algumas variações na resposta em função das diferenças individuais, mas, obrigatoriamente, as características gerais da população devem ser preservadas. Para tanto, é importante que o número de sujeitos de uma amostra seja suficiente e que as características neles presentes sejam representativas à população. Quantos sujeitos determinam uma amostra suficientementeleia o capítulo 6: Introdução aos Conceitos de Estatística, do livro de Thomas e Nelson (2002). 8.4 Teste de Regressão Linear Muitas vezes somos obrigados a usar uma amostra reduzida para analisar o comportamento entre duas variáveis, no caso de uma correlação que queremos investigar. Por exemplo, se buscamos investigar a relação entre estatura e salto em distância sem corrida prévia, não é possível termos um representante para cada estatura nos seres humanos. Contudo, com base nos dados coletados, podemos desenvolver predições que nos permitam inferir o que possivelmente ocorreria com estaturas diferentes das medidas em nosso estudo. Para isso servem as ferramentas conhecidas como equações de regressão, que visam a encontrar uma formula que permita predizer o que ocorreria se tivéssemos valores diferentes dos obtidos na nossa amostra. Por exemplo, digamos que, na investigação da relação entre estatura e salto em distância sem corrida prévia, 120 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 eles apresentam estaturas que variam entre 1,60 e 1,80 metros. Poderíamos querer saber que valor de distância de salto teríamos em uma pessoa com estatura de 1,90 metros. Para que isso seja possível, necessitamos encontrar uma fórmula matemática que permita determinar para um determinado valor de estatura (y), que valor em salto em distância (x) teríamos, ou vice‑versa. Portanto, buscamos uma relação linear, eventualmente, entre as variáveis de análise; por isso, o nome regressão linear, que pode ser representada graficamente por uma reta. Na figura 77, observa‑se a correlação entre o impulso vertical e a circunferência de coxa. Os dados de cada indivíduo podem ser observados em azul, e uma reta representa a regressão linear. A reta também é conhecida como linha ou reta de regressão. Figura 76 – Qual a correlação entre a circunferência de coxa e a altura de salto vertical? 20 50 Circunferência da coxa (cm) Im pu lsã o ve rt ic al (c m ) 55 60 65 70 30 40 50 60 70 Figura 77 – Correlação entre o impulso vertical (cm) e a circunferência de coxa (cm) 121 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA Para toda reta, sempre existe uma equação que a determina, portanto uma reta pode ser representada por equação que, por sua vez, denota valores de y em função de certos valores de x, conforme ilustra a equação: y = a + bx A partir da equação, é possível identificar o possível valor de y que teríamos, com um determinado valor de x. Portanto, a linha de regressão expressa o comportamento esperado de uma variável (y) em função de outra (x), e essa reta se encontra na menor distância possível de cada um dos pontos no diagrama de dispersão. Lembrete A linha de regressão representa uma reta que se encontra na menor distância possível de cada um dos pontos no diagrama de dispersão. Para compreender esse conceito, vejamos um exemplo. A figura 78 ilustra 8 pessoas aleatoriamente paradas em uma piscina. As dimensões da piscina, nesse caso, são os eixos do nosso gráfico. Sendo assim, o comprimento da piscina representa o eixo de x e a largura da piscina representa o eixo de y. Note que cada pessoa encontra‑se a certa distância da borda x e da borda y. Os valores dessas distâncias são o que conhecemos como coordenadas de x e y. Vamos supor que queremos arremessar uma boia com uma corda na piscina, mas que essa boia esteja mais próximo possível de cada um deles, de uma forma geral. Se a arremessarmos muito próximo de uma das margens, certamente a corda e a boia estarão muito próximas de algumas pessoas, mas muito distantes das pessoas que se encontram na margem oposta. Assim, precisamos encontrar aquela disposição da corda e da boia que esteja na menor soma das distâncias para cada banhista, ou seja, ao somar a distância de cada banhista até a corda, a soma será o menor valor possível. Esse é o conceito que determina a linha de regressão. y x Figura 78 – ilustração de oito pessoas paradas em uma piscina Se analisarmos a imagem dos banhistas na piscina em um gráfico, teremos a representação observada na figura 79. Note que, para termos uma linha de regressão, necessitamos que a soma das retas em vermelho, que corresponde à menor distância de cada banhista até a reta (corda e boia), seja o menor valor 122 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 possível. Repare que a reta encontra‑se relativamente próxima de alguns pontos, mas afastada de outros. Isso não importa desde que, no conjunto, o valor da somatória das distâncias seja a menor possível. Reta de regressão Eixo de X Ei xo d e Y Figura 79 – Representação gráfica dos banhistas da Figura 78 Figura 80 Lembrete A equação de regressão visa a encontrar uma fórmula que permita predizer o que ocorreria se tivéssemos valores diferentes dos obtidos na nossa amostra. Resumo Na unidade II, vimos que existem diferentes formas de análise de dados, sendo que a escolha entre elas sempre dependerá das características dos seus dados e do objetivo do seu estudo. Uma das primeiras etapas da análise estatística é a avaliação da distribuição da normalidade de distribuição de dados, que se torna muito 123 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA importante, pois é um dos principais critérios a ser considerado para escolher qual teste estatístico utilizaremos para estabelecermos a comparação proposta em nosso estudo. A curva normal é composta por uma “linha teórica”, contínua com a forma aproximada de um sino, que se caracteriza por ser simétrica, ou seja, idêntica em ambos os lados da média. Essa curva normal é conhecida como Curva de Gauss. A curva normal pode apresentar diferentes curtoses, podendo ser classificada como platicúrtica (mais achatada), leptocúrtica (mais alongada) e mesocúrtica (forma mais tradicional). Os testes de normalidade são aplicados para avaliar o quanto os nossos dados reais serão parecidos ou não com essa curva normal. Os testes mais comuns utilizados para avaliação da normalidade são: Teste de Shapiro‑Wilk e Teste de Kolmogorov‑Smirnov. Ao aplicá‑los, se encontrarmos um nível de significância superior ao estabelecido (por exemplo, p>0,05), a condição de normalidade será confirmada. Com isso, poderemos afirmar que o conjunto de dados avaliados mostra uma distribuição normal, o que possibilita a utilização de um teste paramétrico para comparar os grupos. O objetivo do seu estudo depende da natureza da pergunta de pesquisa, conhecida como problema de pesquisa. As possíveis respostas a essa pergunta darão origem às hipóteses do estudo. A hipótese é o que você espera encontrar como resultado quando realizar um determinado experimento. A partir dessa ideia teremos que formular duas hipóteses, no mínimo: hipótese de pesquisa (H1) e a hipótese nula (H0). A hipótese, de pesquisa ou hipótese alternativa é o resultado esperado pelo pesquisador. Essa hipótese geralmente surge da experiência, da dedução lógica ou de resultados de outras investigações. Já de acordo com a hipótese nula, não há diferença entre os resultados. E, no intuito de avaliarmos se essas hipóteses se confirmarão ou não, é que utilizamos os testes estatísticos. Existem inúmeros testes estatísticos, mas a sua escolha deve ser pautada nas características e objetivos do seu estudo; por exemplo, o número de comparações que se deseja realizar. Assim, torna‑se possível determinar o teste estatístico mais adequado paracada situação de análise. O Teste t para uma amostra é empregado em situações em que características de um único grupo precisam ser comparadas com um valor de referência, quando o conjunto de dados apresenta uma distribuição normal. A opção não paramétrica para o teste de uma amostra corresponde ao Teste dos Sinais. O Teste t pareado é utilizado em situações nas quais um mesmo grupo é avaliado em duas condições distintas; o objetivo é comparar essas duas médias entre si. Para aplicação desse teste, é necessário que: 124 Unidade II Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 haja normalidade de distribuição nos dados e que a amostra dos dados nas duas condições comparadas (antes e depois) tenha o mesmo tamanho. Para situações em que a normalidade for refutada, deve‑se utilizar uma das seguintes opções não paramétricas: Teste de Wilcoxon e Teste dos Sinais. O Teste t para amostras independentes deve ser utilizado quando o objetivo for comparar uma característica comum de dois grupos que são compostos por indivíduos diferentes. Os pressupostos de normalidade dos dados devem ser atendidos. As opções não paramétricas que permitem comparações semelhantes são: Teste da Soma dos Ranks de Wilcoxon e Teste t. O Teste de Análise de Variância, conhecido também como Anova, deve ser empregado em uma pesquisa em que o objetivo seja estabelecer a comparação de mais dois grupos simultaneamente. Os testes de Anova devem ser aplicados em dados de distribuição normal, e as comparações podem ser do tipo Anova one‑way (um fator) ou Anova two‑way (dois fatores). Um experimento pode conter um ou mais fatores, com diferentes níveis. A alternativa não paramétrica correspondente à Anova é o Teste de Friedman, que também permite comparar os resultados de três ou mais amostras. A correlação simples investiga em que grau se relaciona duas variáveis, analisando a interferência de uma variável (dependente) sobre outra variável (independente). O valor do coeficiente de correlação pode variar de 0,0 (zero) a 1,0 (um). Quanto maior o valor da correlação, maior o grau de dependência entre as variáveis. Já a equação de regressão, visa a encontrar uma fórmula que permita predizer o que ocorreria se tivéssemos valores diferentes dos obtidos na nossa amostra. Exercícios Questão 1. (TRT/RJ 2011) Um estudo corresponde ao interesse de analisar o desempenho de 3 postos independentes de atendimento ao público com 8 funcionários cada um. Decidiu‑se empregar a análise de variância com o objetivo de testar a hipótese de igualdade das médias de atendimento dos 3 postos (quantidade de pessoas atendidas por mês). Durante um mês, anotou‑se para cada funcionário dos postos a quantidade de pessoas atendidas. Denominando os postos por Grupo 1, Grupo 2 e Grupo 3 obteve‑se pelo quadro de análise de variância o valor da estatística FC (F calculado) igual a 2, para posteriormente comparar com o F tabelado (variável F de Snedecor). A porcentagem que a “variação entre os grupos” representa da “variação total” no quadro de análise de variância é igual a: A) 8%. B) 12%. C) 16%. 125 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 BIOESTATÍSTICA D) 24%. E) 32% Resposta correta: alternativa C. Análise da questão Justificativa geral: F = QMReg / QMRes = (SQReg / g.l da reg) / (SQRes / g.l dos res) = 2 g.l dos res = mg ‑ g = 8*3 ‑ 3 = 21 g.l da reg = g ‑ 1 = 3 ‑ 1 = 2 Assim, da fórmula de F, depreendemos que: SQReg = 0,19*SQRes Variação total é dada pela soma de SQRes e SQReg Assim, a variação total explicada pela regressão = SQReg / (SQReg + SQRes) = (0,19 / 1 + 0,19) = 0,19 / 1,19 = 16% Questão 2. (FIOCRUZ, 2010) Os níveis de glicose foram medidos em dois grupos de indivíduos, sendo o grupo 1 formado por indivíduos sedentários e o grupo 2 por indivíduos não sedentários. O nível médio de glicemia para o grupo 1 foi de 98 mg/dL e para o grupo 2 foi de 110 mg/dL. Para determinar se a diferença entre essas medidas é significativa, o teste estatístico mais apropriado é: A) teste Normal. B) teste t. C) teste chi‑quadrado. D) teste F (ANOVA). E) teste log‑rank. Resolução desta questão na plataforma. 126 FIGURAS E ILUSTRAÇÕES Figura 1 1431EF033.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 2 FILE6541337113391.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 3 XN04.JPG. Disponível em: . Acesso em 8 dez. 2012. Figura 4 FILE0001742232424.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 5 FILE4421271862462.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 6 FILE000304340753.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 7 1.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 8 FILE0002062211258.JPG. Disponível em: . Acesso em: 8 dez. 2012. 127 Figura 9 FILE0001915885273.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 10 1800FRP2509902186.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 11 FILE000690482219.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 12 FILE0001005216081.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 13 FILE000326193188.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 15 FILE8471259606314.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 16 Adaptada de: ENOKA, R. M. Neuromecânicas da cinesiologia. 2. ed. Barueri: Manole, 2000. Figura 17 Adaptada de: FRAGA, C. H. M. Protocolo incremental de corrida: comportamento de variáveis eletromiográficas cinemáticas e metabólicas. 2010. Dissertação (Doutorado em Ciências da Motricidade) – Instituto de Biociências da Universidade Estadual Paulista, Rio Claro, 2010. Figura 18 WORKOUT‑ON‑THE‑BEACH.JPG. Disponível em: . Acesso em: 28 dez. 2012. 128 Figura 19 FILE00036703905.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 21 FILE8741326220300.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 22 FILE0002092936769.JPG. Disponível em: .Acesso em: 8 dez. 2012. Figura 23 1.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 27 FILE7181246658499.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 28 Adaptado de: BIANCO, R. et al. Características dinâmicas da locomoção sem o uso do calçado esportivo. In: I SIMPÓSIO BRASILEIRO DE BIOMECÂNICA DO CALÇADO, 2001, Gramado. Anais do I Simpósio Brasileiro de Biomecânica do Calçado. Florianópolis: Gráfica Recorde, 2001. p. 28‑32. Figura 29 FILE0002012458645.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 30 Adaptada de: ROBERGS, R. A.; ROBERTS, S. O. Princípios fundamentais de fisiologia do exercício: para aptidão, desempenho e saúde. São Paulo: Phorte, 2002. Figura 31 Adaptada de: ROBERGS, R. A.; ROBERTS, S. O. Princípios fundamentais de fisiologia do exercício: para aptidão, desempenho e saúde. São Paulo: Phorte, 2002. 129 Figura 32 FILE0001222006694.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 33 Adaptada de: ROBERGS, R. A.; ROBERTS, S. O. Princípios fundamentais de fisiologia do exercício: para aptidão, desempenho e saúde. São Paulo: Phorte, 2002. Figura 34 Adaptada de: BEHNKE et al (1942) apud ROBERGS, R. A.; ROBERTS, S. O. Princípios fundamentais de fisiologia do exercício: para aptidão, desempenho e saúde. São Paulo: Phorte, 2002. Figura 35 0601_MGMT_OBESE_630X420.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 36 FILE0001592526850.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 37 Adaptada de: ROBERGS, R. A.; ROBERTS, S. O. Princípios fundamentais de fisiologia do exercício: para aptidão, desempenho e saúde. São Paulo: Phorte, 2002. Figura 38 Adaptada de: PEDERSEN, P. K.; JORGENSEN, K. Maximal oxygen uptake in young women with training, inactivity, and retraining. Medicine and Science in Sports and Exercise, v.10, n. 4, p. 233‑237, 1978. Figura 39 Adaptada de: BIANCO, R. Caracterização das respostas dinâmicas da corrida com calçados esportivos em diferentes estados de uso. 139f. 2005. Dissertação (Mestrado) ‑ Escola de Educação Física, Universidade de São Paulo, São Paulo, 2005. Figura 40 Adaptada de: WILMORE, J. H.; COSTILL, D. L. Fisiologia do esporte e do exercício. São Paulo: Manole, 2001. 130 Figura 42 Adaptada de: THOMAS, J. R.; NELSON, J. K. Métodos de pesquisa em atividade física. 3. ed. Porto Alegre: Artmed, 2002. Figura 45 Adaptada de: THOMAS, J. R.; NELSON, J. K. Métodos de pesquisa em atividade física. 3. ed. Porto Alegre: Artmed, 2002. Figura 47 Adaptada de: BARROS, M. V. G.; REIS, R. S. Análise de dados em atividade física e saúde: demonstrando a utilização do SPSS. Londrina: Modiograf, 2003. Figura 48 FILE0001888333711.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 49 FILE000155604251.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 50 1355368021QXU6S.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 51 FILE9581244236995.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 52 FILE6691308771330.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 53 FILE4771272919032.JPG. Disponível em: . Acesso em: 8 dez. 2012. 131 Figura 54 FILE0001273370069.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 55 FILE000326193188.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 56 FILE8381249589904.JPG. Disponível em: . Acesso em 8 dez. 2012. Figura 57 FILE0001136809049.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 58 FILE0001742232424.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 59 FILE0001915885273.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 60 FILE000125321551.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 61 FILE000498210698.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 62 FILE0001091226410.JPG. Disponível em: . Acesso em: 8 dez. 2012. 132 Figura 63 FILE0001884524123.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 64 FILE7371242727315.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 65 4.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 66 1052333_42297634.JPG. Disponível em: . Acesso em: 28 dez. 2012. Figura 67 FILE000248297981.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 68 Adaptada de: FRAGA, C. H. M. Protocolo incremental de corrida: comportamento de variáveis eletromiográficas cinemáticas e metabólicas. 2010. Dissertação (Doutorado em Ciências da Motricidade) – Instituto de Biociências da Universidade Estadual Paulista, Rio Claro, 2010. Figura 69 FILE0002042624466.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 70 Adaptada de: THOMAS, J. R.; NELSON, J. K. Métodos de pesquisa em atividade física. 3. ed. Porto Alegre: Artmed, 2002. Figura 71 FILE3021275595708.JPG. Disponível em: . Acesso em: 8 dez. 2012. 133 Figura 72 Adaptada de: KARLSSON, M. K. et al. The duration of exercise as a regulation of bone mass. Bone, v. 28, n.1, 2001. Figura 73 FILE481313198119.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 74 FILE000272400778.JPG. Disponível em: .Acesso em: 8 dez. 2012. Figura 75 FILE000886193797.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 76 FILE0001769604492.JPG. Disponível em: . Acesso em: 8 dez. 2012. Figura 78 Adaptada de: BARROS, M. V. G.; REIS, R. S. Análise de dados em atividade física e saúde: demonstrando a utilização do SPSS. Londrina: Modiograf, 2003. Figura 80 1137298_23405339.JPG. Disponível em: . Acesso em: 22 dez. 2012. REFERÊNCIAS ARANGO, H. G. Bioestatística teórica e computacional. Rio de Janeiro: Guanabara‑Koogan, 2001. BARROS, M. V. G.; REIS, R. S. Análise de dados em atividade física e saúde: demonstrando a utilização do SPSS. Londrina: Modiograf, 2003. BERQUO, E. S.; SOUZA, J. M. P.; GOTLIEB, S. L. D. Bioestatística. São Paulo: EPU, 1981. 134 BIANCO, R. et al. Características dinâmicas da locomoção sem o uso do calçado esportivo. In: I SIMPÓSIO BRASILEIRO DE BIOMECÂNICA DO CALÇADO, 2001, Gramado. Anais do I Simpósio Brasileiro de Biomecânica do Calçado. Florianópolis: Gráfica Recorde, 2001. p. 28‑32. BIANCO, R. Caracterização das respostas dinâmicas da corrida com calçados esportivos em diferentes estados de uso. 139f. 2005. Dissertação (Mestrado) – Escola de Educação Física, Universidade de São Paulo, São Paulo, 2005. CALLEGARI‑JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003. COSTA NETO, P. L. O. Estatística. São Paulo: Edgard Blucher, 2002. COSTA, S. F. Introdução ilustrada à estatística. 2. ed. São Paulo: Harbra, 1992. ENOKA, R. M. Bases neuromecânicas da cinesiologia. 2. ed. Barueri: Manole, 2000. FONSECA, J. S.; MARTINS, G. A. Curso de estatística. São Paulo: Atlas, 1996. FRAGA, C. H. W.; BIANCO, R.; GONÇALVES, M. Comparação do sinal EMG e das características da passada em diferentes protocolos de corrida incremental. Revista Brasileira de Educação Física e Esporte, São Paulo, v. 26, n. 4, out./dez. 2012. FRAGA, C. H. M. Protocolo incremental de corrida: comportamento de variáveis eletromiográficas cinemáticas e metabólicas. 2010. Dissertação (Doutorado em Ciências da Motricidade) – Instituto de Biociências da Universidade Estadual Paulista, Rio Claro, 2010. KARLSSON, M. K. et al. The duration of exercise as a regulation of bone mass. Bone, v. 28, n.1, 2001. LAKATOS, E. M.; MARCONI, M. A. Fundamentos da metodologia científica. 4. ed. São Paulo: Atlas, 2001. LARSON, R.; FARBER, B. Estatística aplicada. São Paulo: Pearson, 2010. MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 3. ed. São Paulo: Editora USP, 2001. PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. São Paulo: Cengage Learning, 2008. PEDERSEN, P.K.; JORGENSEN, K. Maximal oxygen uptake in young women with training, inactivity, and retraining. Medicine and Science in Sports and Exercise, v.10, n. 4, p. 233‑237, 1978. POMPEU, F. S. Guia para estudos em biodinâmica do movimento humano. São Paulo: Phorte, 2006. ROBERGS, R. A.; ROBERTS, S. O. Princípios fundamentais de fisiologia do exercício: para aptidão, desempenho e saúde. São Paulo: Phorte, 2002. 135 THOMAS, J. R.; NELSON, J. K. Métodos de pesquisa em atividade física. 3. ed. Porto Alegre: Artmed, 2002. VIEIRA, S.; HOFFMANN, R. Estatística experimental. São Paulo: Atlas, 1999. VIEIRA, S.; WADA, R. Estatística: introdução ilustrada. 2. ed. São Paulo: Atlas, 1998. VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Campus, 1998. ______. Bioestatística: tópicos avançados. Elsevier, 2003. ______. Introdução à bioestatística. Rio de Janeiro: Guanabara Koogan, 1998. WILMORE, J. H.; COSTILL, D. L. Fisiologia do esporte e do exercício. São Paulo: Manole, 2001. Exercícios Unidade I – Questão 1. FUNDAÇÃO PARA O VESTIBULAR DA UNIVERSIDADE ESTADUAL PAULISTA (VUNESP). Tribunal de Justiça – SP (TJSP/SP) 2014: Escrevente Técnico Judiciário. Questão 37. Unidade I – Questão 2. INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA (INEP). Exame Nacional do Ensino Médio (ENEM) 2013: Prova azul. Questão 137. Disponível em: . Acesso em: 27 mar. 2017. Unidade II – Questão 1. FUNDAÇÃO CARLOS CHAGAS (FCC). Tribunal Regional do Trabalho da 1a Região (TRT/RJ) 2011: Analista Judiciário. Questão 50. Unidade II – Questão 2. FUNDAÇÃO GETÚLIO VARGAS (FGV). Fundação Oswaldo Cruz (FIOCRUZ) – Concurso Público 2010: Tecnologia em Saúde. Questão 38. Disponível em: . Acesso em: 27 mar. 2017. 136 137 138 139 140 Informações: www.sepi.unip.br ou 0800 010 9000grande que me permita extrapolar os resultados para toda a população? Não há uma resposta exata para essa pergunta, pois isso depende de quanto a característica varia de uma pessoa para a outra em uma população. Se uma característica apresentar uma variedade muito grande entre os sujeitos de uma população, torna‑se necessário ter uma amostra maior, como o que ocorre quando queremos validar um medicamento como eficiente para hipertensão. Como em uma população cada metabolismo, hábitos, atividades são diferentes, necessitamos de muitos sujeitos para afirmar que o medicamente funciona ou não. Por outro lado, se o objetivo for muito específico, uma amostra menor, mas com mais características em comum permite responder à pergunta da investigação. Por exemplo, para investigar o efeito do treinamento de força sobre o rendimento na corrida, basta selecionar sujeitos já corredores, com certa 14 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 experiência ou não, que nunca praticaram treinamento de força. Nesse caso, uma amostra menor permite responder à pergunta da investigação. Figura 4 – Imagem associada ao exemplo anterior sobre os atletas corredores e o treinamento de força Quantos indivíduos deve ter a amostra nos dois casos exemplificados anteriormente? Não há uma resposta definitiva para essa pergunta. No caso da investigação da medicação, uma amostra composta por dez sujeitos é pequena, mas uma amostra composta por duzentos sujeitos já se torna mais confiável. É claro que trezentos sujeitos agregam maior certeza aos resultados, mas esse número é subjetivo. Já no exemplo dos corredores, cerca de dez a quinze sujeitos permitem uma caracterização adequada sobre a interferência do treinamento de força. Contudo, se a amostra for de vinte sujeitos, a certeza nas afirmações se torna maior. Na tentativa de atribuir uma maior precisão na determinação do número de indivíduos que deve compor cada amostra, muitos trabalhos sugerem a utilização de um cálculo amostral, que considera as características da amostra e a variabilidade nos resultados encontrados. Lembrete A amostra é uma redução representativa da população a dimensões menores, porém sem perda de pelo menos uma característica específica comum que define a população. Para a adequada seleção de uma amostra do universo de uma população, é importante ter bem definidos critérios que tornem essa amostragem representativa. Uma população pode ser definida segundo uma característica comum, mas, às vezes, alguns indivíduos dela apresentam certas características específicas que não são compartilhadas pelas demais pessoas que a compõem e que os tornam sujeitos não representativos dessa amostra. Por isso, quando o objetivo for selecionar uma amostra de uma população, devemos ter bem claro os critérios que permitam a participação do indivíduo na amostragem e os que o impeçam de fazer parte dela. A isso chamamos de critérios de inclusão e de exclusão para os indivíduos da amostra. 15 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Figura 5 – Imagem relacionada aos conceitos de critério de inclusão e exclusão Os critérios de inclusão são aquelas características que os indivíduos devem apresentar para compor a amostra, tornando‑os representativos de uma população em questão. Por exemplo, vamos supor que estejamos interessados em identificar o nível de desenvolvimento motor em que se encontram os alunos do Ensino Fundamental, na cidade de São Paulo. A nossa população é composta por todos os alunos, de todas as escolas da cidade de São Paulo, que se encontram no Ensino Fundamental. Para compor a amostra, precisamos de alunos que representem os quatro anos dessa modalidade de ensino, mas também precisamos considerar as diferenças existentes entre as escolas presentes nos diferentes bairros da cidade de São Paulo. Por isso, talvez selecionar algumas escolas que representem os diferentes níveis socioeconômicos‑culturais seria importante. Note que a nossa amostra precisará ser relativamente grande, pois dez ou quinze alunos não serão suficientes para representar essa população com características tão diversas. Por outro lado, necessitamos ter alguns critérios de exclusão, que envolvem as características que os indivíduos apresentam que os tornam não representativos da população, pois os caracterizam como indivíduos únicos ou com atributos muito peculiares. Usando o nosso exemplo anterior, seriam critérios de exclusão aqueles que afetariam o nível de desenvolvimento motor dos alunos do Ensino Fundamental. Por exemplo, teríamos que excluir da amostra todos os repetentes, pois certamente estariam numa faixa etária maior e teriam provavelmente um nível de desenvolvimento motor maior que os demais indivíduos da população. 16 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Outro exemplo de critério de exclusão seria a presença de qualquer tipo de deficiência física ou mental, pois não é uma característica inerente aos alunos de Ensino Fundamental, não correspondendo a uma característica presente na maioria dos indivíduos da amostra e que afeta a avaliação do nível de desenvolvimento motor. Por outro lado, participar regularmente das aulas de Educação Física afeta o nível de desenvolvimento motor, mas não podemos selecionar apenas alunos que participam dessa disciplina, pois estaríamos sendo tendenciosos, e os resultados não refletiriam a realidade das nossas escolas. Por isso, essa é uma característica que devemos ter registrada para posteriormente verificarmos se ela exerceu alguma interferência nos resultados da nossa investigação. Observe que os critérios de inclusão e de exclusão não são características fixas preestabelecidas, mas, sim, variam em função dos objetivos do estudo ou da investigação que queremos conduzir. Lembrete Os critérios de inclusão e exclusão de um indivíduo a uma amostra devem ser condizentes com os objetivos da análise de um determinado estudo. 2 ESTATÍSTICA DESCRITIVA Uma primeira dúvida muito comum, após coletar dados de uma amostra, é o que fazer com essas informações. Um primeiro passo é descrevê‑las para que seja possível identificar o comportamento ou a característica geral que apresentam. Esse é o processo de aplicação da estatística descritiva. Em estatística descritiva busca‑se a determinação de como o conjunto de dados em questão se comporta, ou seja, uma descrição sistemática dos resultados. Como deve ser feita essa descrição? O que deve ser descrito? Podem ser essas as próximas dúvidas pertinentes para a análise descritiva dos dados. Nesse sentido, não há uma única forma de se descrever os dados, pois dependendo dos objetivos da investigação, a descrição deverá adotar caminhos distintos, visto que, para cada objetivo, existe uma caminho mais adequado. Geralmente, a análise estatística de uma investigação é realizada usando um software de estatística, que contém diversas ferramentas de análise que utilizam métodos computacionais muito eficientes. Entretanto, é fundamental termos uma noção clara do que cada uma das ferramentas faz e quando cada uma delas deve ser usada. Caso contrário, podemos incorrer em erros que comprometeriam nossa análise e a confiabilidade dos resultados discutidos. Você já deve ter ouvido falar no ditado sobre a incoerência de comparar “bananascom laranjas”. Pois é exatamente isso que pode acontecer quando os softwares de estatística são usados indiscriminadamente por pessoas que não apresentam domínio sobre as ferramentas que estão utilizando nesses programas. Softwares quase sempre permitem os mais variados cálculos, independentemente dos valores que são digitados no sistema. Portanto, é necessário que o usuário desse sistema tenha conhecimento suficiente para avaliar a pertinência e a adequação da aplicação da análise estatística realizada pelo software. 17 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA É nessa perspectiva que discutiremos sobre algumas ferramentas de análise nos tópicos a seguir. Com base nesse conhecimento, você, aluno, será capaz de identificar o que foi feito e interpretar os resultados de forma mais aprofundada. Observação Existem atualmente no mercado diversos softwares que permitem a aplicação de inúmeros procedimentos estatísticos. Entretanto, é importante que o usuário entenda os conceitos atrelados ao teste a ser utilizado. 2.1 Tipos de variáveis: quantitativas e qualitativas Antes de abordarmos os tipos de variáveis, é necessário definirmos alguns termos fundamentais em estatística e que, muitas vezes, possuem um significado um pouco distinto daquele que lhes é atribuído habitualmente. Chamamos de Unidade Experimental a menor unidade capaz de fornecer informações que podem ser pessoas, animais, fatos ou objetos. Por exemplo, em um experimento, podemos analisar ratos albinos que são submetidos a exercícios físicos. Dados são informações numéricas ou não, obtidas a partir de um determinado experimento. No exemplo anterior, podemos afirmar que os dados são “ratos albinos” e “a prática de exercícios físicos”. Variável é a denominação para todas as características, atributos ou medidas que podem ser analisadas na Unidade Experimental, apresentando variações entre os indivíduos avaliados. Voltando ao exemplo da prática de exercícios físicos de ratos albinos, podemos analisar, por exemplo, a área de secção transversa de um determinado músculo desses animais. Portanto, nesse exemplo, a área de secção transversa é a nossa variável de análise. Figura 6 – Imagem associada ao exemplo da prática de exercícios físicos de ratos albinos 18 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 As variáveis podem ser de diferentes tipos, e torna‑se importante classificá‑las, pois cada tipo apresenta um procedimento estatístico mais adequado para realizar a análise. A principal classificação das variáveis de análise está relacionada à sua natureza qualitativa ou quantitativa. A variável qualitativa é uma medida de natureza não numérica, ou seja, ela não é representada por um número, mas, sim, por uma qualidade. Por exemplo, forte ou rápido são classificações atribuídas a variáveis qualitativas. Ainda que possam ser atribuídos números a essas variáveis (sexo feminino – 1; sexo masculino – 2), a quantificação dessas variáveis não apresenta sentido para sua interpretação. Uma variável qualitativa pode ainda ser classificada como nominal ou ordinal. Uma variável é qualitativa nominal quando a mesma não expressa nenhum critério que possa ser classificado como maior ou menor, melhor ou pior, entre outros. São características que as classificam, atribuem qualidade à medida, mas não há uma ordem lógica nessa classificação. Por exemplo, considere a variável cor dos olhos. Podemos classificar as pessoas segundo a cor de seus olhos, e assim teríamos pessoas com olhos castanhos, verdes, azuis etc. Essa classificação não permite ordenar as pessoas, pois não há uma cor de olho superior a outra; as cores simplesmente são diferentes. Portanto, cor dos olhos é uma variável qualitativa nominal. Gênero, tipo sanguíneo, cor da pele são outros exemplos de variáveis qualitativas nominais. Figura 7 – Exemplo de variável qualitativa nominal: cor dos olhos Uma variável é qualitativa ordinal quando apresenta uma ordem, e podemos classificar uma variável como superior e outra como inferior. Como exemplo, podemos citar a variável nível de condicionamento físico de diferentes indivíduos. Obviamente, nesse caso, os indivíduos que apresentarem um nível de condicionamento regular estarão em uma classificação superior àqueles que apresentarem um nível de condicionamento ruim, mas estarão em uma classificação inferior aos indivíduos que apresentarem um nível de condicionamento considerado bom. Portanto, nesse exemplo, podemos atribuir uma ordem a partir das qualidades correspondentes a cada variável. Contudo, é importante que essa ordenação seja inerente ao tipo de variável analisada, e não por julgamento por conveniência do pesquisador. 19 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Outros exemplos de variáveis qualitativas ordinais são: níveis de dor, níveis de intensidade de exercício avaliados em uma escala subjetiva de esforço, grau de instrução, entre outros. Lembrete O que difere as variáveis qualitativas nominais e ordinais é a possibilidade de classificação e ordenação dos dados. Variáveis qualitativas ordinais podem ser classificadas como melhores ou piores. Já a variável quantitativa, é uma medida de natureza numérica, sendo expressa por um valor, ou seja, é‑lhe atribuído um número. Podemos citar como exemplo, a variável peso corporal, na qual é atribuído um valor correspondente que geralmente é expresso em quantidade de quilos do indivíduo. Vamos supor que o objetivo de um estudo seja comparar a variável peso corporal de um indivíduo antes e após um programa de treinamento, como é o caso da pessoa pesava 60 Kg e após o treinamento passou a pesar 56 Kg. Dessa forma, houve uma quantificação do peso corporal do indivíduo avaliado. As variáveis quantitativas podem ser classificadas como discretas ou como contínuas. Figura 8 – Exemplo de variável quantitativa: peso corporal 20 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 As variáveis quantitativas discretas são aquelas que são expressas exclusivamente por números inteiros. Números fracionados não apresentam sentido lógico para esse tipo de variável. Vamos supor que seu objetivo seja avaliar a variável número de esteiras de uma academia. Nesse exemplo, certamente o resultado que você encontrará corresponderá a um número inteiro, pois não é possível dizermos que a academia possui uma esteira e meia. Outros exemplos de variáveis quantitativas discretas são: número de praticantes de uma determinada modalidade, quantidade de crianças com necessidades especiais em uma escola, número de carros. Já as variáveis quantitativas contínuas, podem apresentar qualquer valor em um intervalo de variação possível, ou seja, elas podem ser expressas em números fracionados. Vamos supor que seu objetivo seja comparar a variável altura de dois alunos. Nessa situação, você provavelmente encontrará valores que não são inteiros. Por exemplo, um aluno pode ter 1,58 m e outro 1,47 m de altura. Entretanto, e se considerar a variável peso corporal: podemos classificá‑la como discreta ou contínua? Nesse caso, embora sejamais comum você encontrar valores inteiros para essa variável, não necessariamente os resultados serão sempre inteiros. Assim, valores que não são inteiros (como 60,4 Kg e 59,7 Kg) fazem sentido para expressar o peso corporal e, portanto, essa variável pode ser classificada como quantitativa contínua. Outros exemplos de variáveis quantitativas contínuas são: tempo de treinamento, idade dos alunos, sobrecarga de um exercício. Figura 9 – Exemplo de variável quantitativa contínua 21 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Lembrete O que difere as variáveis quantitativas discretas e contínuas é a possibilidade de um valor fracionado. Variáveis discretas só podem ser expressas em números inteiros. Outra forma de classificar as variáveis está relacionada à função que elas apresentam dentro de um trabalho de pesquisa. A partir desse pressuposto, estabelece‑se a seguinte classificação: variável independente; variável dependente; variável categórica; variável de controle e variável interveniente. Variável independente é aquela que o pesquisador deseja manipular, ou seja, é sua variável experimental. Vamos supor que sua intenção seja avaliar a influência de diferentes tipos de exercício no ganho de força de determinado grupo muscular. Sua variável independente, nesse caso, corresponde aos diferentes tipos de exercício, pois é isso que você está testando ou “manipulando” para avaliar os possíveis ganhos de força muscular. Dito de outra forma, você está testando se alterações na variável independente (tipo de exercício) podem causar diferenças no ganho de força muscular. Já a variável dependente é aquela que pode ser medida ou registrada para acessar o efeito da variável independente. No exemplo anterior, a variável dependente é a força de determinado grupo muscular. A partir das mudanças nas variáveis independentes (tipo de exercício), pode ou não ocorrer alterações nas variáveis dependentes (força muscular). Figura 10 – Diferentes tipos de exercício (variáveis independentes) podem ou não gerar alterações na força muscular (variáveis dependentes) Dessa forma, pode‑se perceber que existe uma inter‑relação entre as variáveis independentes e dependentes do tipo causa‑efeito, sendo que a variável independente está associada à causa, enquanto que a variável dependente representa o efeito. Para ficar mais claro, vamos a outro exemplo: imagine que o seu objetivo de pesquisa seja avaliar a influência da fase de aprendizado motor no número de chutes a gol realizados com êxito no futebol. A 22 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 partir desse exemplo, qual será a variável independente e qual será a variável dependente? Nesse caso, a variável independente será aquela capaz de modificar a variável dependente. Portanto, a variável independente é a fase de aprendizado motor. Já a variável dependente, é aquela que você deseja medir e que é influenciada pela independente; portanto, corresponde ao número de chutes a gol realizados com êxito no futebol. Exemplo de aplicação De modo semelhante ao que foi realizado anteriormente, pense em um objetivo de pesquisa. Agora, procure determinar as variáveis independentes e dependentes de acordo com esse objetivo que você propõe. Figura 11 – Prática do voleibol que pode ou não ser influenciada pela prática do treinamento pliométrico, conforme proposta de pesquisa A variável categórica pode ser considerada um tipo de variável independente, mas ela não pode ser manipulada, pois está em categorias. Essas categorias nada mais são do que classificações das variáveis que permitem identificá‑las como pertencentes a um determinado grupo. São exemplos de variáveis categóricas dados como idade, raça, gênero, entre outros. Imagine que o objetivo de seu estudo seja analisar o efeito de um treinamento pliométrico no desempenho de jogadores de voleibol. Nesse caso, a variável independente é a modalidade do treinamento e a variável dependente é o desempenho de jogadores de voleibol. E as variáveis categóricas? Podemos assumir que os efeitos do treinamento pliométrico poderão ser diferentes dependendo do gênero dos jogadores de voleibol e da faixa etária em que estes se encontram. Portanto, o gênero desses indivíduos e a sua faixa etária podem ser considerados importantes variáveis categóricas. Claro que poderíamos ter inúmeras variáveis categóricas, mas é importante avaliar sua interferência no projeto de pesquisa para determinar aquelas que são mais relevantes. Dito de outra forma é importante identificar, em um estudo, se a inter‑relação causa‑efeito da variável independente sobre a variável dependente pode ser diferente na presença de uma variável categórica. 23 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A variável controle está relacionada a um fator que poderia, possivelmente, influenciar os resultados do estudo, ou seja, a variável dependente. Como se espera que as possíveis alterações na variável dependente possam ser atribuídas ao efeito da variável independente, qualquer outra variável que possa exercer influência sobre a variável dependente precisa ser controlada. Exatamente por isso essa variável deve ser analisada separadamente, ou, se for o caso, mantida fora da pesquisa. Vamos supor que o objetivo do seu estudo agora seja determinar a frequência cardíaca máxima em um teste incremental de corrida em esteira. Nessa condição, a variável independente corresponde ao teste incremental de corrida em esteira, enquanto que a variável dependente é a frequência cardíaca máxima. Obviamente, a velocidade máxima alcançada no teste e, consequentemente, a frequência cardíaca máxima a ser atingida será influenciada pela condição de fadiga que algum indivíduo possa apresentar. Dessa forma, nesse exemplo, a fadiga apresentada previamente à realização do teste precisa ser controlada para que ela não cause alteração na variável dependente (frequência cardíaca máxima). Seria recomendado que, nessa situação, fosse solicitado aos indivíduos que não realizassem exercícios muito extenuantes 24 horas antes da realização do referido teste de corrida. Por fim, a variável interveniente é um fator que também pode afetar a relação entre a variável independente e dependente, mas não pode ser totalmente excluída ou controlada. De acordo com Lakatos e Marconi (2001), a variável interveniente se posiciona entre a variável independente e dependente, podendo ampliar, reduzir ou anular o efeito da variável independente sobre a variável dependente. Considere novamente o exemplo anterior sobre a determinação da frequência cardíaca máxima a partir de um teste incremental de corrida em esteira. Vamos supor que, no dia do teste, esteja fazendo muito calor e que, na sala em que o teste será realizado, não haja nenhum sistema de ar condicionado. Podemos dizer, então, que a temperatura pode ser considerada uma variável interveniente. Quanto maior o controle que o pesquisador conseguir exercer sobre as variáveis intervenientes, mais fortemente poderá se assumir que as alterações na variável dependente foram causadas devido à influência da variável independente. Ao contrário, quanto maior a influência da variável interveniente sobre a variável dependente, maior será a chance de atribuir erroneamente uma relação causa‑efeito entrea variável independente e dependente. Observação A inter‑relação entre as variáveis independentes e dependentes é do tipo causa‑efeito. A variável independente representa causa, enquanto a variável dependente representa o efeito. É claro que dificilmente uma pesquisa estará livre dos efeitos de alguma variável interveniente. Sendo assim, assume‑se que, em quase todas as pesquisas, há alguma fonte de erro. Como futuro pesquisador, é importante que você perceba a necessidade de minimizar ao máximo qualquer possível 24 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 fonte de erro. Podemos dizer que alguns são mais graves que outros, dependendo de sua natureza. Basicamente, podemos dividir os erros em dois tipos de acordo com suas características: erro sistemático e erro aleatório. Chama‑se de erro sistemático aquele que representa uma interferência que é constante em todas as medidas. Assim, o erro é quase sempre o mesmo em todos os resultados obtidos em uma medição. Já o erro aleatório pode ser observado eventualmente, ou seja, em torno da medida verdadeira, os erros podem ou não serem observados. Para exemplificar esses dois tipos de erro, vamos à seguinte aplicação prática: imagine que, na determinação da velocidade em uma esteira, ocorra um erro atribuindo sempre um acréscimo de 1 km/h em todas as velocidades. Nessa situação, você tem um erro sistemático, pois este será observado em todas as velocidades e para todos os indivíduos avaliados. Agora imagine que esse acréscimo, na velocidade da esteira, ocorra apenas em algumas situações, e que você não tenha controle sobre a presença ou não desse acréscimo. Nessa situação, você tem um erro aleatório que está presente em algumas condições, mas em outras não. Como já mencionamos anteriormente, obviamente devemos tentar minimizar ao máximo qualquer fonte de erro, mas imagine que você não tenha como impedir uma fonte de erro. Nessa condição, o que preferiria: o erro sistemático ou o erro aleatório? O erro sistemático parece ser preferível, pois como ele ocorre constantemente, é mais fácil conhecê‑lo e o quantificar. Uma vez que esse erro é conhecido, torna‑se possível excluí‑lo do valor real correspondente à medida. Por exemplo, imagine que você está utilizando um estadiômetro (equipamento usado para medir a estatura), o qual apresenta um incremento de 2 cm nas medidas realizadas. É preferível que esse erro aconteça em todas as medidas do que ocorra eventualmente, pois conhecendo o erro constante (2 cm), basta subtrair esse valor de erro das medidas realizadas. Podemos classificar, ainda, os erros de acordo com as suas causas, como: • erro instrumental; • erro ambiental; • erro observacional; • erro teórico. O erro instrumental ocorre quando há alguma imprecisão no instrumento de medida utilizado para realizar a pesquisa. Tomemos como exemplo uma balança utilizada para mensurar a massa corporal esteja desregulada e que ela forneça sempre 1 Kg a mais no momento de realizar a medida. 25 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Outro exemplo de erro sistemático instrumental bastante comum na Educação Física é a imprecisão de alguns plicômetros utilizados para aferir as dobras cutâneas para a do percentual de gordura corporal; fornecem resultados sistematicamente superiores ou inferiores em todas as medidas realizadas. O erro ambiental refere‑se a alguma alteração no meio de avaliação, ou seja, no ambiente que promova alteração na variável dependente. Utilizando um exemplo anterior, podemos citar a presença de um ambiente muito quente. Outra possibilidade é um ambiente muito escuro que não permita, por exemplo, a execução de uma determinada habilidade motora fina. Figura 12 – Exigência de flexibilidade – variável que pode ser testada em diversos tipos de protocolo O erro observacional representa uma inconsistência na análise ou um erro de leitura na medição. Isso acontece, por exemplo, quando algum método de análise é utilizado de forma inapropriada, não fornecendo resultados que possam ser considerados válidos. Para exemplificar, imagine que seu objetivo seja realizar uma avaliação e análise dos níveis de flexibilidade de um determinado indivíduo. Para tanto, você utiliza o teste conhecido como sentar e alcançar e encontra índices muito baixos de flexibilidade. Com isso, a partir dessa análise, você poderia concluir que a flexibilidade do indivíduo avaliado é ruim. Entretanto, a análise única e exclusivamente deste teste não permite essa conclusão, pois desconsidera a mobilidade de outras articulações. Outro erro observacional muito comum é a medição equivocada por parte do avaliador em função de um erro de leitura do equipamento. Isso geralmente acontece quando um indivíduo não está familiarizado a utilizar um determinado instrumento de medida. Também é bastante comum em avaliadores que usam pela primeira vez um plicômetro para avaliação das dobras cutâneas em avaliação física. 26 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 São considerados erros teóricos aqueles associados à falta de clareza na determinação das variáveis de análise. Imagine que você deseja calcular o percentual de gordura de um aluno a partir das medidas de dobras cutâneas realizadas. O problema é que existem inúmeras fórmulas que permitem esses cálculos, diferindo de acordo com a população para qual se deve aplicar cada uma delas. Dessa forma, sem adequado conhecimento sobre a população‑alvo, tais fórmulas podem ser aplicadas levando a uma considerável fonte de erro. Como o objetivo primordial de qualquer medida é minimizar e controlar as fontes de erro, sugere‑se que se tomem os devidos cuidados para reduzir os fatores aleatórios de erros, repetindo medições e garantindo a apropriada proficiência dos avaliados com o instrumento de medida. Lembrete Os erros podem ser de dois tipos de acordo com suas características: erro sistemático (interferência constante em todas as medidas) e erro aleatório (pode ser observado eventualmente). 2.2 Variáveis de posição: valores máximos, mínimos, moda, média e mediana Uma vez que as variáveis foram definidas e classificadas, vamos tratar de um tipo específico de variável conhecido como variável de posição, que é calculada quando desejamos representar um conjunto de dados por um valor único. Existem variáveis de posição conhecidas como valores extremos, que correspondem aos valores máximos e mínimos de um conjunto de dados. Outro subconjunto de variáveis de posição são as medidas de tendência central. Nesse caso, é calculado um valor central no conjunto de dados. Os valores de tendência central mais utilizados são: a média, a moda e a mediana. Figura 13 – Representação da série de 10 chutes a gol, conforme explicitado no exemplo 27 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Muitas vezes, esses valores são utilizados para representar a tendência central do conjunto de dados, mesmo sendo este um valor abstrato. Para ficar mais claro, vamos a um exemplo: imagine que você tem um conjunto de dados de seis alunos representandoo número de chutes a gol realizados com sucesso em dez tentativas. Nessa situação, a partir do desempenho dos alunos, você obteve o seguinte conjunto de dados: 8, 7, 8, 6, 9 e 5. A partir desses valores, você pretende agora calcular o valor médio desse conjunto de dados, ou seja, serão calculados, em média, quantos chutes a gol foram realizados com sucesso em dez tentativas para esses alunos. O valor obtido será 7,16 chutes a gol com sucesso. Entretanto, note que esse valor não está originalmente no conjunto de dados. Portanto, não é real ao conjunto de dados, e sim apenas um valor utilizado como representativo do conjunto. Lembrete Os principais valores de posição são valor máximo, valor mínimo, valor de média, valor de moda e valor de mediana. Valor máximo e valor mínimo: Os valores máximos e mínimos são aqueles que se encontram nos extremos de um conjunto de dados. Dessa forma, o valor máximo (Vmáx.) – também conhecido como valor de pico – corresponde ao maior valor do conjunto de dados, enquanto que o valor mínimo (Vmín.) representa o menor valor desse conjunto. Vamos supor que tenhamos conjunto de dados conhecido como (A) que apresenta os seguintes valores: (A) = 7, 9, 1, 12, 6, 4, 9, 7. Nessa situação, temos: Vmáx. (A) = 12 Vmín. (A) = 1 Ou seja, o valor máximo de (A) é 12 e o valor mínimo é 1. A figura 14 ilustra uma curva obtida a partir de um conjunto de dados, e nela podemos observar a determinação dos valores máximos e mínimos. 28 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Máximo Mínimo Figura 14 – Gráfico mostrando a determinação dos valores máximos e mínimos de um conjunto de dados Há grande aplicabilidade da utilização desses valores em função de sua fácil obtenção, pois podem ser determinados diretamente, sem a necessidade da realização de cálculos e aplicados em diversas condições específicas da área da Educação Física. Figura 15 – Exercício de caminhada, a partir do qual o objetivo pode ser determinar os ângulos máximos e mínimos das diferentes articulações do membro inferior Para ficar mais claro, vamos a um exemplo prático. Imagine que durante uma caminhada você tem como objetivo determinar os ângulos máximos e mínimos das diferentes articulações do membro inferior. Utilizando técnicas de filmagem e uma análise biomecânica do movimento, é possível determinarmos a variação angular de cada articulação ao longo de um ciclo de uma passada, ou seja, do momento em que um pé toca o solo, até o contato subsequente desse mesmo pé com o solo. A figura 16 mostra a variação angular durante um ciclo de marcha, ou seja, uma passada, para as principais articulações do membro inferior: quadril, joelho e tornozelo. 29 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Quadril Joelho Tornozelo Ân gu lo a rt ic ul ar Porcentagem do ciclo Co nt at o do c al ca nh ar Pé a pl ai na do Ap oi o m éd io Re tir ad a do c al ca nh ar Re tir ad a do s d ed os Ba la nç o m éd io Co nt at o do c al ca nh ar 30 50 ‑10 10 10 30 70 10 ‑10 20 40 ‑20 0 0 20 60 0 ‑20 0 10 20 30 40 50 60 70 80 90 100 Figura 16 – Variação angular das articulações do quadril, joelho e tornozelo em uma passada da marcha Nessa figura, o valor 0, no eixo horizontal (eixo x), representa o contato do pé com o solo, e o valor 100 corresponde ao novo contato desse mesmo pé com o solo novamente. Portanto, temos a descrição do que acontece ao longo do período correspondente a uma passada. No eixo vertical (eixo y), temos a visualização de três diferentes gráficos simultaneamente, correspondentes às articulações do quadril, joelho e tornozelo, que se encontram nessa ordem de cima para baixo. Para cada articulação é possível observar um valor de zero, que corresponde, nas diferentes articulações, à posição neutra, ou posição anatômica dessas articulações. Para as articulações do quadril e joelho, valores positivos significam que o segmento do indivíduo está posicionado em flexão, enquanto os valores negativos representam o segmento posicionado em extensão. Já para a articulação do tornozelo, os valores positivos denotam uma flexão dorsal, enquanto valores negativos correspondem a uma posição de flexão plantar. Uma vez que os dados da figura 16 foram explicados, podemos ter como objetivo a determinação dos valores máximos e mínimos, identificando sua localização aproximada em função do percentual do ciclo da passada. Para a articulação do quadril: • Vmáx. 28° em flexão, ocorrendo em 85% do ciclo de passada, quando o segmento precisa se posicionar a frente para iniciar uma nova passada. Vmín. 20° em extensão, ocorrendo em 55% do ciclo de passada, um pouco antes de dar início à fase aérea. 30 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Para a articulação do joelho: • Vmáx. 70° em flexão, ocorrendo em 72% do ciclo de passada, quando uma grande flexão torna‑se importante para absorção de choque mecânico. • Vmín. 3° em extensão, ocorrendo em 98% do ciclo de passada, que mostra imediatamente antes do contato o joelho se posicionar com o máximo de extensão possível, ou seja, a articulação está retesada. Para a articulação do tornozelo: • Vmáx. 10° em flexão dorsal, ocorrendo em 50% do ciclo de passada, representando o avanço máximo da tíbia sobre o pé na fase de apoio. • Vmín. 15°, ocorrendo em 8% do ciclo de passada, representando a flexão plantar necessária para o aplanamento do pé após o contato. Como realizado no exemplo anterior, pode‑se perceber que a determinação dos valores máximos e mínimos torna‑se de suma importância para adequada caracterização do movimento – no caso, a marcha. Lembrete Os valores de posição considerados extremos são conhecidos como valor máximo (maior valor do conjunto de dados) e como valor mínimo (menor valor desse conjunto). De forma semelhante, esse procedimento pode ser realizado para caracterizar outras formas do movimento humano. A identificação desses ângulos em diferentes atividades torna‑se importante para associação das ações musculares em cada fase do movimento, o que pode apresentar grande aplicabilidade na determinação do treinamento, na tentativa de deixá‑lo o mais específico possível, aumentando sua funcionalidade. Exemplo de aplicação Utilizando as informações da figura 17 que é apresentada a seguir, determine aproximadamente: a) o valor máximo no eixo horizontal; b) o valor mínimo no eixo horizontal; c) o valor máximo no eixo vertical; d) o valor mínimo no eixo vertical. 31 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA A partir desses valores calcule, de forma aproximada, a amplitude da passada e altura da passada por meio das seguintes fórmulas: Amplitude da passada = 2 x (valor máximo no eixo horizontal – valor mínimo no eixo horizontal); Altura da passada = 2 x (valor máximo no eixo vertical – valor mínimo no eixo vertical); b 100 50 75 25 0 0 100 20050 150 Deslocamento horizontal (cm) De slo ca m en to v er tic al (c m ) 250 a c ∆a ∆c Figura 17 – Deslocamentos verticais e horizontais a partirdo eixo de coordenadas do ponto de referência posicionado no calcâneo, representativo de um ciclo de passada, método utilizado para quantificar a amplitude de passada Valor de média Os valores de média são calculados considerando a média aritmética dos valores de um conjunto de dados. A média é o valor de medida central mais utilizado, em função do seu fácil emprego e interpretação dos resultados, apresentando grande aplicabilidade para diversas populações. A média é geralmente representada pela letra x acrescida de um traço superior (leia‑se x barra). Dessa forma, tem‑se a seguinte fórmula: x x x x x n n n� � � � � � � 1 2 3 ... xi i=n n Sendo que: Σ x = soma de todos os valores de x. n = ao número de dados que temos no conjunto. 32 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Vamos a um exemplo simples: imagine que tenhamos um conjunto de dados contendo os seguintes valores: 2, 5, 3, 7 e 8. Para este exemplo, Σ x será a soma de todos os valores, ou seja: Σ x = 2 + 5 + 3 + 7 + 8 Σ x = 25 E n corresponde ao número de valores que temos no conjunto; portanto: n = 5 Dessa forma, a média será: Média = 25/5 = 5 Para ficar mais claro, vamos a um exemplo prático: imagine que em um teste de resistência, dois alunos conseguiram executar os seguintes números de repetições em seis tentativas: • Aluno 1: 28, 29, 32, 35, 35, 30. • Aluno 2: 21, 20, 20, 21, 24, 19. A partir desses dados, vamos calcular o desempenho médio dos referidos alunos nos testes de resistência. Para tanto, temos o seguinte: • Desempenho médio do aluno 1: (28 + 29 + 32 + 35 + 35 + 30)/6 Desempenho médio do aluno 1: 189/6 = 31,5 repetições. • Desempenho médio do aluno 2: (21 + 20 + 20 + 21 + 24 + 19)/6 Desempenho médio do aluno 2: 125/6 = 20,83 repetições. Agora, poderíamos ter como objetivo realizar o cálculo do desempenho médio considerando os dois alunos em conjunto. Nesse caso, poderíamos somar os 12 valores e dividir por 12 (que é o número total de testes realizados pelos dois alunos). Entretanto, é importante lembrar que já calculamos o desempenho médio para cada aluno. Assim, de posse desses valores, bastará calcular uma nova média a partir dos valores correspondentes ao desempenho médio de cada aluno. 33 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Portanto, temos: • desempenho médio do aluno 1 = 31,5 repetições; • desempenho médio do aluno 2 = 20,83 repetições; • cálculo da Média = (31,5 + 20,83)/2 = 52,33/2 = 26,16; • desempenho médio dos dois alunos = 26,16 repetições. Vamos a mais dois exemplos práticos especificamente relacionados à área da Educação Física. Exemplo 1 Imagine que você pediu para um grupo de cinco alunos para que realizassem uma corrida leve (um trote). Durante essa atividade você decidiu aferir a frequência cardíaca em batimentos por minuto (b.p.m.) para cada aluno, e foram obtidos os seguintes valores: aluno 1: 123 b.p.m. aluno 2: 136 b.p.m. aluno 3: 154 b.p.m. aluno 4: 108 b.p.m. aluno 5: 121 b.p.m. Agora, você deseja calcular a frequência cardíaca média para esse grupo de alunos. Para tanto, deve ser realizado o seguinte cálculo: média = (123+136+154+108+121)/5 FC média = 128,4 b.p.m. Exemplo 2 Imagine, agora, que, para avaliar os possíveis índices de sobrepeso e obesidade de um grupo de alunos de uma turma de Educação Física Escolar, você mensurou a massa corporal de cada aluno desse grupo: massa corporal de dez alunos: 64 kg, 70 kg, 59 kg, 71 kg, 67 kg, 72 kg, 70 kg, 81 kg, 83 kg, 75 kg. Agora, você deseja calcular a massa corporal média desse grupo de alunos. Para tanto, será realizado o seguinte cálculo: 34 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 média = (64, 70, 59, 71, 67, 72, 70, 81, 83, 75)/10 massa corporal média = 71,2 kg Lembrete Para calcular a média, devem‑se somar todos os valores de um conjunto de dados e dividir pelo número de dados. Valor de Moda A moda é um valor de tendência central muito fácil de determinar em um conjunto de dados, pois também não envolve nenhum procedimento matemático específico. Para identificar o valor de moda, basta determinar o valor que mais se repete no conjunto de dados, ou seja, de maior frequência. Esse conceito apresenta significado semelhante ao que popularmente se chama de moda para outras aplicações. Por exemplo, quando dizemos que uma determinada modalidade de ginástica de academia está na moda, significa que muita gente está praticando essa modalidade. Podemos pressupor que se formos a uma academia, a sala dessa determinada modalidade estará cheia de alunos e que a maioria dos alunos da academia a estão praticando. Assim, chama‑se de moda aquilo que se repete com maior frequência. Figura 18 – Modalidade de ginástica de academia que pode ser considerada como moda 35 Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 BIOESTATÍSTICA Agora, vamos entender matematicamente o que isso representa. Imagine que você tem os seguintes valores no conjunto de dados (B). (B) = 4, 7, 9, 3, 6, 7, 2 Nesse exemplo, o valor de moda é 7, pois é aquele que mais vezes aparece no conjunto de dados. Agora, imagine que temos os seguintes valores no conjunto de dados (C). (C)= 3, 9, 10, 8, 8, 2, 9 Nesse caso, os valores de moda são 9 e 8, pois ambos se repetem duas vezes no conjunto de dados. Dessa forma, não temos apenas um valor de moda, mas dois. Lembrete A moda é o valor que mais se repete no conjunto de dados, ou seja, o valor de maior frequência. A partir disso, podemos dizer que um conjunto de dados pode apresentar diferentes formas de distribuição, podendo ser classificado como: • amodal: quando o conjunto de dados não apresenta nenhum valor de moda; • unimodal: quando apenas um valor de moda é identificado; • bimodal: quando dois valores de moda são identificados; • multimodal: quando mais de dois valores de moda são identificados. Vamos a um exemplo. Imagine os conjuntos de dados (A) e (B): (A) = 1, 2, 2, 2, 3, 4, 5, 6, 6, 6, 7, 9. (B) = 5, 5, 5, 3, 1, 5, 1, 6, 4, 3, 1, 5. Identifique o (s) valor (es) de moda para cada conjunto e classifique‑o como amodal, unimodal, bimodal ou multimodal. Conjunto (A): moda: 2 e 6; classificação: bimodal. 36 Unidade I Re vi sã o: C ar la - D ia gr am aç ão : M ár ci o - 22 /0 2/ 20 13 - || - 2ª R ev isã o Lu an e - co rr eç ão : F ab io - 1 8/ 03 /1 3 // 3 ª R ev isã o: A m an da / Co rr eç ão : M ár ci o - 22 /0 3/ 20 13 Conjunto (B): moda: 5; classificação: unimodal. Note que no conjunto (B) outros valores também se repetem (como o valor 1 e o valor 3), mas apenas o valor 5 é considerado como moda, uma vez que é aquele que mais se repete. Para fixarmos melhor essa ideia, vamos a outro exemplo: em seis avaliações de uma turma do curso de Educação Física, quatro alunos obtiveram as seguintes notas: • aluno 1: 8, 6, 7, 9, 6, 7; • aluno 2: 4, 6, 5, 6, 6, 7; • aluno 3: 7, 8, 5, 9, 6,10; • aluno 4: 6, 8, 7, 7, 8, 6. Determine o valor de moda para cada aluno e classifique o conjunto de notas de cada um como amodal, unimodal, bimodal ou multimodal.