Bioestatística: Unidade 2

Humanas / Sociais

Maria Lopes

em 08/11/2024

Conteúdos escolhidos para você

40 pág.

Unidade 4 - Estatística aplicada à saúde

42 pág.

Exercícios 1 Bioestatistica 002

42 pág.

controle_estatistico_de_processos_e_quimiometria

UFSJ

76 pág.

Bioestatística: Conceitos e Análise de Dados

UENP

Perguntas dessa disciplina

Questão 7/10 - ESTATÍSTICA MULTIVARIADA Ler em voz alta Leia atentamente o excerto abaixo: “Na maioria das vezes, as variáveis são correlacionadas ent

Para que a Estatística possa ajudar a representar e entender a realidade ao nosso redor, é essencial utilizar métodos e ferramentas que traduzem da...

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

UNIVESP

Questão 3/10 - Bioestatística Ler em voz altaLeia a passagem de texto:“Há intensa discussão acadêmica sobre quais estratégias analíticas devem ser uti

Durante a auditoria de desempenho de um sistema de processamento de dados, um analista precisa sumarizar o comportamento dos tempos de resposta do ...

UNINGÁ

Material

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

40 pág.

Unidade 4 - Estatística aplicada à saúde

42 pág.

Exercícios 1 Bioestatistica 002

42 pág.

controle_estatistico_de_processos_e_quimiometria

UFSJ

76 pág.

Bioestatística: Conceitos e Análise de Dados

UENP

Perguntas dessa disciplina

Questão 7/10 - ESTATÍSTICA MULTIVARIADA Ler em voz alta Leia atentamente o excerto abaixo: “Na maioria das vezes, as variáveis são correlacionadas ent

Para que a Estatística possa ajudar a representar e entender a realidade ao nosso redor, é essencial utilizar métodos e ferramentas que traduzem da...

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

UNIVESP

Questão 3/10 - Bioestatística Ler em voz altaLeia a passagem de texto:“Há intensa discussão acadêmica sobre quais estratégias analíticas devem ser uti

Durante a auditoria de desempenho de um sistema de processamento de dados, um analista precisa sumarizar o comportamento dos tempos de resposta do ...

UNINGÁ

Prévia do material em texto

BIOESTATÍSTICA
Unidade 2
Tecnologia para
bioestatística
CEO
DAVID LIRA STEPHEN BARROS
Diretora Editorial
ALESSANDRA FERREIRA
Gerente Editorial
LAURA KRISTINA FRANCO DOS SANTOS
Projeto Gráfico
TIAGO DA ROCHA
Autoria
LEANDRO VINHAS DE PAULA
4 BIOESTATÍSTICA
U
ni
da
de
2
A
U
TO
RI
A
Leandro Vinhas de Paula
Olá! Meu nome é Leandro Vinhas de Paula. Sou bacharel
e licenciado em Educação Física (Faculdade de Educação Física
e Fisioterapia – Universidade Federal de Uberlândia), mestre
em Ciências do Esporte (Escola de Educação Física, Fisioterapia
e Terapia Ocupacional – Universidade Federal de Minas
Gerais – EEFFTO/UFMG) e especialista em Estatística Aplicada
(Departamento de Estatística – Instituto de Ciências Exatas – ICEX/
UFMG) com uma experiência técnico-profissional na área de
Educação Física e esportes por mais de 10 anos em atividades
de ensino, pesquisa e extensão na Universidade Federal de Ouro
Preto e no meio privado. Atualmente sou doutorando na área de
Biomecânica (EEFFTO – UFMG). Por isso fui convidado pela Editora
Telesapiens a integrar seu elenco de autores independentes.
Estou muito feliz em poder ajudar você nesta fase de muito estudo
e trabalho. Conte comigo!
5BIOESTATÍSTICA
U
ni
da
de
2
ÍC
O
N
ESEsses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos:
OBJETIVO
No início do
desenvolvimento
de uma nova
competência. DEFINIÇÃO
Caso haja a
necessidade de
apresentar um novo
conceito.
NOTA
Quando são
necessárias
observações ou
complementações. IMPORTANTE
Se as observações
escritas tiverem que
ser priorizadas.
EXPLICANDO
MELHOR
Se algo precisar ser
melhor explicado ou
detalhado. VOCÊ SABIA?
Se existirem
curiosidades e
indagações lúdicas
sobre o tema em
estudo.
SAIBA MAIS
Existência de
textos, referências
bibliográficas e links
para aprofundar seu
conhecimento.
ACESSE
Se for preciso acessar
sites para fazer
downloads, assistir
vídeos, ler textos ou
ouvir podcasts.
REFLITA
Se houver a
necessidade de
chamar a atenção
sobre algo a
ser refletido ou
discutido.
RESUMINDO
Quando for preciso
fazer um resumo
cumulativo das últimas
abordagens.
ATIVIDADES
Quando alguma
atividade de
autoaprendizagem
for aplicada. TESTANDO
Quando uma
competência é
concluída e questões
são explicadas.
6 BIOESTATÍSTICA
U
ni
da
de
2
Software estatístico R .............................................................. 11
Introdução ao R e instalação do software: primeiros passos .................... 11
O que é R? Breve história e a importância do R na bioestatística ............ 11
Ambiente de Trabalho: descrição da interface, pacotes básicos e como
personalizar o ambiente R ...............................................................................13
Primeiros passos: instalação do R e do RStudio, configuração
inicial e introdução aos scripts básicos .......................................... 14
Conhecendo e manipulando os dados com R ............................................. 20
Importação de dados: como ler dados de diferentes formatos 20
Limpeza e preparação de dados: técnicas para tratar dados
faltantes, remover duplicatas e transformar variáveis ................. 25
Análise exploratória de dados: uso de estatísticas descritivas e
visualizações básicas para explorar os dados ............................... 28
Análise estatística básica ..................................................................................31
Testes de hipóteses: como realizar testes estatísticos
básicos no R .........................................................................................31
Modelos lineares e não lineares: introdução à construção e
interpretação de modelos estatísticos .......................................... 33
Relatórios e publicação: como usar o R Markdown para criar
relatórios e apresentações de análises .......................................... 35
Distribuição normal de probabilidade .................................. 38
Conceitos fundamentais ...................................................................................38
Definição de distribuição de probabilidade ................................... 38
Definição de distribuição normal: cálculos e características ...... 40
Testes estatísticos de distribuição normal ..................................... 45
Teorema do Limite Central ..............................................................................48
Entendendo o teorema: explicação e significado na estatística 48
SU
M
Á
RI
O
7BIOESTATÍSTICA
U
ni
da
de
2
Simulações no R: como simular e visualizar o teorema do limite
central usando R .................................................................................49
Importância do teorema para a Bioestatística: por que é
fundamental entender o Teorema do Limite Central .................. 51
Normalização de dados ....................................................................................53
Por que normalizar? Razões para normalizar dados antes da
análise ...................................................................................................53
Técnicas de normalização: como e quando aplicar transformações
de dados ...............................................................................................54
Exemplos práticos no R: demonstração de técnicas de
normalização em conjuntos de dados reais .................................. 56
Tabela “z” ................................................................................. 59
Entendendo a Tabela Z .....................................................................................59
O que é a Tabela Z? Definição e estrutura da tabela ................... 59
Cálculo de probabilidades: como usar a tabela Z para calcular
probabilidades .....................................................................................61
Interpretação dos valores Z: o que os valores significam em
termos de probabilidade e posição na distribuição normal ....... 63
Aplicações da Tabela Z .....................................................................................65
Determinação de intervalos de confiança: como a tabela Z é
usada para calcular intervalos de confiança .................................. 65
Testes de hipóteses com a Tabela Z: exemplos de como realizar
testes de hipóteses utilizando a tabela Z ....................................... 66
Análise de dados normalizados: utilização da tabela Z em
conjuntos de dados normalizados .................................................. 68
Tipificação de respostas individuais ..................................... 71
Tipos de respostas em bioestatística .............................................................71
Respostas binárias e contínuas: definição e exemplos de cada
tipo .........................................................................................................71
8 BIOESTATÍSTICA
U
ni
da
de
2
Categorização e codificação de respostas: como preparar dados
de pesquisa para análise ...................................................................72
Importância das respostas individuais: impacto no desenho do
estudo e na interpretação dos resultados ..................................... 74
Análise de Respostas Individuais ....................................................................75
Técnicas de Análise: abordagens para análise de diferentes tipos
de dados de resposta ........................................................................75
Interpretação dos resultados: como interpretar os resultados das
análises de respostas individuais ..................................................... 77
Erros Comuns e como evitá-los: discussão sobre erros frequentes
na análise de dados e como prevenir ............................................. 79
Estudo de caso no R ..........................................................................................80
9BIOESTATÍSTICApressupostos necessários para as análises
planejadas.
Em resumo, a demonstração de técnicas de normalização
em conjuntos de dados reais utilizando o R é um aspecto prático
crucial na bioestatística. A capacidade de aplicar adequadamente
essas técnicas e verificar sua eficácia prepara os dados para uma
análise mais precisa e confiável. O trabalho de Crawley (2007)
fornece um guia valioso para a utilização do R na normalização
de dados, reforçando a habilidade dos pesquisadores em
preparar conjuntos de dados para análise estatística, um passo
indispensável no processo de pesquisa em bioestatística.
58 BIOESTATÍSTICA
U
ni
da
de
2
RESUMINDO
E então? Gostou do que lhe mostramos? Aprendeu
mesmo tudinho? Agora, só para termos certeza de
que você realmente entendeu o tema de estudo,
vamos recapitular os pontos-chave sem nos perder
em exemplos específicos. A distribuição normal
é uma peça-chave na bioestatística, servindo
como base para inúmeras técnicas analíticas.
Compreender seus conceitos fundamentais não
apenas facilita a interpretação de dados biomédicos,
mas também a aplicação de métodos estatísticos
relevantes. O Teorema do Limite Central, por
sua vez, reforça essa base ao demonstrar como
diferentes amostras de uma população tendem a
uma distribuição normal, independentemente da
distribuição da população original.
A normalização de dados é outro aspecto crucial
que discutimos, essencial para preparar os dados
para análises que requerem normalidade. Esses
conceitos são interligados e fundamentais para
a realização de análises estatísticas precisas e
confiáveis. Sem um entendimento sólido dessas
bases, os pesquisadores podem enfrentar desafios
significativos na interpretação dos resultados, o
que pode levar a conclusões errôneas.
Ao dominar a distribuição normal de probabilidade,
o Teorema do Limite Central e as técnicas de
normalização de dados, você estará bem equipado
para enfrentar os desafios da bioestatística. Estes
conceitos não só aprimoram sua habilidade
analítica, mas também fortalecem sua competência
em realizar pesquisas rigorosas e fundamentadas.
Está pronto para aplicar esse conhecimento na
prática e contribuir com descobertas significativas
no campo da bioestatística? Avançamos juntos,
com a certeza de que a compreensão desses
conceitos é essencial para sua jornada acadêmica
e profissional.
59BIOESTATÍSTICA
U
ni
da
de
2
Tabela “z”
OBJETIVO
Ao concluir este capítulo, você estará equipado
para compreender e aplicar eficazmente a tabela
“z” em análises bioestatísticas. Esta competência
é essencial para o exercício de sua profissão,
permitindo-lhe realizar cálculos estatísticos
precisos e interpretar dados com confiança. Muitos
que tentaram navegar pela análise de dados sem
uma compreensão sólida da tabela “z” encontraram
dificuldades significativas, especialmente ao
determinar significâncias estatísticas e intervalos
de confiança. E então? Está pronto para aprofundar
seu conhecimento e habilidades nesta área crítica
da bioestatística? Vamos lá!
Entendendo a Tabela Z
O que é a Tabela Z? Definição e
estrutura da tabela
A Tabela Z é uma ferramenta estatística fundamental,
que desempenha um papel crucial na análise de dados dentro
do campo da bioestatística. Essa tabela, que associa valores
de escores Z a probabilidades cumulativas, é essencial para
pesquisadores que buscam entender e aplicar conceitos
de distribuição normal em seus estudos. A definição e a
estrutura da Tabela Z permitem aos usuários determinar
rapidamente a probabilidade de um valor aleatório selecionado
de uma distribuição normal padrão estar abaixo de um
determinado escore Z.
Escore Z, em sua essência, é uma medida que descreve
a posição de um valor individual em relação à média de uma
60 BIOESTATÍSTICA
U
ni
da
de
2
distribuição, expressa em termos de desvios padrão. A tabela
está organizada de tal forma que, fornecendo um escore Z, pode-
se localizar a probabilidade correspondente de que um valor
seja menor que o escore dado. Este processo é fundamental na
bioestatística, onde a determinação de significâncias estatísticas,
intervalos de confiança e a realização de testes de hipóteses
frequentemente dependem de uma compreensão precisa da
distribuição normal e do uso eficaz da Tabela Z.
A aplicabilidade da Tabela Z estende-se por uma
vasta gama de análises estatísticas em bioestatística, desde
a comparação de médias de amostras até a interpretação
de resultados de ensaios clínicos e estudos epidemiológicos.
A capacidade de interpretar corretamente a Tabela Z é, portanto,
uma competência indispensável para pesquisadores que desejam
fazer inferências válidas a partir de seus dados. A tabela facilita a
quantificação de probabilidade e risco, elementos essenciais na
tomada de decisões baseada em evidências no campo da saúde.
Entender a Tabela Z e sua estrutura não apenas melhora
a precisão na análise de dados, mas também aprofunda o
conhecimento teórico dos pesquisadores sobre a distribuição
normal. Este entendimento é crítico, dado que muitos fenômenos
biológicos seguem uma distribuição que pode ser aproximada
pela normal, especialmente quando consideramos o Teorema
do Limite Central e sua implicação de que as médias amostrais
tendem a uma distribuição normal, independentemente da forma
da distribuição da população original.
Em resumo, a Tabela Z é mais do que uma simples
ferramenta estatística; é uma ponte entre a teoria estatística
e a prática da bioestatística, permitindo aos pesquisadores
aplicar métodos quantitativos rigorosos em suas investigações.
A habilidade de utilizar efetivamente a Tabela Z em análises
estatísticas é, portanto, essencial para a condução de pesquisa
61BIOESTATÍSTICA
U
ni
da
de
2
científica robusta e confiável, enfatizando a importância de uma
sólida formação estatística para profissionais da área de saúde e
pesquisa biomédica.
Cálculo de probabilidades: como usar
a tabela Z para calcular probabilidades
Para calcularmos os valores de probabilidade corretamente
e sem o concurso da operação de integração, utilizamos a tabela
de áreas sob a curva normal de uma variável padronizada “z”,
caracterizada pela média (μ) = 0 e desvio-padrão (σ) = 1.
Essa tabela apresenta áreas compreendidas calculadas
previamente entre o ponto central da distribuição, média 0, e
qualquer valor de “z”. A primeira coluna contém valores inteiros
e decimais da variável “z” e cada coluna seguinte, o seu valor
centesimal.
A normal reduzida é tabelada e assim pode se inferir sobre
a probabilidade sem uso de computadores. O escore padronizado
(“z”) é o número de desvios-padrões acima ou abaixo da média em
que se situa um determinado valor. Veja o quadro a seguir.
62 BIOESTATÍSTICA
U
ni
da
de
2
Quadro 2.1 - Curva normal reduzida (padronizada)
Fonte: Site Datalyzer (s/d).
O referido quadro apresenta somente metade da área
da curva normal padronizada. Para determinarmos o valor de
probabilidade correspondente entre o valor de z = 0 e o valor de
z=1,96, basta localizar valor inteiro e decimal de “z” na primeira
coluna (1,9) e o respectivo valor centesimal (0,06). No interior da
tabela, o valor encontrado que cruza a projeção entre a linha e
a coluna localizadas corresponde ao valor de probabilidade
(P=0,4750). Considerando a simetria entre os dois lados da curva
de distribuição normal, a diferença entre o valor da área da metade
da curva (P=0,5) e o valor obtido acima é igual a 0,025. Temos então
63BIOESTATÍSTICA
U
ni
da
de
2
Quadro 2.1 - Curva normal reduzida (padronizada)
Fonte: Site Datalyzer (s/d).
O referido quadro apresenta somente metade da área
da curva normal padronizada. Para determinarmos o valor de
probabilidade correspondente entre o valor de z = 0 e o valor de
z=1,96, basta localizar valor inteiro e decimal de “z” na primeira
coluna (1,9) e o respectivo valor centesimal (0,06). No interior da
tabela, o valor encontrado que cruza a projeçãoentre a linha e
a coluna localizadas corresponde ao valor de probabilidade
(P=0,4750). Considerando a simetria entre os dois lados da curva
de distribuição normal, a diferença entre o valor da área da metade
da curva (P=0,5) e o valor obtido acima é igual a 0,025. Temos então
que a probabilidade de encontrarmos um valor acima de +1,96 é
de 0,025 [P(Z>1,96) = 0,025].
Para encontrar o valor da variável padronizada “z”, basta
realizar o procedimento inverso. A partir do valor de probabilidade
na porção interna da tabela, encontra-se os valores da variável “z”.
Por exemplo, para o valor de 0,4418, encontramos os valores de 1,5
e 0,07, logo, z=1,57. Mas e os valores de correspondentes à outra
porção da curva normal padronizada? Os valores de probabilidade
são exatamente iguais para os valores negativos, à esquerda, da
variável “z”.
Podemos observar que, na distribuição da variável
padronizada “z”, para um determinado intervalo de respostas
típicas de 95%, os valores limites correspondem a -1,96 (à
esquerda) e +1,96 (à direita). Se a área de z=0 a z=+1,96 é de
0,4750, e de z=0 a z=-1,96 também será de 0,4750, uma vez que as
duas metades da curva normal padronizada são simétricas e sua
área total é igual a 1.
A partir desses valores, é possível tipificar respostas
individuais conhecendo os valores de média e desvio-padrão para
determinada variável resposta a partir da equação do escore “z”
padronizado apresentada previamente. Essa temática, no entanto,
será mais aprofundada em outro momento de nossos estudos.
Interpretação dos valores Z: o que
os valores significam em termos
de probabilidade e posição na
distribuição normal
A interpretação dos valores Z na bioestatística é uma
habilidade essencial para entender a posição de dados individuais
ou médias de amostras dentro de uma distribuição normal. Os
valores Z, também conhecidos como escores padrão, quantificam
64 BIOESTATÍSTICA
U
ni
da
de
2
a distância de um valor específico da média da distribuição,
medida em termos de desvios padrão. Essa métrica permite
aos pesquisadores determinar a probabilidade associada a um
valor específico ou a um conjunto de valores, facilitando assim a
compreensão da sua posição relativa na distribuição normal.
A interpretação desses valores é fundamental em
diversos aspectos da bioestatística, incluindo testes de hipóteses
e análises de variância. Um valor Z pode indicar quão incomum
ou comum é um resultado dentro do contexto da distribuição
considerada. Por exemplo, um valor Z positivo indica que o
valor observado está acima da média da população, enquanto
um valor Z negativo sinaliza que está abaixo. Quanto maior
o valor absoluto do escore Z, mais distante o valor observado
está da média, sugerindo uma ocorrência menos provável sob a
suposição de normalidade.
A utilidade dos valores Z vai além da simples localização
de dados dentro de uma distribuição. Eles são cruciais na
determinação de probabilidades cumulativas, que são a base
para a realização de testes estatísticos significativos. Por
exemplo, um escore Z de 1,96 ou -1,96 corresponde a uma
probabilidade cumulativa que é frequentemente utilizada no
cálculo de intervalos de confiança de 95%, um conceito central
em inferência estatística. Esse uso reflete a importância dos
valores Z na avaliação da significância estatística de diferenças
observadas, um aspecto fundamental na validação de
hipóteses científicas.
Entender a interpretação e aplicação dos valores Z requer
uma compreensão da distribuição normal e de seus parâmetros
– a média e o desvio padrão. Esta compreensão é reforçada
pela prática de calcular e interpretar escores Z, uma habilidade
desenvolvida através do estudo e aplicação de conceitos
65BIOESTATÍSTICA
U
ni
da
de
2
estatísticos. A capacidade de interpretar corretamente os valores
Z e aplicá-los em análises bioestatísticas é, portanto, essencial
para pesquisadores que buscam extrair insights significativos de
seus dados.
Em resumo, os valores Z são uma ferramenta estatística
poderosa na bioestatística, oferecendo uma maneira padronizada
de entender a posição e a probabilidade de ocorrência de
valores dentro de uma distribuição normal. A habilidade de
interpretar esses valores permite aos pesquisadores realizar
análises estatísticas rigorosas, contribuindo para a precisão e a
confiabilidade das conclusões científicas.
Aplicações da Tabela Z
Determinação de intervalos de
confiança: como a tabela Z é usada
para calcular intervalos de confiança
A tabela Z desempenha um papel crucial na determinação
de intervalos de confiança, uma das aplicações mais importantes
na bioestatística. Os intervalos de confiança são usados para
estimar a margem de erro associada a uma estimativa de
parâmetro populacional, como a média, fornecendo uma faixa de
valores prováveis em que o parâmetro real pode ser encontrado.
A utilização da tabela Z para calcular esses intervalos baseia-se
na distribuição normal padrão e na relação entre escores Z e
probabilidades cumulativas.
Para calcular um intervalo de confiança usando a tabela Z,
primeiramente é necessário escolher o nível de confiança desejado
para a estimativa, como 95% ou 99%. Esses níveis de confiança
correspondem a valores Z específicos na tabela, que indicam
quantos desvios padrão um valor deve estar da média da distribuição
normal padrão para abranger a porcentagem escolhida de todos os
66 BIOESTATÍSTICA
U
ni
da
de
2
possíveis valores da amostra. Por exemplo, um nível de confiança de
95% geralmente corresponde a um escore Z de aproximadamente
1,96, indicando que a média da amostra está dentro de 1,96 desvios
padrão da média populacional 95% das vezes.
O cálculo do intervalo de confiança envolve a adição e
subtração do produto do escore Z correspondente ao nível de
confiança escolhido pelo erro padrão da estimativa da média. Esta
operação matemática fornece os limites superior e inferior do
intervalo, dentro do qual o pesquisador pode afirmar, com o nível
de confiança escolhido, que o parâmetro populacional reside.
Esta metodologia é aplicável a uma variedade de parâmetros
estatísticos além da média, incluindo proporções e diferenças
entre médias, desde que as condições para a aplicação do teorema
do limite central sejam atendidas.
A importância de calcular intervalos de confiança
corretamente não pode ser subestimada na bioestatística. Eles
são fundamentais na apresentação de resultados de pesquisas,
permitindo que pesquisadores comuniquem a precisão de suas
estimativas e forneçam um contexto para a interpretação dos
resultados. Intervalos de confiança estreitos indicam uma alta
precisão da estimativa, enquanto intervalos mais largos sugerem
maior incerteza. A habilidade de determinar e interpretar
intervalos de confiança é, portanto, essencial para a prática eficaz
da bioestatística, apoiando a tomada de decisões informada em
pesquisa médica e saúde pública.
Testes de hipóteses com a Tabela Z:
exemplos de como realizar testes de
hipóteses utilizando a tabela Z
Os testes de hipóteses constituem uma ferramenta
estatística fundamental na bioestatística, permitindo aos
pesquisadores tomar decisões sobre a validade de afirmações
67BIOESTATÍSTICA
U
ni
da
de
2
relativas a parâmetros populacionais com base em dados
amostrais. A tabela Z, com sua capacidade de relacionar escores
Z a probabilidades cumulativas na distribuição normal padrão,
é instrumental na realização desses testes, especialmente
quando lidamos com grandes amostras. Crawley (2007) discute
a aplicabilidade do R, um software estatístico, para facilitar a
execução de testes de hipóteses, incluindo aqueles que dependem
da tabela Z para sua realização.
Para realizar um teste de hipóteses utilizando a tabela Z,
o primeiro passo é formular as hipóteses nula (H0) e alternativa
(H1). A hipótese nula geralmente propõe a ausência de efeito ou
diferença, enquanto a hipótese alternativa sugere a presençade
um efeito significativo ou diferença. O escore Z é então calculado
a partir dos dados amostrais, representando a distância entre a
estimativa amostral e o parâmetro populacional proposto sob H0,
medido em unidades de desvio padrão.
O valor Z calculado é comparado com valores críticos da
tabela Z, que correspondem ao nível de significância α escolhido
para o teste (comumente 0,05 para um teste de 5% de significância).
Se o valor Z calculado exceder o valor crítico da tabela, a hipótese
nula é rejeitada em favor da hipótese alternativa, indicando
que a diferença observada é estatisticamente significativa. Por
exemplo, em um teste bilateral com α = 0,05, os valores críticos
da tabela Z são aproximadamente ±1,96. Um valor Z calculado
fora desse intervalo sugere rejeição de H0.
A utilização da tabela Z em testes de hipóteses
é particularmente útil para análises envolvendo médias
populacionais quando o desvio padrão da população é conhecido
e o tamanho da amostra é grande (n > 30). Este método é aplicável
em uma variedade de contextos em bioestatística, desde a
avaliação da eficácia de novos tratamentos até a comparação de
taxas de incidência de doenças entre diferentes populações.
68 BIOESTATÍSTICA
U
ni
da
de
2
Crawley (2007) enfatiza a importância do software R na
execução desses testes, destacando como o R pode ser usado
para calcular escores Z, determinar probabilidades cumulativas e
realizar testes de hipóteses de forma eficiente. O R não apenas
simplifica os cálculos necessários, mas também proporciona uma
plataforma para a visualização de dados e resultados, facilitando a
interpretação e comunicação das conclusões.
Análise de dados normalizados:
utilização da tabela Z em conjuntos de
dados normalizados
A utilização da tabela Z em conjuntos de dados
normalizados é uma prática comum em bioestatística, permitindo
aos pesquisadores realizar análises estatísticas sofisticadas com
uma precisão aumentada. Normalizar os dados, ajustando-os
para que sigam uma distribuição normal padrão, é um passo
preparatório essencial que facilita o uso de técnicas estatísticas
baseadas na distribuição normal. Crawley (2007) aborda a
importância de se trabalhar com dados normalizados e como o
software R pode ser utilizado para aplicar e interpretar a tabela Z
em tais conjuntos de dados.
Dados normalizados, ou dados transformados para se
adequarem à distribuição normal padrão, são essenciais para a
aplicação eficaz de testes de hipóteses e para a determinação
de intervalos de confiança utilizando a tabela Z. A normalização
dos dados reduz as discrepâncias causadas por variações na
escala ou distribuição dos dados originais, permitindo uma
comparação mais direta e significativa entre diferentes conjuntos
de dados ou variáveis.
Ao aplicar a tabela Z a dados normalizados, os
pesquisadores podem calcular facilmente probabilidades,
69BIOESTATÍSTICA
U
ni
da
de
2
determinar significâncias estatísticas e fazer inferências sobre
a população a partir da qual a amostra foi retirada. Isso é
particularmente útil em estudos que envolvem a comparação
de médias, avaliação da eficácia de tratamentos ou análise de
tendências em dados biomédicos. A tabela Z, com seus escores
padronizados, oferece um meio conveniente de identificar valores
que se desviam significativamente da média esperada, indicando
potenciais áreas de interesse ou preocupação em pesquisas
médicas e de saúde pública.
Crawley (2007) também destaca como o R pode ser usado
para normalizar dados e aplicar a tabela Z, através de uma série
de funções e pacotes estatísticos integrados que automatizam
esses processos. O R não só facilita a normalização de dados, mas
também fornece ferramentas para calcular escores Z e interpretar
os resultados de maneira visual, através de gráficos e tabelas
que ilustram a distribuição dos dados e as áreas sob a curva
normal padrão.
Em resumo, a análise de dados normalizados utilizando
a tabela Z é uma técnica poderosa na bioestatística, permitindo
aos pesquisadores realizar análises precisas e confiáveis.
A normalização de dados e a subsequente aplicação de escores
Z facilitam a interpretação estatística e a tomada de decisões
baseadas em evidências.
RESUMINDO
E então? Gostou do que lhe mostramos?
Aprendeu mesmo tudinho? Agora, só para termos
certeza de que você realmente entendeu o
tema de estudo, vamos recapitular os conceitos
fundamentais. A tabela “z” é uma ferramenta
indispensável na bioestatística, utilizada para
determinar a probabilidade associada a um
valor “z” específico. Este conhecimento é
70 BIOESTATÍSTICA
U
ni
da
de
2
crucial para testar hipóteses e interpretar a
variabilidade dos dados em relação à média da
população. Compreender a tabela “z” permite
aos pesquisadores quantificar a significância
estatística de seus resultados, um passo essencial
na validação de estudos e pesquisas.
As aplicações da tabela “z” estendem-se por
diversos aspectos da análise estatística, desde
a determinação de intervalos de confiança até
a realização de testes de hipóteses. A habilidade
de utilizar corretamente essa tabela fortalece
a capacidade de tomar decisões baseadas
em evidências, um componente chave na
pesquisa bioestatística. Esse conhecimento é
particularmente valioso quando se lida com
grandes conjuntos de dados, onde a precisão
na estimativa de parâmetros populacionais
pode influenciar diretamente a interpretação
dos resultados.
Finalmente, a prática com o software R introduz
uma dimensão prática ao aprendizado, permitindo
aos estudantes aplicar a teoria à análise de dados
reais. Aprender a calcular e interpretar valores “z”
no R não só automatiza processos estatísticos,
mas também proporciona uma compreensão
mais profunda do comportamento dos dados.
Este capítulo, portanto, não apenas equipa os
estudantes com as ferramentas necessárias para
aplicar a tabela “z” em análises bioestatísticas,
mas também promove uma reflexão crítica sobre
a importância de técnicas estatísticas rigorosas na
pesquisa científica. Está preparado para aplicar
esses conhecimentos e contribuir com confiança
para o campo da bioestatística? Avançamos juntos
na jornada de descoberta e aplicação de conceitos
estatísticos fundamentais.
71BIOESTATÍSTICA
U
ni
da
de
2
Tipificação de respostas
individuais
OBJETIVO
Ao final deste capítulo, você estará apto a
reconhecer e analisar os diversos tipos de
respostas individuais encontradas em estudos
bioestatísticos. Esta competência é crucial
para o exercício de sua profissão, visto que a
interpretação correta dos dados coletados é a base
para conclusões científicas sólidas e confiáveis.
Muitos que se aventuraram na análise de dados
sem compreender a natureza e as implicações dos
diferentes tipos de respostas enfrentaram desafios
significativos, resultando em interpretações
errôneas ou conclusões imprecisas. E então? Está
pronto para se aprofundar nesse conhecimento
fundamental e evitar esses obstáculos comuns?
Vamos lá!
Tipos de respostas em
bioestatística
Respostas binárias e contínuas:
definição e exemplos de cada tipo
No campo da bioestatística, compreender os diferentes
tipos de respostas coletadas em pesquisas e experimentos
é fundamental para a escolha adequada de métodos de
análise. Entre esses tipos, as respostas binárias e contínuas são
particularmente comuns e essenciais para muitos estudos na área
da saúde e da medicina.
Respostas binárias, como o nome sugere, são aquelas
que se enquadram em uma de duas categorias possíveis. Essas
categorias geralmente representam a presença ou ausência
72 BIOESTATÍSTICA
U
ni
da
de
2
de um atributo, como doença (sim ou não), sucesso ou falha de
um tratamento e resposta ou não resposta a uma intervenção.
Esse tipo de resposta é fundamental em estudos clínicos e
epidemiológicos, onde a ocorrência de eventos de interesse
precisa ser claramente definida e contabilizada. A análise de dados
bináriosfrequentemente recorre a técnicas específicas, como
testes qui-quadrado ou modelos de regressão logística, que são
desenhados para lidar com a natureza dicotômica desses dados.
Por outro lado, as respostas contínuas referem-se a
variáveis que podem assumir qualquer valor dentro de um
intervalo. Exemplos comuns incluem a medição de pressão
arterial, níveis de glicose no sangue, ou a duração de uma doença.
Essas respostas são valiosas para explorar variações quantitativas
em características ou estados de saúde e frequentemente são
analisadas utilizando métodos estatísticos que assumem uma
distribuição de dados, como a análise de variância (ANOVA) ou
modelos de regressão linear.
A distinção entre respostas binárias e contínuas é crucial
não apenas para a análise estatística apropriada, mas também
para o desenho da pesquisa e coleta de dados. Cada tipo de
resposta oferece informações diferentes sobre o fenômeno de
interesse e requer uma abordagem metodológica específica para
sua análise. Enquanto respostas binárias podem ser mais simples
de coletar e interpretar, as contínuas oferecem uma riqueza
de informações quantitativas que podem ser essenciais para
entender as nuances de um problema de pesquisa.
Categorização e codificação de
respostas: como preparar dados de
pesquisa para análise
A preparação de dados de pesquisa para análise é
um passo crítico no processo de bioestatística, envolvendo a
categorização e codificação de respostas coletadas durante a fase
73BIOESTATÍSTICA
U
ni
da
de
2
de coleta de dados. Este processo não apenas facilita a análise
estatística subsequente, mas também garante que os dados
reflitam com precisão as variáveis de interesse e as hipóteses
de pesquisa. A categorização e a codificação transformam dados
brutos - frequentemente textuais ou numéricos de forma livre - em
formatos padronizados e quantitativos que podem ser facilmente
manipulados por software estatístico.
A categorização envolve a classificação de respostas em
grupos ou categorias mutuamente exclusivas que representam
diferentes níveis ou tipos de uma variável. Este processo é
essencial quando se lida com variáveis qualitativas, como o
tipo de tratamento, categorias de doenças, ou respostas a
questionários com opções múltiplas. A categorização ajuda a
simplificar e organizar os dados, facilitando a identificação de
padrões ou tendências durante a análise. Por exemplo, respostas
a uma pergunta sobre o nível de satisfação com um tratamento
podem ser categorizadas em “satisfeito”, “neutro” e “insatisfeito”,
permitindo aos pesquisadores quantificar e analisar a satisfação
dos pacientes de forma eficaz.
A codificação, por sua vez, refere-se à atribuição de códigos
numéricos a categorias ou respostas individuais. Esse processo é
crucial para a análise estatística, pois permite a transformação de
dados qualitativos em quantitativos. Por exemplo, as categorias
de satisfação mencionadas anteriormente podem ser codificadas
como 1 para “satisfeito”, 2 para “neutro”, e 3 para “insatisfeito”.
A codificação facilita a realização de análises estatísticas, como a
comparação de médias ou a aplicação de modelos de regressão,
que dependem de dados numéricos.
A escolha de categorias e a atribuição de códigos devem
ser feitas de maneira cuidadosa e deliberada, refletindo as
perguntas de pesquisa e os objetivos do estudo. Uma codificação
74 BIOESTATÍSTICA
U
ni
da
de
2
inadequada ou uma categorização imprecisa podem levar
a interpretações errôneas dos dados ou mascarar relações
significativas entre as variáveis. Além disso, é importante que
o processo de categorização e codificação seja consistente em
todo o conjunto de dados, garantindo a comparabilidade e a
confiabilidade das análises.
Importância das respostas individuais:
impacto no desenho do estudo e na
interpretação dos resultados
A compreensão e a análise das respostas individuais
ocupam um lugar central na bioestatística, influenciando tanto
o desenho do estudo quanto a interpretação dos resultados.
As respostas individuais fornecem os dados brutos a partir dos
quais pesquisadores podem extrair insights e conclusões sobre
fenômenos de saúde. Elas refletem a variabilidade inerente às
populações estudadas, destacando diferenças e semelhanças que
podem ser cruciais para compreender os mecanismos subjacentes
a doenças, respostas a tratamentos e outros fatores de saúde.
A importância das respostas individuais vai além da
mera coleta de dados; elas impactam diretamente no desenho
do estudo, influenciando a escolha do tamanho da amostra, os
métodos de coleta de dados e as técnicas de análise estatística.
Um entendimento profundo das respostas individuais permite aos
pesquisadores identificar padrões e tendências que podem não
ser evidentes em análises agregadas, possibilitando a identificação
de subgrupos de pacientes que podem responder diferentemente
a um tratamento, por exemplo.
Além disso, as respostas individuais têm um impacto
significativo na interpretação dos resultados. A análise detalhada
75BIOESTATÍSTICA
U
ni
da
de
2
dessas respostas pode revelar insights sobre a variabilidade da
resposta ao tratamento, fatores de risco para doenças e potenciais
efeitos colaterais de intervenções médicas. Reconhecer e entender
essa variabilidade é essencial para a elaboração de conclusões
precisas e para a formulação de recomendações clínicas baseadas
em evidências.
A análise de respostas individuais também contribui para
a personalização da medicina, um campo em rápida expansão que
busca adaptar intervenções médicas às características específicas
de cada paciente. Ao examinar as respostas individuais, os
pesquisadores podem identificar biomarcadores ou padrões
comportamentais que predizem a eficácia de tratamentos
específicos, levando a terapias mais direcionadas e efetivas.
Em resumo, as respostas individuais desempenham um
papel fundamental em todas as fases da pesquisa bioestatística,
desde o planejamento inicial do estudo até a interpretação final
dos dados. Sua análise cuidadosa é indispensável para o avanço
do conhecimento científico no campo da saúde, destacando
a necessidade de métodos estatísticos sofisticados e de uma
abordagem meticulosa no desenho de pesquisa.
Análise de Respostas Individuais
Técnicas de Análise: abordagens para
análise de diferentes tipos de dados
de resposta
A análise de respostas individuais em bioestatística envolve
uma variedade de técnicas e abordagens que são selecionadas com
base no tipo de dados de resposta coletados em um estudo. Essas
técnicas são essenciais para extrair informações significativas
76 BIOESTATÍSTICA
U
ni
da
de
2
dos dados, permitindo aos pesquisadores compreender padrões,
tendências e associações dentro de suas áreas de estudo.
A obra de Crawley (2007) serve como uma referência valiosa para
pesquisadores que buscam aplicar essas técnicas no software
R, oferecendo orientações detalhadas sobre como manipular,
analisar e interpretar diferentes tipos de dados de resposta.
Para dados de resposta binária, técnicas como análise
de frequência e testes qui-quadrado são comumente utilizadas
para examinar a relação entre variáveis categóricas. Modelos
de regressão logística também são aplicados para investigar
a influência de uma ou mais variáveis independentes sobre
uma variável dependente binária. Essas técnicas permitem aos
pesquisadores avaliar a probabilidade de ocorrência de um
evento, como a eficácia de um tratamento médico ou a presença
de uma condição de saúde.
No caso de dados de resposta contínua, métodos como
a análise de variância (ANOVA) e modelos de regressão linear
são frequentemente empregados. A ANOVA é útil para comparar
médias entre grupos, enquanto a regressão linear pode identificar
relações lineares entre variáveis contínuas. Essas técnicas são
fundamentais para explorar como variáveis independentes afetam
uma variável dependente contínua, facilitandoa compreensão de
fenômenos complexos em estudos de saúde.
Dados categóricos ordinais, que representam categorias
com uma ordem natural, podem ser analisados usando testes de
tendência ou modelos de regressão ordinal. Essas abordagens
ajudam a entender como as categorias ordenadas se relacionam
umas com as outras e com outras variáveis no estudo. A escolha da
técnica apropriada depende da natureza dos dados e dos objetivos
específicos da pesquisa, exigindo uma compreensão profunda das
propriedades estatísticas dos métodos selecionados.
77BIOESTATÍSTICA
U
ni
da
de
2
Crawley (2007) destaca a importância de selecionar a
técnica de análise mais apropriada para o tipo de dados coletados,
enfatizando a necessidade de uma abordagem cuidadosa na
preparação e análise dos dados. O R, com sua ampla gama de
pacotes e funções estatísticas, oferece aos pesquisadores as
ferramentas necessárias para aplicar essas técnicas de forma
eficaz. Além disso, o R facilita a visualização de dados, permitindo
aos pesquisadores apresentar seus resultados de maneira
clara e informativa.
Em resumo, a análise de respostas individuais em
bioestatística requer uma abordagem metodológica rigorosa e o
uso de técnicas estatísticas adequadas. A orientação fornecida
por Crawley (2007) sobre o uso do R para essas análises é um
recurso inestimável para pesquisadores que buscam extrair
insights significativos de seus dados. Dominar essas técnicas e
aplicá-las corretamente é crucial para avançar na compreensão de
questões de saúde e contribuir para a base de conhecimento em
bioestatística e áreas relacionadas.
Interpretação dos resultados: como
interpretar os resultados das análises
de respostas individuais
A interpretação dos resultados das análises de respostas
individuais é uma etapa crítica na pesquisa bioestatística, pois é
nesse momento que os dados brutos transformam-se em insights
significativos e conclusões científicas. Crawley (2007) ressalta a
importância de uma interpretação cuidadosa e metodológica dos
resultados, guiada por uma compreensão profunda dos métodos
estatísticos utilizados e dos objetivos da pesquisa. Este processo
envolve não apenas a análise dos dados através de técnicas
estatísticas, mas também a avaliação de como esses resultados se
78 BIOESTATÍSTICA
U
ni
da
de
2
enquadram no contexto mais amplo do estudo e do conhecimento
existente na área.
Para interpretar os resultados das análises de respostas
individuais efetivamente, é essencial considerar a precisão das
estimativas, a significância estatística dos achados e a relevância
clínica ou biológica dessas descobertas. A precisão das estimativas
é frequentemente avaliada por meio de intervalos de confiança,
que fornecem uma faixa dentro da qual o verdadeiro valor
do parâmetro está provavelmente localizado. A significância
estatística, por outro lado, é determinada pelos valores-p obtidos
nas análises, os quais indicam a probabilidade de observar os
resultados obtidos, ou mais extremos, sob a hipótese nula.
Além disso, a interpretação dos resultados requer
uma consideração cuidadosa das limitações dos dados e dos
métodos de análise utilizados. Isso inclui a avaliação da potencial
presença de viés, a influência de variáveis confundidoras e a
generalizabilidade dos resultados para outras populações ou
contextos. A interpretação responsável e precisa dos resultados
das análises é fundamental para evitar conclusões errôneas e para
garantir que as contribuições à base de conhecimento científico
sejam válidas e confiáveis.
Crawley (2007) também enfatiza a importância
da visualização de dados como uma ferramenta para a
interpretação dos resultados. Gráficos e visualizações podem
revelar padrões, tendências e relações nos dados que
podem não ser imediatamente aparentes através de análises
estatísticas quantitativas sozinhas. Essas visualizações podem
facilitar a comunicação dos resultados para um público mais
amplo, incluindo outros pesquisadores, profissionais de saúde
e decisores políticos, garantindo que as descobertas sejam
compreendidas e aplicadas de maneira eficaz.
79BIOESTATÍSTICA
U
ni
da
de
2
Erros Comuns e como evitá-los:
discussão sobre erros frequentes na
análise de dados e como prevenir
Na análise de dados bioestatísticos, especialmente no que
concerne às respostas individuais, certos erros são frequentemente
encontrados, podendo comprometer a validade e a confiabilidade
das conclusões da pesquisa. A conscientização sobre esses erros
comuns e as estratégias para evitá-los são fundamentais para a
integridade da pesquisa em bioestatística. Este conhecimento é
crucial não apenas para pesquisadores iniciantes, mas também
para aqueles com experiência, assegurando que as análises
realizadas sejam robustas e confiáveis.
Um erro comum na análise de dados é a má interpretação
dos resultados estatísticos, como a confusão entre significância
estatística e relevância clínica. Enquanto a significância estatística
pode indicar uma diferença estatisticamente significativa entre
grupos, isso não necessariamente implica que tal diferença seja
clinicamente importante. Para evitar esse erro, os pesquisadores
devem sempre contextualizar os resultados estatísticos dentro
do quadro clínico ou biológico relevante, considerando as
implicações práticas de suas descobertas.
Outro erro frequente é o uso inadequado de testes
estatísticos, resultante de uma compreensão insuficiente sobre as
premissas subjacentes a cada teste. Por exemplo, aplicar testes
paramétricos a dados que não seguem uma distribuição normal
ou que violam as premissas de homogeneidade de variâncias
pode levar a conclusões errôneas. A solução para este problema
reside no entendimento profundo dos pressupostos de cada teste
estatístico e na realização de verificações de premissas apropriadas
antes da sua aplicação. O uso de software estatístico, como o R,
80 BIOESTATÍSTICA
U
ni
da
de
2
pode facilitar essas verificações através de funções específicas
para testar a normalidade e a homogeneidade de variâncias.
A não consideração da variabilidade dentro dos grupos
é outro erro comum. Em muitas análises, a variabilidade das
respostas individuais pode fornecer insights valiosos sobre o
fenômeno estudado. Ignorar essa variabilidade pode resultar
em uma compreensão superficial dos dados. A utilização de
gráficos de dispersão ou box plots no R pode ajudar a visualizar
a variabilidade dos dados e a identificar possíveis outliers, que
podem influenciar os resultados das análises.
Por fim, a sobreinterpretação de dados é um erro
que pesquisadores devem diligentemente evitar. Isso ocorre
quando conclusões são tiradas de dados que não suportam tais
interpretações, seja por causa do tamanho da amostra, da falta
de repetibilidade dos resultados ou da aplicação de análises
estatísticas inadequadas. Uma abordagem crítica e cautelosa,
juntamente com a consulta de literatura científica relevante e a
colaboração com colegas e estatísticos, pode prevenir esse tipo
de erro.
Em resumo, a prevenção de erros comuns na análise de
dados em bioestatística requer uma combinação de conhecimento
técnico profundo, pensamento crítico e uma abordagem meticulosa
à interpretação dos resultados. Aprofundar o entendimento das
técnicas estatísticas, juntamente com o uso eficaz de ferramentas
como o R, conforme discutido em obras como a de Crawley (2007),
é essencial para realizar análises rigorosas e gerar conhecimento
científico válido e confiável.
Estudo de caso no R
Trabalharemos agora com mais exemplos práticos para
suplantar os conhecimentos teóricos obtidos. A determinação
81BIOESTATÍSTICA
U
ni
da
de
2
da área central de 95% sob a curva normal pode ser resolvida,
conforme destacamos anteriormente, pelo procedimento
de integração. Para tanto, necessitaríamos definir a função
matemática sob a qual desejamos calcular a área compreendida
entre duas coordenadas quaisquer, proposta porGauss, integrar
essa função entre essas duas coordenadas: o valor obtido será a
área percentual em relação à área total, sob toda a função de -∞ a
+∞, que corresponderia a 100%.
Para um exemplo específico na agropecuária, a respeito
do peso ao abate de suínos (média de 90 kg e desvio-padrão 12kg),
se o valor de X1 for a média (90 kg) e o de X2 = 100 kg, a área
relativa calculada pela integração corresponderia ao percentual da
população ali contida. Para que X1 = 100 kg fosse o limite superior
do intervalo de respostas individuais típicas, a área calculada
deveria ser de 0,4750 (47,5%), porque a outra porção estaria
simetricamente do outro lado da média, na verdade forneceria um
percentual de 29,67%.
Quando nossa variável for diferente de “z”, como identificar
o intervalo de respostas típicas do peso de abate de suínos,
com os valores de média e desvio-padrão reportados? A relação
transforma qualquer variável biológica normalmente
distribuída em distribuição padrão “z”. Como os valores de “z” que
limitam o grupo de respostas típicas (95% da população) são -1,96
e 1,96, a relação para cálculo dos escores “z” nos fornecerá os
mesmos limites para qualquer variável normal, ou seja:
Em que será a menor resposta típica e
será a maior resposta típica. O intervalo de e
é denominado intervalo de respostas típicas individuais, ou o
intervalo de confiança que corresponde a 95% das observações
82 BIOESTATÍSTICA
U
ni
da
de
2
dispersas em torno da média. Logo, o peso de abate de suínos
será:
Adicionalmente, considerando que 300 animais foram
empregados para descrever a variável peso ao abate, 95%
deles (285), estarão probabilisticamente no intervalo definido.
O domínio do cálculo de probabilidade envolvendo a curva normal
fundamenta a teoria estatística que permitirá a comparação de
grupos experimentais. A distribuição “z”, entretanto, possibilita
algumas aplicações práticas em que a resposta individual é o alvo
do usuário. Vejamos duas situações práticas a seguir.
Consideremos uma granja de aves caracterizada por uma
produção média diária de 3000 ovos, que pesam em média 55
gramas e com desvio-padrão de 12 gramas, a qual vende seus
produtos segundo os respectivos pesos. Uma panificadora deseja
reservar diariamente 30 dúzias de ovos industriais (com peso
inferior a 38 gramas), por serem mais baratos, para a fabricação
de pães e bolos. Será que a granja poderá atender a esse pedido?
Imagem 2.31 - Exemplo da granja
Z=-1,42
Fonte: Elaborado pela autoria (2024).
83BIOESTATÍSTICA
U
ni
da
de
2
Se x = 38 gramas então seu valor correspondente em uma
distribuição de “z” será .
Na imagem anterior, a área entre -1,42 e 0 é de 0,422.
Porém, a área de interesse de ovos industriais mais leves que
38 gramas correspondem à área inferior à z=-1,42. Portanto, a
probabilidade de encontrar ovos mais leves que 38g na granja será
a diferença entre o valor de probabilidade da metade da curva
normal (0,5) e o valor de “z” obtido. Em outras palavras: P(X≤38g) =
0,50 – 0,422 = 0,0778 ou 7,78% dos ovos.
Uma vez que a granja produz 3000 ovos por dia,
multiplicando 3000 vezes o valor de probabilidade de 0,0778,
temos que 233,4 ovos serão de natureza industrial, ou seja, abaixo
de 38 gramas. Isso significa que a granja não poderá fornecer o
montante pedido de 300 ovos comerciais. Logo, a panificadora
deverá encontrar mais fornecedores ou outro fornecedor para
atender a sua demanda.
Vamos considerar um outro exemplo, de abatedouro
de suínos. Caso esse abatedouro se interesse por animais com
peso mínimo de 90kg [P(X≥90kg)], qual a porcentagem de animais
que estará apta para o abate quando a média do lote for de 95kg
e o desvio-padrão de 15kg?
Imagem 2.32 - Exemplo do abatedouro
Fonte: Elaborado pela autoria (2024).
Z=-0,33
84 BIOESTATÍSTICA
U
ni
da
de
2
A área correspondente ao intervalo de “z” de -0,33 a
0 (ou de 90 a 95kg na distribuição original) é de 0,1293. Logo, a
probabilidade de encontrar animais com no mínimo 90kg naquele
grupo é de 0,1293 + 0,5 = 0,6293 ou 62,93%.
Na experimentação em bioestatística, a utilização de
desempenhos individuais será muito restrita. Os ensaios, em
sua maioria, desejarão comparar médias de tratamentos e não
tipificar possíveis respostas individuais. Assim sendo, nosso
interesse passa a ser não em como a maioria dos indivíduos pode
responder a um tratamento, mas como a média de indivíduos
tratados igualmente pode variar de um experimento para outro.
Isso significa que estaremos procurando um intervalo que englobe
95% de todas as médias possíveis de serem encontradas quando
utilizarmos indivíduos sob um mesmo tratamento - esse será o
intervalo de confiança da média.
RESUMINDO
E então? Gostou do que lhe mostramos? Aprendeu
mesmo tudinho? Agora, só para termos certeza de
que você realmente entendeu o tema de estudo,
vamos revisitar os conceitos-chave abordados.
Inicialmente, exploramos os tipos de respostas
em bioestatística, destacando a importância de
distinguir entre respostas binárias, contínuas e
categóricas. Essa distinção é fundamental para
a seleção de métodos estatísticos adequados e
para a interpretação correta dos resultados de
uma pesquisa. Compreender as características de
cada tipo de resposta permite aos pesquisadores
aplicar técnicas analíticas precisas, aumentando a
validade das conclusões extraídas dos dados.
85BIOESTATÍSTICA
U
ni
da
de
2
Avançamos para a análise de respostas individuais,
enfatizando como a abordagem correta para cada
tipo de resposta pode revelar insights significativos
sobre os dados. Discutimos métodos para analisar
variabilidade, tendências e padrões em respostas
individuais, e como essas análises contribuem
para a compreensão mais ampla dos fenômenos
estudados. Esta seção reforçou a ideia de que
uma análise cuidadosa, considerando a natureza
específica dos dados, é essencial para extrair
informações valiosas e para fundamentar decisões
baseadas em evidências.
Por fim, exploramos estudos de caso no R,
demonstrando a aplicabilidade prática dos
conceitos teóricos discutidos. O uso do R como
uma ferramenta para reproduzir tipos de
respostas individuais em análises bioestatísticas
exemplificou como a teoria se traduz em prática.
Estes exemplos práticos serviram para ilustrar a
importância de combinar conhecimento teórico
com habilidades analíticas no software, reforçando
a competência dos pesquisadores em conduzir
análises estatísticas rigorosas e significativas.
Resumindo, este capítulo forneceu uma
base sólida para entender e analisar os tipos
de respostas individuais em bioestatística,
enfatizando a importância de abordagens
metodológicas apropriadas e a aplicação prática
dessas abordagens no R. Com essa compreensão,
você está agora melhor equipado para enfrentar
os desafios da análise de dados em bioestatística,
contribuindo para o avanço da pesquisa científica
com rigor e precisão.
86 BIOESTATÍSTICA
U
ni
da
de
2
CEP – Controle Estatístico do Processo. Reduzir o desperdício.
Datalyzer, [s. d.]. Disponível em: https://www.datalyzer.com.br/
site/suporte/administrador/info/arquivos/info73/73.html. Acesso
em: 27 jan. 2024.
CRAWLEY, M. J. The R book. San Francisco: John Wiley & Sons, 2007.
RE
FE
RÊ
N
CI
A
S
Software estatístico R
Introdução ao R e instalação do software: primeiros passos
O que é R? Breve história e a importância do R na bioestatística
Ambiente de Trabalho: descrição da interface, pacotes básicos e como personalizar o ambiente R
Primeiros passos: instalação do R e do RStudio, configuração inicial e introdução aos scripts básicos
Conhecendo e manipulando os dados com R
Importação de dados: como ler dados de diferentes formatos
Limpeza e preparação de dados: técnicas para tratar dados faltantes, remover duplicatas e transformar variáveis
Análise exploratória de dados: uso de estatísticas descritivas e visualizações básicas para explorar os dados
Análiseestatística básica
Testes de hipóteses: como realizar testes estatísticos básicos no R
Modelos lineares e não lineares: introdução à construção e interpretação de modelos estatísticos
Relatórios e publicação: como usar o R Markdown para criar relatórios e apresentações de análises
Distribuição normal de probabilidade
Conceitos fundamentais
Definição de distribuição de probabilidade
Definição de distribuição normal: cálculos e características
Testes estatísticos de distribuição normal
Teorema do Limite Central
Entendendo o teorema: explicação e significado na estatística
Simulações no R: como simular e visualizar o teorema do limite central usando R
Importância do teorema para a Bioestatística: por que é fundamental entender o Teorema do Limite Central
Normalização de dados
Por que normalizar? Razões para normalizar dados antes da análise
Técnicas de normalização: como e quando aplicar transformações de dados
Exemplos práticos no R: demonstração de técnicas de normalização em conjuntos de dados reais
Tabela “z”
Entendendo a Tabela Z
O que é a Tabela Z? Definição e estrutura da tabela
Cálculo de probabilidades: como usar a tabela Z para calcular probabilidades
Interpretação dos valores Z: o que os valores significam em termos de probabilidade e posição na distribuição normal
Aplicações da Tabela Z
Determinação de intervalos de confiança: como a tabela Z é usada para calcular intervalos de confiança
Testes de hipóteses com a Tabela Z: exemplos de como realizar testes de hipóteses utilizando a tabela Z
Análise de dados normalizados: utilização da tabela Z em conjuntos de dados normalizados
Tipificação de respostas individuais
Tipos de respostas em bioestatística
Respostas binárias e contínuas: definição e exemplos de cada tipo
Categorização e codificação de respostas: como preparar dados de pesquisa para análise
Importância das respostas individuais: impacto no desenho do estudo e na interpretação dos resultados
Análise de Respostas Individuais
Técnicas de Análise: abordagens para análise de diferentes tipos de dados de resposta
Interpretação dos resultados: como interpretar os resultados das análises de respostas individuais
Erros Comuns e como evitá-los: discussão sobre erros frequentes na análise de dados e como prevenir
Estudo de caso no RU
ni
da
de
2
A
PR
ES
EN
TA
ÇÃ
O
Você sabia que ter conhecimentos aprofundados sobre
tecnologia é um dos fatores mais importantes na área de
Bioestatística, que será responsável pela geração de muitos
empregos nos próximos anos? Isso mesmo. Nesta unidade,
você será apresentado à distribuição normal de probabilidade,
aprenderá a utilizar a tabela “z” e conseguirá tipificar respostas
individuais para uma determinada variável aleatória. Para guiar
seu aprendizado de forma efetiva, serão apresentados exemplos
práticos de como aplicar esses conceitos em seu dia a dia na
profissão. Então vamos juntos iniciar essa jornada!
10 BIOESTATÍSTICA
U
ni
da
de
2
O
BJ
ET
IV
O
S
Olá. Seja muito bem-vindo à Unidade 2. Nosso objetivo
é auxiliar você no desenvolvimento das seguintes competências
profissionais até o término desta etapa de estudos:
1. Definir o essencial sobre o software estatístico R.
2. Exemplificar o que é uma distribuição normal de
probabilidade.
3. Utilizar a tabela “z” em análises bioestatísticas.
4. Reproduzir os tipos de respostas individuais.
11BIOESTATÍSTICA
U
ni
da
de
2
Software estatístico R
OBJETIVO
O objetivo deste capítulo é equipar o leitor com uma
compreensão fundamental do software estatístico
R, desde a instalação inicial e familiarização com o
ambiente de trabalho até a manipulação e análise
básica de dados estatísticos. Ao término deste
capítulo, o leitor será capaz de instalar e configurar
o R, entender como importar, limpar e preparar
conjuntos de dados para análise, e realizar análises
estatísticas básicas, incluindo testes de hipóteses
e interpretação de resultados. Este conhecimento
não só é essencial para a realização de análises
bioestatísticas eficazes, mas também constitui a
base para o desenvolvimento de competências
mais avançadas em estatística e pesquisa em
bioestatística. E então? Motivado para desenvolver
essa competência vital? Vamos lá!
Introdução ao R e instalação do
software: primeiros passos
O que é R? Breve história
e a importância do R na
bioestatística
O software estatístico R tem se estabelecido como uma
ferramenta indispensável na bioestatística, um campo que exige
precisão, flexibilidade e eficiência na análise de dados. A origem
do R remonta ao início dos anos 90, fruto do trabalho de Ross
Ihaka e Robert Gentleman na Universidade de Auckland, Nova
Zelândia. Desde então, evoluiu de uma alternativa ao S, um sistema
estatístico comercial, para um ambiente estatístico abrangente
e de código aberto. Crawley (2007) destaca a importância do R,
12 BIOESTATÍSTICA
U
ni
da
de
2
não apenas como um software para análises estatísticas, mas
como um ambiente que promove a inovação e a colaboração
entre os pesquisadores.
A bioestatística, em particular, beneficia-se das
capacidades do R, permitindo aos pesquisadores realizar análises
complexas sem as limitações impostas por software proprietário.
A flexibilidade do R, com sua vasta gama de pacotes e funções,
facilita desde a execução de análises estatísticas básicas até
a modelagem de dados avançada e simulações complexas.
Segundo Crawley (2007), essa capacidade de adaptação faz do R
uma ferramenta valiosa para enfrentar os desafios estatísticos
específicos encontrados na pesquisa biomédica.
Além de sua versatilidade, a importância do R na
bioestatística está ligada à sua natureza de código aberto. Essa
característica promove uma comunidade ativa de usuários e
desenvolvedores que contribuem constantemente com novos
pacotes e melhorias, assegurando que o software permaneça
na vanguarda das necessidades analíticas contemporâneas.
A possibilidade de revisar e modificar o código promove a
transparência e a reprodutibilidade das análises científicas,
aspectos cruciais para a integridade da pesquisa em bioestatística.
Em resumo, a relevância do R para a bioestatística
transcende sua função como um mero software de análise.
Conforme apontado por Crawley (2007), e refletido nas práticas
contemporâneas de controle estatístico do processo (Datalyzer,
s.d.), o R representa um ecossistema dinâmico que estimula a
inovação, a colaboração e a eficiência em pesquisa. Sua contribuição
para a bioestatística é inestimável, fornecendo aos pesquisadores
as ferramentas necessárias para explorar a complexidade dos
dados biológicos e médicos com confiança e precisão.
13BIOESTATÍSTICA
U
ni
da
de
2
Ambiente de Trabalho: descrição
da interface, pacotes básicos e
como personalizar o ambiente R
A familiaridade com o ambiente de trabalho do R é crucial
para a realização de análises bioestatísticas eficazes. Este software
oferece uma interface que, embora inicialmente possa parecer
desafiadora, é projetada para facilitar a execução de tarefas
estatísticas complexas de maneira intuitiva. A interface do R,
composta por consoles, scripts, e múltiplas janelas de visualização,
permite uma interação direta e eficiente com os dados e as
análises em curso.
Um aspecto fundamental do trabalho com o R é a
utilização de pacotes. Os pacotes são coleções de funções, dados
e documentação que expandem as capacidades do R, permitindo
análises especializadas e aplicação de métodos estatísticos
avançados. Crawley (2007) salienta a importância dos pacotes
básicos que vêm pré-instalados com o R, bem como a facilidade de
instalar pacotes adicionais conforme necessário. Esta flexibilidade
é essencial para a bioestatística, onde os requisitos analíticos
podem variar significativamente de um projeto para outro.
Além disso, a personalização do ambiente R é uma
ferramenta poderosa para aumentar a produtividade. Usuários
podem modificar o layout da interface, escolher esquemas de
cores para facilitar a visualização de código e configurar opções
para resultados de análise. A possibilidade de criar scripts
personalizados e funções que automatizam tarefas repetitivas
economiza tempo e reduz a possibilidade de erros, um aspecto
crucial em análises bioestatísticas onde a precisão é fundamental.
14 BIOESTATÍSTICA
U
ni
da
de
2
A adoção dessas práticas não apenas melhora a eficiência
do trabalho dentro do R, mas também ajuda a garantir a
reprodutibilidade das análises. A reprodutibilidade é um pilar
da pesquisa científica, e o R facilita isso através da capacidade
de compartilhar pacotes, scripts personalizados, e ambientes de
trabalho completos. Esta característica, destacada na literatura
por especialistas como Crawley (2007), ressalta o compromisso do
R com os princípios da ciência aberta e colaborativa.
Primeiros passos: instalação do R
e do RStudio, configuração inicial e
introdução aos scripts básicos
Para realizar seu estudo, você deverá realizar instalar
o software R, que pode ser encontrado facilmente na internet.
O site chamado de CRAN – “The Comprehensive R Archive Network”,
disponibiliza o download do instalador.
ACESSE
Para baixar o software, basta acessar o QR Code
abaixo.
É importante que você esteja atento e escolha
corretamente o arquivo, uma vez que existem versões para o
Windows, MAC e Linux. Você deverá baixar o pacote adequado e
executar o programa de instalação.
Na parte de cima, você verá a tela principal do software R.
Como é possível observar, a primeira coisa que irá aparecer na
https://cran.r-project.org/
15BIOESTATÍSTICA
U
ni
da
de
2
tela é a data e o número da versão do software selecionado, em
seguida um cabeçalho explicando que não há nenhuma garantia
para esse software livre, além de alguns comandos importantes.
Abaixo do cabeçalho, uma linha em branco com o símbolo
“>” na margem esquerda aparecerá. Esse símbolo é denominado
chamado de alerta ou que o sistema está pronto para digitar;
comando digitado não está completo., como se fosse uma
maneira do software dizer “E AGORA?”, e é o espaço no qual
digitaremos os comandos.
Caso em vez de “>” apareça um “+”, significa que o último
comando digitado não está completo e será necessário digitar os
caracteres que faltam.Caso tenha errado o comando, pressione
“ESC” e o chamado de alerta “>” reaparecerá.
Imagem 2.1 - Interface do software R
Fonte: Elaborado pela autoria (2024).
Um recurso importante desse software é que ele armazena
em sua memória os comandos executados. Assim, ao teclar a seta
para cima, é possível recuperar o comando passado, podendo
corrigi-lo sem ter que digitar todo novamente. O comando
citation(), por exemplo, mostra como citar o software em seu
trabalho escrito.
16 BIOESTATÍSTICA
U
ni
da
de
2
Imagem 2.2 - Citação do software R
Fonte: Elaborado pela autoria (2024).
VOCÊ SABIA?
A utilização do R é feita basicamente por meio
da criação de comandos sobre objetos (ex.:
vetores, fatores, matrizes, listas e dataframes).
A abordagem desses conceitos não é o nosso
objetivo no momento, mas, caso você tenha o
interesse em saber mais, sugerimos a obra de
Crawley (2007). O domínio do software R tem sido
amplamente valorizado no mercado de trabalho,
de modo que encorajamos você a conhecer melhor
essa ferramenta.
A maneira mais simples de obter ajuda no R é clicar no
botão “ajuda” na barra de ferramentas do RGUI ou acessar o site
do CRAN. No entanto, se souber o nome da função sobre a qual
quer a ajuda, pode-se digitar apenas um ponto de interrogação na
linha de comando seguido do nome da função. Assim, para obter
ajuda a função read.table, basta digitar:
Imagem 2.3 - Pedindo ajuda no software R
Fonte: Elaborado pela autoria (2024).
17BIOESTATÍSTICA
U
ni
da
de
2
Para ver um exemplo trabalhado, basta utilizar o comando
“example()” escrevendo o nome da função desejada entre os
parênteses, como na imagem anterior. Uma boa maneira de ver
a gama de opções que o R oferece é utilizando a função “demo()”.
Imagem 2.4 - Utilizando o comando example()
Fonte: Elaborado pela autoria (2024).
O pacote básico do software não contém algumas das
bibliotecas que podem ser empregados por você. No entanto,
a instalação é bem simples. Basta estar conectado à internet e
executar a linha de comandos “install.packages()”, que é a função
para baixar as bibliotecas solicitadas. Após o comando, será
questionado qual o espelho mais próximo, e, após a resposta,
o restante é realizado automaticamente. Por exemplo, instale a
biblioteca “MASS” utilizando o comando a seguir - para utilizar a
biblioteca, deve-se usar a linha de comando “library(MASS)”.
18 BIOESTATÍSTICA
U
ni
da
de
2
Imagem 2.5 - Instalação de pacotes no software R: MASS
Fonte: Elaborado pela autoria (2024).
Ao escrever funções e outras seções de linha de entrada,
você perceberá que é útil usar um editor de texto em vez de
executar tudo diretamente na linha de comando.
O editor é acessado na barra de menu do “RGUI”.
Ao clicar em “Arquivo>Novo script”, o R abrirá uma janela intitulada
“Untitled – R editor”, em que se pode digitar e editar os comandos.
Assim, quando for executar uma linha de comando ou um grupo
de linhas, basta destacá-los e pressionar “CTRL + R”. As linhas
são automaticamente transferidas para a janela de comando
e executadas. Ao pressionar “CTRL + S”, o conteúdo do editor é
19BIOESTATÍSTICA
U
ni
da
de
2
salvado em um arquivo e será necessário selecionar o local e o
nome. Ao nomear o arquivo é interessante acrescentar (.R) ao
final do nome do arquivo para ficar no formato utilizado pelo
R. Os dados podem ser editados no próprio R, com o comando
“fix()”, após o banco de dados estar disponível, como, por exemplo,
utilizando a base de dados “bactéria” do pacote MASS:
Imagem 2.6 - Utilização do pacote MASS e comando de edição de dados(“fix()”)
Fonte: Elaborado pela autoria (2024).
Algumas pessoas preferem editar o banco utilizando
planilhas eletrônicas como Excel e salvar no formato “.txt”
(separado por tabulações) e depois importar os dados, ou importar
diretamente do Excel, após salvar o arquivo no formato “.csv”
(separado por vírgulas). É importante destacar que o R importa
dados em diversos formatos e de diferentes tipos de software.
Há funções para importar dados diretamente de vários tipos de
software como Minitab, S-PLUS, SPSS, SAS, Stata, etc.
Ao atribuir um nome ao banco de dados ou a um objeto,
ele ficará arquivado na memória do programa. O comando
“rm(list=ls())” funciona como uma borracha na memória do R: tudo
que estava armazenado será apagado, evitando erros em análises
subsequentes. Assim, ao iniciar uma nova análise, é indicado
utilizar o referido comando.
20 BIOESTATÍSTICA
U
ni
da
de
2
Conhecendo e manipulando os
dados com R
Importação de dados: como ler dados
de diferentes formatos
Como a utilização do R é feita por meio dos comandos
sobre os objetos (vetores, fatores, matrizes, listas e dataframes),
se faz necessário conhecer o que caracteriza cada objeto, como
cria-los e manuseá-los.
Podemos definir um vetor como uma sequência de
valores. A função “c()” é usada para criar um vetor a partir de seus
argumentos. Como exemplo, vamos criar um vetor composto por
uma sequência de números. Nesse caso, definimos como x o vetor
composto pelos números 21, 31, 51, 71 e 111. Os caracteres “impressos sem aspas e os níveis do fator são
também impressos. Além disso, os níveis de um fator podem
ser facilmente modificados, para isso basta assinalar um novo
vetor alfanumérico aos níveis do fator.
24 BIOESTATÍSTICA
U
ni
da
de
2
Suponha que temos dados de altura de 4 homens e
3 mulheres. As alturas dos homens em centímetros são: 175, 184,
180 e 182. As alturas das mulheres são: 176, 174 e 169. Na imagem
a seguir entramos com os dados e calculamos a média geral das
alturas e, também, a média para cada sexo.
Imagem 2.11 - Construção de fatores
Fonte: Elaborado pela autoria (2024).
O software R é capaz de operar matrizes e existem várias
formas de criá-las. Na imagem, foi construída uma matriz que
contém 3 colunas e 4 linhas, composta pelos números de 1 a 12.
Pode-se verificar que a matriz é preenchida ao longo das colunas.
Para inverter esse padrão, é preciso adicionar o argumento
“byrow=T”, indicando que a matriz deve ser preenchida por
25BIOESTATÍSTICA
U
ni
da
de
2
linhas. Há outras funções que podem ser usadas para construir
matrizes, como “cbind” e “rbind”, que aumentam ou criam
matrizes adicionando colunas e linhas, respectivamente. Para
acrescentar mais uma coluna, com os valores de 1 a 5 na matriz
x, podemos executar o comando “cbind()”. A fim de saber a
dimensão sobre a matriz, basta utilizar o comando “dim()”, que
retorna um vetor com o número de linhas e colunas da matriz,
nessa ordem. Adicionalmente, para transpor uma matriz, ou
seja, trocar as linhas pelas colunas, deve-se utilizar o comando
“t()”.
Podemos pedir um resumo das medidas descritivas básicas
por colunas da matriz com a execução do comando “summary()”,
por exemplo. Perceba que ele retorna o mínimo, primeiro quartil,
mediana, média, terceiro quartil e o valor máximo, ou ainda o
resumo de toda a matriz.
Imagem 2.12 - Resumo: estatística descritivas
Fonte: Elaborado pela autoria (2024).
Limpeza e preparação de dados: técnicas
para tratar dados faltantes, remover
duplicatas e transformar variáveis
As funções usuais operam em matrizes da mesma forma
que o fazem com vetores: elemento por elemento. Portanto,
multiplicar duas matrizes com um asterisco resultará no produto
de cada elemento de uma matriz pelo elemento correspondente
na outra, e não a multiplicação de matrizes usual, diferentemente
de outros tipos de software.
26 BIOESTATÍSTICA
U
ni
da
de
2
Para fazer a multiplicação de matrizes deve-se usar o
símbolo %*%. Porém, na imagem a seguir é evidenciado um erro
na operação. Isso ocorre porque as dimensões das matrizes são
diferentes. Da mesma maneira que extraímos partes de vetores
utilizando colchetes, podem ser extraídas partes de uma matriz.
No entanto, isso é um pouco mais complicado, pois a matriz é um
elemento que tem duas dimensões, ao passo que vetores têm
apenas uma. Para extrair um único elemento da matriz devem
ser usado colchetes com dois números separados por vírgula.
O primeiro número indica o número da linha, já o segundo indica
o número da coluna. Primeiramente, é necessário definir uma
matriz na qual as colunas armazenam: índices 1 a 4, idade e sexo
(“0”,”1”) de quatro pessoas.
Imagem 2.13 - Operações com matrizes
Fonte: Elaborado pela autoria (2024).
27BIOESTATÍSTICA
U
ni
da
de
2
Algo comum durante análises é querer selecionar todas as
linhas de uma matriz que obedecem a alguma condição definida
pelas colunas. Por exemplo, agora queremos extrair todas as
pessoas que têm mais de 50 anos.
Veremos a seguir que esse simples comando combina
diversas operações de uma só vez. Pode-se inspecionar parte
a parte do comando, começando pela parte interna. Essa parte
simplesmente selecionou a segunda coluna da matriz, que é um
vetor. Em seguida, utilizamos o comando ilustrado a seguir para
selecionar o vetor e verificar quais elementos são maiores que 50.
O resultado será um vetor lógico com respostas “TRUE” (Correto)
e “FALSE” (Falsa), e podemos também selecionar linhas para as
quais a condição (Idade>50) for verdadeira.
Imagem 2.14 - Seleção de elementos de uma matriz
Fonte: Elaborado pela autoria (2024).
Por fim, trataremos de outro objeto que pode ser
manipulado no R. As listas são empregadas para combinar
diferentes objetos em um único. Elas podem ser vetores, matrizes,
números e outros caracteres, até mesmo outras listas, conforme o
exemplo da imagem a seguir.
As listas são construídas com a função “list()”, e seus
componentes são introduzidos usando a forma usual de atribuir
argumentos em uma função (nome=arg). Ao digitar o nome de
uma lista, cada componente é mostrado com seu nome e valor.
Várias funções do R retornam seu resultado na forma de listas.
28 BIOESTATÍSTICA
U
ni
da
de
2
Por exemplo, a função “t.test()”, que realiza o teste “t student”,
retorna um objeto que é uma lista. Cada elemento da lista pode
ser acessado individualmente por seu nome antecedido pelo
símbolo “$”.
Imagem 2.15 - Listas
Fonte: Elaborado pela autoria (2024).
Análise exploratória de dados: uso de
estatísticas descritivas e visualizações
básicas para explorar os dados
Para realizar as análises exploratórias, os dados são
organizados em formato de quadros de dados chamados
dataframes, que são muito parecidos com matrizes, contendo
linhas e colunas e, portanto, duas dimensões. Entretanto,
diferentemente das matrizes, cada coluna pode armazenar
elementos de diferentes tipos. Por exemplo, a primeira coluna
pode ser numérica, ao passo que a segunda pode ser constituída
29BIOESTATÍSTICA
U
ni
da
de
2
de caracteres. Por isso, a coluna se torna a melhor forma de se
armazenar dados, em que cada linha corresponde a uma unidade
ou pessoa, e cada coluna representa uma medida realizada em
cada unidade.
Para analisar seus dados corretamente, há a necessidade
da montagem correta de um dataframe - na maioria dos casos
são utilizadas planilhas para inserir e editar os dados. O principal
aspecto na organização dos dados é que os valores de uma
mesma variável devem estar na mesma coluna. A maneira correta
de organizar os dados seria com apenas duas colunas (uma coluna
para a variável respostas e outra para os níveis do fator estudado).
Nesse sentido, é mostrado como organizar um dataframe na
imagem a seguir.
Imagem 2.16 - Organização do quadro de dados (dataframe)
Fonte: Elaborado pela autoria (2024).
30 BIOESTATÍSTICA
U
ni
da
de
2
Após organizar os dados no Excel, é necessário salvar o
dataframe em um formato de arquivo que possa ser lido pelo
R. A maneira mais simples é salvá-lo como texto separado por
tabulações, ou no formato “csv”, separado por vírgulas. Esse
arquivo pode então ser lido no R diretamente como um dataframe,
usando a função “read.table” ou “read.csv2”, respectivamente.
Para facilitar o comando, podemos mudar o diretório direto para a
pasta que contém os arquivos com os bancos de dados, conforme
ilustrado na imagem a seguir.
Imagem 2.17 - Mudando o diretório no R
Fonte: Elaborado pela autoria (2024).
Dentro da função read.table existem vários argumentos.
Entre os mais utilizados estão o “header”, no qual você vai
informar se o dataframe tem ou não cabeçalho com as iniciais
“T=True” (quando tiver) e “F=False” (quando não tiver). Caso não
seja informado, o programa utiliza como default “F”. O argumento
“dec” é utilizado para informar como os números decimais estão
identificados, se é por pontos ou vírgulas. O default é o ponto,
dessa forma, se os dados numéricos estiverem separados por
vírgula, deve-se utilizar dec=”,” para não ocorrer erro.
31BIOESTATÍSTICA
U
ni
da
de
2
O argumento sep é utilizado para informar como os dados
estão separados, e o default da função read.table é sep=” ”, ou seja,
a separação ocorre por espaço. Se os dados estiverem separados
por vírgulas, devemos usar sep=”,”. Caso não opte por não
mudar o diretório, deve-se informar o endereço do documento
que irá importar nos comandos “read.table” ou “read.csv2”,conforme a seguir:
Imagem 2.18 - Endereço do documento a ser importado
Fonte: Elaborado pela autoria (2024).
Após aprender a importar um dataframe para o R,
é interessante conhecer algumas funções úteis para lidar
com o banco de dados. Para visualizar somente as primeiras
linhas do dataframe, geralmente utiliza-se o comando “head()”.
Como são realizados diversos procedimentos, é conveniente
utilizar o comando “attach()” para anexar o objeto ao caminho
de procura. Dessa forma, não é preciso concatenar o caractere $
entre o nome do dataframe e da variável que será utilizada.
Análise estatística básica
Testes de hipóteses: como realizar
testes estatísticos básicos no R
A realização de testes de hipóteses é uma etapa
fundamental na análise estatística, permitindo aos pesquisadores
avaliar a validade de suposições sobre um conjunto de dados
dentro do contexto da bioestatística. O software R, com sua ampla
gama de funcionalidades estatísticas, oferece um ambiente
robusto para a execução de testes estatísticos básicos, como o
32 BIOESTATÍSTICA
U
ni
da
de
2
t-teste para comparações de médias entre dois grupos e a ANOVA
(Análise de Variância) para comparações entre três ou mais grupos.
Essas ferramentas são cruciais para testar hipóteses relacionadas
a diferenças entre grupos, sendo amplamente aplicadas em
pesquisas biomédicas e de saúde pública.
Crawley (2007) destaca a importância dos testes de
hipóteses no R, fornecendo um guia detalhado para sua execução.
O t-teste, por exemplo, é utilizado quando se deseja comparar
as médias de dois grupos independentes ou pareados para
determinar se as diferenças observadas são estatisticamente
significativas. Esse teste é fundamental em situações onde os
pesquisadores têm hipóteses específicas sobre as diferenças entre
as médias de dois grupos, como no caso de comparar a eficácia de
dois tratamentos médicos diferentes.
Por outro lado, a ANOVA é empregada quando as
comparações se estendem a três ou mais grupos, possibilitando
aos pesquisadores analisar a variância entre os grupos e dentro
deles para identificar se existe uma diferença significativa nas
médias. O uso da ANOVA no R, conforme explicado por Crawley
(2007), é particularmente útil em estudos bioestatísticos mais
complexos, onde múltiplos tratamentos ou condições são avaliados
simultaneamente. Essa análise permite uma compreensão mais
profunda das relações entre variáveis e dos efeitos de diferentes
tratamentos ou condições sobre uma variável de interesse.
Além disso, o R oferece recursos para verificar os
pressupostos desses testes, como a normalidade dos dados e a
homogeneidade das variâncias, através de testes específicos e
visualizações de dados. A capacidade de realizar essas verificações
no R é essencial para garantir a validade e confiabilidade dos
resultados obtidos. A interpretação dos resultados dos testes
de hipóteses no R também é facilitada por saídas detalhadas
33BIOESTATÍSTICA
U
ni
da
de
2
que incluem valores-p, que ajudam a determinar a significância
estatística das diferenças observadas.
Em suma, a realização de testes de hipóteses no R é uma
competência indispensável para pesquisadores em bioestatística,
permitindo-lhes avaliar de forma rigorosa e confiável as
hipóteses de pesquisa. A familiarização com essas técnicas no R,
conforme delineado por Crawley (2007), não apenas enriquece
a capacidade analítica do pesquisador, mas também assegura
que as conclusões derivadas dos dados sejam fundamentadas
em métodos estatísticos sólidos. Portanto, o domínio dessas
ferramentas estatísticas básicas no R é crucial para a condução
de pesquisas bioestatísticas eficazes e para a contribuição
significativa para o corpo de conhecimento na área da saúde.
Modelos lineares e não lineares:
introdução à construção e interpretação
de modelos estatísticos
A compreensão e aplicação de modelos lineares e não
lineares constituem uma base crucial para a análise estatística
avançada em bioestatística. Esses modelos permitem aos
pesquisadores explorar e interpretar as relações entre variáveis,
fornecendo insights valiosos sobre os dados analisados. Modelos
lineares, por sua simplicidade e facilidade de interpretação,
são frequentemente o ponto de partida para a análise de
relações entre variáveis dependentes e independentes. Como
Crawley (2007) sugere, a aplicação de modelos lineares no R pode
revelar padrões e tendências significativos nos dados, facilitando
a compreensão dos efeitos das variáveis independentes sobre a
variável dependente em estudo.
No entanto, nem todas as relações entre variáveis
podem ser adequadamente descritas por modelos lineares.
Aqui, os modelos não lineares entram em cena, permitindo
34 BIOESTATÍSTICA
U
ni
da
de
2
a análise de relações mais complexas, onde os efeitos das
variáveis independentes sobre a dependente não são constantes.
A flexibilidade dos modelos não lineares os torna especialmente
valiosos em bioestatística, onde muitos fenômenos biológicos
e médicos exibem comportamentos que não podem ser
capturados por modelos lineares. A habilidade de construir
e interpretar modelos não lineares no R, conforme discutido
por Crawley (2007), é, portanto, essencial para pesquisadores
que buscam compreender plenamente as dinâmicas
subjacentes aos seus dados.
A construção de modelos estatísticos no R envolve uma
série de etapas, incluindo a seleção do modelo apropriado,
estimação de parâmetros, diagnóstico de ajuste do modelo
e interpretação dos resultados. A interpretação de modelos
lineares e não lineares demanda uma compreensão clara de
conceitos estatísticos, como significância dos coeficientes,
ajuste do modelo e potenciais implicações dos resultados para
hipóteses de pesquisa e teorias subjacentes.
Além disso, é crucial para os pesquisadores em
bioestatística não apenas aplicar modelos estatísticos, mas
também avaliar criticamente a adequação do modelo escolhido
aos dados. Isso inclui a verificação de pressupostos do modelo,
como homoscedasticidade e normalidade dos resíduos em
modelos lineares, e considerações sobre a complexidade do
modelo e o risco de sobreajuste em modelos não lineares.
A capacidade de realizar essas avaliações no R, conforme
ilustrado por Crawley (2007), é indispensável para garantir que
as conclusões derivadas dos modelos estatísticos sejam válidas
e confiáveis.
Em resumo, a introdução à construção e interpretação
de modelos lineares e não lineares no R representa um aspecto
35BIOESTATÍSTICA
U
ni
da
de
2
fundamental da análise bioestatística. Esses modelos oferecem
aos pesquisadores ferramentas poderosas para explorar a
complexidade dos dados em saúde e biologia. A maestria
dessas técnicas, conforme exposto por Crawley (2007), não
apenas enriquece a análise de dados, mas também aprofunda
o entendimento dos fenômenos biológicos e médicos
estudados, promovendo a geração de conhecimento científico
robusto e inovador.
Relatórios e publicação: como usar o
R Markdown para criar relatórios e
apresentações de análises
A capacidade de comunicar efetivamente os resultados
de análises estatísticas é tão crucial quanto a própria análise.
Neste contexto, o R Markdown emerge como uma ferramenta
poderosa para a criação de relatórios e apresentações de análises
realizadas no R. Esta ferramenta integra análise e documentação,
permitindo aos pesquisadores em bioestatística compilar
códigos, resultados e interpretações em um único documento
dinâmico e interativo.
O R Markdown, conforme discutido por especialistas
na área, permite a transformação de análises em documentos
de alta qualidade, slides de apresentações, dashboards web,
entre outros formatos, com relativa facilidade. A integração do
código R diretamente nos documentos garante não apenas a
reprodutibilidade das análises, mas também facilita a revisão e
compreensão dos métodos utilizados por outros pesquisadores ou
stakeholders. Esta característica é fundamentalna bioestatística,
onde a precisão dos dados e a clareza na comunicação dos
resultados são imperativas.
36 BIOESTATÍSTICA
U
ni
da
de
2
A utilização do R Markdown para a elaboração de
relatórios e apresentações implica em diversos benefícios,
incluindo a automatização do processo de relatório, o que
reduz a possibilidade de erros manuais e aumenta a eficiência
na produção de documentos. Além disso, a flexibilidade no
design e na personalização de relatórios permite que os
pesquisadores ajustem a apresentação de seus resultados às
necessidades específicas de seu público-alvo, seja ele composto
por colegas acadêmicos, colaboradores de pesquisa ou uma
audiência mais ampla.
A capacidade de incorporar elementos visuais, como
gráficos e tabelas, diretamente do R para o documento final é
outro ponto forte do R Markdown. A visualização de dados é uma
componente crítica da análise estatística, e o R Markdown facilita
a inclusão de visualizações dinâmicas e interativas que podem
melhorar significativamente a compreensão dos resultados
apresentados. Essa integração suave entre análise e relatório
ajuda a construir uma narrativa coerente e baseada em evidências
em torno dos dados, uma habilidade essencial para pesquisadores
em bioestatística.
Em suma, o R Markdown representa uma inovação
significativa na forma como os resultados de análises estatísticas
são comunicados na bioestatística. A habilidade de criar
documentos dinâmicos, que integram código, resultados e análise
em um formato facilmente compartilhável e compreensível,
não apenas promove a transparência e a reprodutibilidade da
pesquisa, mas também eleva o padrão de comunicação científica.
Portanto, a proficiência no uso do R Markdown é uma competência
valiosa para qualquer pesquisador em bioestatística, facilitando a
disseminação de descobertas e a colaboração científica.
37BIOESTATÍSTICA
U
ni
da
de
2
RESUMINDO
Aprofundar-se no software estatístico R abre as
portas para uma análise de dados mais eficiente e
precisa, essencial em campos como a bioestatística.
Começamos com uma introdução ao R, incluindo
a instalação do software e os primeiros passos
dentro do seu ambiente. Este conhecimento
básico é crucial, pois sem ele, a base para qualquer
análise estatística subsequente seria instável. Por
que o R é tão valorizado entre os profissionais de
bioestatística? A resposta reside na sua capacidade
de manipulação e análise de dados complexos de
forma acessível e robusta.
Avançando, exploramos como conhecer e
manipular os dados dentro do R, um passo crítico
para garantir a integridade e a precisão das
análises estatísticas. Este processo inclui desde
a importação de conjuntos de dados de diversas
fontes até a realização de operações complexas
de limpeza e preparação de dados. Como você
pode garantir que seus dados estão prontos para
análise? Compreender a manipulação de dados no
R é a chave.
Por fim, mergulhamos na análise estatística básica
usando o R. Esta seção desmistifica como realizar
testes estatísticos fundamentais, interpretar
resultados e comunicar descobertas de maneira
eficaz. A capacidade de aplicar análises estatísticas
básicas é indispensável; ela permite não apenas a
geração de insights significativos a partir dos dados,
mas também fortalece a tomada de decisões
baseada em evidências. Como você pode utilizar
essas técnicas para enriquecer sua pesquisa ou
prática profissional? A maestria no uso do R é o seu
caminho para descobrir.
38 BIOESTATÍSTICA
U
ni
da
de
2
Distribuição normal de
probabilidade
OBJETIVO
Neste capítulo, você mergulhará profundamente no
universo da distribuição normal de probabilidade,
uma das pedras fundamentais da bioestatística. Ao
final deste estudo, você será capaz de compreender
não só o que é uma distribuição normal, mas
também a importância do Teorema do Limite
Central e as técnicas de normalização de dados.
Esta compreensão é crucial para o exercício de sua
profissão, visto que muitas análises estatísticas
pressupõem uma distribuição normal dos dados.
Aqueles que negligenciaram a importância
desses conceitos fundamentais encontraram
dificuldades significativas ao interpretar resultados
de pesquisas e ao aplicar técnicas estatísticas
avançadas. E então? Está motivado para dominar
estas competências essenciais e solidificar sua
base em bioestatística? Vamos lá!
Conceitos fundamentais
Definição de distribuição de
probabilidade
Após coletar alguns dados de uma determinada variável e
apresentar aspectos da estatística descritiva, pode-se assumir um
modelo de probabilidade, e, com isso, estimar a probabilidade de
ocorrência de cada resultado. Os testes estatísticos, assim como
modelos lineares e outros campos da estatística, se baseiam
em distribuições de probabilidade para a tomada de decisões
sobre hipóteses e parâmetros. Sendo assim, é necessária uma
breve contextualização sobre o assunto para avançarmos em
nossos estudos.
39BIOESTATÍSTICA
U
ni
da
de
2
Em um primeiro momento, há a necessidade de definirmos
alguns conceitos. A distribuição de probabilidade consiste
na representação de um gráfico, tabela ou fórmula que dá a
probabilidade para cada valor de uma variável aleatória, cujo valor
numérico é determinado ao acaso para cada resultado obtido.
Existem basicamente dois grupos de distribuições:
(1) discretas, formadas por variáveis de natureza discreta,
tais como as distribuições binomial, geométrica e poisson;
(2) contínuas, formadas por variáveis classificadas como contínuas,
compreendidas pelas distribuições gama, qui-quadrado e normal.
Em nossos estudos, trataremos especificamente da
distribuição normal de probabilidade, uma das distribuições mais
importantes para a estatística devido ao teorema central do limite.
O teorema central do limite mostra que, para qualquer
que seja tipo de distribuição da variável de interesse, para
grandes amostras, a distribuição de médias amostrais será
aproximadamente normal, tendendo a uma distribuição normal
na medida em que o tamanho da amostra aumentar. Dessa forma,
pode-se ter uma variável original com uma distribuição totalmente
diferente da normal, mas, se tomarmos várias amostras grandes
dessa distribuição e então fizermos um histograma das médias
amostrais, a forma se parecerá com uma curva normal.
Se uma variável aleatória contínua tem uma distribuição
com um histograma simétrico e em forma de “sino” e que também
pode ser descrita pela seguinte equação, pode se dizer que ela
tenha uma distribuição normal:
40 BIOESTATÍSTICA
U
ni
da
de
2
A distribuição normal tem dois parâmetros: a média e o
desvio-padrão. A notação para representar que uma determinada
variável “x” tem distribuição normal de média (μ) = 20 e desvio-
padrão (σ) = 5 é x ~ N (20,5), ou seja, a variável “x” tende a uma
média 20 e desvio-padrão 5. Dessa forma, a curva da distribuição
varia de acordo com sua média e desvio.
Definição de distribuição normal:
cálculos e características
Com o conhecimento da distribuição de probabilidade
de uma determinada variável, podemos saber a probabilidade
de cada evento ocorrer. Para isso, basta realizar o procedimento
matemático de integração da área da curva desejada. Porém, como
essa prática não é muito simples, os estatísticos transformam uma
curva normal qualquer na famosa normal reduzida (ou também
padronizada), N (0,1), ou seja, com média (μ) = 0 e desvio-padrão
(σ) = 1. Isso é feito com a padronização da variável no escore “z”,
visto a seguir com a seguinte expressão:
Vamos entender melhor a utilização desse escore
pensando em uma situação concreta. Entendendo a altura como
uma variável quantitativa contínua e que respeita uma distribuição
normal de probabilidade, queremos comparar a altura do ex-
atleta Michael Jordan (198 cm) com a modelo Ana Hickmann (185
cm) em relação às populações de homens e mulheres. Qual dos
dois é mais alto em relação ao respectivo sexo? Para responder
melhora essa pergunta, precisamos então padronizar aquelas
alturas, convertendo em escores “z” para então compará-los.
Estima-se que a média da altura de homens é de 172,9 cm, com
um desvio-padrão 5,8, e a das mulheres é de 160,7 cm, com um
41BIOESTATÍSTICA
U
ni
da
de
2
desvio-padrão de 4,8. A partir da equação para padronização do
escore “z”, represente-a no software R. Note que, para “declarar”
uma variável, você deverá usar qualquer nome do seu interesse
(ex.: “Z_Jordan”) que representará o valor de “z”, e os símbolos “de amostras se comportam,
independentemente da distribuição da população da qual as
amostras são retiradas. Este teorema afirma que, dada uma
amostra suficientemente grande, a distribuição das médias
amostrais tende a ser normal, ou seja, formar uma curva de
sino, independentemente da forma da distribuição da população
original. Esse conceito é crucial para a bioestatística, onde
frequentemente trabalhamos com dados que não seguem uma
distribuição normal.
O TLC permite aos pesquisadores aplicar testes
estatísticos que assumem normalidade para dados que, à
primeira vista, não parecem seguir essa distribuição. Isso é
especialmente útil em estudos que envolvem grandes conjuntos
de dados, onde o ele garante que as inferências sobre a
população possam ser feitas com confiança a partir de simples
médias amostrais. A universalidade do TLC, como descrito por
autores notáveis na área de estatística, enfatiza sua relevância
em uma ampla gama de aplicações científicas e práticas.
Além disso, o entendimento do TLC auxilia na
interpretação correta dos resultados de análises estatísticas.
Ao aplicar o TLC, os pesquisadores podem justificar o uso de
técnicas paramétricas, que são geralmente mais poderosas
e informativas do que as técnicas não paramétricas, mesmo
quando os dados originais não são normalmente distribuídos.
49BIOESTATÍSTICA
U
ni
da
de
2
Isso expande significativamente o leque de ferramentas
estatísticas disponíveis para análise, aumentando a precisão e a
confiabilidade dos resultados obtidos.
No entanto, é crucial reconhecer as condições sob as quais
o TLC se aplica. A amostra deve ser de tamanho suficientemente
grande, geralmente considerada como sendo maior ou igual a 30,
embora esse número possa variar dependendo da distribuição
da população e da precisão desejada. O teorema também
pressupõe que as amostras sejam independentes e retiradas
de uma população com uma média e variância definidas. Esses
critérios garantem a aplicabilidade do TLC e a validade das
conclusões estatísticas derivadas de sua aplicação.
Em resumo, o Teorema do Limite Central é uma ferramenta
estatística poderosa e versátil, essencial para a compreensão
e aplicação de métodos estatísticos em bioestatística e além.
Ele fornece uma fundamentação teórica que permite aos
pesquisadores fazer inferências sobre populações a partir de
amostras, mesmo na presença de distribuições não normais.
Dominar o TLC e suas implicações é, portanto, indispensável
para qualquer pesquisador em bioestatística, reforçando
a importância de abordagens estatísticas rigorosas e bem
fundamentadas na pesquisa científica.
Simulações no R: como simular e
visualizar o teorema do limite central
usando R
A simulação no R oferece uma maneira poderosa e visual
de entender o Teorema do Limite Central (TLC), uma pedra
angular da estatística que fundamenta muitas técnicas analíticas
em bioestatística. Através da simulação, podemos visualizar
50 BIOESTATÍSTICA
U
ni
da
de
2
como as médias de amostras retiradas de uma população,
independentemente da sua distribuição original, tendem a formar
uma distribuição normal à medida que o tamanho da amostra
aumenta. Este processo de simulação não apenas reforça o
entendimento teórico do TLC, mas também demonstra sua
aplicabilidade prática em análises estatísticas.
Utilizar o R para simular o TLC permite aos pesquisadores
criar experimentos numéricos, onde diferentes distribuições
populacionais podem ser exploradas, e os efeitos do tamanho
da amostra na distribuição das médias amostrais podem ser
observados diretamente. Isso é particularmente útil em contextos
educacionais, onde a visualização concreta do TLC pode ajudar
a solidificar a compreensão de conceitos estatísticos abstratos.
Por exemplo, gerar múltiplas amostras de uma população com
uma distribuição conhecida, calcular suas médias e então plotar
a distribuição dessas médias oferece uma representação gráfica
do TLC em ação.
A capacidade de simular o TLC no R também tem
implicações práticas significativas. Ao demonstrar que a
distribuição das médias amostrais se aproxima de uma normal,
mesmo a partir de populações não normais, os pesquisadores
podem justificar o uso de técnicas estatísticas que assumem
normalidade nas médias amostrais. Isso é crucial em muitas
áreas da bioestatística, onde as inferências sobre a população são
frequentemente baseadas em amostras.
Adicionalmente, as simulações no R podem ser
customizadas para testar diferentes cenários, incluindo variações
no tamanho da amostra e na forma da distribuição da população.
Isso permite aos pesquisadores avaliar a robustez do TLC sob
diferentes condições e entender melhor quando e como aplicar
testes estatísticos baseados em pressupostos de normalidade.
51BIOESTATÍSTICA
U
ni
da
de
2
A flexibilidade do R em facilitar essas simulações torna-o uma
ferramenta indispensável para pesquisadores em bioestatística.
Em resumo, o Teorema do Limite Central no R é uma
ferramenta valiosa para a compreensão e aplicação da estatística.
Ele oferece uma maneira prática de visualizar e entender um
dos conceitos mais fundamentais da estatística, reforçando sua
importância na análise de dados. A habilidade de simular e visualizar
o TLC usando o R é, portanto, essencial para pesquisadores em
bioestatística, proporcionando uma base sólida para a análise
estatística e a tomada de decisões baseada em dados.
Importância do teorema para a
Bioestatística: por que é fundamental
entender o Teorema do Limite Central
A importância do Teorema do Limite Central (TLC) na
bioestatística é imensa, atuando como um pilar fundamental que
sustenta a validade de muitas técnicas estatísticas aplicadas na
análise de dados. O TLC fornece uma base teórica que permite
aos pesquisadores aplicar inferências estatísticas a uma ampla
variedade de dados, mesmo aqueles que não seguem uma
distribuição normal. Este teorema assegura que, sob condições
apropriadas, a distribuição das médias de amostras grandes se
aproxima de uma distribuição normal, independentemente da
distribuição da população original. Essa propriedade é crucial para
a aplicação de testes paramétricos, que requerem normalidade
dos dados.
Além disso, o TLC desempenha um papel crucial na
estimativa de intervalos de confiança e na realização de testes
de hipóteses, fundamentais para a tomada de decisões baseada
em evidências na medicina e na saúde pública. Ao garantir
52 BIOESTATÍSTICA
U
ni
da
de
2
que as médias amostrais de grandes amostras se distribuam
normalmente, o TLC facilita a estimação de parâmetros
populacionais e a avaliação da significância estatística de
resultados observados. Esta aplicação do TLC permite aos
pesquisadores em bioestatística avaliar a eficácia de tratamentos,
identificar fatores de risco para doenças e explorar relações
entre variáveis biológicas com confiança.
A compreensão do TLC também é fundamental para a
educação e formação em bioestatística, capacitando os futuros
pesquisadores com o conhecimento necessário para aplicar
corretamente métodos estatísticos em suas pesquisas. Este
entendimento ajuda a evitar erros comuns de interpretação e
aplicação de técnicas estatísticas, garantindo que as conclusões
tiradas de análises bioestatísticas sejam válidas e confiáveis.
Em resumo, o Teorema do Limite Central é indispensável
na bioestatística, oferecendo uma justificativa matemática para
a aplicação de métodos paramétricos em uma ampla gama de
situações. Sua compreensão não só reforça o rigor científico
das análises estatísticas em pesquisa biomédica, mas também
assegura a validade e a confiabilidade das inferências feitas a partir
de dados de saúde. Portanto, dominar o TLC é fundamental para
qualquer bioestatístico, sublinhando sua importância no campo
da pesquisa em saúde.
53BIOESTATÍSTICA
U
ni
da
de
2
Normalização de dados
Por que normalizar? Razões para
normalizar dados antes da análise
A normalizaçãode dados antes da análise é um passo
crucial na preparação de dados em bioestatística, garantindo que
as análises realizadas sejam válidas e as inferências feitas sejam
confiáveis. Normalizar dados significa ajustar os valores medidos
em um conjunto de dados para uma escala comum, muitas vezes
com o objetivo de neutralizar os efeitos de variações externas ou
para tornar os dados comparáveis entre si. Esta prática é essencial
por várias razões, todas fundamentadas na necessidade de
realizar análises estatísticas precisas e significativas.
Uma das principais razões para a normalização de dados
é a melhoria da precisão analítica. Ao normalizar os dados,
reduzimos as discrepâncias causadas por diferenças de escala
ou variações externas, permitindo uma comparação mais justa
e precisa entre as variáveis. Isso é particularmente importante
em estudos que envolvem múltiplas variáveis ou onde os
dados vêm de diferentes fontes ou instrumentos de medição. A
normalização assegura que as diferenças observadas nos dados
refletem diferenças reais nas variáveis estudadas, e não artefatos
das condições de medição ou coleta de dados.
Além disso, a normalização é fundamental para atender
aos pressupostos de muitos métodos estatísticos, incluindo o
Teorema do Limite Central. Muitos testes estatísticos e modelos
preditivos pressupõem que os dados seguem uma distribuição
normal. Ao normalizar os dados, especialmente quando se trata
de transformações que visam estabilizar a variância ou corrigir
a assimetria, os pesquisadores podem aplicar esses métodos
54 BIOESTATÍSTICA
U
ni
da
de
2
mais adequadamente, melhorando a validade das análises. Isso é
essencial para garantir que as conclusões tiradas dos dados sejam
baseadas em premissas estatísticas sólidas.
Em resumo, a normalização de dados é um pré-requisito
essencial para realizar análises bioestatísticas confiáveis e precisas.
Ela não só facilita o cumprimento dos pressupostos necessários
para a aplicação de muitos métodos estatísticos, como também
melhora a comparabilidade e a interpretação dos dados. Assim, a
prática de normalizar dados antes da análise apoia a integridade
da pesquisa em bioestatística, assegurando que as inferências e
conclusões baseadas nos dados sejam tão precisas e informativas
quanto possível. Portanto, a compreensão e aplicação correta de
técnicas de normalização são habilidades indispensáveis para
pesquisadores em bioestatística, sublinhando a importância dessa
prática no campo.
Técnicas de normalização: como
e quando aplicar transformações
de dados
A aplicação de técnicas de normalização é uma etapa
crítica no pré-processamento de dados para análise estatística,
especialmente na bioestatística, onde os dados podem variar
amplamente em termos de distribuição, escala e variância.
As técnicas de normalização ajustam os dados para uma escala
comum, melhorando a comparabilidade e atendendo aos
pressupostos necessários para a aplicação de vários métodos
estatísticos. Entender como e quando aplicar essas técnicas é
fundamental para a realização de análises precisas e confiáveis.
Uma técnica comum de normalização é a transformação
logarítmica, que é frequentemente utilizada para dados que
55BIOESTATÍSTICA
U
ni
da
de
2
apresentam uma distribuição assimétrica, típica em muitas
variáveis biométricas e financeiras. A transformação logarítmica
pode ajudar a estabilizar a variância e tornar a distribuição dos
dados mais próxima de uma normal, permitindo a aplicação de
testes estatísticos que assumem normalidade. Outra técnica
amplamente aplicada é a normalização por pontuação Z, que
recalcula cada observação com base na média e no desvio padrão
da amostra, resultando em uma distribuição com média zero e
desvio padrão um. Essa técnica é particularmente útil quando se
lida com variáveis medidas em diferentes escalas, pois ela permite
a comparação direta entre elas.
Além disso, a normalização Min-Max é outra abordagem
comum, que redimensiona os dados para um intervalo específico,
geralmente entre zero e um. Essa técnica preserva a relação
entre os valores originais, tornando-a adequada para dados
onde a manutenção da estrutura de distância é importante. No
entanto, a normalização Min-Max pode ser sensível a outliers,
pois a presença de valores extremamente altos ou baixos pode
comprimir a maioria dos dados em um pequeno intervalo.
A decisão sobre qual técnica de normalização aplicar
depende da natureza dos dados e do objetivo da análise.
Por exemplo, em situações onde a assimetria dos dados é
uma preocupação, a transformação logarítmica ou outras
transformações não lineares, como raiz quadrada ou inversa,
podem ser mais apropriadas. Por outro lado, para dados que já
estão relativamente bem distribuídos, mas medidos em diferentes
escalas, a normalização por pontuação Z ou Min-Max pode ser
suficiente para garantir comparabilidade.
É importante notar que a aplicação de técnicas de
normalização deve ser feita com cuidado, considerando sempre
os pressupostos subjacentes a cada método estatístico a ser
56 BIOESTATÍSTICA
U
ni
da
de
2
aplicado posteriormente. A avaliação da distribuição dos dados
após a normalização é um passo crítico para verificar a eficácia
da transformação e garantir que os dados transformados sejam
adequados para análise.
Em resumo, a escolha e aplicação de técnicas de
normalização em bioestatística devem ser guiadas por uma
compreensão clara dos objetivos da análise e das características
dos dados. A capacidade de aplicar essas técnicas de forma eficaz
é essencial para preparar os dados para análise, garantindo
que as inferências estatísticas realizadas sejam baseadas em
premissas válidas e levem a conclusões precisas e confiáveis.
Portanto, dominar as técnicas de normalização é uma habilidade
fundamental para pesquisadores em bioestatística, reforçando a
importância dessas práticas no processo de análise de dados.
Exemplos práticos no R: demonstração
de técnicas de normalização em
conjuntos de dados reais
A aplicação prática de técnicas de normalização em
conjuntos de dados reais usando o R é um componente essencial
na formação de bioestatísticos. O software R, reconhecido por
sua versatilidade e poder no tratamento de dados estatísticos,
oferece uma variedade de funções que podem ser utilizadas para
normalizar dados, garantindo assim que as análises subsequentes
sejam realizadas sob as condições apropriadas.
Um exemplo prático de normalização no R é o uso da
transformação logarítmica para dados assimétricos. Ao aplicar a
função log() a um conjunto de dados, podemos reduzir o efeito de
assimetrias acentuadas, tornando a distribuição dos dados mais
simétrica e aproximando-a de uma distribuição normal.
57BIOESTATÍSTICA
U
ni
da
de
2
Para dados medidos em diferentes escalas, a normalização
por pontuação Z, realizada através da subtração da média e
divisão pelo desvio padrão de cada valor, pode ser facilmente
implementada no R. A função scale() é particularmente útil para
este propósito, padronizando os dados para que tenham média
zero e desvio padrão um. Essa técnica é essencial em análises que
envolvem a comparação ou combinação de variáveis em diferentes
escalas, como análises multivariadas.
A normalização Min-Max, que ajusta os dados para um
intervalo específico, geralmente entre 0 e 1, pode ser implementada
no R usando fórmulas simples que aplicam a transformação
Min-Max diretamente aos dados. Esta abordagem é vantajosa
em métodos que são sensíveis à escala dos dados, como certos
algoritmos de machine learning, garantindo que nenhuma variável
domine a análise devido à sua escala.
Crawley (2007) enfatiza a importância de verificar a
eficácia da normalização, o que pode ser feito no R através de
visualizações, como histogramas ou gráficos QQ, antes e depois
da aplicação das técnicas de normalização. Esta etapa é
fundamental para assegurar que os dados transformados
atendam aos

Bioestatística: Unidade 2

Humanas / Sociais

Ferramentas de estudo

Conteúdos escolhidos para você

Unidade 4 - Estatística aplicada à saúde

Exercícios 1 Bioestatistica 002

Análise de Dados

controle_estatistico_de_processos_e_quimiometria

Bioestatística: Conceitos e Análise de Dados

Perguntas dessa disciplina

Questão 7/10 - ESTATÍSTICA MULTIVARIADA Ler em voz alta Leia atentamente o excerto abaixo: “Na maioria das vezes, as variáveis são correlacionadas ent

Para que a Estatística possa ajudar a representar e entender a realidade ao nosso redor, é essencial utilizar métodos e ferramentas que traduzem da...

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

Questão 3/10 - Bioestatística Ler em voz altaLeia a passagem de texto:“Há intensa discussão acadêmica sobre quais estratégias analíticas devem ser uti

Durante a auditoria de desempenho de um sistema de processamento de dados, um analista precisa sumarizar o comportamento dos tempos de resposta do ...

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Conteúdos escolhidos para você

Unidade 4 - Estatística aplicada à saúde

Exercícios 1 Bioestatistica 002

Análise de Dados

controle_estatistico_de_processos_e_quimiometria

Bioestatística: Conceitos e Análise de Dados

Perguntas dessa disciplina

Questão 7/10 - ESTATÍSTICA MULTIVARIADA Ler em voz alta Leia atentamente o excerto abaixo: “Na maioria das vezes, as variáveis são correlacionadas ent

Para que a Estatística possa ajudar a representar e entender a realidade ao nosso redor, é essencial utilizar métodos e ferramentas que traduzem da...

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

Questão 3/10 - Bioestatística Ler em voz altaLeia a passagem de texto:“Há intensa discussão acadêmica sobre quais estratégias analíticas devem ser uti

Durante a auditoria de desempenho de um sistema de processamento de dados, um analista precisa sumarizar o comportamento dos tempos de resposta do ...

Mais conteúdos dessa disciplina