Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

BIOESTATÍSTICA
Unidade 2
Tecnologia para 
bioestatística
CEO 
DAVID LIRA STEPHEN BARROS
Diretora Editorial 
ALESSANDRA FERREIRA
Gerente Editorial 
LAURA KRISTINA FRANCO DOS SANTOS
Projeto Gráfico 
TIAGO DA ROCHA
Autoria 
LEANDRO VINHAS DE PAULA
4 BIOESTATÍSTICA
U
ni
da
de
 2
A
U
TO
RI
A
Leandro Vinhas de Paula
Olá! Meu nome é Leandro Vinhas de Paula. Sou bacharel 
e licenciado em Educação Física (Faculdade de Educação Física 
e Fisioterapia – Universidade Federal de Uberlândia), mestre 
em Ciências do Esporte (Escola de Educação Física, Fisioterapia 
e Terapia Ocupacional – Universidade Federal de Minas 
Gerais – EEFFTO/UFMG) e especialista em Estatística Aplicada 
(Departamento de Estatística – Instituto de Ciências Exatas – ICEX/
UFMG) com uma experiência técnico-profissional na área de 
Educação Física e esportes por mais de 10 anos em atividades 
de ensino, pesquisa e extensão na Universidade Federal de Ouro 
Preto e no meio privado. Atualmente sou doutorando na área de 
Biomecânica (EEFFTO – UFMG). Por isso fui convidado pela Editora 
Telesapiens a integrar seu elenco de autores independentes. 
Estou muito feliz em poder ajudar você nesta fase de muito estudo 
e trabalho. Conte comigo!
5BIOESTATÍSTICA
U
ni
da
de
 2
ÍC
O
N
ESEsses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos:
OBJETIVO
No início do 
desenvolvimento 
de uma nova 
competência. DEFINIÇÃO
Caso haja a 
necessidade de 
apresentar um novo 
conceito.
NOTA
Quando são 
necessárias 
observações ou 
complementações. IMPORTANTE
Se as observações 
escritas tiverem que 
ser priorizadas.
EXPLICANDO 
MELHOR
Se algo precisar ser 
melhor explicado ou 
detalhado. VOCÊ SABIA?
Se existirem 
curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo.
SAIBA MAIS
Existência de 
textos, referências 
bibliográficas e links 
para aprofundar seu 
conhecimento.
ACESSE
Se for preciso acessar 
sites para fazer 
downloads, assistir 
vídeos, ler textos ou 
ouvir podcasts. 
REFLITA
Se houver a 
necessidade de 
chamar a atenção 
sobre algo a 
ser refletido ou 
discutido.
RESUMINDO
Quando for preciso 
fazer um resumo 
cumulativo das últimas 
abordagens.
ATIVIDADES
Quando alguma 
atividade de 
autoaprendizagem 
for aplicada. TESTANDO
Quando uma 
competência é 
concluída e questões 
são explicadas.
6 BIOESTATÍSTICA
U
ni
da
de
 2
Software estatístico R .............................................................. 11
Introdução ao R e instalação do software: primeiros passos .................... 11
O que é R? Breve história e a importância do R na bioestatística ............ 11
Ambiente de Trabalho: descrição da interface, pacotes básicos e como 
personalizar o ambiente R ...............................................................................13
Primeiros passos: instalação do R e do RStudio, configuração 
inicial e introdução aos scripts básicos .......................................... 14
Conhecendo e manipulando os dados com R ............................................. 20
Importação de dados: como ler dados de diferentes formatos 20
Limpeza e preparação de dados: técnicas para tratar dados 
faltantes, remover duplicatas e transformar variáveis ................. 25
Análise exploratória de dados: uso de estatísticas descritivas e 
visualizações básicas para explorar os dados ............................... 28
Análise estatística básica ..................................................................................31
Testes de hipóteses: como realizar testes estatísticos 
básicos no R .........................................................................................31
Modelos lineares e não lineares: introdução à construção e 
interpretação de modelos estatísticos .......................................... 33
Relatórios e publicação: como usar o R Markdown para criar 
relatórios e apresentações de análises .......................................... 35
Distribuição normal de probabilidade .................................. 38
Conceitos fundamentais ...................................................................................38
Definição de distribuição de probabilidade ................................... 38
Definição de distribuição normal: cálculos e características ...... 40
Testes estatísticos de distribuição normal ..................................... 45
Teorema do Limite Central ..............................................................................48
Entendendo o teorema: explicação e significado na estatística 48
SU
M
Á
RI
O
7BIOESTATÍSTICA
U
ni
da
de
 2
Simulações no R: como simular e visualizar o teorema do limite 
central usando R .................................................................................49
Importância do teorema para a Bioestatística: por que é 
fundamental entender o Teorema do Limite Central .................. 51
Normalização de dados ....................................................................................53
Por que normalizar? Razões para normalizar dados antes da 
análise ...................................................................................................53
Técnicas de normalização: como e quando aplicar transformações 
de dados ...............................................................................................54
Exemplos práticos no R: demonstração de técnicas de 
normalização em conjuntos de dados reais .................................. 56
Tabela “z” ................................................................................. 59
Entendendo a Tabela Z .....................................................................................59
O que é a Tabela Z? Definição e estrutura da tabela ................... 59
Cálculo de probabilidades: como usar a tabela Z para calcular 
probabilidades .....................................................................................61
Interpretação dos valores Z: o que os valores significam em 
termos de probabilidade e posição na distribuição normal ....... 63
Aplicações da Tabela Z .....................................................................................65
Determinação de intervalos de confiança: como a tabela Z é 
usada para calcular intervalos de confiança .................................. 65
Testes de hipóteses com a Tabela Z: exemplos de como realizar 
testes de hipóteses utilizando a tabela Z ....................................... 66
Análise de dados normalizados: utilização da tabela Z em 
conjuntos de dados normalizados .................................................. 68
Tipificação de respostas individuais ..................................... 71
Tipos de respostas em bioestatística .............................................................71
Respostas binárias e contínuas: definição e exemplos de cada 
tipo .........................................................................................................71
8 BIOESTATÍSTICA
U
ni
da
de
 2
Categorização e codificação de respostas: como preparar dados 
de pesquisa para análise ...................................................................72
Importância das respostas individuais: impacto no desenho do 
estudo e na interpretação dos resultados ..................................... 74
Análise de Respostas Individuais ....................................................................75
Técnicas de Análise: abordagens para análise de diferentes tipos 
de dados de resposta ........................................................................75
Interpretação dos resultados: como interpretar os resultados das 
análises de respostas individuais ..................................................... 77
Erros Comuns e como evitá-los: discussão sobre erros frequentes 
na análise de dados e como prevenir ............................................. 79
Estudo de caso no R ..........................................................................................80
9BIOESTATÍSTICApressupostos necessários para as análises 
planejadas.
Em resumo, a demonstração de técnicas de normalização 
em conjuntos de dados reais utilizando o R é um aspecto prático 
crucial na bioestatística. A capacidade de aplicar adequadamente 
essas técnicas e verificar sua eficácia prepara os dados para uma 
análise mais precisa e confiável. O trabalho de Crawley (2007) 
fornece um guia valioso para a utilização do R na normalização 
de dados, reforçando a habilidade dos pesquisadores em 
preparar conjuntos de dados para análise estatística, um passo 
indispensável no processo de pesquisa em bioestatística.
58 BIOESTATÍSTICA
U
ni
da
de
 2
RESUMINDO
E então? Gostou do que lhe mostramos? Aprendeu 
mesmo tudinho? Agora, só para termos certeza de 
que você realmente entendeu o tema de estudo, 
vamos recapitular os pontos-chave sem nos perder 
em exemplos específicos. A distribuição normal 
é uma peça-chave na bioestatística, servindo 
como base para inúmeras técnicas analíticas. 
Compreender seus conceitos fundamentais não 
apenas facilita a interpretação de dados biomédicos, 
mas também a aplicação de métodos estatísticos 
relevantes. O Teorema do Limite Central, por 
sua vez, reforça essa base ao demonstrar como 
diferentes amostras de uma população tendem a 
uma distribuição normal, independentemente da 
distribuição da população original.
A normalização de dados é outro aspecto crucial 
que discutimos, essencial para preparar os dados 
para análises que requerem normalidade. Esses 
conceitos são interligados e fundamentais para 
a realização de análises estatísticas precisas e 
confiáveis. Sem um entendimento sólido dessas 
bases, os pesquisadores podem enfrentar desafios 
significativos na interpretação dos resultados, o 
que pode levar a conclusões errôneas.
Ao dominar a distribuição normal de probabilidade, 
o Teorema do Limite Central e as técnicas de 
normalização de dados, você estará bem equipado 
para enfrentar os desafios da bioestatística. Estes 
conceitos não só aprimoram sua habilidade 
analítica, mas também fortalecem sua competência 
em realizar pesquisas rigorosas e fundamentadas. 
Está pronto para aplicar esse conhecimento na 
prática e contribuir com descobertas significativas 
no campo da bioestatística? Avançamos juntos, 
com a certeza de que a compreensão desses 
conceitos é essencial para sua jornada acadêmica 
e profissional.
59BIOESTATÍSTICA
U
ni
da
de
 2
Tabela “z”
OBJETIVO
Ao concluir este capítulo, você estará equipado 
para compreender e aplicar eficazmente a tabela 
“z” em análises bioestatísticas. Esta competência 
é essencial para o exercício de sua profissão, 
permitindo-lhe realizar cálculos estatísticos 
precisos e interpretar dados com confiança. Muitos 
que tentaram navegar pela análise de dados sem 
uma compreensão sólida da tabela “z” encontraram 
dificuldades significativas, especialmente ao 
determinar significâncias estatísticas e intervalos 
de confiança. E então? Está pronto para aprofundar 
seu conhecimento e habilidades nesta área crítica 
da bioestatística? Vamos lá!
Entendendo a Tabela Z
O que é a Tabela Z? Definição e 
estrutura da tabela
A Tabela Z é uma ferramenta estatística fundamental, 
que desempenha um papel crucial na análise de dados dentro 
do campo da bioestatística. Essa tabela, que associa valores 
de escores Z a probabilidades cumulativas, é essencial para 
pesquisadores que buscam entender e aplicar conceitos 
de distribuição normal em seus estudos. A definição e a 
estrutura da Tabela Z permitem aos usuários determinar 
rapidamente a probabilidade de um valor aleatório selecionado 
de uma distribuição normal padrão estar abaixo de um 
determinado escore Z.
Escore Z, em sua essência, é uma medida que descreve 
a posição de um valor individual em relação à média de uma 
60 BIOESTATÍSTICA
U
ni
da
de
 2
distribuição, expressa em termos de desvios padrão. A tabela 
está organizada de tal forma que, fornecendo um escore Z, pode-
se localizar a probabilidade correspondente de que um valor 
seja menor que o escore dado. Este processo é fundamental na 
bioestatística, onde a determinação de significâncias estatísticas, 
intervalos de confiança e a realização de testes de hipóteses 
frequentemente dependem de uma compreensão precisa da 
distribuição normal e do uso eficaz da Tabela Z.
A aplicabilidade da Tabela Z estende-se por uma 
vasta gama de análises estatísticas em bioestatística, desde 
a comparação de médias de amostras até a interpretação 
de resultados de ensaios clínicos e estudos epidemiológicos. 
A capacidade de interpretar corretamente a Tabela Z é, portanto, 
uma competência indispensável para pesquisadores que desejam 
fazer inferências válidas a partir de seus dados. A tabela facilita a 
quantificação de probabilidade e risco, elementos essenciais na 
tomada de decisões baseada em evidências no campo da saúde.
Entender a Tabela Z e sua estrutura não apenas melhora 
a precisão na análise de dados, mas também aprofunda o 
conhecimento teórico dos pesquisadores sobre a distribuição 
normal. Este entendimento é crítico, dado que muitos fenômenos 
biológicos seguem uma distribuição que pode ser aproximada 
pela normal, especialmente quando consideramos o Teorema 
do Limite Central e sua implicação de que as médias amostrais 
tendem a uma distribuição normal, independentemente da forma 
da distribuição da população original.
Em resumo, a Tabela Z é mais do que uma simples 
ferramenta estatística; é uma ponte entre a teoria estatística 
e a prática da bioestatística, permitindo aos pesquisadores 
aplicar métodos quantitativos rigorosos em suas investigações. 
A habilidade de utilizar efetivamente a Tabela Z em análises 
estatísticas é, portanto, essencial para a condução de pesquisa 
61BIOESTATÍSTICA
U
ni
da
de
 2
científica robusta e confiável, enfatizando a importância de uma 
sólida formação estatística para profissionais da área de saúde e 
pesquisa biomédica.
Cálculo de probabilidades: como usar 
a tabela Z para calcular probabilidades
Para calcularmos os valores de probabilidade corretamente 
e sem o concurso da operação de integração, utilizamos a tabela 
de áreas sob a curva normal de uma variável padronizada “z”, 
caracterizada pela média (μ) = 0 e desvio-padrão (σ) = 1. 
Essa tabela apresenta áreas compreendidas calculadas 
previamente entre o ponto central da distribuição, média 0, e 
qualquer valor de “z”. A primeira coluna contém valores inteiros 
e decimais da variável “z” e cada coluna seguinte, o seu valor 
centesimal.
A normal reduzida é tabelada e assim pode se inferir sobre 
a probabilidade sem uso de computadores. O escore padronizado 
(“z”) é o número de desvios-padrões acima ou abaixo da média em 
que se situa um determinado valor. Veja o quadro a seguir.
62 BIOESTATÍSTICA
U
ni
da
de
 2
Quadro 2.1 - Curva normal reduzida (padronizada)
Fonte: Site Datalyzer (s/d).
O referido quadro apresenta somente metade da área 
da curva normal padronizada. Para determinarmos o valor de 
probabilidade correspondente entre o valor de z = 0 e o valor de 
z=1,96, basta localizar valor inteiro e decimal de “z” na primeira 
coluna (1,9) e o respectivo valor centesimal (0,06). No interior da 
tabela, o valor encontrado que cruza a projeção entre a linha e 
a coluna localizadas corresponde ao valor de probabilidade 
(P=0,4750). Considerando a simetria entre os dois lados da curva 
de distribuição normal, a diferença entre o valor da área da metade 
da curva (P=0,5) e o valor obtido acima é igual a 0,025. Temos então 
63BIOESTATÍSTICA
U
ni
da
de
 2
Quadro 2.1 - Curva normal reduzida (padronizada)
Fonte: Site Datalyzer (s/d).
O referido quadro apresenta somente metade da área 
da curva normal padronizada. Para determinarmos o valor de 
probabilidade correspondente entre o valor de z = 0 e o valor de 
z=1,96, basta localizar valor inteiro e decimal de “z” na primeira 
coluna (1,9) e o respectivo valor centesimal (0,06). No interior da 
tabela, o valor encontrado que cruza a projeçãoentre a linha e 
a coluna localizadas corresponde ao valor de probabilidade 
(P=0,4750). Considerando a simetria entre os dois lados da curva 
de distribuição normal, a diferença entre o valor da área da metade 
da curva (P=0,5) e o valor obtido acima é igual a 0,025. Temos então 
que a probabilidade de encontrarmos um valor acima de +1,96 é 
de 0,025 [P(Z>1,96) = 0,025]. 
Para encontrar o valor da variável padronizada “z”, basta 
realizar o procedimento inverso. A partir do valor de probabilidade 
na porção interna da tabela, encontra-se os valores da variável “z”. 
Por exemplo, para o valor de 0,4418, encontramos os valores de 1,5 
e 0,07, logo, z=1,57. Mas e os valores de correspondentes à outra 
porção da curva normal padronizada? Os valores de probabilidade 
são exatamente iguais para os valores negativos, à esquerda, da 
variável “z”. 
Podemos observar que, na distribuição da variável 
padronizada “z”, para um determinado intervalo de respostas 
típicas de 95%, os valores limites correspondem a -1,96 (à 
esquerda) e +1,96 (à direita). Se a área de z=0 a z=+1,96 é de 
0,4750, e de z=0 a z=-1,96 também será de 0,4750, uma vez que as 
duas metades da curva normal padronizada são simétricas e sua 
área total é igual a 1. 
A partir desses valores, é possível tipificar respostas 
individuais conhecendo os valores de média e desvio-padrão para 
determinada variável resposta a partir da equação do escore “z” 
padronizado apresentada previamente. Essa temática, no entanto, 
será mais aprofundada em outro momento de nossos estudos.
Interpretação dos valores Z: o que 
os valores significam em termos 
de probabilidade e posição na 
distribuição normal
A interpretação dos valores Z na bioestatística é uma 
habilidade essencial para entender a posição de dados individuais 
ou médias de amostras dentro de uma distribuição normal. Os 
valores Z, também conhecidos como escores padrão, quantificam 
64 BIOESTATÍSTICA
U
ni
da
de
 2
a distância de um valor específico da média da distribuição, 
medida em termos de desvios padrão. Essa métrica permite 
aos pesquisadores determinar a probabilidade associada a um 
valor específico ou a um conjunto de valores, facilitando assim a 
compreensão da sua posição relativa na distribuição normal.
A interpretação desses valores é fundamental em 
diversos aspectos da bioestatística, incluindo testes de hipóteses 
e análises de variância. Um valor Z pode indicar quão incomum 
ou comum é um resultado dentro do contexto da distribuição 
considerada. Por exemplo, um valor Z positivo indica que o 
valor observado está acima da média da população, enquanto 
um valor Z negativo sinaliza que está abaixo. Quanto maior 
o valor absoluto do escore Z, mais distante o valor observado 
está da média, sugerindo uma ocorrência menos provável sob a 
suposição de normalidade.
A utilidade dos valores Z vai além da simples localização 
de dados dentro de uma distribuição. Eles são cruciais na 
determinação de probabilidades cumulativas, que são a base 
para a realização de testes estatísticos significativos. Por 
exemplo, um escore Z de 1,96 ou -1,96 corresponde a uma 
probabilidade cumulativa que é frequentemente utilizada no 
cálculo de intervalos de confiança de 95%, um conceito central 
em inferência estatística. Esse uso reflete a importância dos 
valores Z na avaliação da significância estatística de diferenças 
observadas, um aspecto fundamental na validação de 
hipóteses científicas.
Entender a interpretação e aplicação dos valores Z requer 
uma compreensão da distribuição normal e de seus parâmetros 
– a média e o desvio padrão. Esta compreensão é reforçada 
pela prática de calcular e interpretar escores Z, uma habilidade 
desenvolvida através do estudo e aplicação de conceitos 
65BIOESTATÍSTICA
U
ni
da
de
 2
estatísticos. A capacidade de interpretar corretamente os valores 
Z e aplicá-los em análises bioestatísticas é, portanto, essencial 
para pesquisadores que buscam extrair insights significativos de 
seus dados.
Em resumo, os valores Z são uma ferramenta estatística 
poderosa na bioestatística, oferecendo uma maneira padronizada 
de entender a posição e a probabilidade de ocorrência de 
valores dentro de uma distribuição normal. A habilidade de 
interpretar esses valores permite aos pesquisadores realizar 
análises estatísticas rigorosas, contribuindo para a precisão e a 
confiabilidade das conclusões científicas.
Aplicações da Tabela Z
Determinação de intervalos de 
confiança: como a tabela Z é usada 
para calcular intervalos de confiança
A tabela Z desempenha um papel crucial na determinação 
de intervalos de confiança, uma das aplicações mais importantes 
na bioestatística. Os intervalos de confiança são usados para 
estimar a margem de erro associada a uma estimativa de 
parâmetro populacional, como a média, fornecendo uma faixa de 
valores prováveis em que o parâmetro real pode ser encontrado. 
A utilização da tabela Z para calcular esses intervalos baseia-se 
na distribuição normal padrão e na relação entre escores Z e 
probabilidades cumulativas.
Para calcular um intervalo de confiança usando a tabela Z, 
primeiramente é necessário escolher o nível de confiança desejado 
para a estimativa, como 95% ou 99%. Esses níveis de confiança 
correspondem a valores Z específicos na tabela, que indicam 
quantos desvios padrão um valor deve estar da média da distribuição 
normal padrão para abranger a porcentagem escolhida de todos os 
66 BIOESTATÍSTICA
U
ni
da
de
 2
possíveis valores da amostra. Por exemplo, um nível de confiança de 
95% geralmente corresponde a um escore Z de aproximadamente 
1,96, indicando que a média da amostra está dentro de 1,96 desvios 
padrão da média populacional 95% das vezes.
O cálculo do intervalo de confiança envolve a adição e 
subtração do produto do escore Z correspondente ao nível de 
confiança escolhido pelo erro padrão da estimativa da média. Esta 
operação matemática fornece os limites superior e inferior do 
intervalo, dentro do qual o pesquisador pode afirmar, com o nível 
de confiança escolhido, que o parâmetro populacional reside. 
Esta metodologia é aplicável a uma variedade de parâmetros 
estatísticos além da média, incluindo proporções e diferenças 
entre médias, desde que as condições para a aplicação do teorema 
do limite central sejam atendidas.
A importância de calcular intervalos de confiança 
corretamente não pode ser subestimada na bioestatística. Eles 
são fundamentais na apresentação de resultados de pesquisas, 
permitindo que pesquisadores comuniquem a precisão de suas 
estimativas e forneçam um contexto para a interpretação dos 
resultados. Intervalos de confiança estreitos indicam uma alta 
precisão da estimativa, enquanto intervalos mais largos sugerem 
maior incerteza. A habilidade de determinar e interpretar 
intervalos de confiança é, portanto, essencial para a prática eficaz 
da bioestatística, apoiando a tomada de decisões informada em 
pesquisa médica e saúde pública.
Testes de hipóteses com a Tabela Z: 
exemplos de como realizar testes de 
hipóteses utilizando a tabela Z
Os testes de hipóteses constituem uma ferramenta 
estatística fundamental na bioestatística, permitindo aos 
pesquisadores tomar decisões sobre a validade de afirmações 
67BIOESTATÍSTICA
U
ni
da
de
 2
relativas a parâmetros populacionais com base em dados 
amostrais. A tabela Z, com sua capacidade de relacionar escores 
Z a probabilidades cumulativas na distribuição normal padrão, 
é instrumental na realização desses testes, especialmente 
quando lidamos com grandes amostras. Crawley (2007) discute 
a aplicabilidade do R, um software estatístico, para facilitar a 
execução de testes de hipóteses, incluindo aqueles que dependem 
da tabela Z para sua realização.
Para realizar um teste de hipóteses utilizando a tabela Z, 
o primeiro passo é formular as hipóteses nula (H0) e alternativa 
(H1). A hipótese nula geralmente propõe a ausência de efeito ou 
diferença, enquanto a hipótese alternativa sugere a presençade 
um efeito significativo ou diferença. O escore Z é então calculado 
a partir dos dados amostrais, representando a distância entre a 
estimativa amostral e o parâmetro populacional proposto sob H0, 
medido em unidades de desvio padrão.
O valor Z calculado é comparado com valores críticos da 
tabela Z, que correspondem ao nível de significância α escolhido 
para o teste (comumente 0,05 para um teste de 5% de significância). 
Se o valor Z calculado exceder o valor crítico da tabela, a hipótese 
nula é rejeitada em favor da hipótese alternativa, indicando 
que a diferença observada é estatisticamente significativa. Por 
exemplo, em um teste bilateral com α = 0,05, os valores críticos 
da tabela Z são aproximadamente ±1,96. Um valor Z calculado 
fora desse intervalo sugere rejeição de H0.
A utilização da tabela Z em testes de hipóteses 
é particularmente útil para análises envolvendo médias 
populacionais quando o desvio padrão da população é conhecido 
e o tamanho da amostra é grande (n > 30). Este método é aplicável 
em uma variedade de contextos em bioestatística, desde a 
avaliação da eficácia de novos tratamentos até a comparação de 
taxas de incidência de doenças entre diferentes populações.
68 BIOESTATÍSTICA
U
ni
da
de
 2
Crawley (2007) enfatiza a importância do software R na 
execução desses testes, destacando como o R pode ser usado 
para calcular escores Z, determinar probabilidades cumulativas e 
realizar testes de hipóteses de forma eficiente. O R não apenas 
simplifica os cálculos necessários, mas também proporciona uma 
plataforma para a visualização de dados e resultados, facilitando a 
interpretação e comunicação das conclusões.
Análise de dados normalizados: 
utilização da tabela Z em conjuntos de 
dados normalizados
A utilização da tabela Z em conjuntos de dados 
normalizados é uma prática comum em bioestatística, permitindo 
aos pesquisadores realizar análises estatísticas sofisticadas com 
uma precisão aumentada. Normalizar os dados, ajustando-os 
para que sigam uma distribuição normal padrão, é um passo 
preparatório essencial que facilita o uso de técnicas estatísticas 
baseadas na distribuição normal. Crawley (2007) aborda a 
importância de se trabalhar com dados normalizados e como o 
software R pode ser utilizado para aplicar e interpretar a tabela Z 
em tais conjuntos de dados.
Dados normalizados, ou dados transformados para se 
adequarem à distribuição normal padrão, são essenciais para a 
aplicação eficaz de testes de hipóteses e para a determinação 
de intervalos de confiança utilizando a tabela Z. A normalização 
dos dados reduz as discrepâncias causadas por variações na 
escala ou distribuição dos dados originais, permitindo uma 
comparação mais direta e significativa entre diferentes conjuntos 
de dados ou variáveis.
Ao aplicar a tabela Z a dados normalizados, os 
pesquisadores podem calcular facilmente probabilidades, 
69BIOESTATÍSTICA
U
ni
da
de
 2
determinar significâncias estatísticas e fazer inferências sobre 
a população a partir da qual a amostra foi retirada. Isso é 
particularmente útil em estudos que envolvem a comparação 
de médias, avaliação da eficácia de tratamentos ou análise de 
tendências em dados biomédicos. A tabela Z, com seus escores 
padronizados, oferece um meio conveniente de identificar valores 
que se desviam significativamente da média esperada, indicando 
potenciais áreas de interesse ou preocupação em pesquisas 
médicas e de saúde pública.
Crawley (2007) também destaca como o R pode ser usado 
para normalizar dados e aplicar a tabela Z, através de uma série 
de funções e pacotes estatísticos integrados que automatizam 
esses processos. O R não só facilita a normalização de dados, mas 
também fornece ferramentas para calcular escores Z e interpretar 
os resultados de maneira visual, através de gráficos e tabelas 
que ilustram a distribuição dos dados e as áreas sob a curva 
normal padrão.
Em resumo, a análise de dados normalizados utilizando 
a tabela Z é uma técnica poderosa na bioestatística, permitindo 
aos pesquisadores realizar análises precisas e confiáveis. 
A normalização de dados e a subsequente aplicação de escores 
Z facilitam a interpretação estatística e a tomada de decisões 
baseadas em evidências.
RESUMINDO
E então? Gostou do que lhe mostramos? 
Aprendeu mesmo tudinho? Agora, só para termos 
certeza de que você realmente entendeu o 
tema de estudo, vamos recapitular os conceitos 
fundamentais. A tabela “z” é uma ferramenta 
indispensável na bioestatística, utilizada para 
determinar a probabilidade associada a um 
valor “z” específico. Este conhecimento é 
70 BIOESTATÍSTICA
U
ni
da
de
 2
crucial para testar hipóteses e interpretar a 
variabilidade dos dados em relação à média da 
população. Compreender a tabela “z” permite 
aos pesquisadores quantificar a significância 
estatística de seus resultados, um passo essencial 
na validação de estudos e pesquisas.
As aplicações da tabela “z” estendem-se por 
diversos aspectos da análise estatística, desde 
a determinação de intervalos de confiança até 
a realização de testes de hipóteses. A habilidade 
de utilizar corretamente essa tabela fortalece 
a capacidade de tomar decisões baseadas 
em evidências, um componente chave na 
pesquisa bioestatística. Esse conhecimento é 
particularmente valioso quando se lida com 
grandes conjuntos de dados, onde a precisão 
na estimativa de parâmetros populacionais 
pode influenciar diretamente a interpretação 
dos resultados.
Finalmente, a prática com o software R introduz 
uma dimensão prática ao aprendizado, permitindo 
aos estudantes aplicar a teoria à análise de dados 
reais. Aprender a calcular e interpretar valores “z” 
no R não só automatiza processos estatísticos, 
mas também proporciona uma compreensão 
mais profunda do comportamento dos dados. 
Este capítulo, portanto, não apenas equipa os 
estudantes com as ferramentas necessárias para 
aplicar a tabela “z” em análises bioestatísticas, 
mas também promove uma reflexão crítica sobre 
a importância de técnicas estatísticas rigorosas na 
pesquisa científica. Está preparado para aplicar 
esses conhecimentos e contribuir com confiança 
para o campo da bioestatística? Avançamos juntos 
na jornada de descoberta e aplicação de conceitos 
estatísticos fundamentais.
71BIOESTATÍSTICA
U
ni
da
de
 2
Tipificação de respostas 
individuais
OBJETIVO
Ao final deste capítulo, você estará apto a 
reconhecer e analisar os diversos tipos de 
respostas individuais encontradas em estudos 
bioestatísticos. Esta competência é crucial 
para o exercício de sua profissão, visto que a 
interpretação correta dos dados coletados é a base 
para conclusões científicas sólidas e confiáveis. 
Muitos que se aventuraram na análise de dados 
sem compreender a natureza e as implicações dos 
diferentes tipos de respostas enfrentaram desafios 
significativos, resultando em interpretações 
errôneas ou conclusões imprecisas. E então? Está 
pronto para se aprofundar nesse conhecimento 
fundamental e evitar esses obstáculos comuns? 
Vamos lá!
Tipos de respostas em 
bioestatística
Respostas binárias e contínuas: 
definição e exemplos de cada tipo
No campo da bioestatística, compreender os diferentes 
tipos de respostas coletadas em pesquisas e experimentos 
é fundamental para a escolha adequada de métodos de 
análise. Entre esses tipos, as respostas binárias e contínuas são 
particularmente comuns e essenciais para muitos estudos na área 
da saúde e da medicina.
Respostas binárias, como o nome sugere, são aquelas 
que se enquadram em uma de duas categorias possíveis. Essas 
categorias geralmente representam a presença ou ausência 
72 BIOESTATÍSTICA
U
ni
da
de
 2
de um atributo, como doença (sim ou não), sucesso ou falha de 
um tratamento e resposta ou não resposta a uma intervenção. 
Esse tipo de resposta é fundamental em estudos clínicos e 
epidemiológicos, onde a ocorrência de eventos de interesse 
precisa ser claramente definida e contabilizada. A análise de dados 
bináriosfrequentemente recorre a técnicas específicas, como 
testes qui-quadrado ou modelos de regressão logística, que são 
desenhados para lidar com a natureza dicotômica desses dados.
Por outro lado, as respostas contínuas referem-se a 
variáveis que podem assumir qualquer valor dentro de um 
intervalo. Exemplos comuns incluem a medição de pressão 
arterial, níveis de glicose no sangue, ou a duração de uma doença. 
Essas respostas são valiosas para explorar variações quantitativas 
em características ou estados de saúde e frequentemente são 
analisadas utilizando métodos estatísticos que assumem uma 
distribuição de dados, como a análise de variância (ANOVA) ou 
modelos de regressão linear.
A distinção entre respostas binárias e contínuas é crucial 
não apenas para a análise estatística apropriada, mas também 
para o desenho da pesquisa e coleta de dados. Cada tipo de 
resposta oferece informações diferentes sobre o fenômeno de 
interesse e requer uma abordagem metodológica específica para 
sua análise. Enquanto respostas binárias podem ser mais simples 
de coletar e interpretar, as contínuas oferecem uma riqueza 
de informações quantitativas que podem ser essenciais para 
entender as nuances de um problema de pesquisa.
Categorização e codificação de 
respostas: como preparar dados de 
pesquisa para análise
A preparação de dados de pesquisa para análise é 
um passo crítico no processo de bioestatística, envolvendo a 
categorização e codificação de respostas coletadas durante a fase 
73BIOESTATÍSTICA
U
ni
da
de
 2
de coleta de dados. Este processo não apenas facilita a análise 
estatística subsequente, mas também garante que os dados 
reflitam com precisão as variáveis de interesse e as hipóteses 
de pesquisa. A categorização e a codificação transformam dados 
brutos - frequentemente textuais ou numéricos de forma livre - em 
formatos padronizados e quantitativos que podem ser facilmente 
manipulados por software estatístico.
A categorização envolve a classificação de respostas em 
grupos ou categorias mutuamente exclusivas que representam 
diferentes níveis ou tipos de uma variável. Este processo é 
essencial quando se lida com variáveis qualitativas, como o 
tipo de tratamento, categorias de doenças, ou respostas a 
questionários com opções múltiplas. A categorização ajuda a 
simplificar e organizar os dados, facilitando a identificação de 
padrões ou tendências durante a análise. Por exemplo, respostas 
a uma pergunta sobre o nível de satisfação com um tratamento 
podem ser categorizadas em “satisfeito”, “neutro” e “insatisfeito”, 
permitindo aos pesquisadores quantificar e analisar a satisfação 
dos pacientes de forma eficaz.
A codificação, por sua vez, refere-se à atribuição de códigos 
numéricos a categorias ou respostas individuais. Esse processo é 
crucial para a análise estatística, pois permite a transformação de 
dados qualitativos em quantitativos. Por exemplo, as categorias 
de satisfação mencionadas anteriormente podem ser codificadas 
como 1 para “satisfeito”, 2 para “neutro”, e 3 para “insatisfeito”. 
A codificação facilita a realização de análises estatísticas, como a 
comparação de médias ou a aplicação de modelos de regressão, 
que dependem de dados numéricos.
A escolha de categorias e a atribuição de códigos devem 
ser feitas de maneira cuidadosa e deliberada, refletindo as 
perguntas de pesquisa e os objetivos do estudo. Uma codificação 
74 BIOESTATÍSTICA
U
ni
da
de
 2
inadequada ou uma categorização imprecisa podem levar 
a interpretações errôneas dos dados ou mascarar relações 
significativas entre as variáveis. Além disso, é importante que 
o processo de categorização e codificação seja consistente em 
todo o conjunto de dados, garantindo a comparabilidade e a 
confiabilidade das análises.
Importância das respostas individuais: 
impacto no desenho do estudo e na 
interpretação dos resultados
A compreensão e a análise das respostas individuais 
ocupam um lugar central na bioestatística, influenciando tanto 
o desenho do estudo quanto a interpretação dos resultados. 
As respostas individuais fornecem os dados brutos a partir dos 
quais pesquisadores podem extrair insights e conclusões sobre 
fenômenos de saúde. Elas refletem a variabilidade inerente às 
populações estudadas, destacando diferenças e semelhanças que 
podem ser cruciais para compreender os mecanismos subjacentes 
a doenças, respostas a tratamentos e outros fatores de saúde.
A importância das respostas individuais vai além da 
mera coleta de dados; elas impactam diretamente no desenho 
do estudo, influenciando a escolha do tamanho da amostra, os 
métodos de coleta de dados e as técnicas de análise estatística. 
Um entendimento profundo das respostas individuais permite aos 
pesquisadores identificar padrões e tendências que podem não 
ser evidentes em análises agregadas, possibilitando a identificação 
de subgrupos de pacientes que podem responder diferentemente 
a um tratamento, por exemplo.
Além disso, as respostas individuais têm um impacto 
significativo na interpretação dos resultados. A análise detalhada 
75BIOESTATÍSTICA
U
ni
da
de
 2
dessas respostas pode revelar insights sobre a variabilidade da 
resposta ao tratamento, fatores de risco para doenças e potenciais 
efeitos colaterais de intervenções médicas. Reconhecer e entender 
essa variabilidade é essencial para a elaboração de conclusões 
precisas e para a formulação de recomendações clínicas baseadas 
em evidências.
A análise de respostas individuais também contribui para 
a personalização da medicina, um campo em rápida expansão que 
busca adaptar intervenções médicas às características específicas 
de cada paciente. Ao examinar as respostas individuais, os 
pesquisadores podem identificar biomarcadores ou padrões 
comportamentais que predizem a eficácia de tratamentos 
específicos, levando a terapias mais direcionadas e efetivas.
Em resumo, as respostas individuais desempenham um 
papel fundamental em todas as fases da pesquisa bioestatística, 
desde o planejamento inicial do estudo até a interpretação final 
dos dados. Sua análise cuidadosa é indispensável para o avanço 
do conhecimento científico no campo da saúde, destacando 
a necessidade de métodos estatísticos sofisticados e de uma 
abordagem meticulosa no desenho de pesquisa.
Análise de Respostas Individuais
Técnicas de Análise: abordagens para 
análise de diferentes tipos de dados 
de resposta
A análise de respostas individuais em bioestatística envolve 
uma variedade de técnicas e abordagens que são selecionadas com 
base no tipo de dados de resposta coletados em um estudo. Essas 
técnicas são essenciais para extrair informações significativas 
76 BIOESTATÍSTICA
U
ni
da
de
 2
dos dados, permitindo aos pesquisadores compreender padrões, 
tendências e associações dentro de suas áreas de estudo. 
A obra de Crawley (2007) serve como uma referência valiosa para 
pesquisadores que buscam aplicar essas técnicas no software 
R, oferecendo orientações detalhadas sobre como manipular, 
analisar e interpretar diferentes tipos de dados de resposta.
Para dados de resposta binária, técnicas como análise 
de frequência e testes qui-quadrado são comumente utilizadas 
para examinar a relação entre variáveis categóricas. Modelos 
de regressão logística também são aplicados para investigar 
a influência de uma ou mais variáveis independentes sobre 
uma variável dependente binária. Essas técnicas permitem aos 
pesquisadores avaliar a probabilidade de ocorrência de um 
evento, como a eficácia de um tratamento médico ou a presença 
de uma condição de saúde.
No caso de dados de resposta contínua, métodos como 
a análise de variância (ANOVA) e modelos de regressão linear 
são frequentemente empregados. A ANOVA é útil para comparar 
médias entre grupos, enquanto a regressão linear pode identificar 
relações lineares entre variáveis contínuas. Essas técnicas são 
fundamentais para explorar como variáveis independentes afetam 
uma variável dependente contínua, facilitandoa compreensão de 
fenômenos complexos em estudos de saúde.
Dados categóricos ordinais, que representam categorias 
com uma ordem natural, podem ser analisados usando testes de 
tendência ou modelos de regressão ordinal. Essas abordagens 
ajudam a entender como as categorias ordenadas se relacionam 
umas com as outras e com outras variáveis no estudo. A escolha da 
técnica apropriada depende da natureza dos dados e dos objetivos 
específicos da pesquisa, exigindo uma compreensão profunda das 
propriedades estatísticas dos métodos selecionados.
77BIOESTATÍSTICA
U
ni
da
de
 2
Crawley (2007) destaca a importância de selecionar a 
técnica de análise mais apropriada para o tipo de dados coletados, 
enfatizando a necessidade de uma abordagem cuidadosa na 
preparação e análise dos dados. O R, com sua ampla gama de 
pacotes e funções estatísticas, oferece aos pesquisadores as 
ferramentas necessárias para aplicar essas técnicas de forma 
eficaz. Além disso, o R facilita a visualização de dados, permitindo 
aos pesquisadores apresentar seus resultados de maneira 
clara e informativa.
Em resumo, a análise de respostas individuais em 
bioestatística requer uma abordagem metodológica rigorosa e o 
uso de técnicas estatísticas adequadas. A orientação fornecida 
por Crawley (2007) sobre o uso do R para essas análises é um 
recurso inestimável para pesquisadores que buscam extrair 
insights significativos de seus dados. Dominar essas técnicas e 
aplicá-las corretamente é crucial para avançar na compreensão de 
questões de saúde e contribuir para a base de conhecimento em 
bioestatística e áreas relacionadas.
Interpretação dos resultados: como 
interpretar os resultados das análises 
de respostas individuais
A interpretação dos resultados das análises de respostas 
individuais é uma etapa crítica na pesquisa bioestatística, pois é 
nesse momento que os dados brutos transformam-se em insights 
significativos e conclusões científicas. Crawley (2007) ressalta a 
importância de uma interpretação cuidadosa e metodológica dos 
resultados, guiada por uma compreensão profunda dos métodos 
estatísticos utilizados e dos objetivos da pesquisa. Este processo 
envolve não apenas a análise dos dados através de técnicas 
estatísticas, mas também a avaliação de como esses resultados se 
78 BIOESTATÍSTICA
U
ni
da
de
 2
enquadram no contexto mais amplo do estudo e do conhecimento 
existente na área.
Para interpretar os resultados das análises de respostas 
individuais efetivamente, é essencial considerar a precisão das 
estimativas, a significância estatística dos achados e a relevância 
clínica ou biológica dessas descobertas. A precisão das estimativas 
é frequentemente avaliada por meio de intervalos de confiança, 
que fornecem uma faixa dentro da qual o verdadeiro valor 
do parâmetro está provavelmente localizado. A significância 
estatística, por outro lado, é determinada pelos valores-p obtidos 
nas análises, os quais indicam a probabilidade de observar os 
resultados obtidos, ou mais extremos, sob a hipótese nula.
Além disso, a interpretação dos resultados requer 
uma consideração cuidadosa das limitações dos dados e dos 
métodos de análise utilizados. Isso inclui a avaliação da potencial 
presença de viés, a influência de variáveis confundidoras e a 
generalizabilidade dos resultados para outras populações ou 
contextos. A interpretação responsável e precisa dos resultados 
das análises é fundamental para evitar conclusões errôneas e para 
garantir que as contribuições à base de conhecimento científico 
sejam válidas e confiáveis.
Crawley (2007) também enfatiza a importância 
da visualização de dados como uma ferramenta para a 
interpretação dos resultados. Gráficos e visualizações podem 
revelar padrões, tendências e relações nos dados que 
podem não ser imediatamente aparentes através de análises 
estatísticas quantitativas sozinhas. Essas visualizações podem 
facilitar a comunicação dos resultados para um público mais 
amplo, incluindo outros pesquisadores, profissionais de saúde 
e decisores políticos, garantindo que as descobertas sejam 
compreendidas e aplicadas de maneira eficaz.
79BIOESTATÍSTICA
U
ni
da
de
 2
Erros Comuns e como evitá-los: 
discussão sobre erros frequentes na 
análise de dados e como prevenir
Na análise de dados bioestatísticos, especialmente no que 
concerne às respostas individuais, certos erros são frequentemente 
encontrados, podendo comprometer a validade e a confiabilidade 
das conclusões da pesquisa. A conscientização sobre esses erros 
comuns e as estratégias para evitá-los são fundamentais para a 
integridade da pesquisa em bioestatística. Este conhecimento é 
crucial não apenas para pesquisadores iniciantes, mas também 
para aqueles com experiência, assegurando que as análises 
realizadas sejam robustas e confiáveis.
Um erro comum na análise de dados é a má interpretação 
dos resultados estatísticos, como a confusão entre significância 
estatística e relevância clínica. Enquanto a significância estatística 
pode indicar uma diferença estatisticamente significativa entre 
grupos, isso não necessariamente implica que tal diferença seja 
clinicamente importante. Para evitar esse erro, os pesquisadores 
devem sempre contextualizar os resultados estatísticos dentro 
do quadro clínico ou biológico relevante, considerando as 
implicações práticas de suas descobertas.
Outro erro frequente é o uso inadequado de testes 
estatísticos, resultante de uma compreensão insuficiente sobre as 
premissas subjacentes a cada teste. Por exemplo, aplicar testes 
paramétricos a dados que não seguem uma distribuição normal 
ou que violam as premissas de homogeneidade de variâncias 
pode levar a conclusões errôneas. A solução para este problema 
reside no entendimento profundo dos pressupostos de cada teste 
estatístico e na realização de verificações de premissas apropriadas 
antes da sua aplicação. O uso de software estatístico, como o R, 
80 BIOESTATÍSTICA
U
ni
da
de
 2
pode facilitar essas verificações através de funções específicas 
para testar a normalidade e a homogeneidade de variâncias.
A não consideração da variabilidade dentro dos grupos 
é outro erro comum. Em muitas análises, a variabilidade das 
respostas individuais pode fornecer insights valiosos sobre o 
fenômeno estudado. Ignorar essa variabilidade pode resultar 
em uma compreensão superficial dos dados. A utilização de 
gráficos de dispersão ou box plots no R pode ajudar a visualizar 
a variabilidade dos dados e a identificar possíveis outliers, que 
podem influenciar os resultados das análises.
Por fim, a sobreinterpretação de dados é um erro 
que pesquisadores devem diligentemente evitar. Isso ocorre 
quando conclusões são tiradas de dados que não suportam tais 
interpretações, seja por causa do tamanho da amostra, da falta 
de repetibilidade dos resultados ou da aplicação de análises 
estatísticas inadequadas. Uma abordagem crítica e cautelosa, 
juntamente com a consulta de literatura científica relevante e a 
colaboração com colegas e estatísticos, pode prevenir esse tipo 
de erro.
Em resumo, a prevenção de erros comuns na análise de 
dados em bioestatística requer uma combinação de conhecimento 
técnico profundo, pensamento crítico e uma abordagem meticulosa 
à interpretação dos resultados. Aprofundar o entendimento das 
técnicas estatísticas, juntamente com o uso eficaz de ferramentas 
como o R, conforme discutido em obras como a de Crawley (2007), 
é essencial para realizar análises rigorosas e gerar conhecimento 
científico válido e confiável.
Estudo de caso no R
Trabalharemos agora com mais exemplos práticos para 
suplantar os conhecimentos teóricos obtidos. A determinação 
81BIOESTATÍSTICA
U
ni
da
de
 2
da área central de 95% sob a curva normal pode ser resolvida, 
conforme destacamos anteriormente, pelo procedimento 
de integração. Para tanto, necessitaríamos definir a função 
matemática sob a qual desejamos calcular a área compreendida 
entre duas coordenadas quaisquer, proposta porGauss, integrar 
essa função entre essas duas coordenadas: o valor obtido será a 
área percentual em relação à área total, sob toda a função de -∞ a 
+∞, que corresponderia a 100%. 
Para um exemplo específico na agropecuária, a respeito 
do peso ao abate de suínos (média de 90 kg e desvio-padrão 12kg), 
se o valor de X1 for a média (90 kg) e o de X2 = 100 kg, a área 
relativa calculada pela integração corresponderia ao percentual da 
população ali contida. Para que X1 = 100 kg fosse o limite superior 
do intervalo de respostas individuais típicas, a área calculada 
deveria ser de 0,4750 (47,5%), porque a outra porção estaria 
simetricamente do outro lado da média, na verdade forneceria um 
percentual de 29,67%.
Quando nossa variável for diferente de “z”, como identificar 
o intervalo de respostas típicas do peso de abate de suínos, 
com os valores de média e desvio-padrão reportados? A relação 
 transforma qualquer variável biológica normalmente 
distribuída em distribuição padrão “z”. Como os valores de “z” que 
limitam o grupo de respostas típicas (95% da população) são -1,96 
e 1,96, a relação para cálculo dos escores “z” nos fornecerá os 
mesmos limites para qualquer variável normal, ou seja: 
Em que será a menor resposta típica e 
será a maior resposta típica. O intervalo de e 
 é denominado intervalo de respostas típicas individuais, ou o 
intervalo de confiança que corresponde a 95% das observações 
82 BIOESTATÍSTICA
U
ni
da
de
 2
dispersas em torno da média. Logo, o peso de abate de suínos 
será: 
Adicionalmente, considerando que 300 animais foram 
empregados para descrever a variável peso ao abate, 95% 
deles (285), estarão probabilisticamente no intervalo definido. 
O domínio do cálculo de probabilidade envolvendo a curva normal 
fundamenta a teoria estatística que permitirá a comparação de 
grupos experimentais. A distribuição “z”, entretanto, possibilita 
algumas aplicações práticas em que a resposta individual é o alvo 
do usuário. Vejamos duas situações práticas a seguir.
Consideremos uma granja de aves caracterizada por uma 
produção média diária de 3000 ovos, que pesam em média 55 
gramas e com desvio-padrão de 12 gramas, a qual vende seus 
produtos segundo os respectivos pesos. Uma panificadora deseja 
reservar diariamente 30 dúzias de ovos industriais (com peso 
inferior a 38 gramas), por serem mais baratos, para a fabricação 
de pães e bolos. Será que a granja poderá atender a esse pedido?
Imagem 2.31 - Exemplo da granja 
Z=-1,42
Fonte: Elaborado pela autoria (2024). 
83BIOESTATÍSTICA
U
ni
da
de
 2
Se x = 38 gramas então seu valor correspondente em uma 
distribuição de “z” será .
Na imagem anterior, a área entre -1,42 e 0 é de 0,422. 
Porém, a área de interesse de ovos industriais mais leves que 
38 gramas correspondem à área inferior à z=-1,42. Portanto, a 
probabilidade de encontrar ovos mais leves que 38g na granja será 
a diferença entre o valor de probabilidade da metade da curva 
normal (0,5) e o valor de “z” obtido. Em outras palavras: P(X≤38g) = 
0,50 – 0,422 = 0,0778 ou 7,78% dos ovos. 
Uma vez que a granja produz 3000 ovos por dia, 
multiplicando 3000 vezes o valor de probabilidade de 0,0778, 
temos que 233,4 ovos serão de natureza industrial, ou seja, abaixo 
de 38 gramas. Isso significa que a granja não poderá fornecer o 
montante pedido de 300 ovos comerciais. Logo, a panificadora 
deverá encontrar mais fornecedores ou outro fornecedor para 
atender a sua demanda.
Vamos considerar um outro exemplo, de abatedouro 
de suínos. Caso esse abatedouro se interesse por animais com 
peso mínimo de 90kg [P(X≥90kg)], qual a porcentagem de animais 
que estará apta para o abate quando a média do lote for de 95kg 
e o desvio-padrão de 15kg? 
Imagem 2.32 - Exemplo do abatedouro 
Fonte: Elaborado pela autoria (2024). 
Z=-0,33
84 BIOESTATÍSTICA
U
ni
da
de
 2
A área correspondente ao intervalo de “z” de -0,33 a 
0 (ou de 90 a 95kg na distribuição original) é de 0,1293. Logo, a 
probabilidade de encontrar animais com no mínimo 90kg naquele 
grupo é de 0,1293 + 0,5 = 0,6293 ou 62,93%. 
Na experimentação em bioestatística, a utilização de 
desempenhos individuais será muito restrita. Os ensaios, em 
sua maioria, desejarão comparar médias de tratamentos e não 
tipificar possíveis respostas individuais. Assim sendo, nosso 
interesse passa a ser não em como a maioria dos indivíduos pode 
responder a um tratamento, mas como a média de indivíduos 
tratados igualmente pode variar de um experimento para outro. 
Isso significa que estaremos procurando um intervalo que englobe 
95% de todas as médias possíveis de serem encontradas quando 
utilizarmos indivíduos sob um mesmo tratamento - esse será o 
intervalo de confiança da média. 
RESUMINDO
E então? Gostou do que lhe mostramos? Aprendeu 
mesmo tudinho? Agora, só para termos certeza de 
que você realmente entendeu o tema de estudo, 
vamos revisitar os conceitos-chave abordados. 
Inicialmente, exploramos os tipos de respostas 
em bioestatística, destacando a importância de 
distinguir entre respostas binárias, contínuas e 
categóricas. Essa distinção é fundamental para 
a seleção de métodos estatísticos adequados e 
para a interpretação correta dos resultados de 
uma pesquisa. Compreender as características de 
cada tipo de resposta permite aos pesquisadores 
aplicar técnicas analíticas precisas, aumentando a 
validade das conclusões extraídas dos dados.
85BIOESTATÍSTICA
U
ni
da
de
 2
Avançamos para a análise de respostas individuais, 
enfatizando como a abordagem correta para cada 
tipo de resposta pode revelar insights significativos 
sobre os dados. Discutimos métodos para analisar 
variabilidade, tendências e padrões em respostas 
individuais, e como essas análises contribuem 
para a compreensão mais ampla dos fenômenos 
estudados. Esta seção reforçou a ideia de que 
uma análise cuidadosa, considerando a natureza 
específica dos dados, é essencial para extrair 
informações valiosas e para fundamentar decisões 
baseadas em evidências.
Por fim, exploramos estudos de caso no R, 
demonstrando a aplicabilidade prática dos 
conceitos teóricos discutidos. O uso do R como 
uma ferramenta para reproduzir tipos de 
respostas individuais em análises bioestatísticas 
exemplificou como a teoria se traduz em prática. 
Estes exemplos práticos serviram para ilustrar a 
importância de combinar conhecimento teórico 
com habilidades analíticas no software, reforçando 
a competência dos pesquisadores em conduzir 
análises estatísticas rigorosas e significativas.
Resumindo, este capítulo forneceu uma 
base sólida para entender e analisar os tipos 
de respostas individuais em bioestatística, 
enfatizando a importância de abordagens 
metodológicas apropriadas e a aplicação prática 
dessas abordagens no R. Com essa compreensão, 
você está agora melhor equipado para enfrentar 
os desafios da análise de dados em bioestatística, 
contribuindo para o avanço da pesquisa científica 
com rigor e precisão.
86 BIOESTATÍSTICA
U
ni
da
de
 2
CEP – Controle Estatístico do Processo. Reduzir o desperdício. 
Datalyzer, [s. d.]. Disponível em: https://www.datalyzer.com.br/
site/suporte/administrador/info/arquivos/info73/73.html. Acesso 
em: 27 jan. 2024.
CRAWLEY, M. J. The R book. San Francisco: John Wiley & Sons, 2007.
RE
FE
RÊ
N
CI
A
S
	Software estatístico R
	Introdução ao R e instalação do software: primeiros passos
	O que é R? Breve história e a importância do R na bioestatística
	Ambiente de Trabalho: descrição da interface, pacotes básicos e como personalizar o ambiente R
	Primeiros passos: instalação do R e do RStudio, configuração inicial e introdução aos scripts básicos
	Conhecendo e manipulando os dados com R
	Importação de dados: como ler dados de diferentes formatos
	Limpeza e preparação de dados: técnicas para tratar dados faltantes, remover duplicatas e transformar variáveis
	Análise exploratória de dados: uso de estatísticas descritivas e visualizações básicas para explorar os dados
	Análiseestatística básica
	Testes de hipóteses: como realizar testes estatísticos básicos no R
	Modelos lineares e não lineares: introdução à construção e interpretação de modelos estatísticos 
	Relatórios e publicação: como usar o R Markdown para criar relatórios e apresentações de análises
	Distribuição normal de probabilidade
	Conceitos fundamentais
	Definição de distribuição de probabilidade
	Definição de distribuição normal: cálculos e características
	Testes estatísticos de distribuição normal
	Teorema do Limite Central
	Entendendo o teorema: explicação e significado na estatística
	Simulações no R: como simular e visualizar o teorema do limite central usando R
	Importância do teorema para a Bioestatística: por que é fundamental entender o Teorema do Limite Central
	Normalização de dados
	Por que normalizar? Razões para normalizar dados antes da análise
	Técnicas de normalização: como e quando aplicar transformações de dados
	Exemplos práticos no R: demonstração de técnicas de normalização em conjuntos de dados reais
	Tabela “z”
	Entendendo a Tabela Z
	O que é a Tabela Z? Definição e estrutura da tabela
	Cálculo de probabilidades: como usar a tabela Z para calcular probabilidades
	Interpretação dos valores Z: o que os valores significam em termos de probabilidade e posição na distribuição normal
	Aplicações da Tabela Z
	Determinação de intervalos de confiança: como a tabela Z é usada para calcular intervalos de confiança
	Testes de hipóteses com a Tabela Z: exemplos de como realizar testes de hipóteses utilizando a tabela Z
	Análise de dados normalizados: utilização da tabela Z em conjuntos de dados normalizados
	Tipificação de respostas individuais
	Tipos de respostas em bioestatística
	Respostas binárias e contínuas: definição e exemplos de cada tipo
	Categorização e codificação de respostas: como preparar dados de pesquisa para análise
	Importância das respostas individuais: impacto no desenho do estudo e na interpretação dos resultados
	Análise de Respostas Individuais
	Técnicas de Análise: abordagens para análise de diferentes tipos de dados de resposta
	Interpretação dos resultados: como interpretar os resultados das análises de respostas individuais
	Erros Comuns e como evitá-los: discussão sobre erros frequentes na análise de dados e como prevenir
	Estudo de caso no RU
ni
da
de
 2
A
PR
ES
EN
TA
ÇÃ
O
Você sabia que ter conhecimentos aprofundados sobre 
tecnologia é um dos fatores mais importantes na área de 
Bioestatística, que será responsável pela geração de muitos 
empregos nos próximos anos? Isso mesmo. Nesta unidade, 
você será apresentado à distribuição normal de probabilidade, 
aprenderá a utilizar a tabela “z” e conseguirá tipificar respostas 
individuais para uma determinada variável aleatória. Para guiar 
seu aprendizado de forma efetiva, serão apresentados exemplos 
práticos de como aplicar esses conceitos em seu dia a dia na 
profissão. Então vamos juntos iniciar essa jornada!
10 BIOESTATÍSTICA
U
ni
da
de
 2
O
BJ
ET
IV
O
S
Olá. Seja muito bem-vindo à Unidade 2. Nosso objetivo 
é auxiliar você no desenvolvimento das seguintes competências 
profissionais até o término desta etapa de estudos:
1. Definir o essencial sobre o software estatístico R.
2. Exemplificar o que é uma distribuição normal de 
probabilidade.
3. Utilizar a tabela “z” em análises bioestatísticas.
4. Reproduzir os tipos de respostas individuais.
11BIOESTATÍSTICA
U
ni
da
de
 2
Software estatístico R
OBJETIVO
O objetivo deste capítulo é equipar o leitor com uma 
compreensão fundamental do software estatístico 
R, desde a instalação inicial e familiarização com o 
ambiente de trabalho até a manipulação e análise 
básica de dados estatísticos. Ao término deste 
capítulo, o leitor será capaz de instalar e configurar 
o R, entender como importar, limpar e preparar 
conjuntos de dados para análise, e realizar análises 
estatísticas básicas, incluindo testes de hipóteses 
e interpretação de resultados. Este conhecimento 
não só é essencial para a realização de análises 
bioestatísticas eficazes, mas também constitui a 
base para o desenvolvimento de competências 
mais avançadas em estatística e pesquisa em 
bioestatística. E então? Motivado para desenvolver 
essa competência vital? Vamos lá!
Introdução ao R e instalação do 
software: primeiros passos
O que é R? Breve história 
e a importância do R na 
bioestatística
O software estatístico R tem se estabelecido como uma 
ferramenta indispensável na bioestatística, um campo que exige 
precisão, flexibilidade e eficiência na análise de dados. A origem 
do R remonta ao início dos anos 90, fruto do trabalho de Ross 
Ihaka e Robert Gentleman na Universidade de Auckland, Nova 
Zelândia. Desde então, evoluiu de uma alternativa ao S, um sistema 
estatístico comercial, para um ambiente estatístico abrangente 
e de código aberto. Crawley (2007) destaca a importância do R, 
12 BIOESTATÍSTICA
U
ni
da
de
 2
não apenas como um software para análises estatísticas, mas 
como um ambiente que promove a inovação e a colaboração 
entre os pesquisadores.
A bioestatística, em particular, beneficia-se das 
capacidades do R, permitindo aos pesquisadores realizar análises 
complexas sem as limitações impostas por software proprietário. 
A flexibilidade do R, com sua vasta gama de pacotes e funções, 
facilita desde a execução de análises estatísticas básicas até 
a modelagem de dados avançada e simulações complexas. 
Segundo Crawley (2007), essa capacidade de adaptação faz do R 
uma ferramenta valiosa para enfrentar os desafios estatísticos 
específicos encontrados na pesquisa biomédica.
Além de sua versatilidade, a importância do R na 
bioestatística está ligada à sua natureza de código aberto. Essa 
característica promove uma comunidade ativa de usuários e 
desenvolvedores que contribuem constantemente com novos 
pacotes e melhorias, assegurando que o software permaneça 
na vanguarda das necessidades analíticas contemporâneas. 
A possibilidade de revisar e modificar o código promove a 
transparência e a reprodutibilidade das análises científicas, 
aspectos cruciais para a integridade da pesquisa em bioestatística.
Em resumo, a relevância do R para a bioestatística 
transcende sua função como um mero software de análise. 
Conforme apontado por Crawley (2007), e refletido nas práticas 
contemporâneas de controle estatístico do processo (Datalyzer, 
s.d.), o R representa um ecossistema dinâmico que estimula a 
inovação, a colaboração e a eficiência em pesquisa. Sua contribuição 
para a bioestatística é inestimável, fornecendo aos pesquisadores 
as ferramentas necessárias para explorar a complexidade dos 
dados biológicos e médicos com confiança e precisão.
13BIOESTATÍSTICA
U
ni
da
de
 2
Ambiente de Trabalho: descrição 
da interface, pacotes básicos e 
como personalizar o ambiente R
A familiaridade com o ambiente de trabalho do R é crucial 
para a realização de análises bioestatísticas eficazes. Este software 
oferece uma interface que, embora inicialmente possa parecer 
desafiadora, é projetada para facilitar a execução de tarefas 
estatísticas complexas de maneira intuitiva. A interface do R, 
composta por consoles, scripts, e múltiplas janelas de visualização, 
permite uma interação direta e eficiente com os dados e as 
análises em curso. 
Um aspecto fundamental do trabalho com o R é a 
utilização de pacotes. Os pacotes são coleções de funções, dados 
e documentação que expandem as capacidades do R, permitindo 
análises especializadas e aplicação de métodos estatísticos 
avançados. Crawley (2007) salienta a importância dos pacotes 
básicos que vêm pré-instalados com o R, bem como a facilidade de 
instalar pacotes adicionais conforme necessário. Esta flexibilidade 
é essencial para a bioestatística, onde os requisitos analíticos 
podem variar significativamente de um projeto para outro.
Além disso, a personalização do ambiente R é uma 
ferramenta poderosa para aumentar a produtividade. Usuários 
podem modificar o layout da interface, escolher esquemas de 
cores para facilitar a visualização de código e configurar opções 
para resultados de análise. A possibilidade de criar scripts 
personalizados e funções que automatizam tarefas repetitivas 
economiza tempo e reduz a possibilidade de erros, um aspecto 
crucial em análises bioestatísticas onde a precisão é fundamental.
14 BIOESTATÍSTICA
U
ni
da
de
 2
A adoção dessas práticas não apenas melhora a eficiência 
do trabalho dentro do R, mas também ajuda a garantir a 
reprodutibilidade das análises. A reprodutibilidade é um pilar 
da pesquisa científica, e o R facilita isso através da capacidade 
de compartilhar pacotes, scripts personalizados, e ambientes de 
trabalho completos. Esta característica, destacada na literatura 
por especialistas como Crawley (2007), ressalta o compromisso do 
R com os princípios da ciência aberta e colaborativa.
Primeiros passos: instalação do R 
e do RStudio, configuração inicial e 
introdução aos scripts básicos
Para realizar seu estudo, você deverá realizar instalar 
o software R, que pode ser encontrado facilmente na internet. 
O site chamado de CRAN – “The Comprehensive R Archive Network”, 
disponibiliza o download do instalador.
ACESSE
Para baixar o software, basta acessar o QR Code 
abaixo.
É importante que você esteja atento e escolha 
corretamente o arquivo, uma vez que existem versões para o 
Windows, MAC e Linux. Você deverá baixar o pacote adequado e 
executar o programa de instalação.
Na parte de cima, você verá a tela principal do software R. 
Como é possível observar, a primeira coisa que irá aparecer na 
https://cran.r-project.org/
15BIOESTATÍSTICA
U
ni
da
de
 2
tela é a data e o número da versão do software selecionado, em 
seguida um cabeçalho explicando que não há nenhuma garantia 
para esse software livre, além de alguns comandos importantes.
Abaixo do cabeçalho, uma linha em branco com o símbolo 
“>” na margem esquerda aparecerá. Esse símbolo é denominado 
chamado de alerta ou que o sistema está pronto para digitar; 
comando digitado não está completo., como se fosse uma 
maneira do software dizer “E AGORA?”, e é o espaço no qual 
digitaremos os comandos. 
Caso em vez de “>” apareça um “+”, significa que o último 
comando digitado não está completo e será necessário digitar os 
caracteres que faltam.Caso tenha errado o comando, pressione 
“ESC” e o chamado de alerta “>” reaparecerá.
Imagem 2.1 - Interface do software R 
Fonte: Elaborado pela autoria (2024). 
Um recurso importante desse software é que ele armazena 
em sua memória os comandos executados. Assim, ao teclar a seta 
para cima, é possível recuperar o comando passado, podendo 
corrigi-lo sem ter que digitar todo novamente. O comando 
citation(), por exemplo, mostra como citar o software em seu 
trabalho escrito. 
16 BIOESTATÍSTICA
U
ni
da
de
 2
Imagem 2.2 - Citação do software R
Fonte: Elaborado pela autoria (2024). 
VOCÊ SABIA?
A utilização do R é feita basicamente por meio 
da criação de comandos sobre objetos (ex.: 
vetores, fatores, matrizes, listas e dataframes). 
A abordagem desses conceitos não é o nosso 
objetivo no momento, mas, caso você tenha o 
interesse em saber mais, sugerimos a obra de 
Crawley (2007). O domínio do software R tem sido 
amplamente valorizado no mercado de trabalho, 
de modo que encorajamos você a conhecer melhor 
essa ferramenta.
A maneira mais simples de obter ajuda no R é clicar no 
botão “ajuda” na barra de ferramentas do RGUI ou acessar o site 
do CRAN. No entanto, se souber o nome da função sobre a qual 
quer a ajuda, pode-se digitar apenas um ponto de interrogação na 
linha de comando seguido do nome da função. Assim, para obter 
ajuda a função read.table, basta digitar: 
Imagem 2.3 - Pedindo ajuda no software R
Fonte: Elaborado pela autoria (2024). 
17BIOESTATÍSTICA
U
ni
da
de
 2
Para ver um exemplo trabalhado, basta utilizar o comando 
“example()” escrevendo o nome da função desejada entre os 
parênteses, como na imagem anterior. Uma boa maneira de ver 
a gama de opções que o R oferece é utilizando a função “demo()”.
Imagem 2.4 - Utilizando o comando example() 
Fonte: Elaborado pela autoria (2024). 
O pacote básico do software não contém algumas das 
bibliotecas que podem ser empregados por você. No entanto, 
a instalação é bem simples. Basta estar conectado à internet e 
executar a linha de comandos “install.packages()”, que é a função 
para baixar as bibliotecas solicitadas. Após o comando, será 
questionado qual o espelho mais próximo, e, após a resposta, 
o restante é realizado automaticamente. Por exemplo, instale a 
biblioteca “MASS” utilizando o comando a seguir - para utilizar a 
biblioteca, deve-se usar a linha de comando “library(MASS)”.
18 BIOESTATÍSTICA
U
ni
da
de
 2
Imagem 2.5 - Instalação de pacotes no software R: MASS 
Fonte: Elaborado pela autoria (2024). 
Ao escrever funções e outras seções de linha de entrada, 
você perceberá que é útil usar um editor de texto em vez de 
executar tudo diretamente na linha de comando. 
O editor é acessado na barra de menu do “RGUI”. 
Ao clicar em “Arquivo>Novo script”, o R abrirá uma janela intitulada 
“Untitled – R editor”, em que se pode digitar e editar os comandos. 
Assim, quando for executar uma linha de comando ou um grupo 
de linhas, basta destacá-los e pressionar “CTRL + R”. As linhas 
são automaticamente transferidas para a janela de comando 
e executadas. Ao pressionar “CTRL + S”, o conteúdo do editor é 
19BIOESTATÍSTICA
U
ni
da
de
 2
salvado em um arquivo e será necessário selecionar o local e o 
nome. Ao nomear o arquivo é interessante acrescentar (.R) ao 
final do nome do arquivo para ficar no formato utilizado pelo 
R. Os dados podem ser editados no próprio R, com o comando 
“fix()”, após o banco de dados estar disponível, como, por exemplo, 
utilizando a base de dados “bactéria” do pacote MASS:
Imagem 2.6 - Utilização do pacote MASS e comando de edição de dados(“fix()”)
Fonte: Elaborado pela autoria (2024). 
Algumas pessoas preferem editar o banco utilizando 
planilhas eletrônicas como Excel e salvar no formato “.txt” 
(separado por tabulações) e depois importar os dados, ou importar 
diretamente do Excel, após salvar o arquivo no formato “.csv” 
(separado por vírgulas). É importante destacar que o R importa 
dados em diversos formatos e de diferentes tipos de software. 
Há funções para importar dados diretamente de vários tipos de 
software como Minitab, S-PLUS, SPSS, SAS, Stata, etc.
Ao atribuir um nome ao banco de dados ou a um objeto, 
ele ficará arquivado na memória do programa. O comando 
“rm(list=ls())” funciona como uma borracha na memória do R: tudo 
que estava armazenado será apagado, evitando erros em análises 
subsequentes. Assim, ao iniciar uma nova análise, é indicado 
utilizar o referido comando.
20 BIOESTATÍSTICA
U
ni
da
de
 2
Conhecendo e manipulando os 
dados com R
Importação de dados: como ler dados 
de diferentes formatos
Como a utilização do R é feita por meio dos comandos 
sobre os objetos (vetores, fatores, matrizes, listas e dataframes), 
se faz necessário conhecer o que caracteriza cada objeto, como 
cria-los e manuseá-los.
Podemos definir um vetor como uma sequência de 
valores. A função “c()” é usada para criar um vetor a partir de seus 
argumentos. Como exemplo, vamos criar um vetor composto por 
uma sequência de números. Nesse caso, definimos como x o vetor 
composto pelos números 21, 31, 51, 71 e 111. Os caracteres “impressos sem aspas e os níveis do fator são 
também impressos. Além disso, os níveis de um fator podem 
ser facilmente modificados, para isso basta assinalar um novo 
vetor alfanumérico aos níveis do fator.
24 BIOESTATÍSTICA
U
ni
da
de
 2
Suponha que temos dados de altura de 4 homens e 
3 mulheres. As alturas dos homens em centímetros são: 175, 184, 
180 e 182. As alturas das mulheres são: 176, 174 e 169. Na imagem 
a seguir entramos com os dados e calculamos a média geral das 
alturas e, também, a média para cada sexo.
Imagem 2.11 - Construção de fatores
Fonte: Elaborado pela autoria (2024). 
O software R é capaz de operar matrizes e existem várias 
formas de criá-las. Na imagem, foi construída uma matriz que 
contém 3 colunas e 4 linhas, composta pelos números de 1 a 12. 
Pode-se verificar que a matriz é preenchida ao longo das colunas. 
Para inverter esse padrão, é preciso adicionar o argumento 
“byrow=T”, indicando que a matriz deve ser preenchida por 
25BIOESTATÍSTICA
U
ni
da
de
 2
linhas. Há outras funções que podem ser usadas para construir 
matrizes, como “cbind” e “rbind”, que aumentam ou criam 
matrizes adicionando colunas e linhas, respectivamente. Para 
acrescentar mais uma coluna, com os valores de 1 a 5 na matriz 
x, podemos executar o comando “cbind()”. A fim de saber a 
dimensão sobre a matriz, basta utilizar o comando “dim()”, que 
retorna um vetor com o número de linhas e colunas da matriz, 
nessa ordem. Adicionalmente, para transpor uma matriz, ou 
seja, trocar as linhas pelas colunas, deve-se utilizar o comando 
“t()”.
Podemos pedir um resumo das medidas descritivas básicas 
por colunas da matriz com a execução do comando “summary()”, 
por exemplo. Perceba que ele retorna o mínimo, primeiro quartil, 
mediana, média, terceiro quartil e o valor máximo, ou ainda o 
resumo de toda a matriz.
Imagem 2.12 - Resumo: estatística descritivas
Fonte: Elaborado pela autoria (2024).
Limpeza e preparação de dados: técnicas 
para tratar dados faltantes, remover 
duplicatas e transformar variáveis
As funções usuais operam em matrizes da mesma forma 
que o fazem com vetores: elemento por elemento. Portanto, 
multiplicar duas matrizes com um asterisco resultará no produto 
de cada elemento de uma matriz pelo elemento correspondente 
na outra, e não a multiplicação de matrizes usual, diferentemente 
de outros tipos de software. 
26 BIOESTATÍSTICA
U
ni
da
de
 2
Para fazer a multiplicação de matrizes deve-se usar o 
símbolo %*%. Porém, na imagem a seguir é evidenciado um erro 
na operação. Isso ocorre porque as dimensões das matrizes são 
diferentes. Da mesma maneira que extraímos partes de vetores 
utilizando colchetes, podem ser extraídas partes de uma matriz. 
No entanto, isso é um pouco mais complicado, pois a matriz é um 
elemento que tem duas dimensões, ao passo que vetores têm 
apenas uma. Para extrair um único elemento da matriz devem 
ser usado colchetes com dois números separados por vírgula. 
O primeiro número indica o número da linha, já o segundo indica 
o número da coluna. Primeiramente, é necessário definir uma 
matriz na qual as colunas armazenam: índices 1 a 4, idade e sexo 
(“0”,”1”) de quatro pessoas.
Imagem 2.13 - Operações com matrizes
Fonte: Elaborado pela autoria (2024). 
27BIOESTATÍSTICA
U
ni
da
de
 2
Algo comum durante análises é querer selecionar todas as 
linhas de uma matriz que obedecem a alguma condição definida 
pelas colunas. Por exemplo, agora queremos extrair todas as 
pessoas que têm mais de 50 anos. 
Veremos a seguir que esse simples comando combina 
diversas operações de uma só vez. Pode-se inspecionar parte 
a parte do comando, começando pela parte interna. Essa parte 
simplesmente selecionou a segunda coluna da matriz, que é um 
vetor. Em seguida, utilizamos o comando ilustrado a seguir para 
selecionar o vetor e verificar quais elementos são maiores que 50. 
O resultado será um vetor lógico com respostas “TRUE” (Correto) 
e “FALSE” (Falsa), e podemos também selecionar linhas para as 
quais a condição (Idade>50) for verdadeira.
Imagem 2.14 - Seleção de elementos de uma matriz
Fonte: Elaborado pela autoria (2024). 
Por fim, trataremos de outro objeto que pode ser 
manipulado no R. As listas são empregadas para combinar 
diferentes objetos em um único. Elas podem ser vetores, matrizes, 
números e outros caracteres, até mesmo outras listas, conforme o 
exemplo da imagem a seguir.
As listas são construídas com a função “list()”, e seus 
componentes são introduzidos usando a forma usual de atribuir 
argumentos em uma função (nome=arg). Ao digitar o nome de 
uma lista, cada componente é mostrado com seu nome e valor. 
Várias funções do R retornam seu resultado na forma de listas. 
28 BIOESTATÍSTICA
U
ni
da
de
 2
Por exemplo, a função “t.test()”, que realiza o teste “t student”, 
retorna um objeto que é uma lista. Cada elemento da lista pode 
ser acessado individualmente por seu nome antecedido pelo 
símbolo “$”.
Imagem 2.15 - Listas
Fonte: Elaborado pela autoria (2024). 
Análise exploratória de dados: uso de 
estatísticas descritivas e visualizações 
básicas para explorar os dados
Para realizar as análises exploratórias, os dados são 
organizados em formato de quadros de dados chamados 
dataframes, que são muito parecidos com matrizes, contendo 
linhas e colunas e, portanto, duas dimensões. Entretanto, 
diferentemente das matrizes, cada coluna pode armazenar 
elementos de diferentes tipos. Por exemplo, a primeira coluna 
pode ser numérica, ao passo que a segunda pode ser constituída 
29BIOESTATÍSTICA
U
ni
da
de
 2
de caracteres. Por isso, a coluna se torna a melhor forma de se 
armazenar dados, em que cada linha corresponde a uma unidade 
ou pessoa, e cada coluna representa uma medida realizada em 
cada unidade. 
Para analisar seus dados corretamente, há a necessidade 
da montagem correta de um dataframe - na maioria dos casos 
são utilizadas planilhas para inserir e editar os dados. O principal 
aspecto na organização dos dados é que os valores de uma 
mesma variável devem estar na mesma coluna. A maneira correta 
de organizar os dados seria com apenas duas colunas (uma coluna 
para a variável respostas e outra para os níveis do fator estudado). 
Nesse sentido, é mostrado como organizar um dataframe na 
imagem a seguir.
Imagem 2.16 - Organização do quadro de dados (dataframe)
Fonte: Elaborado pela autoria (2024). 
30 BIOESTATÍSTICA
U
ni
da
de
 2
Após organizar os dados no Excel, é necessário salvar o 
dataframe em um formato de arquivo que possa ser lido pelo 
R. A maneira mais simples é salvá-lo como texto separado por 
tabulações, ou no formato “csv”, separado por vírgulas. Esse 
arquivo pode então ser lido no R diretamente como um dataframe, 
usando a função “read.table” ou “read.csv2”, respectivamente. 
Para facilitar o comando, podemos mudar o diretório direto para a 
pasta que contém os arquivos com os bancos de dados, conforme 
ilustrado na imagem a seguir.
Imagem 2.17 - Mudando o diretório no R
Fonte: Elaborado pela autoria (2024). 
Dentro da função read.table existem vários argumentos. 
Entre os mais utilizados estão o “header”, no qual você vai 
informar se o dataframe tem ou não cabeçalho com as iniciais 
“T=True” (quando tiver) e “F=False” (quando não tiver). Caso não 
seja informado, o programa utiliza como default “F”. O argumento 
“dec” é utilizado para informar como os números decimais estão 
identificados, se é por pontos ou vírgulas. O default é o ponto, 
dessa forma, se os dados numéricos estiverem separados por 
vírgula, deve-se utilizar dec=”,” para não ocorrer erro. 
31BIOESTATÍSTICA
U
ni
da
de
 2
O argumento sep é utilizado para informar como os dados 
estão separados, e o default da função read.table é sep=” ”, ou seja, 
a separação ocorre por espaço. Se os dados estiverem separados 
por vírgulas, devemos usar sep=”,”. Caso não opte por não 
mudar o diretório, deve-se informar o endereço do documento 
que irá importar nos comandos “read.table” ou “read.csv2”,conforme a seguir: 
Imagem 2.18 - Endereço do documento a ser importado
Fonte: Elaborado pela autoria (2024). 
Após aprender a importar um dataframe para o R, 
é interessante conhecer algumas funções úteis para lidar 
com o banco de dados. Para visualizar somente as primeiras 
linhas do dataframe, geralmente utiliza-se o comando “head()”. 
Como são realizados diversos procedimentos, é conveniente 
utilizar o comando “attach()” para anexar o objeto ao caminho 
de procura. Dessa forma, não é preciso concatenar o caractere $ 
entre o nome do dataframe e da variável que será utilizada. 
Análise estatística básica
Testes de hipóteses: como realizar 
testes estatísticos básicos no R
A realização de testes de hipóteses é uma etapa 
fundamental na análise estatística, permitindo aos pesquisadores 
avaliar a validade de suposições sobre um conjunto de dados 
dentro do contexto da bioestatística. O software R, com sua ampla 
gama de funcionalidades estatísticas, oferece um ambiente 
robusto para a execução de testes estatísticos básicos, como o 
32 BIOESTATÍSTICA
U
ni
da
de
 2
t-teste para comparações de médias entre dois grupos e a ANOVA 
(Análise de Variância) para comparações entre três ou mais grupos. 
Essas ferramentas são cruciais para testar hipóteses relacionadas 
a diferenças entre grupos, sendo amplamente aplicadas em 
pesquisas biomédicas e de saúde pública.
Crawley (2007) destaca a importância dos testes de 
hipóteses no R, fornecendo um guia detalhado para sua execução. 
O t-teste, por exemplo, é utilizado quando se deseja comparar 
as médias de dois grupos independentes ou pareados para 
determinar se as diferenças observadas são estatisticamente 
significativas. Esse teste é fundamental em situações onde os 
pesquisadores têm hipóteses específicas sobre as diferenças entre 
as médias de dois grupos, como no caso de comparar a eficácia de 
dois tratamentos médicos diferentes.
Por outro lado, a ANOVA é empregada quando as 
comparações se estendem a três ou mais grupos, possibilitando 
aos pesquisadores analisar a variância entre os grupos e dentro 
deles para identificar se existe uma diferença significativa nas 
médias. O uso da ANOVA no R, conforme explicado por Crawley 
(2007), é particularmente útil em estudos bioestatísticos mais 
complexos, onde múltiplos tratamentos ou condições são avaliados 
simultaneamente. Essa análise permite uma compreensão mais 
profunda das relações entre variáveis e dos efeitos de diferentes 
tratamentos ou condições sobre uma variável de interesse.
Além disso, o R oferece recursos para verificar os 
pressupostos desses testes, como a normalidade dos dados e a 
homogeneidade das variâncias, através de testes específicos e 
visualizações de dados. A capacidade de realizar essas verificações 
no R é essencial para garantir a validade e confiabilidade dos 
resultados obtidos. A interpretação dos resultados dos testes 
de hipóteses no R também é facilitada por saídas detalhadas 
33BIOESTATÍSTICA
U
ni
da
de
 2
que incluem valores-p, que ajudam a determinar a significância 
estatística das diferenças observadas.
Em suma, a realização de testes de hipóteses no R é uma 
competência indispensável para pesquisadores em bioestatística, 
permitindo-lhes avaliar de forma rigorosa e confiável as 
hipóteses de pesquisa. A familiarização com essas técnicas no R, 
conforme delineado por Crawley (2007), não apenas enriquece 
a capacidade analítica do pesquisador, mas também assegura 
que as conclusões derivadas dos dados sejam fundamentadas 
em métodos estatísticos sólidos. Portanto, o domínio dessas 
ferramentas estatísticas básicas no R é crucial para a condução 
de pesquisas bioestatísticas eficazes e para a contribuição 
significativa para o corpo de conhecimento na área da saúde.
Modelos lineares e não lineares: 
introdução à construção e interpretação 
de modelos estatísticos 
A compreensão e aplicação de modelos lineares e não 
lineares constituem uma base crucial para a análise estatística 
avançada em bioestatística. Esses modelos permitem aos 
pesquisadores explorar e interpretar as relações entre variáveis, 
fornecendo insights valiosos sobre os dados analisados. Modelos 
lineares, por sua simplicidade e facilidade de interpretação, 
são frequentemente o ponto de partida para a análise de 
relações entre variáveis dependentes e independentes. Como 
Crawley (2007) sugere, a aplicação de modelos lineares no R pode 
revelar padrões e tendências significativos nos dados, facilitando 
a compreensão dos efeitos das variáveis independentes sobre a 
variável dependente em estudo.
No entanto, nem todas as relações entre variáveis 
podem ser adequadamente descritas por modelos lineares. 
Aqui, os modelos não lineares entram em cena, permitindo 
34 BIOESTATÍSTICA
U
ni
da
de
 2
a análise de relações mais complexas, onde os efeitos das 
variáveis independentes sobre a dependente não são constantes. 
A flexibilidade dos modelos não lineares os torna especialmente 
valiosos em bioestatística, onde muitos fenômenos biológicos 
e médicos exibem comportamentos que não podem ser 
capturados por modelos lineares. A habilidade de construir 
e interpretar modelos não lineares no R, conforme discutido 
por Crawley (2007), é, portanto, essencial para pesquisadores 
que buscam compreender plenamente as dinâmicas 
subjacentes aos seus dados.
A construção de modelos estatísticos no R envolve uma 
série de etapas, incluindo a seleção do modelo apropriado, 
estimação de parâmetros, diagnóstico de ajuste do modelo 
e interpretação dos resultados. A interpretação de modelos 
lineares e não lineares demanda uma compreensão clara de 
conceitos estatísticos, como significância dos coeficientes, 
ajuste do modelo e potenciais implicações dos resultados para 
hipóteses de pesquisa e teorias subjacentes.
Além disso, é crucial para os pesquisadores em 
bioestatística não apenas aplicar modelos estatísticos, mas 
também avaliar criticamente a adequação do modelo escolhido 
aos dados. Isso inclui a verificação de pressupostos do modelo, 
como homoscedasticidade e normalidade dos resíduos em 
modelos lineares, e considerações sobre a complexidade do 
modelo e o risco de sobreajuste em modelos não lineares. 
A capacidade de realizar essas avaliações no R, conforme 
ilustrado por Crawley (2007), é indispensável para garantir que 
as conclusões derivadas dos modelos estatísticos sejam válidas 
e confiáveis.
Em resumo, a introdução à construção e interpretação 
de modelos lineares e não lineares no R representa um aspecto 
35BIOESTATÍSTICA
U
ni
da
de
 2
fundamental da análise bioestatística. Esses modelos oferecem 
aos pesquisadores ferramentas poderosas para explorar a 
complexidade dos dados em saúde e biologia. A maestria 
dessas técnicas, conforme exposto por Crawley (2007), não 
apenas enriquece a análise de dados, mas também aprofunda 
o entendimento dos fenômenos biológicos e médicos 
estudados, promovendo a geração de conhecimento científico 
robusto e inovador.
Relatórios e publicação: como usar o 
R Markdown para criar relatórios e 
apresentações de análises
A capacidade de comunicar efetivamente os resultados 
de análises estatísticas é tão crucial quanto a própria análise. 
Neste contexto, o R Markdown emerge como uma ferramenta 
poderosa para a criação de relatórios e apresentações de análises 
realizadas no R. Esta ferramenta integra análise e documentação, 
permitindo aos pesquisadores em bioestatística compilar 
códigos, resultados e interpretações em um único documento 
dinâmico e interativo.
O R Markdown, conforme discutido por especialistas 
na área, permite a transformação de análises em documentos 
de alta qualidade, slides de apresentações, dashboards web, 
entre outros formatos, com relativa facilidade. A integração do 
código R diretamente nos documentos garante não apenas a 
reprodutibilidade das análises, mas também facilita a revisão e 
compreensão dos métodos utilizados por outros pesquisadores ou 
stakeholders. Esta característica é fundamentalna bioestatística, 
onde a precisão dos dados e a clareza na comunicação dos 
resultados são imperativas.
36 BIOESTATÍSTICA
U
ni
da
de
 2
A utilização do R Markdown para a elaboração de 
relatórios e apresentações implica em diversos benefícios, 
incluindo a automatização do processo de relatório, o que 
reduz a possibilidade de erros manuais e aumenta a eficiência 
na produção de documentos. Além disso, a flexibilidade no 
design e na personalização de relatórios permite que os 
pesquisadores ajustem a apresentação de seus resultados às 
necessidades específicas de seu público-alvo, seja ele composto 
por colegas acadêmicos, colaboradores de pesquisa ou uma 
audiência mais ampla.
A capacidade de incorporar elementos visuais, como 
gráficos e tabelas, diretamente do R para o documento final é 
outro ponto forte do R Markdown. A visualização de dados é uma 
componente crítica da análise estatística, e o R Markdown facilita 
a inclusão de visualizações dinâmicas e interativas que podem 
melhorar significativamente a compreensão dos resultados 
apresentados. Essa integração suave entre análise e relatório 
ajuda a construir uma narrativa coerente e baseada em evidências 
em torno dos dados, uma habilidade essencial para pesquisadores 
em bioestatística.
Em suma, o R Markdown representa uma inovação 
significativa na forma como os resultados de análises estatísticas 
são comunicados na bioestatística. A habilidade de criar 
documentos dinâmicos, que integram código, resultados e análise 
em um formato facilmente compartilhável e compreensível, 
não apenas promove a transparência e a reprodutibilidade da 
pesquisa, mas também eleva o padrão de comunicação científica. 
Portanto, a proficiência no uso do R Markdown é uma competência 
valiosa para qualquer pesquisador em bioestatística, facilitando a 
disseminação de descobertas e a colaboração científica.
37BIOESTATÍSTICA
U
ni
da
de
 2
RESUMINDO
Aprofundar-se no software estatístico R abre as 
portas para uma análise de dados mais eficiente e 
precisa, essencial em campos como a bioestatística. 
Começamos com uma introdução ao R, incluindo 
a instalação do software e os primeiros passos 
dentro do seu ambiente. Este conhecimento 
básico é crucial, pois sem ele, a base para qualquer 
análise estatística subsequente seria instável. Por 
que o R é tão valorizado entre os profissionais de 
bioestatística? A resposta reside na sua capacidade 
de manipulação e análise de dados complexos de 
forma acessível e robusta.
Avançando, exploramos como conhecer e 
manipular os dados dentro do R, um passo crítico 
para garantir a integridade e a precisão das 
análises estatísticas. Este processo inclui desde 
a importação de conjuntos de dados de diversas 
fontes até a realização de operações complexas 
de limpeza e preparação de dados. Como você 
pode garantir que seus dados estão prontos para 
análise? Compreender a manipulação de dados no 
R é a chave.
Por fim, mergulhamos na análise estatística básica 
usando o R. Esta seção desmistifica como realizar 
testes estatísticos fundamentais, interpretar 
resultados e comunicar descobertas de maneira 
eficaz. A capacidade de aplicar análises estatísticas 
básicas é indispensável; ela permite não apenas a 
geração de insights significativos a partir dos dados, 
mas também fortalece a tomada de decisões 
baseada em evidências. Como você pode utilizar 
essas técnicas para enriquecer sua pesquisa ou 
prática profissional? A maestria no uso do R é o seu 
caminho para descobrir.
38 BIOESTATÍSTICA
U
ni
da
de
 2
Distribuição normal de 
probabilidade
OBJETIVO
Neste capítulo, você mergulhará profundamente no 
universo da distribuição normal de probabilidade, 
uma das pedras fundamentais da bioestatística. Ao 
final deste estudo, você será capaz de compreender 
não só o que é uma distribuição normal, mas 
também a importância do Teorema do Limite 
Central e as técnicas de normalização de dados. 
Esta compreensão é crucial para o exercício de sua 
profissão, visto que muitas análises estatísticas 
pressupõem uma distribuição normal dos dados. 
Aqueles que negligenciaram a importância 
desses conceitos fundamentais encontraram 
dificuldades significativas ao interpretar resultados 
de pesquisas e ao aplicar técnicas estatísticas 
avançadas. E então? Está motivado para dominar 
estas competências essenciais e solidificar sua 
base em bioestatística? Vamos lá!
Conceitos fundamentais
Definição de distribuição de 
probabilidade
Após coletar alguns dados de uma determinada variável e 
apresentar aspectos da estatística descritiva, pode-se assumir um 
modelo de probabilidade, e, com isso, estimar a probabilidade de 
ocorrência de cada resultado. Os testes estatísticos, assim como 
modelos lineares e outros campos da estatística, se baseiam 
em distribuições de probabilidade para a tomada de decisões 
sobre hipóteses e parâmetros. Sendo assim, é necessária uma 
breve contextualização sobre o assunto para avançarmos em 
nossos estudos.
39BIOESTATÍSTICA
U
ni
da
de
 2
Em um primeiro momento, há a necessidade de definirmos 
alguns conceitos. A distribuição de probabilidade consiste 
na representação de um gráfico, tabela ou fórmula que dá a 
probabilidade para cada valor de uma variável aleatória, cujo valor 
numérico é determinado ao acaso para cada resultado obtido. 
Existem basicamente dois grupos de distribuições: 
(1) discretas, formadas por variáveis de natureza discreta, 
tais como as distribuições binomial, geométrica e poisson; 
(2) contínuas, formadas por variáveis classificadas como contínuas, 
compreendidas pelas distribuições gama, qui-quadrado e normal. 
Em nossos estudos, trataremos especificamente da 
distribuição normal de probabilidade, uma das distribuições mais 
importantes para a estatística devido ao teorema central do limite. 
O teorema central do limite mostra que, para qualquer 
que seja tipo de distribuição da variável de interesse, para 
grandes amostras, a distribuição de médias amostrais será 
aproximadamente normal, tendendo a uma distribuição normal 
na medida em que o tamanho da amostra aumentar. Dessa forma, 
pode-se ter uma variável original com uma distribuição totalmente 
diferente da normal, mas, se tomarmos várias amostras grandes 
dessa distribuição e então fizermos um histograma das médias 
amostrais, a forma se parecerá com uma curva normal.
Se uma variável aleatória contínua tem uma distribuição 
com um histograma simétrico e em forma de “sino” e que também 
pode ser descrita pela seguinte equação, pode se dizer que ela 
tenha uma distribuição normal:
40 BIOESTATÍSTICA
U
ni
da
de
 2
A distribuição normal tem dois parâmetros: a média e o 
desvio-padrão. A notação para representar que uma determinada 
variável “x” tem distribuição normal de média (μ) = 20 e desvio-
padrão (σ) = 5 é x ~ N (20,5), ou seja, a variável “x” tende a uma 
média 20 e desvio-padrão 5. Dessa forma, a curva da distribuição 
varia de acordo com sua média e desvio.
Definição de distribuição normal: 
cálculos e características
Com o conhecimento da distribuição de probabilidade 
de uma determinada variável, podemos saber a probabilidade 
de cada evento ocorrer. Para isso, basta realizar o procedimento 
matemático de integração da área da curva desejada. Porém, como 
essa prática não é muito simples, os estatísticos transformam uma 
curva normal qualquer na famosa normal reduzida (ou também 
padronizada), N (0,1), ou seja, com média (μ) = 0 e desvio-padrão 
(σ) = 1. Isso é feito com a padronização da variável no escore “z”, 
visto a seguir com a seguinte expressão:
Vamos entender melhor a utilização desse escore 
pensando em uma situação concreta. Entendendo a altura como 
uma variável quantitativa contínua e que respeita uma distribuição 
normal de probabilidade, queremos comparar a altura do ex-
atleta Michael Jordan (198 cm) com a modelo Ana Hickmann (185 
cm) em relação às populações de homens e mulheres. Qual dos 
dois é mais alto em relação ao respectivo sexo? Para responder 
melhora essa pergunta, precisamos então padronizar aquelas 
alturas, convertendo em escores “z” para então compará-los. 
Estima-se que a média da altura de homens é de 172,9 cm, com 
um desvio-padrão 5,8, e a das mulheres é de 160,7 cm, com um 
41BIOESTATÍSTICA
U
ni
da
de
 2
desvio-padrão de 4,8. A partir da equação para padronização do 
escore “z”, represente-a no software R. Note que, para “declarar” 
uma variável, você deverá usar qualquer nome do seu interesse 
(ex.: “Z_Jordan”) que representará o valor de “z”, e os símbolos “de amostras se comportam, 
independentemente da distribuição da população da qual as 
amostras são retiradas. Este teorema afirma que, dada uma 
amostra suficientemente grande, a distribuição das médias 
amostrais tende a ser normal, ou seja, formar uma curva de 
sino, independentemente da forma da distribuição da população 
original. Esse conceito é crucial para a bioestatística, onde 
frequentemente trabalhamos com dados que não seguem uma 
distribuição normal.
O TLC permite aos pesquisadores aplicar testes 
estatísticos que assumem normalidade para dados que, à 
primeira vista, não parecem seguir essa distribuição. Isso é 
especialmente útil em estudos que envolvem grandes conjuntos 
de dados, onde o ele garante que as inferências sobre a 
população possam ser feitas com confiança a partir de simples 
médias amostrais. A universalidade do TLC, como descrito por 
autores notáveis na área de estatística, enfatiza sua relevância 
em uma ampla gama de aplicações científicas e práticas.
Além disso, o entendimento do TLC auxilia na 
interpretação correta dos resultados de análises estatísticas. 
Ao aplicar o TLC, os pesquisadores podem justificar o uso de 
técnicas paramétricas, que são geralmente mais poderosas 
e informativas do que as técnicas não paramétricas, mesmo 
quando os dados originais não são normalmente distribuídos. 
49BIOESTATÍSTICA
U
ni
da
de
 2
Isso expande significativamente o leque de ferramentas 
estatísticas disponíveis para análise, aumentando a precisão e a 
confiabilidade dos resultados obtidos.
No entanto, é crucial reconhecer as condições sob as quais 
o TLC se aplica. A amostra deve ser de tamanho suficientemente 
grande, geralmente considerada como sendo maior ou igual a 30, 
embora esse número possa variar dependendo da distribuição 
da população e da precisão desejada. O teorema também 
pressupõe que as amostras sejam independentes e retiradas 
de uma população com uma média e variância definidas. Esses 
critérios garantem a aplicabilidade do TLC e a validade das 
conclusões estatísticas derivadas de sua aplicação.
Em resumo, o Teorema do Limite Central é uma ferramenta 
estatística poderosa e versátil, essencial para a compreensão 
e aplicação de métodos estatísticos em bioestatística e além. 
Ele fornece uma fundamentação teórica que permite aos 
pesquisadores fazer inferências sobre populações a partir de 
amostras, mesmo na presença de distribuições não normais. 
Dominar o TLC e suas implicações é, portanto, indispensável 
para qualquer pesquisador em bioestatística, reforçando 
a importância de abordagens estatísticas rigorosas e bem 
fundamentadas na pesquisa científica.
Simulações no R: como simular e 
visualizar o teorema do limite central 
usando R
A simulação no R oferece uma maneira poderosa e visual 
de entender o Teorema do Limite Central (TLC), uma pedra 
angular da estatística que fundamenta muitas técnicas analíticas 
em bioestatística. Através da simulação, podemos visualizar 
50 BIOESTATÍSTICA
U
ni
da
de
 2
como as médias de amostras retiradas de uma população, 
independentemente da sua distribuição original, tendem a formar 
uma distribuição normal à medida que o tamanho da amostra 
aumenta. Este processo de simulação não apenas reforça o 
entendimento teórico do TLC, mas também demonstra sua 
aplicabilidade prática em análises estatísticas.
Utilizar o R para simular o TLC permite aos pesquisadores 
criar experimentos numéricos, onde diferentes distribuições 
populacionais podem ser exploradas, e os efeitos do tamanho 
da amostra na distribuição das médias amostrais podem ser 
observados diretamente. Isso é particularmente útil em contextos 
educacionais, onde a visualização concreta do TLC pode ajudar 
a solidificar a compreensão de conceitos estatísticos abstratos. 
Por exemplo, gerar múltiplas amostras de uma população com 
uma distribuição conhecida, calcular suas médias e então plotar 
a distribuição dessas médias oferece uma representação gráfica 
do TLC em ação.
A capacidade de simular o TLC no R também tem 
implicações práticas significativas. Ao demonstrar que a 
distribuição das médias amostrais se aproxima de uma normal, 
mesmo a partir de populações não normais, os pesquisadores 
podem justificar o uso de técnicas estatísticas que assumem 
normalidade nas médias amostrais. Isso é crucial em muitas 
áreas da bioestatística, onde as inferências sobre a população são 
frequentemente baseadas em amostras.
Adicionalmente, as simulações no R podem ser 
customizadas para testar diferentes cenários, incluindo variações 
no tamanho da amostra e na forma da distribuição da população. 
Isso permite aos pesquisadores avaliar a robustez do TLC sob 
diferentes condições e entender melhor quando e como aplicar 
testes estatísticos baseados em pressupostos de normalidade. 
51BIOESTATÍSTICA
U
ni
da
de
 2
A flexibilidade do R em facilitar essas simulações torna-o uma 
ferramenta indispensável para pesquisadores em bioestatística.
Em resumo, o Teorema do Limite Central no R é uma 
ferramenta valiosa para a compreensão e aplicação da estatística. 
Ele oferece uma maneira prática de visualizar e entender um 
dos conceitos mais fundamentais da estatística, reforçando sua 
importância na análise de dados. A habilidade de simular e visualizar 
o TLC usando o R é, portanto, essencial para pesquisadores em 
bioestatística, proporcionando uma base sólida para a análise 
estatística e a tomada de decisões baseada em dados.
Importância do teorema para a 
Bioestatística: por que é fundamental 
entender o Teorema do Limite Central
A importância do Teorema do Limite Central (TLC) na 
bioestatística é imensa, atuando como um pilar fundamental que 
sustenta a validade de muitas técnicas estatísticas aplicadas na 
análise de dados. O TLC fornece uma base teórica que permite 
aos pesquisadores aplicar inferências estatísticas a uma ampla 
variedade de dados, mesmo aqueles que não seguem uma 
distribuição normal. Este teorema assegura que, sob condições 
apropriadas, a distribuição das médias de amostras grandes se 
aproxima de uma distribuição normal, independentemente da 
distribuição da população original. Essa propriedade é crucial para 
a aplicação de testes paramétricos, que requerem normalidade 
dos dados.
Além disso, o TLC desempenha um papel crucial na 
estimativa de intervalos de confiança e na realização de testes 
de hipóteses, fundamentais para a tomada de decisões baseada 
em evidências na medicina e na saúde pública. Ao garantir 
52 BIOESTATÍSTICA
U
ni
da
de
 2
que as médias amostrais de grandes amostras se distribuam 
normalmente, o TLC facilita a estimação de parâmetros 
populacionais e a avaliação da significância estatística de 
resultados observados. Esta aplicação do TLC permite aos 
pesquisadores em bioestatística avaliar a eficácia de tratamentos, 
identificar fatores de risco para doenças e explorar relações 
entre variáveis biológicas com confiança.
A compreensão do TLC também é fundamental para a 
educação e formação em bioestatística, capacitando os futuros 
pesquisadores com o conhecimento necessário para aplicar 
corretamente métodos estatísticos em suas pesquisas. Este 
entendimento ajuda a evitar erros comuns de interpretação e 
aplicação de técnicas estatísticas, garantindo que as conclusões 
tiradas de análises bioestatísticas sejam válidas e confiáveis.
Em resumo, o Teorema do Limite Central é indispensável 
na bioestatística, oferecendo uma justificativa matemática para 
a aplicação de métodos paramétricos em uma ampla gama de 
situações. Sua compreensão não só reforça o rigor científico 
das análises estatísticas em pesquisa biomédica, mas também 
assegura a validade e a confiabilidade das inferências feitas a partir 
de dados de saúde. Portanto, dominar o TLC é fundamental para 
qualquer bioestatístico, sublinhando sua importância no campo 
da pesquisa em saúde.
53BIOESTATÍSTICA
U
ni
da
de
 2
Normalização de dados
Por que normalizar? Razões para 
normalizar dados antes da análise
A normalizaçãode dados antes da análise é um passo 
crucial na preparação de dados em bioestatística, garantindo que 
as análises realizadas sejam válidas e as inferências feitas sejam 
confiáveis. Normalizar dados significa ajustar os valores medidos 
em um conjunto de dados para uma escala comum, muitas vezes 
com o objetivo de neutralizar os efeitos de variações externas ou 
para tornar os dados comparáveis entre si. Esta prática é essencial 
por várias razões, todas fundamentadas na necessidade de 
realizar análises estatísticas precisas e significativas.
Uma das principais razões para a normalização de dados 
é a melhoria da precisão analítica. Ao normalizar os dados, 
reduzimos as discrepâncias causadas por diferenças de escala 
ou variações externas, permitindo uma comparação mais justa 
e precisa entre as variáveis. Isso é particularmente importante 
em estudos que envolvem múltiplas variáveis ou onde os 
dados vêm de diferentes fontes ou instrumentos de medição. A 
normalização assegura que as diferenças observadas nos dados 
refletem diferenças reais nas variáveis estudadas, e não artefatos 
das condições de medição ou coleta de dados.
Além disso, a normalização é fundamental para atender 
aos pressupostos de muitos métodos estatísticos, incluindo o 
Teorema do Limite Central. Muitos testes estatísticos e modelos 
preditivos pressupõem que os dados seguem uma distribuição 
normal. Ao normalizar os dados, especialmente quando se trata 
de transformações que visam estabilizar a variância ou corrigir 
a assimetria, os pesquisadores podem aplicar esses métodos 
54 BIOESTATÍSTICA
U
ni
da
de
 2
mais adequadamente, melhorando a validade das análises. Isso é 
essencial para garantir que as conclusões tiradas dos dados sejam 
baseadas em premissas estatísticas sólidas.
Em resumo, a normalização de dados é um pré-requisito 
essencial para realizar análises bioestatísticas confiáveis e precisas. 
Ela não só facilita o cumprimento dos pressupostos necessários 
para a aplicação de muitos métodos estatísticos, como também 
melhora a comparabilidade e a interpretação dos dados. Assim, a 
prática de normalizar dados antes da análise apoia a integridade 
da pesquisa em bioestatística, assegurando que as inferências e 
conclusões baseadas nos dados sejam tão precisas e informativas 
quanto possível. Portanto, a compreensão e aplicação correta de 
técnicas de normalização são habilidades indispensáveis para 
pesquisadores em bioestatística, sublinhando a importância dessa 
prática no campo.
Técnicas de normalização: como 
e quando aplicar transformações 
de dados
A aplicação de técnicas de normalização é uma etapa 
crítica no pré-processamento de dados para análise estatística, 
especialmente na bioestatística, onde os dados podem variar 
amplamente em termos de distribuição, escala e variância. 
As técnicas de normalização ajustam os dados para uma escala 
comum, melhorando a comparabilidade e atendendo aos 
pressupostos necessários para a aplicação de vários métodos 
estatísticos. Entender como e quando aplicar essas técnicas é 
fundamental para a realização de análises precisas e confiáveis.
Uma técnica comum de normalização é a transformação 
logarítmica, que é frequentemente utilizada para dados que 
55BIOESTATÍSTICA
U
ni
da
de
 2
apresentam uma distribuição assimétrica, típica em muitas 
variáveis biométricas e financeiras. A transformação logarítmica 
pode ajudar a estabilizar a variância e tornar a distribuição dos 
dados mais próxima de uma normal, permitindo a aplicação de 
testes estatísticos que assumem normalidade. Outra técnica 
amplamente aplicada é a normalização por pontuação Z, que 
recalcula cada observação com base na média e no desvio padrão 
da amostra, resultando em uma distribuição com média zero e 
desvio padrão um. Essa técnica é particularmente útil quando se 
lida com variáveis medidas em diferentes escalas, pois ela permite 
a comparação direta entre elas.
Além disso, a normalização Min-Max é outra abordagem 
comum, que redimensiona os dados para um intervalo específico, 
geralmente entre zero e um. Essa técnica preserva a relação 
entre os valores originais, tornando-a adequada para dados 
onde a manutenção da estrutura de distância é importante. No 
entanto, a normalização Min-Max pode ser sensível a outliers, 
pois a presença de valores extremamente altos ou baixos pode 
comprimir a maioria dos dados em um pequeno intervalo.
A decisão sobre qual técnica de normalização aplicar 
depende da natureza dos dados e do objetivo da análise. 
Por exemplo, em situações onde a assimetria dos dados é 
uma preocupação, a transformação logarítmica ou outras 
transformações não lineares, como raiz quadrada ou inversa, 
podem ser mais apropriadas. Por outro lado, para dados que já 
estão relativamente bem distribuídos, mas medidos em diferentes 
escalas, a normalização por pontuação Z ou Min-Max pode ser 
suficiente para garantir comparabilidade.
É importante notar que a aplicação de técnicas de 
normalização deve ser feita com cuidado, considerando sempre 
os pressupostos subjacentes a cada método estatístico a ser 
56 BIOESTATÍSTICA
U
ni
da
de
 2
aplicado posteriormente. A avaliação da distribuição dos dados 
após a normalização é um passo crítico para verificar a eficácia 
da transformação e garantir que os dados transformados sejam 
adequados para análise.
Em resumo, a escolha e aplicação de técnicas de 
normalização em bioestatística devem ser guiadas por uma 
compreensão clara dos objetivos da análise e das características 
dos dados. A capacidade de aplicar essas técnicas de forma eficaz 
é essencial para preparar os dados para análise, garantindo 
que as inferências estatísticas realizadas sejam baseadas em 
premissas válidas e levem a conclusões precisas e confiáveis. 
Portanto, dominar as técnicas de normalização é uma habilidade 
fundamental para pesquisadores em bioestatística, reforçando a 
importância dessas práticas no processo de análise de dados.
Exemplos práticos no R: demonstração 
de técnicas de normalização em 
conjuntos de dados reais
A aplicação prática de técnicas de normalização em 
conjuntos de dados reais usando o R é um componente essencial 
na formação de bioestatísticos. O software R, reconhecido por 
sua versatilidade e poder no tratamento de dados estatísticos, 
oferece uma variedade de funções que podem ser utilizadas para 
normalizar dados, garantindo assim que as análises subsequentes 
sejam realizadas sob as condições apropriadas. 
Um exemplo prático de normalização no R é o uso da 
transformação logarítmica para dados assimétricos. Ao aplicar a 
função log() a um conjunto de dados, podemos reduzir o efeito de 
assimetrias acentuadas, tornando a distribuição dos dados mais 
simétrica e aproximando-a de uma distribuição normal. 
57BIOESTATÍSTICA
U
ni
da
de
 2
Para dados medidos em diferentes escalas, a normalização 
por pontuação Z, realizada através da subtração da média e 
divisão pelo desvio padrão de cada valor, pode ser facilmente 
implementada no R. A função scale() é particularmente útil para 
este propósito, padronizando os dados para que tenham média 
zero e desvio padrão um. Essa técnica é essencial em análises que 
envolvem a comparação ou combinação de variáveis em diferentes 
escalas, como análises multivariadas.
A normalização Min-Max, que ajusta os dados para um 
intervalo específico, geralmente entre 0 e 1, pode ser implementada 
no R usando fórmulas simples que aplicam a transformação 
Min-Max diretamente aos dados. Esta abordagem é vantajosa 
em métodos que são sensíveis à escala dos dados, como certos 
algoritmos de machine learning, garantindo que nenhuma variável 
domine a análise devido à sua escala.
Crawley (2007) enfatiza a importância de verificar a 
eficácia da normalização, o que pode ser feito no R através de 
visualizações, como histogramas ou gráficos QQ, antes e depois 
da aplicação das técnicas de normalização. Esta etapa é 
fundamental para assegurar que os dados transformados 
atendam aos

Mais conteúdos dessa disciplina