Prévia do material em texto
BIOESTATÍSTICA E EPIDEMIOLOGIA
2023
Renata Cristofani Martins
PRESIDENTE
Frei Thiago Alexandre Hayakawa, OFM
DIRETOR GERAL
Jorge Apóstolos Siarcos
REITOR
Frei Gilberto Gonçalves Garcia, OFM
VICE-REITOR
Frei Thiago Alexandre Hayakawa, OFM
PRÓ-REITOR DE ADMINISTRAÇÃO E PLANEJAMENTO
Adriel de Moura Cabral
PRÓ-REITOR DE ENSINO, PESQUISA E EXTENSÃO
Dilnei Giseli Lorenzi
COORDENADOR DO NÚCLEO DE EDUCAÇÃO A DISTÂNCIA - NEAD
Franklin Portela Correia
CENTRO DE INOVAÇÃO E SOLUÇÕES EDUCACIONAIS - CISE
Franklin Portela Correia
PROJETO GRÁFICO
Centro de Inovação e Soluções Educacionais - CISE
CAPA
Centro de Inovação e Soluções Educacionais - CISE
DIAGRAMADORES
Andréa Ercília Calegari
© 2023 Universidade São Francisco
Avenida São Francisco de Assis, 218
CEP 12916-900 – Bragança Paulista/SP
CASA NOSSA SENHORA DA PAZ – AÇÃO SOCIAL FRANCISCANA, PROVÍNCIA
FRANCISCANA DA IMACULADA CONCEIÇÃO DO BRASIL –
ORDEM DOS FRADES MENORES
RENATA CRISTOFANI MARTINS
Possui graduação e Bacharel em Enfermagem pela Escola de Enfermagem da Univer-
sidade de São Paulo (2005), Licenciatura Plena em Enfermagem pela Faculdade de
Educação da Universidade de São Paulo (2010), mestrado e doutorado pelo Programa
de Saúde Pública da Faculdade de Saúde Pública Universidade de São Paulo (2012 e
2017). Atualmente é professora universitária na Universidade São Francisco da disci-
plina de Bioestatística aplicada à saúde em vários cursos. Tem experiência na área de
Saúde Coletiva, Epidemiologia, e dados de mortalidade.
A AUTORA
SUMÁRIO
UNIDADE 01: INTRODUÇÃO A METODOLOGIA E ANÁLISE DE DADOS EM
PESQUISAS ..............................................................................................................8
1. Definição de bioestatística ..................................................................................8
2. Definição de epidemiologia .................................................................................9
3. Introdução a pesquisa .........................................................................................10
4. Método de pesquisa ...........................................................................................12
5. Coleta de dados ..................................................................................................17
6. Resultados ..........................................................................................................21
7. Probabilidade ......................................................................................................33
8. Distribuição normal .............................................................................................. 35
9. Anormalidades .....................................................................................................38
UNIDADE 02: EPIDEMIOLOGIA DESCRITIVA ......................................................44
1. Estudo transversal, de prevalência e seccional ..................................................44
2. Série ou relato de casos ......................................................................................47
3. Estudos ecológicos .............................................................................................47
4. Distribuição de eventos por pessoas, tempo e lugar ..........................................49
5. Conceito, histórico e características de um bom indicador ................................52
6. Incidência e prevalência ......................................................................................53
7. Indicadores de natalidade, fecundidade e morbidade .........................................58
8. Indicadores de mortalidade ................................................................................62
9. Transição demográfica e epidemiológica ............................................................72
UNIDADE 03: EPIDEMIOLOGIA ANALÍTICA .........................................................78
1. Estudo Coorte .....................................................................................................79
2. Estudo de prognóstico .........................................................................................84
3. Estudo caso-controle ...........................................................................................86
4. Tabela de contingência ........................................................................................88
5. Risco relativo e risco atribuível ............................................................................90
6. Razão de chances (odds ratio) ..........................................................................94
7. Análise de sobrevida ...........................................................................................97
8. Ensaio clínico ......................................................................................................99
9. Estudos diagnósticos ..........................................................................................109
UNIDADE 04: ANÁLISE DOS RESULTADOS DE PESQUISA E SAÚDE BASEADA
EM EVIDÊNCIA .........................................................................................................126
1. Análise estatística ................................................................................................126
2. Apresentação dos resultados ..............................................................................136
3. Uso de softwares .................................................................................................141
4. Causalidade ........................................................................................................144
5. Revisão sistemática ............................................................................................148
6. Saúde baseada em evidência .............................................................................152
8
1
Introdução a metodologia e análise de dados em pesquisas UNIDADE 1
INTRODUÇÃO A METODOLOGIA
E ANÁLISE DE DADOS EM
PESQUISAS
Figura 01. Estatística
Fo
nt
e:
1
23
R
F.
INTRODUÇÃO
Muitas pessoas, mesmo sem saber, já
usaram fundamentos e partes da estatís-
tica e da epidemiologia em seu dia a dia.
Ao organizar uma festa, por exemplo,
usamos o conceito de estatística para
preparar a lista de compras de comida.
Se no churrasco teremos 20 convidados
e, conforme as informações encontradas
na internet, em média, o consumo de
carne por pessoa é 100g, comprar 2kg
de carne será suficiente para o evento?
Saber o sexo e a idade dos convidados
influencia na minha compra? Será que
posso confiar na informação que eu encontrei na internet? Para responder essas per-
guntas, utilizaremos conceitos de estatística e epidemiologia.
1. DEFINIÇÃO DE BIOESTATÍSTICA
Contar, medir, comparar e resumir informações são ações que estão presentes no coti-
diano de todas as pessoas, independentemente da profissão. No entanto, a forma com
que esses processos são realizados influencia na qualidade da informação obtida. A mí-
dia divulga que um em cada cinco brasileiros terão hipertensão arterial sistêmica, mas
saber que essa informação foi obtida em uma pesquisa com 50 indígenas no Canadá ou
em uma população com 2.500 pessoas de todos os estados do Brasil mudaria o quanto
você confia na informação?
A estatística não se resume a números e cálculos, ela considera todo o processo, desde
o modo em que os dados são coletados e analisados até a forma com que eles são
interpretados e divulgados. Em outros termos “[e]statística é a ciência que fornece os
princípios e os métodos para coleta, organização, resumo, análise e interpretação de
informações” (VIEIRA, 2016, p. 1).
9
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
2. DEFINIÇÃO DE EPIDEMIOLOGIA
De modo histórico, a epidemiologia conta sobre os eventos relacionados à saúde, como
nascimentos, casos de doenças e mortes. Um exemplo clássico se refere a John Snow,o
pai da Epidemiologia moderna, que, no século XIX, investigou a epidemia de cólera em Lon-
dres, avaliando os casos e onde eles aconteceram para que, a partir dessas informações,
conseguisse propor hipóteses causais e estratégias para reduzi-los. Esse marco amplia a
atuação da epidemiologia para investigações sistemáticas de eventos com a finalidade de
levantar hipóteses, definir meios de transmissão da doença e estratégias de ação.
Com o passar do tempo, a epidemiologia ampliou seu objeto de estudo para além das
doenças transmissíveis, investigando o processo saúde-doença. Dessa forma, começa
a busca por fatores de risco ou fatores determinantes para acontecimento de especí-
ficas doenças, como o câncer, por exemplo. Nesse sentido, estrutura-se desenhos de
estudos que possibilitam definir fatores causais. Epidemiologia é a:
[...] ciência que estuda o processo saúde-doença em coletividades humanas,
analisando a distribuição e os fatores determinantes do risco de doenças,
agravos e eventos associados à saúde, propondo medidas específicas de
prevenção, controle ou erradicação de doenças, danos ou problemas de
saúde e de proteção, promoção ou recuperação da saúde individual e coletiva,
produzindo informação e conhecimento para apoiar a tomada de decisão
no planejamento, administração e avaliação de sistemas, programas, serviços e
ações de saúde (ROUQUAYROL; GURGEL, 2018, p. 9, grifos nossos).
2.1. CONCEITOS BÁSICOS
Para responder uma questão de estudo,
uma parte importante da pesquisa se refe-
re à composição e definição das variáveis
do estudo. Variáveis são valores ou in-
formações obtidas diretamente ou podem
ser resultado de um agrupamento, classi-
ficação ou cálculo de medidas coletadas.
Elas podem ser características individuais,
determinantes do processo saúde-doença,
fatores de risco, eventos clínicos e desfe-
chos, como morte, presença de doença,
deficiência, sintomas e qualidade de vida.
A epidemiologia classifica as variáveis de um estudo típico em três tipos. De acordo
com Fletcher et al. (2014, p. 6), uma variável independente é o suposto fator de risco
ou causa que se estuda, podendo explicar a causa do problema; uma variável depen-
dente, por sua vez, é o suposto desfecho ou efeito que se estuda, medindo o fenômeno
que se quer explicar, podendo sofrer influência das variáveis independentes, como a
relação entre cigarro e câncer de pulmão. Segundo Pereira (2004, p. 46), nesse caso, a
variável dependente seria o câncer de pulmão, pois sua presença pode ser influenciada
pela variável independente cigarro. Por fim, uma variável externa não faz parte direta
da questão principal, mas pode estar relacionada e afetar a relação entre a variável
independente e dependente. Um fator de confusão é um exemplo de variável externa.
Figura 02. Variáveis e vieses de pesquisa
Fo
nt
e:
1
23
R
F.
10
1
Introdução a metodologia e análise de dados em pesquisas
A qualidade de uma pesquisa é avaliada a partir da presença de erros cometidos. Nesse
contexto, viés é um erro sistemático e ao delinear o projeto é preciso pensar em estraté-
gias metodológicas que diminuam a chance desse erro acontecer. Existem três principais
tipos de vieses: o viés de seleção, viés de aferição e viés de confusão ou de confundimento.
O viés de seleção ocorre quando se comparam grupos com características diferentes que
não são as variáveis principais, mas que influenciam no desfecho. Isso acontece porque a
seleção da amostra foi falha é que alguma característica não foi considerada.
SAIBA MAIS
SAIBA MAIS
Por exemplo, ao fazer uma pesquisa sobre uma possível medicação que emagrece, a
pesquisa não considerou o grau de atividade física dos sujeitos. Então, aqueles que to-
maram o remédio e emagreceram podem ser fisicamente ativos e os que não tomaram
a medicação sejam sedentários. Como a seleção da amostra nos grupos não conside-
rou a atividade física, não é possível considerar que o emagrecimento de fato foi por
causa da medicação, pois foram comparados grupos com características diferentes.
O viés de aferição ocorre quando o erro é na aferição de alguma variável, como usar uma
balança não calibrada, realizar a técnica incorreta de aferição da pressão arterial ou usar
equipamentos diferentes para aferir alguma variável.
Já o viés de confusão ou de confundimento ocorre quando duas variáveis podem influenciar o
efeito que uma tem sobre um desfecho ou quando se confunde qual variável influencia no desfecho.
Será, portanto, que uma variável realmente causa o desfecho ou essa associação não
existe e a verdadeira causa na verdade é outra variável?
Um fator de confusão está associado à exposição, em que deve ter uma associação
causal com o desfecho e não deve ser uma etapa do caminho da exposição gerar o
desfecho. Por exemplo, uma pesquisa demonstra uma associação de depressão como
fator causal para ter câncer de pulmão. Nesse contexto, um fator de confundimento é
o tabagismo, pois fumar causa câncer de pulmão e fumar está associado à depressão,
pois esse é um hábito apresentado frequentemente em pessoas depressivas. Portanto,
o viés de confusão ocorre com a variável tabagismo, que impacta da associação princi-
pal da pesquisa, depressão e câncer de pulmão.
3. INTRODUÇÃO A PESQUISA
Quais são as etapas básicas de uma pesquisa? As informações básicas de como estru-
turar uma pesquisa influencia em como avaliar a qualidade e a confiabilidade dela. As
11
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
etapas iniciais do planejamento da pesquisa podem parecer simples, mas na verdade
elas são a base fundamental para o sucesso final da pesquisa.
Esse processo se inicia com a escolha de um tema que se pretende estudar. As pesqui-
sas de base, como investigar característica de uma bactéria que não causa doença, é
tão importante quanto as de aplicação como avaliar a eficácia de um novo tratamento.
Conversar com pessoas que atuam com o tema pode ajudar a definir quais são assun-
tos interessantes de serem estudados. Outro fator necessário é buscar na literatura o
que já foi publicado sobre seu tema. A partir disso, deve-se buscar especificar e delimi-
tar o que se pretende estudar sobre o tema. (BELL, 2008, p.31-34)
Essa etapa de refinamento e reflexão, de qual parte estudar, tem como finalidade definir
a questão da pesquisa, a hipótese e os objetivos que esperasse alcançar ao final. Uma
boa pergunta de pesquisa deve ser específica quanto ao tempo, espaço, população e
contexto. Com suas características deve ser possível reproduzir a pesquisa. É recomen-
dado que o assunto tenha algum aspecto novo, mesmo que seja ver se os resultados
encontrados em outros locais também acontecem no Brasil. Um exemplo de pergunta
é “Quais fatores influenciam no uso de preservativo masculino entre os jovens (18 a 24
anos de idade) do estado de São Paulo nos anos 2020 dentro de cada classe social?”.
Durante todo o tempo de realização da pesquisa deve-se lembrar qual é questão norte-
adora e refletir se as ações realizadas e os dados coletados irão ajudar a responder à
pergunta e confirmar a hipótese. Como as informações são coletas, será que influencia
na capacidade da pesquisa de atingir seus objetivos?
É importante ter um equilíbrio entre coletar pouca informação e depois não conseguir
fazer algumas análises ou coletar muito dado e acabar só utilizando metade das infor-
mações coletadas. Quanto mais se estuda sobre o tema, mais fácil fica a decisão de o
que, como, quando e onde coletar. Essas decisões impactam no sucesso da pesquisa.
Exemplo 1
Se o objetivo é avaliar a associação de entre uma exposição com um desfecho, como fumar
e câncer, quais variáveis devem ser coletadas?
Inicialmente pode-se pensar em somente coletar duas informações: quem é fumante e quem
teve câncer nos últimos anos. Mas não detalhar as informações sobre o fumo ou coletar
outros dados que podem contribuir com o surgimento do câncer podem atrapalhar na inter-pretação dos resultados.
É necessário detalhar melhor o tempo, quantidade e substância fumada. Como fazer essa
coleta, por questionário ou existe exame laboratorial que consiga dar um valor mais fiel e que
consiga medir a intensidade do fumo?
É importante também coletar informação sobre possíveis fatores de confundimento como
exposição a poluição e fumaça, histórico familiar de câncer entre outros.
12
1
Introdução a metodologia e análise de dados em pesquisas
4. MÉTODO DE PESQUISA
Uma pesquisa tem várias etapas, logo, ao desenvolver o método que será utilizado na
coleta e análise dos dados devemos realizar diversas escolhas. Essas decisões devem
ser feitas com o objetivo de melhorar a qualidade da pesquisa, mas, como nem sempre
isso é possível, o pesquisador pode ser obrigado a escolher a opção mais viável e não
a mais adequada.
Para ajudar na decisão do pesquisador é importante saber as vantagens e desvantagem de
cada possibilidade. Assim, ter o conhecimento de quais são
os possíveis vieses que podem acontecer são conhecimentos essenciais para desenhar o
estudo de maneira a contornar as dificuldades.
IMPORTANTE
4.1. AMOSTRAGEM
Uma das primeiras etapas ao realizar
ou avaliar uma pesquisa é preciso de-
cidir quem serão os participantes. Por
exemplo, considere que você deseja
realizar uma pesquisa sobre a frequ-
ência do uso de drogas, lícitas e ilíci-
tas, nos universitários que moram no
Brasil. Pela facilidade de acesso, apli-
ca-se um questionário com os estu-
dantes da Universidade São Francisco
(USF) que estão cursando o compo-
nente curricular de Bioestatística e Epidemiologia. Nesse contexto, realizar a coleta de da-
dos dessa maneira trará resultados confiáveis e compatíveis com o objetivo da pesquisa?
Na pesquisa, considera-se população o grupo de pessoas que tem a característica que
desejamos estudar, já a amostra é composta pelos indivíduos que foram selecionados
para a pesquisa (VIEIRA, 2016, p. 91). No exemplo da pesquisa sobre drogas, a po-
pulação é: todos os universitários que moram no Brasil e a amostra é: todos os alunos
que responderam ao questionário. Uma amostra pode ser adequada se for capaz de
fornecer resultados similares aos que existem na população.
Na maioria dos casos, usa-se uma amostra principalmente pela economia do tempo e
custo. Não é viável fazer exame laboratorial em todos os moradores da cidade para sa-
ber a proporção de munícipes que tem alguma doença. Segundo Viera (2016, p. 92-93),
as pesquisas que realizam levantamento de dados de toda a população são chamadas
de censo e não precisam de amostragem.
Outro motivo para usar amostras é em casos em que não é possível estudar toda a po-
pulação. Por exemplo, você deixou uma embalagem de leite aberta a noite inteira fora
Figura 03. Amostragem
Fo
nt
e:
1
23
R
F.
13
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
IMPORTANTE
da geladeira e, agora, precisa saber se o leite já estragou. Se a análise da qualidade for
feita com todo o conteúdo do pacote, mesmo que o resultado seja que é possível consu-
mir o leite, não seria possível realizar isso já que todo o produto foi totalmente utilizado
no teste. Nesse caso, é obrigatório o uso de uma amostra de pequena quantidade do
produto para que, se possível, utilizar o restante.
O uso de amostra tem um valor científico impactante, pois ao usar menos sujeitos, é
possível coletar dados mais completos. Se a amostragem foi realizada corretamente, os
valores reais que devemos encontrar na população estarão dentro de uma margem de
erro do valor encontrado na amostra (VIEIRA, 2016, p. 93-94).
As características das pessoas da amostra impactam na qualidade do resultado. Por isso, as
descrições dos sujeitos da pesquisa e de todas as etapas de seleção desses indivíduos são
essenciais para avaliar a qualidade dos resultados.
` Métodos amostrais
É possível obter uma amostra por diversos métodos. Assim, escolher qual método utilizar
é uma decisão dos pesquisadores a partir de suas características, vantagens e desvanta-
gens. Logo, é de extrema importância que o método seja seguido exatamente como defi-
nido e que sua descrição permita que ele seja reproduzido. Nesse sentido, muitas pessoas
comparam os métodos de uma pesquisa com uma receita culinária, em que é preciso deixar
claro todas as etapas para que outros consigam realizar e chegar no mesmo resultado.
Uma amostra probabilística ou aleatória é quando a seleção dos sujeitos de pesqui-
sa é feita ao acaso. Na prática, isso significa que a seleção foi feita por sorteio. Nessa
técnica, um princípio importante é que todos os indivíduos da população têm a mesma
probabilidade conhecida de participarem da amostra. Para que ela possa ser executada
é necessário conhecer e identificar toda a população.
Exemplo 2
Considere uma pesquisa da cidade de Votorantim (SP), com o objetivo de investigar quais
são as medicações que os residentes com diabetes mellitus usam. Nesse caso, a população
se trata dos diabéticos que moram na cidade. Seria possível ter conhecimento de quem são
todos indivíduos da população antes de realizar o sorteio? Ainda não temos um cadastro obri-
gatório e único com informações de saúde da população, independentemente de as pessoas
serem ou não usuárias do Sistema Único de Saúde (SUS). Por não ser possível listar todos
os diabéticos da cidade, não é possível obter uma amostra aleatória para essa pesquisa.
A amostra pode ser aleatória simples quando o sorteio acontece a partir de toda a popu-
lação. Esse método é utilizado quando a população é homogênea e não existem caracte-
14
1
Introdução a metodologia e análise de dados em pesquisas
rísticas individuais que irão atrapalhar a análise dos dados. Porém, há casos que alguns
subgrupos podem ter características diferentes que influenciem nos dados coletados.
No caso da realização de uma avaliação, de modo específico, sobre a disciplina Estu-
do do Ser Humano Contemporâneo da USF, por exemplo, pode-se considerar que os
estudantes terão avaliações similares independente do curso ou área de conhecimento
que cursam? Nesse contexto, podemos supor que os alunos da área de humanas de-
vem gostar mais da disciplina do que os alunos de exatas, portanto, a população não
é homogênea. Em casos como o descrito anteriormente, a amostra pode ser aleatória
estratificada. Esse método é usado quando a população tem subgrupos (estratos) que
podem ter comportamentos diferentes.
Para selecionar a amostra, deve-se dividir a população nos subgrupos e sortear os
sujeitos em cada estrato, desse modo, podemos garantir a representação de cada sub-
grupo. Em geral, os estratos são sexo, idade e/ou classe social, mas eles podem ser
divididos conforme as características da população. A distribuição do número de partici-
pantes da pesquisa em cada extrato deve ser proporcional a distribuição dos subgrupos
na população. Se a população é distribuída com 30% sexo masculino e 70% feminino,
uma amostra estratificada de 10 indivíduos deve selecionar 7 mulheres e 3 homens.
Exemplo 3
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão entre
os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudantes, 33% são
bolsistas. Para obter resultados significativos será necessária uma amostra com 75 pessoas.
Uma amostra aleatória simples seria obtida a partir do sorteio de 75 pessoas entre os 10.350
estudantes. Já uma amostra aleatória estratificada seria obtida dividindo a população entre
bolsistas e pagantes, depois sorteando 50 pessoas entre os pagantes e 25 entre os bolsistas
para manter a proporção com a população.
Uma amostra semiprobabilística tem parte do processo de seleção com uma aborda-
gem aleatória. A amostra sistemática tem regras pré-estabelecidas que devem ser
seguidas de forma sistemática. A parte aleatória acontece por meio de um sorteio que
indica o valor que deve ser sorteado e repetido, inclusive, de formasistemática. Para
utilização desse método, é necessário que a população esteja distribuída em ordem e,
por isso, esse é um método comum para seleção de prontuários.
A primeira etapa é dividir a população em grupos, em que o número de grupos deve
ser igual ao número de indivíduos na amostra. A segunda etapa se trata de sortear um
número dentro de uma faixa de valor que é definida pelo número de pessoas em cada
grupo. Após o sorteio, deve-se selecionar a pessoa que ocupa a posição sorteada em
cada grupo. Se a população é de 250 pessoas e se deseja uma amostra de 10 indiví-
duos, a amostra sistemática será a seleção da sétima pessoa de cada um dos vinte e
cinco grupos considerando que o sorteio de 1 a 25 deu 7.
15
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
A amostra por conglomerados seleciona grupos de pessoas definidos por algum moti-
vo que são encontrados na população, como um município, uma clínica ou uma escola.
Nesse caso, o sorteio não é dos sujeitos e sim dos conglomerados. Para utilização
desse método, o pesquisador deve ter acesso a todos os conglomerados possíveis, ou
o pesquisador corre o risco de ter uma amostra que não tem acesso. A vantagem desse
método amostral é concentrar a coleta em menos locais. Em vez de sortear entre todas
as internações do município e correr o risco de ter que coletar dados em múltiplos hos-
pitais, com esse método é possível sortear o conglomerado e realizar a pesquisa em um
único local. Uma condição importante para realizar a amostragem por esse método é
que a população deve ser igual em todos os locais ou corre-se o risco de selecionar um
hospital que só interna casos graves e prejudicar a qualidade da amostra.
Em alguns casos, mais de um método amostral é utilizado. Isso acontece frequente-
mente quando o primeiro método é por conglomerado, pois, dentro de um conglome-
rado pode ter uma quantidade maior do que a necessária. Então, utiliza-se de outro
método para uma seleção dos indivíduos dentro do conglomerado selecionado.
A amostra por cotas seleciona com o objetivo de garantir representatividade e proporção
igual a população, a lógica desse método é similar a cotas de vagas para acesso aos pro-
cessos seletivos. A amostra é dividida garantindo vagas para pessoas com características
diferentes, em que os grupos de cotas são similares aos estratos, frequentemente dividi-
dos por sexo, idade e/ou classe social. O preenchimento das vagas é por acesso, desse
modo, não existe sorteio nesse método. É comum que o entrevistador fique em locais
de alto movimento para tentar encontrar pessoas que preencham as características das
cotas. Essa é uma estratégia muito utilizada em razão de sua praticidade e baixo custo.
Exemplo 4
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão entre
os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudantes, 33% são
bolsistas. Para obter resultados significativos será necessária uma amostra com 75 pessoas.
Uma amostra sistemática seria obtida sorteando um número de 1 a 138 (considere que o
resultado foi o número 84). A amostra será a octogésima quarta pessoa de cada grupo de
138 pessoas.
Já uma amostra por conglomerados seria obtida sorteando uma sala de aula e os participan-
tes da pesquisa seriam quem assiste aula nesse local.
Uma amostra por cotas teria 50 vagas para pagantes e 25 vagas para bolsistas. Para realizar
a pesquisa, o pesquisador poderia ficar na entrada principal da universidade e perguntar para
cada aluno se eles eram bolsistas ou pagantes. As primeiras pessoas que preenchessem os
critérios seriam selecionadas.
A amostra de conveniência ou não probabilística é composta por pessoas que o
pesquisador tem fácil acesso. Nesse método, não existe sorteio ou alguma etapa que
garanta aleatoriedade e representatividade da população. Ele é similar ao método
16
1
Introdução a metodologia e análise de dados em pesquisas
amostral por cotas, em que a diferença é que, por conveniência, não há os grupos de
características específicas. Essa é uma das estratégias mais utilizadas por ser muito
prática e barata. Em geral, os profissionais que desenvolvem pesquisa usam esse mé-
todo ao fazerem a pesquisa somente com os seus pacientes.
Pessoas leigas podem explicar esse método descrevendo que a seleção das pessoas
ocorreu ao acaso, conforme encontravam as pessoas na rua. Para estatística, o termo
acaso está relacionado à aleatoriedade de um evento acontecer e não a ausência de
método de coleta.
Exemplo 5
Considere uma pesquisa com o objetivo de avaliar a proporção de pessoas com depressão
entre os estudantes matriculados na Universidade São Francisco. Entre 10.350 estudantes,
33% são bolsistas. Para obter resultados significativos será necessária uma amostra com 75
pessoas.
Uma amostra de conveniência seria obtida distribuindo o questionário on-line para todos os
estudantes por meio de grupos de redes sociais.
` Tamanho da amostra
A vantagem da amostra é não precisar avaliar a população inteira. Entretanto, o tama-
nho da amostra tem que ser pequeno para otimizar tempo e recursos, mas grande o su-
ficiente para ter significância estatística. Quanto maior o tamanho da amostra, maiores
as chances dos valores encontrados (estimativas) a serem próximos aos valores reais
encontrados na população (parâmetros). Para saber se um novo tratamento é eficaz,
não se pode avaliar somente 10 pessoas, é preciso de um número suficiente que con-
siga garantir que o que foi observado não é uma exceção.
Desse modo, para saber o tamanho ideal, existem cálculos que definem o número ideal
para a amostra ter significância e qualidade. De acordo com a situação, pode-se utilizar
fórmulas diferentes. Normalmente, os critérios que precisam ser definidos ao fazer o
cálculo são: margem de erro, nível de confiança e proporção na população.
4.2 INFERÊNCIA ESTATÍSTICA
Uma vez que se obtém os resultados é preciso avaliar a qualidade deles e o quanto é
possível usá-los para supor que é assim que eventos acontecem na população. O pri-
meiro ponto, portanto, é avaliar a validade interna, que define a grau que os resultados
representam a amostra. Um bom estudo sem vieses e erros sempre tem alta validade
interna. Por sua vez, a validade externa define o quanto o resultado pode representar
a população. Nesse sentido, chama-se de inferência estatística a ação de generalizar
os resultados da sua amostra para a população. Para fazer a inferência é necessário
avaliar as características da amostra e refletir se ela é representativa da população.
17
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
Uma amostra é tendenciosa quando suas características não são similares a popula-
ção. Dessa forma, toda amostra tendenciosa ocorre por viés de seleção. Uma pesquisa
sobre uso de drogas entre brasileiros teve uma amostra somente de alunos universitá-
rios. Com os dados obtidos não é possível concluir que todos os brasileiros se compor-
tam como na amostra. Portanto, para utilizar os resultados da pesquisa para embasar
sua conduta profissional, o estudo tem que ter alta validade interna e externa. Ela não
pode ter vieses e uma amostra tendenciosa.
Procure nos artigos científicos se os autores deixam claro o método amostral utilizado. Será que
descrever como foi feita a seleção facilita a avaliação de validade da pesquisa e da presença de
vieses? Sem a descrição do método amostral é possível definir a presença de viés de seleção?
PARA REFLETIR
5. COLETA DE DADOS
Uma parte importante para avaliar a qualidade da pesquisa é ter uma adequada coleta
dos dados. Qual informação coletar, como aferir e qual instrumento utilizar são defini-
ções importantes que um pesquisador deve fazer. Desse modo, toda escolha influencia
na qualidade dos resultados.
Ao desenhar uma pesquisa é preciso definir quais variáveis coletar e como conduzir
esse processo. As variáveis são as informaçõesde interesse que a pesquisa pretende
estudar e suas características influenciam nas análises estatísticas que serão realiza-
das que, por sua vez, definem os resultados.
A classificação estatística das variáveis está esquematizada na Figura 04, em que as
variáveis qualitativas ou categóricas são expressadas por categorias mutualmente
excludentes. Por exemplo, sexo é uma variável qualitativa porque a reposta é por cate-
goria (masculino ou feminino) e só é possível ter uma resposta possível.
Figura 04. Tipos de variáveis
Variáveis
Nominal Ordinal Discreta Contínua
Qualitativas ou
Categórica
1)
2)
Quantitativa
ou Numérica
Fonte: elaborada pela autora.
18
1
Introdução a metodologia e análise de dados em pesquisas
A variável qualitativa pode ser ordinal quando as categorias possuem uma ordem natural.
A ordenação é um consenso e não pode estar associada a juízo de valor pessoal. Uma pes-
quisa de satisfação que tem toda pergunta estruturada com as possibilidades de resposta:
ruim, satisfatório e bom. Essa é uma variável qualitativa, pois as respostas são categorias
(ruim, satisfatório e bom) e é ordinal porque as respostas têm uma ordenação de intensida-
de da satisfação. Um questionário fechado tem as possíveis respostas em ordem, mas isso
não quer dizer que exista uma ordem natural nas respostas para classificá-la como ordinal.
Nesse contexto, podemos apresentar outros exemplos como escolaridade (ensino infantil,
fundamental, médio e superior) e tamanho do edema (1+, 2+, 3+, 4+).
A variável qualitativa pode ser nominal quando as categorias não têm uma distribuição
ordinal. Uma grande parte das variáveis são desse tipo. Na declaração de nascido vivo,
por exemplo, a variável tipo de parto é coletada com possibilidades de resposta: cesáreo,
vaginal e ignorado. Apesar das evidências científicas e do juízo de valor que parto vaginal
é melhor, a ordenação não é natural e, portanto, tipo de parto é uma variável qualitativa
nominal. Além desse, são outros exemplos de variável qualidade nominal: município de
residência ou droga ilícita utilizada (maconha, cocaína, crack, LSD, entre outras).
Ademais, algumas variáveis qualitativas nominais podem, também, ser dicotômicas.
Isto é, quando só há duas respostas possíveis e que elas são excludentes, por exemplo:
faz uso de tabaco (sim/não), presença ou ausência de pressão alta. Normalmente, as
respostas desse tipo de variáveis são sim e não.
As variáveis quantitativas ou numéricas são expressas por números com intervalos
entre os valores iguais, por exemplo, peso e altura. Por sua vez, o grau de estadiamento,
apesar de ter respostas numéricas (estadiamento I, II, III e IV), não é uma variável quanti-
tativa, porque os intervalos entre os graus não são conhecidos. Por outro lado, a variável
peso é quantitativa já que o intervalo entre as possibilidades de respostas é conhecido. A
diferença entre pesar 74, 75 ou 76 kg é sempre 1kg que pode ser aferido em uma balança.
As variáveis quantitativas podem ser discretas quando as respostas são valores ou
uma faixa de valores possíveis. Geralmente, essas respostas apresentam números in-
teiros e resultados de uma contagem. Por exemplo, número de partos é uma variável
quantitativa, em que o resultado é numérico, e é discreta, porque a pessoa contou quan-
tos partos teve e não se pode ter metade de um parto.
Por fim, a variável quantitativa contínua pode ter números decimais e resultados são
obtidos por aferição. O peso de cada sujeito da pesquisa é aferido em uma balança
e tem a possibilidade de um resultado decimal, 75,1 kg. Dessa forma, todo exame la-
boratorial de análises clínicas é variável quantitativa contínua, pois os resultados são
sempre uma proporção.
Exemplo 5
Para classificar uma variável normalmente devemos responder uma sequência de questões
que nos ajudam a decidir qual caminho seguir da Figura 04.
19
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
1) As respostas da questão de coleta de dados da variável são em formato de texto ou são
números? Na grande maioria dos casos as variáveis qualitativas têm respostas em texto
enquanto as quantitativas têm respostas com números.
Caso seja uma variável qualitativa
2) As respostas da questão de coleta de dados têm uma ordem definida de intensidade ou de
grandeza? Se a resposta for sim provavelmente a variável é ordinal e se for não será nominal.
Caso seja uma variável quantitativa
2) As respostas da questão de coleta de dados são resultado de contagens e só podem ter
números inteiros? Se a resposta for sim provavelmente a variável é discreta. Se a resposta
for não, ou seja, a há uma aferição e pode ter número decimais, a variável será contínua.
Como classificar a variável antecedente familiar que terá seus dados coletados perguntando
para o paciente se algum parente já teve câncer de mama.
1) As respostas da questão de coleta de dados da variável são em formato de texto ou são
números?
Nesse caso as respostas possíveis para a questão de coleta de dado são não, sim (mãe
ou irmã), sim (tia ou avó). Essas respostas são em texto, portanto a variável é qualitativa.
2) As respostas da questão de coleta de dados têm uma ordem definida de intensidade ou
de grandeza?
Nesse caso a resposta é não, portanto é uma variável nominal.
Então a variável antecedente familiar pode ser classificada como qualitativa nominal.
5.1. DESEMPENHO DAS AFERIÇÕES
Como e com quais instrumentos, a coleta de dados foi realizada influencia na qualidade
da pesquisa. Por isso, vários instrumentos têm seus desempenhos avaliados para julgar
o quanto eles conseguem aferir.
A validade avalia a capacidade de um instrumento medir o que se propõe a medir. Esse
conceito, por sua vez, é similar ao conceito de acurácia que mede o quanto os dados
aferidos representam a realidade. A confiabilidade está relacionada com a precisão e
reprodutibilidade do instrumento, avaliando o quão próximos as aferições estão repe-
tidas. A responsividade avalia se o instrumento consegue registrar mudanças após
alteração clínica do quadro. Uma escala de dor com boa responsabilidade consegue
medir a diferença de intensidade da dor após o paciente tomar remédio para dor. Já a
interpretabilidade avalia o grau de dificuldade de interpretar os dados. O que significa
ter uma dor nota 7 e esse padrão de definição é igual para todas as pessoas?
O intervalo de variação avalia se o instrumento consegue medir e a capacidade de
registrar alterações extremas. Um instrumento de avaliação da qualidade do autocuida-
do tem um bom intervalo de variação se ele consegue registar pessoas completamente
dependentes até ser totalmente responsável pelo autocuidado.
20
1
Introdução a metodologia e análise de dados em pesquisas
Os dois principais critérios para avaliar a qualidade de um instrumento são: a precisão
e a acurácia. Para compreender melhor os conceitos, avalie a Figura 5. Considere que
cada instrumento aferiu quatro vezes e que o valor que eles deveriam acertar está no
centro do desenho. Desse modo, quais instrumentos têm alta precisão e acurácia?
Figura 05. Precisão e acurácia de quatro instrumentos diferente considerando
que o local correto a ser acertado é o meio do desenho
Fonte: elaborada pela autora.
Após analisar a Figura 05, o instrumento amarelo se mostra impreciso e tem baixa vali-
dade; o instrumento verde, por sua vez, é preciso porque as aferições estão próximas,
mas tem baixa validade já que estão longe do centro; o instrumento azul tem precisão
e acurácia intermediárias; por fim, o instrumento vermelho tem alta precisão e acurácia.
O ideal é utilizar instrumentos com precisão e acurácia minimamente intermediários. É
importante ficar atento para possíveis equipamentos com alta precisão, mas que não
tem acurácia.
As escalas são ferramentas utilizadas por muitos profissionais da saúde para avaliar
características dos indivíduos e os fatores determinantes de saúde, como o Mini Exame
do EstadoMental (MEEM). Essas escalas ao serem criadas, traduzidas ou adaptadas
para diferentes populações, devem passar por uma avaliação de validade de conteúdo,
de critério e de construto. A validade de conteúdo refere-se à capacidade que a escala
tem de abranger todos os aspectos do problema a ser medido, assim como a clareza
na medição do problema.
A validade de critério, por outro lado, compara os resultados do teste em questão com
outros exames ou características mensuráveis. Segundo Pasquali (2009), a validade
de construto leva em consideração a consistência interna (correlação entre cada item e
o restante dos itens da escala) e a capacidade do instrumento em medir uma variável
latente (um construto que não pode ser medido diretamente).
21
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
6. RESULTADOS
Falar que houve 10 casos de cárie dentária em crianças menores de 2 anos é muito ou
pouco? Se ao invés de usar o número de casos, o dado for expresso porcentagem, 2%
das crianças nessas faixas tem cárie influencia na sua análise? Há diversas maneiras
que os dados da pesquisa podem ser transmitidos ou resumidos. A escolha de como
divulgar os resultados influencia em como a pesquisa é interpretada.
Os dados são os valores ou as respostas obtidas. A análise dos dados começa com
a estatística descritiva na qual a principal função é o resumo e a descrição das infor-
mações obtidas. As variáveis qualitativas são resumidas com frequência absoluta e
relativa de cada categoria de resposta. As variáveis quantitativas, normalmente, são
resumidas com medidas de tendência central e medidas de dispersão.
6.1. FREQUÊNCIA ABSOLUTA E RELATIVA
A frequência absoluta é a contagem dos casos de cada categoria da variável. Por
exemplo, na variável gênero, a frequência absoluta é de 18 pessoas do sexo masculino
e 36 para o feminino. A frequência relativa é uma proporção resultante de uma divi-
são. A frequência relativa pode ser apresentada por coeficientes, taxas, porcentagens e
índices. Ao resumir os dados das variáveis qualitativas é comum expressar a frequência
relativa em porcentagem após a menção da frequência absoluta.
` Fórmula de cálculo de frequência relativa por porcentagem:
1 00
frequencia absoluta
tamanhoda amostra
×
1
Exemplo 6
Considere uma amostra de 540 pessoas, das quais 360 são fumantes e 180 não fumam. O
cálculo da frequência relativa em porcentagem de pessoas que não são fumantes é:
1 00
frequencia absoluta
tamanhoda amostra
× substituir a fórmula com os dados.
180 1 00
540
= × fazer a divisão (180 ÷ 540).
0,3333 1 00= × fazer a multiplicação.
33,33%=
22
1
Introdução a metodologia e análise de dados em pesquisas
Já para os fumantes, temos:
360 1 00 1 00 0,6667 1 00 66,67%
540
frequencia absoluta
tamanhoda amostra
× = × = × =
Os dois tipos de frequência podem ser apresentados ao longo do texto, conforme o
exemplo acima. Outra opção é descrever, no texto, usando o número absoluto seguido
da porcentagem entre parênteses. Por exemplo, quanto ao sexo, 36 (66,67%) eram do
sexo feminino.
Além disso, há a possibilidade de realizar uma tabela de distribuição de frequência, em
que ela é organizada com três colunas. A primeira terá as possibilidades de respostas,
a segunda terá a frequência absoluta (as vezes abreviada como “N”) e a terceira terá a
frequência relativa (normalmente, abreviada com “%”). A primeira linha da tabela mostra
os títulos de cada coluna e a última linha é o Total, conforme a Tabela 01 a seguir.
Tabela 01. Tabela de distribuição de frequência
SEXO FREQUÊNCIA ABSOLUTA (N) FREQUÊNCIA RELATIVA (%)
Feminino 36 66,67%
Masculino 18 33,33%
Total 54 100%
Fonte: elaborada pela autora.
Ao descrever variáveis quantitativas, a utilização da frequência para cada possibili-
dade de resposta pode não resumir os dados. A dificuldade em realizar uma frequência
simples é que dados quantitativos frequentemente têm diversas respostas, não agru-
pando os dados e resumindo as informações. Para esses casos, recomenda-se a utili-
zação de frequência agrupada, na qual criam-se agrupamentos de categorias de dados.
Os agrupamentos de categorias de dados podem ser definidos a partir da distribuição dos
dados da amostra ou de critérios predefinidos. Assim, é comum para idade de adultos dis-
tribuir em faixas de 20 a 29 anos ou de 30 a 39 anos. O intervalo de valores deve ser igual
em todas as faixas. Desse modo, é importante que as categorias criadas tenham uma
sequência que garanta que todo número esteja incluso em somente uma única categoria.
Por exemplo, se existem as categorias de 20 a 30 anos e de 30 a 40 anos, um sujeito com
30 anos pode erroneamente ser incluído em duas categorias. O exemplo a seguir mostra
que a distribuição agrupada é mais adequada para variáveis quantitativas.
Exemplo 7
Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir. Crie
uma tabela de distribuição simples e agrupada de frequência absoluta (N) e relativa (%) da
variedade idade.
23
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
IDADE 20 21 57 40 23 20 21 21
Distribuição simples
IDADE N %
20 2
2 100 0,25 100 25%
8
× = × =
21 3
3 100 0,375 100 37,5%
8
× = × =
23 1
1 100 0,1225 100 12,25%
8
× = × =
40 1
1 100 0,1225 100 12,25%
8
× = × =
57 1
1 100 0,1225 100 12,25%
8
× = × =
Total 8 100%
Distribuição agrupada
IDADE N %
20 a 39 anos 6
6 100 0,25 100 75%
8
× = × =
40 a 59 anos 2
2 100 0,25 100 25%
8
× = × =
Total 8 100%
Observe o quanto a tabela de distribuição agrupada consegue descrever e resumir o conjunto
de dados de uma maneira melhor do que a distribuição simples.
No cotidiano das secretarias de saúde, os dados do número de casos das doenças
de notificações compulsórias são divulgados. Portanto, é importante que em qualquer
divulgação de dados seja utilizada frequência absoluta e relativa.
A frequência absoluta tem como principal função demonstrar o impacto que aquele
agravo, evento ou desfecho tem na sociedade. Outra aplicabilidade é que, a partir dos
números de casos, os serviços de saúde podem planejar atendimentos e possíveis
demandas. Sobre a pandemia de covid-19, por exemplo, divulgar o número de mortes
diários causou uma comoção entre os brasileiros e, também, fez com que os municípios
se preparassem para o suporte de estrutura e insumos que seriam necessários para os
atendimentos. Já a frequência relativa tem como principal função comparar.
24
1
Introdução a metodologia e análise de dados em pesquisas
O número de óbitos total por covid-19 em 9 de fevereiro de 2021 nos Estados Unidos
da América (EUA) foi de 459.993 e no Reino Unido foi 112.798. Somente utilizando o
número absoluto de casos, o EUA parece estar pior na pandemia por causa do maior
número de casos. Agora ao complementar as informações com a frequência relativa,
a comparação fica melhor. Com esse mesmo exemplo, a proporção de mortes por co-
vid-19 por 1 milhão de habitantes no Reino Unido é de 1.661,58 e nos Estados Unidos
da América é de 1.389,7. Por isso, cabe reforçar que para qualquer comparação é ne-
cessário usar alguma frequência relativa.
6.2. MEDIDAS DE TENDÊNCIA CENTRAL
Na descrição e resumo das variáveis quantitativas, frequentemente, utiliza-se no míni-
mo uma medida de tendência central e uma medida de dispersão. As medidas de ten-
dência central definem um ponto dentro do conjunto amostral que resume os dados.
Ao realizar qualquer cálculo das medidas de tendência central é importante que todos os
dados coletados sejam analisados. Então, mesmo que existam valores repetidos, todas as
observações devem participar dos cálculos.
IMPORTANTE
Nesse sentido, a medida de tendência mais tradicional é a média aritmética. Por sua
vez, ela é obtida somando todos os valores dos dados e depois dividindo a soma pelo
número de dados observados.
Fórmula da média:
x
x
n
= ∑ ou
soma dos dadosMédia
númerodedados=
Em que:
x = um dado.
∑ = somatória.
x∑ = somatória de todos os dados.
n = número de dados.
Exemplo: cálculo média
Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir.
IDADE 20 21 57 40 23 20 21 21
2
25
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
Média:
x soma dos dadosx
n númerodedados
= =∑ substituir a fórmula com os dados.
20 20 21 21 21 23 40 57
8
+ + + + + + +
= somar os valores.
223
8
= realizar a divisão.
27,88=
Portanto, a média desses dados é 27,88 anos.
Nesse exemplo, considere que, na amostra de 8 pessoas, o pesquisador seja incapaz
de coletar a idade de um sujeito. Nesse caso, o número de dados é 7, que são as in-
formações que se devem colocar na parte de baixo na fórmula, já que só tem idade de
sete indivíduos.
A mediana é outra medida de tendência central. O seu valor divide o conjunto de dados
ordenados no meio, isso significa que metade das observações tem valores abaixo da
mediana e metade acima.
Figura 06. Distribuição de dados
Fo
nt
e:
1
23
R
F.
Para calcular a mediana, a primeira etapa é organizar os dados em ordem crescente (do me-
nor para o maior). A segunda etapa é encontrar em qual local é o ponto de corte para dividir o
conjunto ao meio. Quando o número de dados for ímpar, a mediana será um valor do conjunto.
Conjunto A: {2,6,12,17,21} tem cinco observações (número ímpar), portanto, a mediana
é valor do conjunto. Considerando que ele já está ordenado, o valor que está na posição
26
1
Introdução a metodologia e análise de dados em pesquisas
central consegue dividir o conjunto em dois grupos de dois. Logo, a mediana do conjunto
A é o 12.
Quando o número de dados for par, a mediana será a média dos dois valores centrais.
Como será sempre uma média de dois valores, a conta será sempre igual, primeiro
deve-se somar os valores centrais e depois dividir a soma por 2.
Conjunto B: {7, 9, 13, 15} tem número quatro observações (número par), portanto, a
mediana é a média dos dois valores centrais. Considerando que ele já está ordenado,
a posição central que consegue dividir o conjunto em dois grupos de dois é um valor
entre 9 e 13. Para calcular a mediana, nesse caso, é preciso fazer a média entre 9 e 13.
Assim, o cálculo da mediana será:
soma dos dados
númerodedados
=
9 13
2
+
=
22 11.
2
=
Ou seja, a mediana do conjunto B é 11.
Exemplo: cálculo mediana
Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir.
IDADE 20 21 57 40 23 20 21 21
Mediana
01. Colocar em ordem crescente: 20 20 21 21 21 23 40 57.
02. Número par de observações (oito).
03. Achar os valores centrais: 21 e 21.
04. Realizar o cálculo: 21 21
2
+
=
42 21
2
= .
A mediana desses dados é 21 anos.
A outra medida de tendência central é a moda. A moda é o dado mais frequente, ou seja,
dentro do conjunto é o valor que mais se repete. É possível que um conjunto tenha mais
do que uma ou não tenha moda. Para facilitar reconhecer qual é a moda, pode-se fazer
uma análise de frequência absoluta antes ou ordenar o conjunto para ficar mais fácil
conseguir reconhecer os valores repetidos.
27
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
Exemplo: cálculo moda
Uma pesquisa entrevistou 8 universitários com os dados descritos na tabela a seguir.
IDADE 20 21 57 40 23 20 21 21
Moda: faça uma contagem (frequência absoluta) dos dados. A idade que mais se repete é
21, com três votos.
IDADE 20 21 23 40 57 Total
N 2 3 1 1 1 8
Logo, a moda desses dados é 21 anos.
A média é influenciada pelos valores dos dados. Desse modo, se no conjunto de obser-
vações tiverem valores extremos, ou seja, distante de onde a maioria dos valores está,
a média será afetada. Essa desvantagem da média é a vantagem da mediana, que não
é influenciada por valores extremos. Se analisarmos os exemplos de cálculo para essas
duas medidas, podemos observar que a média está mais alta que a mediana por causa
dos valores extremos (40 e 57).
A vantagem da média é que ela pode sofrer manipulações matemáticas e é mais co-
nhecida. Já a mediana não consegue sofrer muitas manipulações matemáticas. Quanto
à moda, a vantagem é a praticidade de conhecer e calcular a medida. No entanto, a
desvantagem é que os resultados não são significativos em grupos pequenos.
A escolha de qual medida usar dependerá dos dados da pesquisa. As características,
vantagens e desvantagens de cada medida influenciará na escolha da medida que
descreverá melhor os dados.
6.3. MEDIDAS DE DISPERSÃO
Para resumir e descrever um conjunto de dados de uma variável numérica, utiliza-se
medidas de tendência central e medidas de dispersão. As medidas de tendência central
informam um ponto que resume os dados, mas só ter um ponto central não descreve o
quanto os dados variam.
Considere o conjunto A {12,13,14,15,16} e o conjunto B {4,10,12,20,24}. Os dois conjun-
tos têm média 14, mas eles não são similares. Os dados do conjunto A variam pouco,
enquanto em B a variação é maior, pois, para descrever é preciso de no mínimo uma
medida central e uma de dispersão.
Uma medida de dispersão é a amplitude que é a diferença entre o valor máximo e o
mínimo. Assim, é possível apenas citar o valor mínimo e máximo. Para facilitar o cálculo
da amplitude, recomenda-se colocar os dados em ordem crescente para ajudar no re-
conhecimento dos valores extremos.
28
1
Introdução a metodologia e análise de dados em pesquisas
` Fórmula da amplitude:
Amplitude Valor máximo Valor mínimo= −3
Exemplo: cálculo de amplitude
Uma pesquisa entrevistou 6 universitários com os dados descritos na tabela a seguir.
IDADE 20 21 57 40 23 18
Amplitude:
01. Colocar em ordem crescente: 18 20 21 23 40 57
02. Realizar o cálculo: 57 18 39− =
A amplitude desses dados é 39 anos.
Outra medida de dispersão é o quartil/percentil. O percentil é um ponto de corte que
divide os dados ordenados, por exemplo, o percentil 85 divide as observações de modo
que 85% dos dados estão entre o valor mínimo e o valor do percentil 85. Quartil são
os pontos de corte que dividem o conjunto em quatro partes igual, portanto, o primeiro
quartil é o percentil 25, o segundo é o percentil 50 e o terceiro é o percentil 75. O segun-
do quartil é sinônimo de mediana já que os dois dividem as observações na metade. A
figura a seguir esquematiza os três pontos de corte no conjunto de dados.
Figura 07. Esquema da localização dos quartis
Legenda: “A” é o primeiro quartil, “B” é o segundo quartil ou mediana e “C” é o terceiro quartil.
Fonte: elaborada pela autora.
A B C
25% 25% 25% 25%
Para calcular os quartis, a primeira etapa é organizar os dados em ordem crescente
(do menor para o maior). A segunda etapa, por sua vez, é encontrar o segundo quartil.
29
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
Quando o número de dados for ímpar, o segundo quartil será um valor do conjunto, e
quando for par, ele será a média dos dois valores centrais.
A terceira etapa é dividir em dois grupos, de modo que o ponto de corte é a mediana.
Quando o número de dados for ímpar, o segundo quartil será um valor do conjunto que
deverá estar presente nos dois grupos. Quando o número de dados for par, todos os
dados serão distribuídos nos grupos, independentemente dos dados centrais serem
utilizados para calcular a mediana.
A quarta etapa é encontrar o local do ponto de corte para dividir o grupo ao meio: o primeiro
quartil é o ponto que divide na metade o grupo de dados com as observações de menor va-
lor; o terceiro quartil é o ponto que divide na metade o grupo de dados com as observações
de maior valor. Assim, no grupo, quando o número de dados for ímpar, o quartil será um
valor do conjunto, mas quando for par será a média dos dois valores centrais.
O conjunto A: {2,6,12,17,21} tem cinco observações (número ímpar), portanto, o ponto
que divide esse conjunto na metadeé uma observação. Considerando que ele já está
ordenado, o valor que está na posição central e consegue dividir o conjunto em dois
grupos de dois é o 12.
O conjunto B: {7, 9, 13, 15} tem quatro observações (número par), logo, o ponto que
divide esse conjunto na metade é a média dos dois valores centrais. Como ele já está
ordenado, a posição central que consegue dividir o conjunto em dois grupos de dois é
um valor entre 9 e 13. Nesse caso, é preciso fazer a média entre 9 e 13, logo:
soma dos dados
númerodedados
=
9 13
2
+
=
22 11.
2
=
Ou seja, a mediana do conjunto B é 11.
Exemplo: cálculo quartil número par de observações
Uma pesquisa entrevistou seis universitários com os dados descritos na tabela a seguir:
IDADE 20 21 57 40 23 18
Quartis:
1. Colocar em ordem crescente: 18 20 21 23 40 57
2. Número par de observações (seis).
2a. Achar os valores centrais: 21 e 23
2b. Realizar o cálculo do 2º quartil:
21 23
2
+
=
44 22
2
=
30
1
Introdução a metodologia e análise de dados em pesquisas
3. Dividir em grupo: Grupo Z: 18 20 21
Grupo Y: 23 40 57
4. número ímpar de observações em cada grupo (três).
4a. Achar o 1º quartil no grupo Z: 20
4a. Achar o 3º quartil no grupo Y: 40
Desses dados, o primeiro quartil é 20 anos, o segundo quartil (mediana) é 22 anos e o ter-
ceiro quartil é 40 anos.
Exemplo: cálculo quartil número ímpar de observações
Uma pesquisa entrevistou sete universitários com os dados descritos na tabela a seguir:
IDADE 20 57 40 18 24 26 18
Quartis:
1. Colocar em ordem crescente: 18 18 20 24 26 40 57
2. Número ímpar de observações (sete).
2a. Achar o 2º quartil: 24
3. Dividir em grupo (no caso do 2º quartil ser uma observação, essa estará nos dois grupos):
Grupo Z: 18 18 20 24
Grupo Y: 24 26 40 57
4. Número par de observações em cada grupo (quatro).
4a. Achar o 1º quartil no grupo Z:
18 20
2
+
=
38 19
2
=
4a. Achar o 3º quartil no grupo Y:
26 40
2
+
=
66 33
2
=
Nesses dados, o primeiro quartil é 19 anos, o segundo quartil (mediana) é 24 anos e o ter-
ceiro quartil é 33 anos.
Outra medida de dispersão é o desvio padrão, que descreve o quanto os dados estão
distribuídos em torno da média. Então, toda vez que usar desvio padrão, deve-se usar
também a média. O desvio padrão é calculado como a raiz quadrada de variância.
31
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
Para saber mais sobre o conceito de variância, leia a obra Introdução à Bioestatística (p. 47-
51), de Sonia Vieira, lançado em 2016. Acesso em: 15 mar. 2021.
SAIBA MAIS
` Fórmula de desvio-padrão de uma amostra:
( )22
2
1
x
x
ns
n
−
=
−
∑
∑
4
Em que: x é um dado; ∑ representa somatória; x∑ é a somatória de todos os
dados;
2x∑ é a somatória dos quadrados dos dados; e n é o número de dados.
Apesar de existir a possibilidade de realizar manualmente os cálculos de medidas de
tendência central e de dispersão, a rotina do pesquisador é que softwares façam os cál-
culos. Para utilizar a fórmula de desvio padrão para amostra, primeiramente, é necessário
calcular as somatórias para obter todos os valores que devem ser inseridos na fórmula.
Exemplo: cálculo de desvio padrão
Uma pesquisa entrevistou quatro crianças com idades de 2, 6, 10 e 12 anos.
Desvio Padrão:
1. Calcular os valores da somatória:
x 2x
2 22 4=
6 26 36=
10 210 100=
12 212 144=
30x =∑ 2 284x =∑
32
1
Introdução a metodologia e análise de dados em pesquisas
2. Coloque os valores na fórmula. Atente-se para não confundir onde colocar x∑ e 2x∑ ,
e para não sumir com a potência. Como n é o número de dados, nesse caso, 4n = .
( ) ( )
2
2
2
2 2
30
284
4
1 4 1
x
x
ns
n
− −
= =
− −
∑
∑
3. Resolver a conta:
( )2
2
30
284
4
4 1
−
=
−
realizar a potência 230
2
900284
4
4 1
−
=
−
realizar a divisão
900
4
2
284 225
4 1
−
=
−
realizar as duas subtrações
2
59
3
= realizar a divisão
2 19,67= realizar a raiz quadrada
4, 43=
O desvio padrão é de 4,43 anos.
` Vantagens e desvantagens
A vantagem da amplitude ou da menção do valor mínimo e máximo é incluir todos os
valores, mas, por outro lado, é uma medida muito afetada por valores extremos. Para
descrever a idade dos óbitos ocorridos em um mês, o pesquisador relata que a idade
variou de horas de vida até 106 anos. Com esse intervalo grande não é possível saber
como de fato está a distribuição de óbitos.
Os quartis conseguem fornecer mais dados da dispersão e não são afetados por valo-
res extremos. A distância interquartílica, que é a distância entre o primeiro e o terceiro
quartil, é um valor que consegue descrever se metade da amostra está afastada ou
33
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
próxima da mediana. Uma desvantagem dos quartis é que existem métodos diferentes
de calculá-los, até mesmo entre os softwares, apesar da diferença entre ambos ser pe-
quena. Além disso, não são adequados para manipulações matemáticas.
O desvio padrão é adequado para manipulações matemática e é utilizado para outras
análises estatísticas. Ele é uma medida extremamente adequada para descrever vari-
áveis com distribuição normal, no entanto, quando a amostra não tem uma distribuição
normal, o desvio padrão não deve ser utilizado.
7. PROBABILIDADE
A teoria clássica de probabilidade é aquela, normalmente, abordada no Ensino Médio,
quando calculávamos qual a probabilidade de se tirar uma carta de baralho específica
ou de tirar um número no dado. As características dos fenômenos probabilísticos se
mantem no campo da saúde.
A probabilidade de um evento único acontecer é calculada pela definição básica, con-
forme a fórmula a seguir. Ela é somente para eventos mutualmente exclusivos, e igual-
mente prováveis, e eventos independentes ou condicionantes. Em geral, a probabili-
dade é expressa por número entre 0 a 1, mas, frequentemente, usa-se a porcentagem
para ficar mais fácil de compreender.
` Fórmula de probabilidade (evento único):
númerodeeventos esperados
númerodeeventos possíveis
5
No ensino médio, aprende-se que a probabilidade de se ter um filho do sexo masculino
é de 50%. Para chegar a esse valor, utilizamos a seguinte Equação 3, logo:
( )
( )
1
2
eventoesperado nascer homemnúmerodeeventos esperados
númerodeeventos possíveis eventos possíveis nascer homemou mulher
= =
1
2
= 0,5 x 100 = 50%
Contudo, como podemos calcular a probabilidade de uma criança nascer com uma
anomalia congênita? Nesse caso, podemos considerar que é 50% também, já que só
existem dois eventos esperados (nascer com ou sem anomalia)?
Na área da saúde, as probabilidades de eventos, como a chance de ficar doente ou de
se curar, são calculadas a partir do que é observado na população. Então, pesquisas
descritivas que contam os eventos são muito importantes para termos as probabilida-
des. Logo, qual a probabilidade de ter uma criança com anomalia congênita?
34
1
Introdução a metodologia e análise de dados em pesquisas
Pelas informações divulgadas pelo Ministério da Saúde, em 2019, no Brasil nasceram
2.849.146 crianças, em que 24.838 nasceram com anomalias. Preenchendo a fórmula
com esses valores, temos que:
númerodeeventos esperados
númerodeeventos possíveis
=
24.838
2.849.146
= 0,00872 ×100 = 0,87%.
O cálculo realizado é similar ao de frequência relativa. Portanto, dependendo de qual foi a
amostra e como os dados foram coletados, pode-se considerar que a probabilidade de um
evento acontecer é a frequência relativa da ocorrência que alguma pesquisa demostrou.
Pelo ISA-Capital de 2008, a proporção de pessoas com mais de 20 anos que tinham Hiper-
tensão Arterial Sistêmica (HAS) foi de 22%. Uma nutricionista atendeu em um dia 20 con-
sultas de adultos ou idosos e nenhum deles tinha HAS. De acordo com a probabilidade, ela
deveria ter atendido 4 hipertensos (22% de 20 consultas = 0,22 x 20 = 4,4). Considerando
que a proporção de hipertensos napopulação está correta, o que será que aconteceu para
a probabilidade errar?
` O número de pessoas atendidos é baixo e pode ter ocorrido um viés de seleção e a amos-
tra não representar a população.
` Ao acaso, naquele dia, não houve hipertensos. Mas nos outros dias da semana, ela aten-
deu mais de 5 doentes.
` O público-alvo da nutricionista é específico para pessoas jovens e saudáveis e, portanto,
a amostra não representa a população total.
Existem pessoas que não estão diagnosticadas com HAS, mas já tem a doença e, provavel-
mente, alguns dos 20 pacientes estavam nessa situação.
PARA REFLETIR
Para profissionais da saúde, a principal característica de probabilidade é que ela não é
capaz de determinar resultados. Então, por mais que o indivíduo tenha o gene marcador
de câncer, o que lhe dá 95% de probabilidade de desenvolver a doença, isso não significa
que o indivíduo de fato terá câncer. Além disso, a interpretação da chance é subjetiva, isto
é, alguém pode achar que 95% de chance de ter câncer é muito alta e querer, portanto,
fazer tratamentos precoces e cirurgias para evitar a doença. Outra pessoa pode achar que
uma sobrevida de 5% é alta e que vai com esse resultado aproveitar a vida. A reação das
pessoas às probabilidades de eventos relacionados a sua saúde é muito variável. Por isso,
toda vez que se for discutir probabilidade de sucesso do tratamento, de voltar a andar ou
de “voltar ao normal”, é importante deixar claro que probabilidade não garante um futuro.
A longo prazo, por sua vez, é possível que a proporção de eventos observados se
aproxime da probabilidade do evento acontecer. Nesse sentido, considere que a média
35
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
de sobrevida após um diagnóstico de câncer de pulmão é de 1 ano. Um profissional
começa seu trabalha em uma clínica de oncologia e, com o passar do tempo e de aten-
dimentos, ele observará que a maioria dos casos de fato morrem próximo de 1 ano de
diagnóstico. No entanto, haverá exceções, desde quem morreu dias depois ou de quem
demorou 5 anos para falecer.
Com a experiência, os dados vão cada vez mais se aproximar da distribuição normal.
Contudo, sempre há a chance de alguém ser a exceção, que em estatística pode ser
chamado de ponto fora da curva (outlier). Ao ter um diagnóstico, não é possível saber em
qual parte da curva a pessoa irá ficar, mas é possível saber quais são as probabilidades.
Portanto, as probabilidades devem ser usadas no cotidiano do profissional de saúde. O
uso da probabilidade ocorre principalmente como referência para decisão de condutas
e possíveis pré-conceitos que ajudam no atendimento. Dessa forma, é preciso ter um
equilíbrio e saber quando usar e como transmitir a informação para pacientes ou usuários.
8. DISTRIBUIÇÃO NORMAL
O que é “normal”? Estar fora do “normal” faz alguém estar doente? Se uma pessoa
chora todo dia por um mês após perder uma pessoa querida, isso é considerado normal
ou é depressão? Como se definiu qual o limite entre febre e temperatura normal? Será
que toda pessoa com temperatura de 37,3ºC está sem febre?
Normal é um termo relativo, com base na sociedade e que varia ao longo do tempo, por
isso, a saúde utiliza o termo padrão. Qual é a frequência cardíaca padrão de um adul-
to? Aqui o termo padrão tem o significado de ser o que ocorre com maior frequência, o
evento mais comum de acontecer.
Os matemáticos no século XIX observaram que, em grande escala ou na natureza,
os eventos biológicos tendem a seguir uma mesma distribuição de frequência. Desse
modo, pode-se pressupor que as variáveis de uma pesquisa tenham distribuição normal
ou testar estatisticamente se a curva dos dados observados é similar. A Figura 8 ilustra
que os eventos tendem a se repetir próximo a posição central e que poucos casos acon-
tecem longe do esperado. Portanto, a curva do gráfico representa a distribuição normal
e, também, pode ser chamada de curva de Gauss.
36
1
Introdução a metodologia e análise de dados em pesquisas
Figura 08. Esquema que descreve a distribuição normal
Fo
nt
e:
1
23
R
F.
A distribuição normal tem características bem conhecidas que são iguais para todas as
variáveis que apresentem a distribuição. O comportamento da variável será independen-
temente do valor das medidas de tendência e dispersão e do que se está medindo (peso,
tempo de sobrevida e temperatura corpórea). Dessa forma, variáveis contínuas tendem a
formar curvas mais próximas à teórica por conseguir aferir os valores de forma contínua.
A curva da distribuição normal é em formato de sino e é simétrica em torno da média,
fazendo com que a mediana e a moda sejam iguais a média. Toda a população está
sobe a curva, em que metade tem valores menores do que a média. A distribuição da
frequência de eventos em torno da média é uma constante. Assim, por meio de cálculos
matemático, chegou-se a proporção descrita na Figura 09.
37
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
Figura 09. Frequência relativa dos eventos a partir de distâncias de desvios-padrões
(𝜎) da média (µ)
Fo
nt
e:
1
23
R
F.
` 68,26% dos dados estão a um desvio padrão (𝜎) da média (µ).
� Fórmula limite inferior µ σ= − .
� Fórmula limite superior .µ σ= +
` 95,44% dos dados estão a dois desvios padrões (2𝜎) da média (µ).
� Fórmula limite inferior 2µ σ= − .
� Fórmula limite superior 2µ σ= + .
` 99,72% dos dados estão a três desvios padrões (𝜎) da média (µ).
� Fórmula limite inferior 3µ σ= − .
� Fórmula limite superior 3µ σ= + .
Para calcular os limites mínimos e máximos que estão na proporção de casos, é só
somar ou subtrair do desvio padrão da média. Considere que, o tempo de duração de
sintomas de uma doença febril tem distribuição normal, em que a média de duração
dos sintomas é de 7 dias com um desvio padrão de 1,4 dia. Essas medidas foram cal-
culadas em uma amostra representativa com tamanho amostral adequado. O estudo,
em suma, não apresentou vieses. Pelas características da distribuição normal, temos:
38
1
Introdução a metodologia e análise de dados em pesquisas
` 68,26% dos casos dessa doença teriam de 5,6 a 8,4 dias de sintomas.
� Fórmula limite inferior 7 1,4 5,6µ σ= − = − = .
� Fórmula limite superior 7 1,4 8,4µ σ= + = + = .
` 95,44% dos casos dessa doença teriam de 4,2 a 9,8 dias de sintomas.
� Fórmula limite inferior ( )2 7 2 1,4 7 2,8 4,2µ σ= − = − × = − = .
� Fórmula limite superior ( )2 7 2 1,4 7 2,8 9,8.µ σ= + = + × = + =
` 99,72% dos casos dessa doença teriam de 2,8 a 11,2 dias de sintomas.
� Fórmula limite inferior ( )3 7 3 1,4 7 4,2 2,8µ σ= − = − × = − = .
� Fórmula limite superior ( )3 7 3 1, 4 7 4, 2 11, 2µ σ= + = + × = + = .
Com as diversas frequências que a curva de distribuição normal fornece, pode-se pen-
sar em probabilidades de eventos acontecerem e na definição de situações normais.
9. ANORMALIDADES
Há várias estratégias para definir se um comportamento, resultado, sinal ou sintoma
está dentro do padrão ou “normal”. Nesse sentido, a mais comum e mais utilizada é a
definição de que é normal tudo que acontece com grande frequência. A principal refe-
rência são os padrões da curva de distribuição normal, em que há um consenso de que
tudo que está dentro de 2 desvios padrões da média (95,44%) é normal.
Se a pessoa se encontra nos extremos da curva de Gauss, ela pode ser uma pessoa
saudável com padrões de referência fora do comum ou pode ser uma pessoa doen-
te. Desse modo, cabe julgar outras características, sinais e sintomas do paciente. Por
exemplo, ao atender uma pessoa com temperatura de 37,3ºC que está com calafrios
e dor no corpo, pode-se considerar que ela está com febre apesar de o valor da tem-
peratura estar dentro do normal, ao mesmo tempo que uma pessoa com 38ºC e sem
nenhum sintoma pode estar saudável.
Com isso, outro critério que se pode usar para definir normalidade é apresentar uma
forma clínica diferente do queé considerado um bom estado de saúde. O quanto de
choro é considerado fora do normal para alguém de luto ou todo choro é patológico?
Se ao tratar a provável anormalidade e a pessoa melhorar, é possível definir que o
quadro era anormal.
39
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
A definição de normalidade ou alteração de peso nas crianças foi feita a partir dos conteúdos
aprendidos na unidade de hoje. A Organização Mundial da Saúde (OMS) disponibiliza as curvas
de crescimento (peso, altura e índice de massa corpórea por peso) com pontos de corte, a partir
de percentis ou de escore z. A Figura 10 é um exemplo de curva de peso por idade, em que as
curvas com escore z usa como base o desvio padrão, em que 1 escore significa 1 desvio padrão.
Figura 10. Gráfico da curva de crescimento de peso por idade de crianças do sexo masculino de 0 a
2 anos com ponto de corte a partir do escore z
Fonte: OMS ([s.d.], [n. p.]).
A caderneta de saúde da criança (BRASIL, 2017) é a carteira de vacinação com diversas
outras informações sobre o crescimento e o desenvolvimento dela. Entre as informações
disponíveis nesse impresso temos a Figura 11, que compara pontos de corte em percentis e
em desvio padrão (escore z).
Peso-por-idade MASCULINO
De 0 a 2 anos (escore z)
Pe
so
(K
g)
Meses
0
1 ano
Idade (meses e anos completos)
2 anos
PARA REFLETIR
40
1
Introdução a metodologia e análise de dados em pesquisas
Figura 11. Medidas de dispersão escores z e percentis
Pela OMS ([s.d.]), a definição de normalidade do peso é a partir de onde a criança está no
gráfico. Logo, as definições variam conforme a idade e variável (peso, altura ou índice de
massa corpórea).
Fonte: Brasil (2017, p. 52).
Tabela 02. Pontos de corte e classificação do peso para a idade para crianças de 0 a 10 anos
PONTO NO GRÁFICO CLASSIFICAÇÃO DO PESO
> +2 escores z Peso elevado para idade.
≥ -2 e ≤ +2 escores z Peso adequado para idade.
≥ -3 e ≤ -2 escores z Peso baixo para idade.
< -3 escores z Peso muito baixo para idade.
Fonte: Brasil (2011, p. 15).
Uma criança brasileira do sexo masculino que fará 2 anos de idade daqui dois dias pesa
16,5kg. Após colocar esses valores na curva de crescimento (Figura 10), o que tem mais
chance de ser real:
+3,0 escore z
+2,0 escore z
+1,0 escore z
Média
-1,0 escore z
-2,0 escore z
-3,0 escore z 0,15º percentil
2,28º percentil (≅ 90% A/l ≅ 80% P/l)
15,8º percentil
+1,881 escore z 97º percentil
+1,645 escore z 95º percentil
+1,282 escore z
+0,674 escore z
-0,674 escore z
-1,282 escore z 10º percentil
-1,645 escore z 5º percentil
-1,881 escore z
-2,67 escore z 0,4º percentil
3º percentil
75º percentil
25% percentil
90º percentil
97,72º percentil
84,2º percentil
50º percentil = mediana
(≅110% A/l ≅120% P/l)
99,85º percentil
41
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
A criança tem padrões fora do frequente, então, aquele peso é adequado para ela; ou
A probabilidade desse menino ter uma anormalidade é baixa, então, pode-se considerar que
o peso não é adequado para a idade?
Comentário: O mais provável é que a criança esteja com peso elevado para a idade e, por-
tanto, algum tipo de orientação dietética deve ser realizado. A probabilidade é baixa (menor
de 4,56%) da criança estar com peso adequado e ter características diferentes da maioria da
população e, por isso, estar fora da faixa de normalidade da curva. Nesse sentido, as infor-
mações sobre a altura e o índice de massa corpórea (IMC), que também tem seus gráficos,
podem ajudar na interpretação do dado. Se só no peso a criança está acima da curva de 2
escores z, significa que a criança está acima do peso. Outra estratégia que contribui para
a avaliação é acompanhar o peso da criança ao longo do tempo, a fim de saber se ela está
seguindo as inclinações das curvas de referência ou teve um aumento fora do esperado.
CONCLUSÃO
A bioestatística é uma ferramenta necessária para nos ajudar a como realizar a pesqui-
sa e estruturar o método de coleta. Ela nos ajuda a:
` Como selecionar a amostra a fim de impedir viés de seleção e com isso melhorar
a confiabilidade nos resultados;
` Como escolher os instrumentos utilizados para avaliar os sujeitos de pesquisa
ou pacientes; e
` Como resumir os dados coletados da pesquisa, seja por frequência, absoluta ou
relativa, ou por medidas de tendência central e medidas de dispersão.
Mesmo se não formos pesquisadores, a bioestatística e a epidemiologia nos ajudam a
avaliar a pesquisa e entender como alguns padrões de referência foram criados.
42
1
Introdução a metodologia e análise de dados em pesquisas
REFERÊNCIAS BIBLIOGRÁFICAS
BELL, J. Projeto de Pesquisa: guia para pesquisadores iniciantes em educação, saúde e ciências sociais.
4ed.Porto Alegre: Artmed, 2008.
BRASIL. Ministério da Saúde. Caderneta de saúde da criança: menino. 11 ed. Brasília, DF: Ministério da
Saúde, 2017. Disponível em:
http://bvsms.saude.gov.br/bvs/publicacoes/caderneta_saude_crianca_menino_11ed.pdf. Acesso em: 9 fev.
2021.
BRASIL. Ministério da Saúde. Secretaria de Atenção à Saúde. Departamento de Atenção Básica. Orienta-
ções para a coleta e análise de dados antropométricos em serviços de saúde: Norma Técnica do Sis-
tema de Vigilância Alimentar e Nutricional - SISVAN. Brasília, DF: Ministério da Saúde, 2011. Disponível em:
http://189.28.128.100/dab/docs/portaldab/publicacoes/orientacoes_coleta_analise_dados_antropometricos.
pdf. Acesso em: 9 fev. 2021.
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. Epidemiologia clínica: elementos essenciais. 5. ed.
Porto Alegre: ArtMed, 2014.
ORGANIZAÇÃO MUNDIAL DA SAÚDE (OMS). Curva de crescimento peso por idade meninos de 0 a 2 anos
– escore z. Disponível em:
https://www.who.int/docs/default-source/child-growth/child-growth-standards/indicators/weight-for-age/cht-w-
fa-boys-z-6-2.pdf?sfvrsn=ec5b30eb_6. Acesso em: 9 fev. 2021.
ORGANIZAÇÃO MUNDIAL DA SAÚDE (OMS). Documentos com padrões de crescimento de crianças. Dis-
ponível em:
https://www.who.int/tools/child-growth-standards/standards. Acesso em: 9 fev. 2021.
PASQUALI, L. Psicometria. Revista da Escola de Enfermagem da USP, São Paulo, v. 43, especial, p. 992-
999, 2009. Disponível em: http://dx.doi.org/10.1590/S0080-62342009000500002. Acesso em: 23 fev. 2021.
PEREIRA, J. C. R. Análise de dados qualitativos: estratégias metodológicas para as ciências da saúde
humanas e sociais. São Paulo: Edusp, 2004.
ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia e saúde. 8. ed. Rio de Janeiro: Medbook,
2018.
VIEIRA, S. Introdução à bioestatística. 5. ed. Rio de Janeiro: Elsevier, 2016.
about:blank
about:blank
about:blank
about:blank
about:blank
about:blank
43
1
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Bioestatística e epidemiologia
44
Epidemiologia descritiva
2
UNIDADE 2
EPIDEMIOLOGIA DESCRITIVA
INTRODUÇÃO
É possível saber a proporção de pessoas que tem diabetes ou que usam drogas ilíci-
tas? Ao longo do tempo, será que o número de casos de AIDS reduziu no Brasil? Ou
ainda, será que há regiões brasileiras que têm mais ou menos casos que as outras? A
AIDS é mais frequente em algum tipo de população? Quantas pessoas são diagnos-
ticadas com AIDS por ano no Brasil? Quantas pessoas estão com tuberculose neste
momento? Como saber qual o impacto que as doenças têm na saúde e na expectativa
de vida da população brasileira? Quantas pessoas morrem por essa doença? Do que
as pessoas morrem? Qual é a principal causa de morte do estado de São Paulo em
relação ao município de Curitiba, no estado do Paraná? Ao longo do tempo, as causas
de morte e a expectativa de vida mudaram? As informações abordadas nessa unidade
ajudarão a entender como essas informações podem ser obtidas.
Os estudos epidemiológicos são classificados como descritivos ou analíticos. Os estu-
dos analíticos buscam associações entre variáveis, como fatores de risco para doença
ou desfechos possíveisde um evento. Enquanto os estudos descritivos têm como
objetivo principal descrever características da doença, pessoas, locais ou tempo, como
também identificar casos, analisar tendências, fazer diagnóstico situacional da popula-
ção e gerar hipóteses.
Além disso, há outra classificação quanto a intervenção estudada. Os estudos obser-
vacionais, por exemplo, têm as intervenções decididas por profissionais de saúde que
não pertencem a equipe da pesquisa. A pesquisa, por sua vez, só observa o que foi
realizado. Já nos estudos experimentais, a decisão de qual intervenção o participante
da pesquisa será submetido é realizada pelos pesquisadores.
1. ESTUDO TRANSVERSAL, DE PREVALÊNCIA E SECCIONAL
O estudo transversal é um estudo descritivo e observacional. Esse nome tem origem
da definição que as informações são coletadas em um único ponto do tempo, como se
a linha do tempo sofresse um corte transversal ou como uma fotografia. Ele também
pode ser chamado de estudo seccional ou de prevalência. A principal característica do
estudo transversal é que as informações das variáveis dependentes e independentes
são coletadas simultaneamente.
45
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Fonte: elaborada pela autora.
Figura 01. Esquema do desenho de estudo transversal
EXEMPLO
DESENHO
Fumantes. Pessoas com câncer de pulmão.
Pessoas sem câncer de pulmão.Não fumantes.
Pessoa com presença de uma ou
mais variáveis independentes.
Pessoa com ausência de uma ou
mais variáveis independentes.
Pessoas com presença da
variável dependente.
Pessoas com ausência da
variável dependente.
Dessa forma, a principal finalidade desse tipo estudo é medir e descrever frequências
de doenças e fatores de risco. Em geral, esse estudo é utilizado para descrever doen-
ças comuns e de longa duração, como levantamentos de dados que descrevem dados
já registrados e os inquéritos populacionais de saúde que buscam as informações para
complementar os dados coletados por outros meios.
A Pesquisa Nacional de Saúde (PNS) é o inquérito de saúde da população brasileira,
por meio de entrevistas com amostra de base domiciliar e de âmbito nacional, realizada
em parceria com o Instituto Brasileiro de Geografia e Estatística (IBGE). A PNS de 2019
aborda a percepção do estado de saúde, estilos de vida, doenças crônicas e saúde bu-
cal. Em um de seus resultados, observa-se que entre as pessoas de mais de 18 anos,
no Brasil, 66,1% auto avaliam sua saúde como boa ou muito boa, 26,4% consomem
bebida alcoólica uma vez ou mais por semana, 23,9% afirmam ter o diagnóstico para
hipertensão arterial e 93,6% escovam os dentes pelo menos duas vezes por dia. (IBGE,
2020, p. 28; 41; 54; 73).
46
Epidemiologia descritiva
2
As vantagens do estudo trans-
versal são: praticidade, simplici-
dade, rapidez e baixo custo be-
nefício. No entanto, isso depende
do tamanho e da população
amostral, mas comparado com
os outros tipos de estudos, ele
é fácil de ser executado. Como
todas as variáveis são coletadas
no mesmo tempo, não há neces-
sidade de segmento, evitando
assim perdas amostrais.
Em contrapartida, nesse estudo
não é adequado estabelecer causas entre variáveis, pois, como as informações foram
coletadas simultaneamente não é possível distinguir a temporalidade e garantir que um
fator veio antes do outro. Por exemplo, uma pesquisa em idosos relata que 20% dos
fumantes ativos têm câncer de pulmão, enquanto 10% dos não fumantes têm câncer de
pulmão. Com essas informações não é possível definir que fumar causa câncer, já que
a pessoa pode ter começado ou parado de fumar após o diagnóstico de câncer.
Nesse sentido, as pesquisas transversais são capazes de sugerir associações ou hipóte-
ses para possíveis relações causais entre variáveis. Por isso, é comum que elas conclu-
am que estudos longitudinais devem ser feitos para avaliar se de fato existe associação.
Figura 02. Estudo
Fonte: 123RF.
Não é possível definir fatores determinantes de eventos ou relações causais nos estudos
transversais (ROUQUAYROL; GURGEL, 2018, p. 120-121).
IMPORTANTE
SAIBA MAIS
Outra limitação é o alto risco de presença de vieses. Isto é, toda vez que uma associa-
ção é sugerida, há sempre um risco de ter viés de confusão, ou seja, outra variável é
responsável pelo evento que não aquela proposta. Outro viés possível é o de sobrevi-
vente, por exemplo, uma pesquisa sobre qualidade de vida para pacientes oncológicos
pode ser tendenciosa, pois, provavelmente, grande parte da amostra é de casos menos
graves e com melhor prognóstico.
Viés é um erro sistemático e ao delinear o projeto, é preciso pensar em estratégias metodo-
lógicas que diminuam a chance de ele acontecer.
Os resultados desses estudos são utilizados para ter um diagnóstico situacional da popu-
lação e, com isso, planejar ações e serviços a partir das demandas levantadas. Por exem-
47
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
SAIBA MAIS
plo, se um levantamento entre os adultos do território de uma Unidade Básica de Saúde
encontra que 66% dessas pessoas têm sobrepeso ou obesidade, a equipe desse serviço
pode planejar ações para reduzir essa proporção e prevenir doenças cardiovasculares.
Exemplo 1
No artigo a seguir você encontrará uma pesquisa com o desenho transversal na qual há uma
descrição de questões de sexualidade e gênero de adolescentes em São Paulo. Leia para
saber mais.
BORGES, A. L. V.; SCHOR, N. Início da vida sexual na adolescência e relações de gênero:
um estudo transversal em São Paulo, Brasil, 2002. Cadernos da Saúde Pública, Rio de
Janeiro, v. 21, n. 2, p. 499-507, mar./abr. 2005. Disponível em: https://www.scielo.br/j/cs-
p/a/86rTd49kCVTqwTXtwGRjvVN/?lang=pt. Acesso em: 17 abril 2023.
2. SÉRIE OU RELATO DE CASOS
O relato de caso é uma descrição detalhada do quadro de um único paciente. Uma série
de casos são descrições do curso de uma doença ou condição em um número pequeno de
pessoas (ROUQUAYROL; GURGEL, 2018, p. 145). Em geral, elas são utilizadas para des-
crever doenças e quadros raros ou situações que a doença teve uma evolução diferente.
Esse é o principal meio de comunicação de novas doenças e, portanto, é comum que
sejam escritos por profissionais da saúde para descrever um ou poucos pacientes que
apresentam características similares. A partir das séries de casos incomuns, que esta-
vam ocorrendo em diversos lugares, iniciou-se uma investigação de uma nova doença
que viria a ser a AIDS.
Para saber mais sobre o primeiro relato de caso da AIDS, leia o artigo referenciado a seguir. Ape-
sar de ser em inglês, esse é um artigo clássico que conta como, a partir de um relato de caso os
profissionais, foram percebendo e descobrindo uma nova doença. Se precisar, use ferramentas
de tradução, existem opções disponíveis online que podem te ajudar a traduzir o texto.
CENTERS FOR DISEASE CONTROL - CDC. Pneumocystis pneumonia – Los Angeles.
MMWR, [s. l.], v. 30, n. 21, p. 250-252, 5 jun. 1981. Disponível em: https://www.cdc.gov/
mmwr/preview/mmwrhtml/june_5.htm. Acesso em: 25 fev. 2021.
3. ESTUDOS ECOLÓGICOS
O estudo ecológico é um estudo descritivo em que a unidade de análise é um grupo e
não um indivíduo. Por isso, segundo Rouquayrol e Gurgel (2018, p. 125-126), o estudo
ecológico pode ser classificado com estudo agregado, cujas proporções e taxas das va-
riáveis serão analisadas por grupos populacionais. Esse é o delineamento mais comum
para pesquisas com dados secundários, como aqueles disponibilizados pelo DATASUS.
about:blank
48
Epidemiologia descritiva
2
GLOSSÁRIO
DATASUS é a sigla do Departamento de Informática do Sistema Único de Saúde. Uma de
suas funções é manter o acervo das bases de dados dos sistemas de informações em saúde
e disponibilizar esses dados. Então, nessa plataforma, conseguimos dados agregados de
mortalidade, natalidade, doenças transmissíveis, assistência à saúde, entre outros.
Esse tipo de estudo utilizatrês tipos de medidas. As medidas agregadas resumem os
dados dos indivíduos, não sendo possível saber informação de cada indivíduo da popu-
lação. Assim, não é possível saber se uma pessoa que é hipertensa também consome
bebida alcoólica mais do que uma vez na semana ou se realiza atividade física. Elas
são representadas por médias, proporções ou frequências dos eventos em uma deter-
minada população e local.
Já as medidas ambientais representam as características físicas do ambiente, como
qualidade do ar e índice de radiação ultravioleta (UV). Por fim, as medidas globais
representam características sociais que não existem no nível individual, como nível de
desigualdade social de uma população e local. As finalidades dos estudos ecológicos
são de gerar novas hipóteses, assim como o estudo transversal, e de avaliar interven-
ções comunitárias ou impactos de leis.
Um estudo ecológico avaliará se houve redução de mortes em acidentes de trânsito após a
lei que obrigou o uso do cinto de segurança. Esse delineamento é adequado para quando
não se interesse em avaliar características dos indivíduos, quando a variabilidade de uma
variável é baixa dentro da população e quando só se consegue obter dados agregados (FLE-
TCHER, 2014, p. 216-217).
Além disso, as vantagens são: baixo custo, rapidez e praticidade, já que, em alguns ca-
sos, os dados já estão disponíveis em plataformas. Por outro lado, como desvantagens,
esse estudo leva em conta a média e não a variabilidade da característica dentro da po-
pulação, tem dificuldade em estabelecer temporalidade e fluxos migratórios ou eventos
específicos podem mudar a característica da população, atrapalhando a análise.
Dessa forma, o principal viés que pode ocorrer é a falácia ecológica ou viés de agre-
gação, que acontece ao interpretar o resultado e tentar inferir os resultados para o
nível individual. Ou seja, os estudos ecológicos só demonstram associação entre dados
agregados. Para confiar que essa associação também ocorre em nível individual preci-
samos de estudos com dados individuais.
Por exemplo, um estudo ecológico observa uma associação que quanto maior o Índi-
ce de Desenvolvimento Humano (IDH) do município, maior a quantidade de exames
preventivos de câncer de colo uterino (Papanicolau). Além disso, há casos em que as
condições socioeconômicas e o erro de falácia ecológica levam os pacientes a não vol-
tarem a realizarem os exames consecutivos.
49
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Exemplo 2
No artigo a seguir você encontrará uma pesquisa com o desenho de estudo ecológico na qual
descreve e investiga a associação entre suicídio e trabalho.
CECCON, R. F. et al. Suicídio e trabalho em metrópoles brasileiras: um estudo ecológico.
Ciência & Saúde Coletiva, Rio de Janeiro, v. 19, n. 7, p. 2225-2234, 2014. Disponível em:
https://doi.org/10.1590/1413-81232014197.09722013. Acesso em: 25 fev. 2021.
Figura 03. Exemplo de comparação de características individuais.
Total
Homem
12,8
16,2
9,8
10,8
12,0
14,9
11,9
11,8
13,7
13,5
17,6
15,5
9,6
0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 40,0
%7,1
Mulher
De 18 a 24 anos
De 25 a 39 anos
De 40 a 59 anos
De 60 anos ou mais
Branca
Preta
Parda
Sem instrução e
fundamental incompleto
Fundamental completo
e médio incompleto
Médio completo e
superior incompleto
Superior completo
Legenda: O gráfico é uma visualização feita pela Pesquisa Nacional de Saúde 2019, em relação à
proporção de pessoas com 18 anos ou mais usuárias atuais de produtos derivados do tabaco.
Fo
nt
e:
IB
G
E
(2
02
0,
p
. 5
0)
.
4. DISTRIBUIÇÃO DE EVENTOS POR PESSOAS, TEMPO E
LUGAR
Os estudos descritivos relatam, detalhadamente, os padrões de distribuição das variá-
veis. Com isso, pode-se medir a frequência de algum evento entre pessoas de caracte-
rísticas diferentes, entre locais diferentes ou ao longo do tempo.
Assim, analisar eventos por características da população tem como objetivo propor hi-
póteses de possíveis grupos de risco e características demográficas, comportamentais
e socioeconômicas que possam influenciar na frequência do evento. No exemplo da
Figura 3, a proporção de usuários atuais de produtos derivados do tabaco é maior em
homens, em pessoas de 40 a 59 anos e em pessoas de baixa escolaridade (ensino
médio incompleto ou inferior).
50
Epidemiologia descritiva
2
Legenda: Distribuição de proporção de casos novos de tuberculose nos municípios do Estado de São
Paulo em 2012.
Figura 04. Exemplo de comparação de locais.
Fonte: Brasil (2014, p. 55).
Coeficiente de incidência de tuberculose.* São Paulo, 2012
0
1 | --- 20
Fonte: Sinan/SVS-MS e IBGE.
*Por 100 mil habitantes.
20 | --- 40
40 | --- 60
60 e mais
Desse modo, analisar a distribuição de um evento ao longo do tempo permite acom-
panhar a evolução da doença e associá-la a outros acontecimentos que, em algum
período, fizeram com que a proporção do evento alterasse a tendência. Por exemplo,
na Figura 5 podemos perceber uma tendência a estabilizar o número de casos novos
de AIDS. Dessa forma, pode-se associar esse fato com a introdução da terapia antirre-
troviral de alta potência em 1997.
Historicamente, a análise de dados por lugar foi o primeiro estudo epidemiológico, em
que na epidemia de cólera procurou-se associação entre os locais em que os casos
residiam e a frequência da doença. Nesse sentido, a análise com geoprocessamento é
importante para definir se a doença está confinada a uma região, quais são as carac-
terísticas dos conglomerados de casos e se eles estão associados a outras variáveis.
51
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Fonte: Ministério da Saúde, Brasil, 2021, [n.p.]. Disponível em: http://www2.datasus.gov.br/DATASUS/index.php?area=02.
Acesso em: 25 fev. 2023.
Figura 05. Série histórica da proporção de dos casos novos notificados de AIDS por 100.000 habitantes no
Brasil de 1980, 1982-2019.
Além das séries ou tendência históricas, é possível determinar variações sazonais na
frequência de casos. Em outras palavras, sabe-se que o número de casos de dengue
aumenta nos meses de verão, assim como os casos de gripe nos meses de inverno.
A partir da análise da distribuição de casos ao longo do tempo é possível definir se a
ocorrência da doença em tempos atuais é uma epidemia ou não. No entanto, para isso,
é necessário definir anteriormente o que é uma faixa endêmica. Endemia é a presença
constante de determinada doença em populações e espaços específicos. Normalmen-
te, ela acontece depois que a doença é introduzida em um local e o número de casos
se estabilizam ao longo dos anos.
Uma doença endêmica apresenta taxas constantes de casos novos podendo ou não ter va-
riação sazonal. A malária é endêmica no Região Amazônica, apresentando, de forma geral,
um aumento de casos no período de transição entre as estações úmidas e secas.
CURIOSIDADE
A faixa endêmica é uma previsão estatística do possível número de casos que devem
ser encontrados em um período. Para criá-la, primeiramente, fazemos a média dos
números de casos no período e depois consideramos como um intervalo dentro do
normal dois desvios padrões de distância do valor da média. Na Figura 6, as linhas
http://www2.datasus.gov.br/DATASUS/index.php?area=02
52
Epidemiologia descritiva
2
verdes representam os limites inferiores e superiores da faixa endêmica, já a linha azul
apresenta a média de casos nos últimos anos. No mês de julho, a média de casos dos
últimos anos foi de 30, mas é esperado que nesse ano a quantidade de doentes varie
entre 21 e 39.
Quando o número de casos excede o que é esperado pela faixa, temos uma epidemia.
Ela pode ser definida também como um aumento de doentes que excede o que se
espera, normalmente com velocidade rápida e descontrolada. Na Figura 6 é possível
perceber a epidemia a partir de maio, quando os casos ultrapassam o limite.
Com limites inferiores e superiores, e média daproporção de casos de uma doença fictícia além da
frequência dos casos que ocorreram de janeiro a junho de 2021.
Figura 06. Gráfico da faixa endêmica
Fonte: elaborada pela autora.
jan fev mar abr mai jun jul ago set out nov dez
60,0
50,0
40,0
30,0
20,0
10,0
média superior inferior caso
0,0
Faixa endêmica de uma doença na década 2000-09 e serie de casos
no ano 2011
Popularmente, as pessoas usam surto como sinônimo de epidemia, contudo, para a
epidemiologia, surto é uma concentração de casos delimitados a locais específicos. Por
exemplo, 15 crianças apresentaram conjuntivite em uma escola específica, nesse caso,
pode-se dizer que a escola apresentou um surto de conjuntivite. Outro termo semelhan-
te é a pandemia, que consiste na disseminação e no número excessivo de casos da
doença no mundo inteiro.
5. CONCEITO, HISTÓRICO E CARACTERÍSTICAS DE UM BOM
INDICADOR
Segundo a Ripsa (2008, p. 13), o indicador de saúde é uma medida que resume
informações de saúde e os determinantes de uma população e do desempenho
dos serviços de saúde de um local. Essa é uma ferramenta para realização de um
diagnóstico populacional, o que permite elaborar e avaliar ações, propor hipóteses
e descrever a situação.
53
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Desse modo, um indicador de saúde para ser
satisfatório, ele deve ser acessível para a po-
pulação, de fácil compreensão, capaz de sin-
tetizar as condições de saúde comparadas as
outras realidades, capaz de propor ações de
saúde adequadas a partir do acesso aos da-
dos. Por isso, no mundo inteiro, os indicadores
são calculados da mesma maneira, a partir de
regras e consensos internacionais da Organi-
zação Mundial da Saúde (OMS).
A estratégia tradicional e mais antiga utilizada
para avaliar a qualidade de vida da população
é a análise dos óbitos. A análise estatística
das mortes começou no século XVII, na Ingla-
terra, quando John Graunt tabulou as princi-
pais causas de morte a partir dos registros de
igrejas (LAURENTI, 1991, p. 408-410). Nos séculos seguintes, a contagem e a análise
dos dados foram se aprimorando até que outros eventos, como nascimento e doenças
transmissíveis, foram incluídos. Assim, a análise dos óbitos e de nascimento é denomi-
nada de estatística vital.
Um indicador de saúde é uma razão, ou seja, uma divisão entre valores de duas vari-
áveis. Na maioria dos casos, trata-se de proporções em que o numerador está incluso
no denominador, assim como a frequência relativa. Quando o valor do indicador é ex-
presso com um número de 0 a 1, o chamamos de coeficiente, já a taxa é expressa por
uma potência de base 10.
Figura 07. Indicador de saúde
Fonte: 123RF.
Exemplo 3
O coeficiente de mortalidade geral é 0,007 e a taxa de mortalidade é de 7 óbitos por 1.000 ha-
bitantes. As taxas têm fácil compreensão e, por isso, elas são mais usadas. Para calculá-las,
na maioria das vezes, é só multiplicar o coeficiente por 1.000 ou 100.000.
6. INCIDÊNCIA E PREVALÊNCIA
Os indicadores mais frequentes para descrever uma doença são a incidência e a pre-
valência. A prevalência é uma proporção que descreve a frequência relativa em que
o evento aconteceu durante um período de tempo. No entanto, ela não considera se a
doença se iniciou e/ou terminou durante o período. Sendo assim, o que importa é contar
quantos casos de doentes ocorreram.
A principal função da prevalência é medir a magnitude da doença e o impacto que ela
tem na população, sendo utilizada para gestores dos serviços e sistemas para planejar
atendimentos e cuidados específicos. Esse indicador não é capaz de medir risco de
alguém contrair uma doença.
54
Epidemiologia descritiva
2
Fórmula da prevalência:
Prevalência númerode pessoas acometidascoma doença emuuma populaçãoeumdeterminado período
númerototal de peessoasemuma população eumdeterminado período
10001
O numerador contém pessoas com diferentes tempos de duração da doença, mas o
que importa é que todos os casos ativos da doença – sejam elas novas ou antigas –
estão contados. A população e período devem ser os mesmos para o numerador e para
o denominador. A prevalência não tem unidade de medida e, normalmente, é expressa
em porcentagem, logo, na fórmula, após a divisão, deve-se multiplicar por 100.
A prevalência pode ser de ponto, de período ou de toda a vida, dependendo do período
considerado. A prevalência de ponto expressa a situação em um único dia, por exem-
plo, quem está gripado hoje? A de período avalia quem, em algum momento desse
período, ficou com a doença (quem ficou gripado nesse último mês?). A prevalência
de toda a vida – como o próprio nome remete – avalia quem teve a doença em algum
momento da vida. Nos três tipos não importa se a pessoa acabou de ser diagnosticada
ou se está com a doença há anos. O sujeito deve entrar no numerador quando em al-
gum momento do período estipulado para prevalência a pessoa apresentou a doença.
Exemplo 4
Cálculo de prevalência
Em uma cidade fictícia “X” com 3.000 habitantes, em 1º de janeiro de 2019, havia 12 pessoas
em tratamento por Hanseníase. Ao longo do mês de janeiro foram diagnosticados mais 3 ca-
sos, e até 31 de junho de 2019 houve 5 altas por cura e não foram identificados mais novos
casos da doença. A partir do princípio de que todo caso da doença está em tratamento, qual
é a prevalência de hanseníase na cidade “X” no primeiro dia de janeiro de 2019; em janeiro
de 2019 e no final do primeiro semestre do mesmo ano?
` Prevalência em 1 de janeiro de 2019 (prevalência de ponto):
númerode pessoas acometidas coma doença emuma populaçãoeumdeterminado períodoPrevalência
númerototal de pessoas emuma populaçãoeumdeterminado período
=
substituir a fórmula.
12
3.000
= dividir.
0,004 100 = × multiplicar.
0,4%. =
Logo, a prevalência de hanseníase em 1 de janeiro de 2019, na cidade “X”, é de 0,4%.
` Prevalência em janeiro de 2019 (prevalência de período):
55
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
númerode pessoas acometidas coma doença emuma populaçãoeumdeterminado períodoPrevalência
númerototal de pessoas emuma populaçãoeumdeterminado período
=
substituir a fórmula.
12 3
3.000
+
= somar.
15
3.000
= dividir.
0,005 100 = × por fim, multiplicar.
0,5%. =
A prevalência de hanseníase em janeiro de 2019, na cidade “X”, é de 0,5%.
` Prevalência no final do primeiro semestre de 2019 (prevalência de período):
númerode pessoas acometidas coma doença emuma populaçãoeumdeterminado períodoPrevalência
númerototal de pessoas emuma populaçãoeumdeterminado período
=
substituir a fórmula.
12 3 5
3.000
+ −
= somar.
10
3.000
= dividir.
0,0033 100 = × multiplicar.
0,33%. =
Portanto, a prevalência de hanseníase no primeiro semestre de 2019, na cidade “X”, é de 0,33%.
Alguns fatores influenciam no cálculo da prevalência e devem ser considerados na hora
de interpretar o resultado. Primeiramente, pode ser que o indicador esteja subestimado,
visto que os casos graves podem não ter sido diagnosticados antes do óbito,e os casos
leves e assintomáticos ainda não procuraram assistência. Desse modo, toda variação
que aconteça desse indicador, ao longo do tempo, precisa ser levada em consideração.
Nesse contexto, a prevalência pode ter aumentado porque, de fato, estão entrando casos
novos e há mais pessoas doentes ou porque surgiu uma intervenção que aumenta a
sobrevida do paciente e, portanto, as pessoas estão vivendo mais tempo com a doença.
Em segundo lugar, a incidência é a proporção e descreve o número de novos casos
de uma doença em uma determinada população. Ela só pode ser medida se no início
56
Epidemiologia descritiva
2
do acompanhamento das pessoas for garantido que todos estão saudáveis, ou seja,
sem a doença. Ela pode contar qualquer evento, como caso de doença, de morte e de
deficiência.
Fórmula da incidência:
Incidência númerodecasos novosdeumadoença emuma pop= � � � � � � � � � � uulaçãoeumdeterminado período
númerototal de pessoas
�� � � � �
� � � � eemuma populaçãoeumdeterminado período� � �� � � �
� � �
2
Ela é expressa pelo número de casos por 1.000 a 100.000 habitantes, dependendo da
frequência do evento. Para chegar no número final da incidência por 1.000 habitantes
é necessário multiplicar por 1.000 o resultado da divisão da fórmula. A decisão se o
indicador será expresso em 1.000 ou 100.000 habitantes tem como objetivo deixar o
número de fácil compreensão. Normalmente, em uma análise de populações de cida-
des, estados e países usamos a cada 100.000 pessoas. Todo indivíduo que está no
denominador pode ser um caso e, também, participar do numerador.
Esse indicador é o único que pode avaliar risco de se ter a doença. Portanto, ele é
capaz de medir o impacto e a magnitude da doença na população, sendo usada para
avaliar relações causais entre as variáveis.
Exemplo 5
Cálculo de incidência
1. Em uma cidade fictícia “X” com 3.000 habitantes, em 1 de janeiro de 2019, havia 12 pesso-
as em tratamento por Hanseníase. No mês de janeiro foram diagnosticados mais 3 casos, até
31 de junho de 2019 houve 5 altas por cura no mês de maio e não houve mais casos novos.
Parta do princípio de que todo caso da doença está em tratamento. Qual é a incidência de
hanseníase na cidade “X” no primeiro semestre do mesmo ano?
númerodecasos novos da doençaemuma populaçãoeumdeterminado períodoIncidência
númerototal de pessoas emuma populaçãoeumdeterminado período
=
Substituir a fórmula.
3
3.000
= dividir.
0,001 1.000 = × multiplicar.
1. =
A incidência de hanseníase no primeiro semestre de 2019 é de 1 caso novo para cada 1.000
habitantes.
2. No Brasil, em 2019, foram diagnosticados 37.308 casos de AIDS. Considerando que a popu-
lação estimada para o ano de 2019 é de 210.661.032, qual foi a incidência da doença em 2019?
57
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
númerodecasos novos da doençaemuma populaçãoeumdeterminado períodoIncidência
númerototal de pessoas emuma populaçãoeumdeterminado período
=
Substituir a fórmula.
37.308 100.000
210.661.032
= × dividir e multiplicar.
17,71. =
No Brasil, a incidência de AIDS em 2019 é de 17,71 casos novos para cada 100.000 habitantes.
A prevalência está associada com a incidência e a duração da doença, em situações
estáveis, a prevalência é diretamente proporcional a esses dois fatores. A Figura a se-
guir ajudará a entender essa associação das variáveis. Nesse caso, considere uma pia
com a torneira aberta, a água que entra é a incidência e o volume de água parada é a
prevalência (número de casos ativos da doença). Os casos só saem da prevalência por
óbito ou cura, isto é, na figura, a água só sai pelo ralo. Assim, se o ralo da pia aumentar
de tamanho, por exemplo, com a resistência do agente etiológico ao tratamento, o volu-
me da pia diminuirá, assim como a prevalência.
Figura 08. Esquema sobre a associação da prevalência, incidência
(casos novos) e tempo de duração da doença
Fonte: elaborada pela autora.
Prevalência
Cura, óbito
Casos novos
Se descobrirmos um novo método diagnóstico que é mais sensível a doença, a incidência au-
mentará devido ao aumento do número de casos novos, assim como a prevalência. Na lógica
58
Epidemiologia descritiva
2
do esquema da Figura acima, o novo diagnóstico abrirá ainda mais a torneira e, portanto, a
pia ficará cheia de água, já que o ralo continua do mesmo tamanho.
Nesse sentido, doenças de longa duração têm prevalência alta, pois os casos acabam
sendo super-representados, já que a cura e o óbito demoram mais tempo para acon-
tecer do que o aparecimento dos casos novos. Assim, outras situações, como realizar
diagnóstico precoce e a melhora no tratamento, aumentam o tempo da doença e, por-
tanto, aumentam a prevalência.
Para as doenças crônicas não transmissíveis, a prevalência é a única medida a ser
utilizada. Na maioria dos casos, ela pode ser obtida por meio de estudos transversais.
Já para as doenças transmissíveis de notificação compulsória, pode-se calcular a inci-
dência e a prevalência dos casos.
7. INDICADORES DE NATALIDADE, FECUNDIDADE E
MORBIDADE
Apenas contar o número de casos da doença não é suficiente para avaliar a gravidade.
Por exemplo, a dengue tem alta taxa de incidência, mas em poucos casos há morte.
A letalidade, por sua vez, é a proporção de casos da doença que vão ao óbito, sendo
expressa em porcentagem.
Fórmula da letalidade:
3 Letalidade númerototal deóbitos pela doença emuma popullaçãoeumdeterminado período
númerototal decasos pelaa doença emuma populaçãoeumdeterminado período
1100
Enquanto a incidência representa o risco de ficar doente, a letalidade expõe o risco de
morrer uma vez que se está doente.
Exemplo 6
Em 2019, o Brasil tinha uma população total de 210.659.013 habitantes. Nesse período, o
país apresentou o total de 1.349.802 óbitos, entre eles, 1.434 pessoas tinham como causa
básica a meningite. Em 2019, foram diagnosticados 16.159 casos da doença. Qual é a letali-
dade de meningite em 2019, no Brasil?
Letalidade
100
númerodeóbitos pela doençaLetalidade
total casos pela doença
= × substituir os valores.
59
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
4
5
1.434 100
16.159
Letalidade = × realizar a divisão e a multiplicação.
8,87.Letalidade =
Em 2019, a letalidade no Brasil para meningite é de 8,87%, ou seja, 9% dos casos da doença
irão a óbito.
A taxa bruta de natalidade é a proporção de crianças nascidas vivas em uma determi-
nada população, tempo e local. Ela é utilizada para estimar o crescimento da população,
sendo expressa pelo número de nascidos vivos a cada 1.000 habitantes.
Fórmula da taxa bruta de natalidade:
O indicador é influenciado pela característica da população, pois em uma população
mais idosa há poucos nascimentos de crianças, e pelas condições socioeconômicas.
A taxa de fecundidade total indica o número médio de filhos que uma mulher tem
no seu período reprodutivo (de 15 a 49 anos). Essa taxa é utilizada, principalmente,
para avaliar o crescimento populacional, indicando a possibilidade de reposição popu-
lacional, em que a fecundidade menor do que 2,1 indica uma reposição populacional
insuficiente. As condições sociais e econômicas podem influenciar no aumento ou na
redução da taxa.
A taxa específica de fecundidade indica a média do número de filhos que uma mulher
tem em uma determinada faixa etária. A fórmula é o número de nascidos vivos de mu-
lheres com uma faixa de idade específica dividindo pela população total feminina da
faixa etária. Normalmente, essa análise é observada a cadacinco anos, por exemplo,
fecundidade de mulheres 15 a 19 anos, 20 a 24 e assim sucessivamente até a faixa 45
a 49 anos. Podem ser expressas a cada 1.000 mulheres de determinada faixa etária.
Para isso se multiplica o resultado por 1.000.
Fórmula da taxa de fecundidade específica (TFE):
Natalidade númerototal denascidos vivos deresidentes emmumdeterminado períodoetempo
númerototal de pessoasemuma população eumdeterminado períodoetempo
11 000.
Fecundidade específica número de nascidos vivos de mães de determinada faixa etária residentes em um determinado período e local
população total feminina de determinada faixa etária residente em um determinado período e local
11 000.
O cálculo da taxa de fecundidade total é feito primeiramente somando as taxas espe-
cíficas de fecundidade de períodos idade (15 a 19, 20 a 24, 25 a 29, 30 a 34, 35 a 39,
40 a 44 e 45 a 49 anos) de mulheres residentes em determinado local. Os valores a
60
Epidemiologia descritiva
2
serem somados são o resultado da divisão antes de multiplicar por 1.000. Depois da
soma se multiplica o valor por 5 já que a faixa etária das fecundidades específicas é de
cinco anos.
Fórmula da taxa de fecundidade total:
1 5 1 9 20 24 25 29 FecundidadeTotal TFE a anos TFE a anos TFE a anos= + + +
30 34 35 39 40 44 45 49) 5 TFE a TFE a TFE a TFE a+ + + ×
6
Exemplo 7
Natalidade e fecundidade específica e total
Em 2019, o Brasil tinha uma população total de 210.659.013 habitantes, em que 57.055.184
pessoas eram mulheres de 15 a 49 anos. Nesse ano, o país teve 2.849.146 nascidos vivos.
Tabela 01. Distribuição de nascidos vivos por faixa etária materna e
população feminina residente no Brasil em 2019 conforme faixa etária
NASCIDOS VIVOS POPULAÇÃO FEMININA
15 a 19 anos 399.922 8.338.727
20 a 24 anos 697.478 8.415.846
25 a 29 anos 674.427 8.424.527
30 a 34 anos 597.119 8.587.322
35 a 39 anos 364.105 8.700.521
40 a 44 anos 90.968 7.727.483
45 a 49 anos 5.310 6.860.758
Fonte: elaborada pela autora.
Nesse contexto, quais são as taxas brutas de natalidade e taxas de fecundidade específicas
e total em 2019 no Brasil?
Taxa de bruta de natalidade:
1.000
númerodenascidos vivosNatalidade
númerototal de pessoas
= × substituir os valores.
2.849.146 1.000
210.659.013
Natalidade = × realizar a divisão e a multiplicação.
13,52. Natalidade =
No Brasil, a taxa de bruta de natalidade em 2019 é de 13,52 nascidos vivos a cada 1.000
habitantes.
61
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Taxa de fecundidade específica:
1 5 1 9 1 5 1 9
1 5 1 9
nascidos vivos demulheres de a anosTFE a anos
mulheres de a anos
= substituir os valores.
399.9221 5 1 9
8.338.727
TFE a = realizar a divisão
1 5 1 9 TFE a anos = 0,0480
20 24 697.478 20 24 0,0829
20 24 8.415.846
nascidos vivos demulheres de a anosTFE a anos
mulheres de a anos
= = =
25 29 674.427 25 29 0,801
25 29 8.424.527
nascidos vivos demulheres de a anosTFE a anos
mulheres de a anos
= = =
30 34 597.119 30 34 0,0695
30 34 8.587.322
nascidos vivos demulheres de a anosTFE a anos
mulheres de a anos
= = =
35 39 364.105 35 39 0,0418
35 39 8.700.521
nascidos vivos demulheres de a anosTFE a anos
mulheres de a anos
= = =
40 44 90.968 40 44 0,0118
40 44 7.727.483
nascidos vivos demulheres de a anosTFE a anos
mulheres de a anos
= = =
45 49 5.310 45 49 0,0008
45 49 6.860.758
nascidos vivos demulheres de a anosTFE a anos
mulheres de a anos
= = =
Taxa de fecundidade total:
( )1 5 1 9 20 24 25 29 30 34 35 39 40 44 45 49 5Fecundidade TFE a TFE a TFE a TFE a TFE a TFE a TFE a= + + + + + + ×
substituir os valores.
(0,0480 0,0829 0,0801 0,0695 0,0418 0,0118 0,0008 5Fecundidade = + + + + + + ×
realizar a soma
0,3348 5Fecundidade = × realizar a multiplicação
1,67Fecundidade =
Em 2019, a taxa de fecundidade total no Brasil é de 1,67 nascidos vivos a cada mulheres
de 15 a 49 anos, sendo que a faixa etária de mulher que mais tem filho é a de 20 a 24 anos.
62
Epidemiologia descritiva
2
Por fim, a esperança (ou expectativa)
de vida ao nascer é o número médio
de anos que a pessoa vive, conforme
o ano de nascimento. Esse indicador é
muito utilizado para avaliar e comparar
a saúde de um país, nesse sentido, seu
valor é utilizado na construção do Índi-
ce de Desenvolvimento Humano (IDH).
Contudo, embora a expectativa de vida
ao nascer no Brasil seja maior do que
75 anos, isso não significa que todas as
pessoas viverão, em média, até os 75
anos. A estatística serve para estimar o tempo de vida das crianças nascidas naquele
ano, logo, para saber qual é sua esperança de vida ao nascer, é necessário buscar o
valor a partir do seu ano de nascimento.
Com isso, é possível comparar a esperança de vida para faixas etárias. Por exemplo, em
2015, quem tem 10 anos e quem tem 65 anos tem expectativas de vidas diferentes. As-
sim, à medida que se envelhece, a expectativa de vida aumenta. Então, uma pessoa com
10 anos naquele ano terá uma expectativa de vida maior do que 65 anos, uma vez que
já sobreviveu e superou a mortalidade esperada para a mortalidade infantil, por exemplo.
Dessa forma, estimar o tempo de vida não é suficiente, pois não se avalia a qualidade da
vida. Por isso, uma iniciativa internacional que o Brasil participa começou a avaliar o peso
das doenças na longevidade da população. Os estudos da Carga Global de Doenças (em
inglês GBD – Global Disease Burden) tiveram início no final dos anos 1990. Eles desen-
volveram ou difundiram os indicadores: anos potenciais de vida perdidos (em inglês YLL
– years life lost), anos de vida saudáveis perdidos (em inglês DALY – disability adjusted
life years) e expectativa de vida saudável (em inglês HALE – healty life expectancy).
O YLL avalia o impacto que a doença pode ter na vida da pessoa a partir de quantos
anos de vida foram perdidos pela morte precoce. O DALY avalia qual o tempo que a
pessoa viveu com alguma deficiência em decorrência de uma doença, aferindo o impac-
to da doença no sobrevivente. Já o HALE avalia a expectativa de vida antes de desen-
volver uma doença ou condição grave incapacitante, sendo muito útil para avaliar se o
aumento da esperança de vida está associado com mais tempo de vida saudável ou se
esse tempo a mais será com um baixo nível de saúde e qualidade de vida.
8. INDICADORES DE MORTALIDADE
A análise das causas de morte é um indicador de saúde. Essa é uma referência para
saber quais doenças mais acometem a população ao ponto de levar as pessoas a óbito.
As informações são obtidas na declaração de óbito, que se trata de um documento igual
em todo o país e segue um padrão internacional de descrever as causas da morte, a fim
de possibilitar uma comparação entre países.
A principal análise da mortalidade considera apenas uma única causa. Desse modo,
considere que uma pessoa que tinha câncer de mama há seis anos, com metástase
Figura 09. Expectativa de vida
Fo
nt
e:
1
23
R
F.
63
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
hepática há dois anos, e que teve insuficiência hepática seguida de falência múltipla dos
órgãos, que a levou ao óbito. Qual dessas doenças seria o mais adequado para entrar
na estatística? A causa que irá para a análise de mortalidade é a causa básica de morte,
ou seja, a doença ou evento que iniciou a cadeia de eventos que levou a óbito. Portanto,
nesse caso descrito, seria o câncer de mama.
Por causa desse raciocínio, algumas doenças podem apresentar uma baixa taxa de morta-
lidade, mesmo sendo frequentemente citadas nos atestados de óbito, como a diabetes e a
hipertensão arterial sistêmica. Essas doenças são muito prevalentes na população adulta,
no entanto, raramente são definidas como a causa básica nos atestados de óbito. Logo, há
prejuízona identificação do impacto dessas doenças na mortalidade da população.
Há vários indicadores de mortalidade, no entanto, tradicionalmente, a análise ocorre pelos
óbitos de residentes do local (município, estado, região ou país) e não a partir dos óbitos
ocorridos no local. Como algumas informações sofrem ajustes após a notificação, normal-
mente, os indicadores demoram de um a dois anos para serem concluídos. Por sua vez,
os dados brutos para realizar os cálculos podem ser encontrados no DATASUS.
As causas das estatísticas de mortalidade são contadas a partir do código Classificação
Estatística Internacional de Doenças e Problemas Relacionados com a Saúde (CID) de
cada doença. Essa classificação é internacional, desenvolvida pela Organização Mun-
dial da Saúde (OMS) e, em 2019, foi lançada a sua 11ª edição (CID-11). Com isso, em
2022, espera-se que os países da OMS iniciem o uso da nova versão. Na CID-10, as
doenças estão organizadas por aparelhos e agrupadas por similaridades, por exemplo,
o capítulo IX se refere a doenças do aparelho circulatório, em que o código I10 se trata
da hipertensão arterial sistêmica.
A taxa de mortalidade geral é o principal indicador, pois, ela resume qual a proporção
de pessoas que morrem em um determinado período e local. Esse indicador é expresso
por 1.000 habitantes e essa taxa é utilizada para avaliar a condição geral de saúde.
Fórmula da taxa de mortalidade geral (TMG):
TMG númerototal deóbitos deresidentes emumdeterminadoolocal e período
populaçãototal residente emumdetermminadolocal e período
1000
7
Além da mortalidade geral, é possível calcular por grupos específicos de causas ou de
idades. Para indicadores de causa, pode-se avaliar apenas uma causa ou um grupo.
Tradicionalmente, as causas são agrupadas por capítulos ou agrupamentos previamen-
te previstos pela CID-10.
A taxa de mortalidade específica por causa calcula a proporção de óbitos por uma
causa ou o grupo de causas específicas na população. Por exemplo, a taxa de morta-
lidade específica por neoplasias malignas, expressa a proporção de pessoas, de um
determinado período e local, que tiveram como causa básica de morte, uma neoplasia
maligna. Esse indicador, por sua vez, é expresso por 100.000 habitantes.
Fórmula da taxa de mortalidade específica por causa (TM específica):
64
Epidemiologia descritiva
2
100.000
númerodeóbitos por umaouum grupodecausa de residentes emumdeterminadolocal e períodoTM específica
populaçãototal residenteemumdeterminadolocal e período
= ×8
9
Essa taxa mede a intensidade e magnitude da doença. Ela é uma incidência de morte
e, portanto, avalia risco de a população ir a óbito por uma causa, podendo ser utiliza-
do para ajudar na avaliação das condições de saúde e de planejamento do sistema e
serviços.
Já a mortalidade proporcional por causa calcula a proporção de óbitos por uma cau-
sa ou o grupo de causas específicas entre todos os óbitos. Por exemplo, mortalidade
proporcional por doenças cardiovasculares expressa a proporção dos óbitos de um de-
terminado período e local que tiveram como causa básica uma doença cardiovascular,
sendo expressa por porcentagem de óbitos. Nesse indicador, observe que o denomina-
dor é o número total de óbitos.
Fórmula da mortalidade proporcional por causa (M Proporcional):
100
númerodeóbitos por umaouum grupodecausa de residentes emumdeterminadolocal e períodoM proporcional
númerototal deóbitos deresidentes emumdeterminadolocal e período
= ×
A mortalidade proporcional mede a participação da causa no total de óbitos, podendo
ser utilizada para ajudar na avaliação das condições de saúde e de planejamento do
sistema e serviços. Ela depende das características da população e sofre influência
pela frequência das outras causas.
Uma mortalidade proporcional baixa não significa, necessariamente, que exista um bai-
xo risco de óbito por uma causa específica. Nesse contexto, pode ser que a mortalidade
proporcional esteja baixa porque, naquele período, houve um aumento de outros casos.
Já a taxa de mortalidade específica não é influenciada pelas outras causas. Na Figura
a seguir, ao comparar os óbitos por causas externas (capítulo XX), a taxa de mortalida-
de proporcional no Amazonas é maior quando comparado com o Brasil, mas a taxa de
mortalidade específica pelo mesmo capítulo é similar.
65
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Figura 10. Gráficos comparando a taxa de mortalidade específica. (A) por 100.000 habitantes e
a mortalidade proporcional (B) por capítulos da CID-10 no Brasil, Amazonas e São Paulo em 2019
Nota: cap. II: neoplasmas [tumores]; cap. IV: doenças endócrinas, nutricionais e me-
tabólicas; cap. IX: doenças do aparelho circulatório; cap. X: doenças do aparelho res-
piratório; cap. XVIII: sintomas, sinais e achados anormais de exames clínicos e de
laboratório, não classificados em outra parte; e cap. XX: causas externas de morbidade
e de mortalidade.
Fonte: DATASUS (2019, [n. p.]).
66
Epidemiologia descritiva
2
Exemplo 8
TMG, TM específica e mortalidade proporcional
Em 2019, o Brasil tinha uma população total de 210.659.013 habitantes. Nesse período, o
país apresentou 1.349.802 óbitos totais, em que 364.132 desses óbitos ocorreram devido às
doenças do aparelho circulatório e 235.301 por neoplasias. Quais são as taxas de mortalida-
de geral, taxa de mortalidade específica por neoplasias e a taxa de mortalidade proporcional
por doenças do aparelho circulatório, no Brasil, em 2019?
Taxa de mortalidade geral:
1.000
númerototal deóbitosTMG
populaçãototal
= × substituir os valores.
1.349.802 1.000
210.659.013
TMG = × dividir e multiplicar.
6, 41TMG = .
Logo, a taxa de mortalidade geral no Brasil em 2019 é de 6,41 mortes a cada 1.000 habitan-
tes.
Taxa de mortalidade específica por neoplasia:
100.000
númerototal deóbitos pela doençaTM esp
populaçãototal
= × substituir os
valores.
235.301 100.000
210.659.013
TM esp = × dividir e multiplicar.
1 11,70. TM esp =
A taxa de mortalidade específica por neoplasia no Brasil em 2019 é de 111,7 mortes a cada
100.000 habitantes.
Mortalidade proporcional por doenças do aparelho circulatório:
100
númerodeóbitos pela doençaM prop
númerototal deóbitos
= × substituir os valores.
364.132 100
1.349.802
M prop = × dividir e multiplicar.
26,98%M prop = .
67
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
CURIOSIDADE
Por fim, a mortalidade proporcional por doenças do aparelho circulatório no Brasil em 2019
é de 26,98%. Ou seja, 26,98% dos óbitos têm como causa básica uma doença do aparelho
circulatório.
Fonte: DATASUS (2019, [n. p.]).
A mortalidade proporcional por faixa etária consegue indicar o nível de saúde da população,
a qualidade dos serviços e o grau de desenvolvimento do local. Os dois indicadores mais
comuns são a Razão de Mortalidade Proporcional e a curva de Mortalidade Proporcional.
A curva de Mortalidade Proporcional é também chamada de curva de Nelson de Moraes, au-
tor da classificação de quatro tipos de curvas relacionadas ao nível de saúde da população,
descrita em 1959.
A Figura a seguir apresenta a representação gráfica dos quatro tipos de curvas (A) e a
curva do Brasil, Amazonas e São Paulo em 2019.
Figura 11. Curva mortalidade proporcional por faixa etária. (A) Representação dos quatro tipos de níveis de
saúde diferentes descrito por Nelson de Moraes. (B) Informações do Brasil, Amazonas e São Paulo em 2019.
68
Epidemiologia descritiva
2
Fonte: (A) Rouquayrol e Gurgel (2018, p. 54) e (B) DATASUS (2019, [n. p.]).
Nesse indicador, criado em 1955, quanto maior seu valor, melhores as condições de saú-
de do local, pois,espera-se que a grande maioria dos óbitos ocorram em pessoas com
mais de 50 anos de idade. Com isso, ele é utilizado para avaliar as condições de países.
Para ajudar a interpretá-lo, criaram-se quatro grupos: índice de 75% ou mais, em que se
considera o país desenvolvido; índice de 50 a 74%, país com certo desenvolvimento eco-
nômico e bom serviços de saúde; índice de 25 a 49%, país com atraso econômico e social;
por fim, índice inferior a 25%, considera-se o país com alto grau de subdesenvolvimento.
A Razão de Mortalidade Proporcional, ou o Índice de Swaroop & Uemura, se trata da
proporção de óbitos que ocorreram em pessoas com 50 anos ou mais em um determi-
nado período e local. Ela é expressa em porcentagem.
Fórmula da razão de mortalidade proporcional:
50 100
númerodeóbitos em pessoas com ou mais residentes emumdeterminadolocal e períodoRazãodemortalidade
númerototal deóbitos deresidentes emumdeterminadolocal e período
= ×10
Exemplo 9
Razão de mortalidade proporcional:
O Brasil, em 2019, tinha uma população total de 210.659.013 habitantes. Nesse período,
o país apresentou 1.349.802 óbitos totais, em que 1.084.425 desses óbitos ocorreram em
pessoas com 50 anos ou mais.
69
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
11
12
Razão de mortalidade proporcional:
50 100
númerodeóbitos em anos
óbitos total
≥
= × substituir os valores.
1.084.435 100
1.349.802
= × dividir e multiplicar.
80,34%= .
No Brasil, a razão de mortalidade em 2019 foi de 80,34%, no estado de São Paulo foi de
84,28% e no Estado de Amazonas de 64,35%.
Fonte: DATASUS (2019, [n. p.]).
Além disso, outro indicador que consegue fazer uma associação com as condições de
saúde de um local é a mortalidade infantil. A taxa de mortalidade infantil é como uma
mortalidade específica para uma faixa etária, estimando o risco de morte das crianças
com menos de 1 ano (de 0 a 364 dias de vida). Para estimar esse risco, o correto seria
o denominador do cálculo da taxa ser a população menor de 1 ano do determinado local
e período em que se pretende avaliar. No entanto, como não é possível ter esse valor
real, usamos o número de nascidos vivos como estimativa.
Fórmula da taxa de mortalidade infantil (TMI):
1 1.000
númerototal deóbitos emmenores de ano emumdeterminadolocal e períodoTMI
númerodenascidos vivos demães residentes emumdeterminadolocal e período
= ×
Esse indicador é muito utilizado para comparar países e, normalmente, é considerado
alto se o valor for 50 ou mais óbitos por mil habitantes, médio se apresenta de 20 a 49
e baixo se menor que 20. Para conseguir um detalhamento das razões que levaram as
crianças a óbito, pode-se utilizar um indicador de mortalidade com faixas etárias mais
reduzidas. A taxa de mortalidade neonatal utiliza os óbitos de crianças de 0 a 27 dias.
A taxa de mortalidade neonatal precoce utiliza os óbitos de crianças de 0 a 6 dias de
vida, enquanto a neonatal tardia de 7 a 27 dias.
Fórmula da taxa de mortalidade neonatal (TMN):
0 27 1.000
númerototal deóbitos de a dias devida emumdeterminadolocal e períodoTMN
númerodenascidos vivos demães residentes emumdeterminadolocal e período
= ×
Fórmula da taxa de mortalidade neonatal precoce (TMN precoce):
70
Epidemiologia descritiva
2
13
14
15
0 6 1.000
númerototal deóbitos de a dias devida emumdeterminadolocal e períodoTMN precoce
númerodenascidos vivos demães residentes emumdeterminadolocal e período
= ×
Fórmula da taxa de mortalidade neonatal tardia (TMN tardia):
A mortalidade neonatal está associada a qualidade da atenção à saúde, pois, normal-
mente, os óbitos que acontecem nesse período são em decorrência da qualidade da
assistência nos períodos de pré-natal, parto e perinatal. Para avaliar as condições so-
cioambientais é adequado utilizar a taxa de mortalidade pós-neonatal. Essa taxa,
por sua vez, utiliza os óbitos de crianças com 28 a 364 dias de vida. Nesse período,
as principais causas de morte são questões nutricionais ou doenças transmissíveis. A
Figura 12 apresenta um esquema com as divisões dos períodos da mortalidade infantil.
Fórmula da taxa de mortalidade pós-neonatal (TMPN):
TMN tardia númerototal deóbitos de a dias devida7 27 eemumdeterminadolocal e período
númerodenascidos vivoos demães residentes emumdeterminadolocal e período
1000
28 364 1.000
númerototal deóbitos de a dias devida emumdeterminadolocal e períodoTMPN
númerodenascidos vivos demães residentes emumdeterminadolocal e período
= ×
Figura 12. Esquema das divisões das faixas etárias da mortalidade infantil
Fonte: elaborada pela autora.
71
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Exemplos 10
Taxa de mortalidade infantil e suas subdivisões
Em 2019, o Brasil tinha uma população total de 210.659.013 habitantes. Nesse período, o
país apresentou 1.349.802 óbitos totais, entre eles, 35.293 ocorreram em crianças menores
de 1 ano de idade, 18.402 entre crianças com 0 a 6 dias de vida, 6.102 entre 7 e 27 dias e
10.789 entre 28 e 364 dias. Nesse ano, o país teve 2.849.146 nascidos vivos. Quais as taxas
de mortalidade infantil, neonatal, neonatal precoce, neonatal tardia e pós-neonatal, em 2019,
no Brasil?
Taxa de mortalidade infantil (TMI):
1 1.000
númerodeóbitos em anoTMI
total denascidos vivos
<
= × substituir os valores.
35.293 1.000
2.849.146
TMI = × dividir e multiplicar.
1 2,39TMI = .
A taxa de mortalidade infantil no Brasil em 2019 é de 12,39 mortes a cada 1.000 nascidos
vivos.
Taxa de mortalidade neonatal (TMN):
0 27 1.000
númerodeóbitos de a diasTMN
total denascidos vivos
= × substituir os valores.
24.504 1.000
2.849.146
TMN = × dividir e multiplicar.
8,60. TMN =
A taxa de mortalidade neonatal no Brasil em 2019 é de 8,6 mortes a cada 1.000 nascidos vivos.
Taxa de mortalidade neonatal precoce (TMN precoce):
0 6 1.000
númerodeóbitos de a diasTMN precoce
total denascidos vivos
= × substituir os valores.
18,402 1.000
2.849.146
TMN p = × dividir e multiplicar.
6, 46. TMN p =
72
Epidemiologia descritiva
2
Já a taxa de mortalidade neonatal precoce no Brasil em 2019 é de 6,46 mortes a cada 1.000
nascidos vivos.
Taxa de mortalidade neonatal tardia (TMN tardia):
7 27 1.000
númerodeóbitos de a diasTMN tardia
total denascidos vivos
= × substituir os valores.
6.102 1.000
2.849.146
TMN t = × realizar a divisão e a multiplicação.
2,14.TMN t =
Então, em 2019, a taxa de mortalidade neonatal tardia no Brasil foi de 2,14 mortes a cada
1.000 nascidos vivos.
Taxa de mortalidade pós-neonatal (TMPN):
28 364 1.000
númerodeóbitos de a diasTMPN
total denascidos vivos
= × substituir os valores.
10.789 1.000
2.849.146
TMPN = × realizar a divisão e a multiplicação.
3,79.TMPN =
Portanto, a taxa de mortalidade pós-neonatal no Brasil em 2019 é de 3,79 mortes a cada
1.000 nascidos vivos.
Fonte: DATASUS (2019, [n. p.]).
9. TRANSIÇÃO DEMOGRÁFICA E EPIDEMIOLÓGICA
Há outros indicadores que ajudam na avaliação e na descrição da população de um lo-
cal, como: razão de sexo, proporção de idosos ou de menores de 5 anos e índice de en-
velhecimento (RIPSA, 2008, p. 70-71). Assim, ao analisar uma série histórica de todos
os indicadores, é possível contar a história da população e suas condições de saúde.
Por exemplo, considere a primeira metade do século XX no Brasil, pensemos na família
dos nossos avós, quando tinham mais do que 5 filhos e, frequentemente, uma criança
não chegavaa fase adulta, pois as pessoas morriam jovens e existiam muitos casos e
mortes por doenças transmissíveis (como sarampo e tuberculose). Historicamente, o
Brasil é uma república recente com grande participação econômica da agricultura, mas
as cidades cresceram consideravelmente com a industrialização.
73
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Ao pensar nos indicadores de saúde, a
taxa de fecundidade total e natalidade
eram altas naquela época, a proporção
de idosos era muito baixa enquanto a
de crianças era alta, ao mesmo tempo
a taxa de mortalidade infantil era alta e
a principal causa de morte eram doen-
ças transmissíveis. As condições de vida
eram precárias, as casas não tinham
saneamento básico, pessoas moravam
em cortiços e espaços pequenos e aglo-
merados, passavam fome e o salário era
baixo. Consequentemente, essas situa-
ções favoreceram as doenças transmissíveis e mortalidade infantil por fome, desnutri-
ção e doenças diarreicas.
Conforme o tempo passou, as condições das pessoas melhoraram, houve a criação
dos direitos trabalhistas, o investimento no saneamento básico e a melhoria no acesso
e nos serviços de saúde com campanhas sanitaristas e vacinas. Isso fez reduzir o nú-
mero de óbitos por doenças transmissíveis, a taxa mortalidade geral e infantil. Dessa
forma, a população começou a sobreviver por mais tempo com aumento da prevalência
de doenças crônicas. Nesse período, as taxas de fecundidade e natalidade ainda são
altas, e isso, associado ao aumento da expectativa de vida, fez a população crescer.
A redução da mortalidade infantil diminuiu a necessidade de se ter muitos filhos para
garantir que alguns cheguem à idade adulta. Com o passar do tempo, as pessoas mi-
graram para as cidades em que, além da urbanização e saneamento, as melhorias
das condições de vida, trabalho e serviços de saúde se mantiveram. Só depois dessas
diversas e extensas melhoras é que as taxas de fecundidade total e natalidade come-
çaram a reduzir. No Brasil, especificamente, isso aconteceu a partir de 1980, e nessa
fase houve uma aceleração da transição demográfica.
No Brasil no século XXI, as mulheres estão trabalhando e não têm “tempo” para ter e cuidar
de filhos; há aumento no número de famílias com um ou nenhum filho; e com o advento da
reprodução assistida, casais com idade avançada conseguem ter filhos. A população está
em processo de envelhecimento. As crianças, fruto das altas taxas de fecundidade da dé-
cada de 1950 e 1960, estão se tornando idosos e, com o aumento da expectativa de vida,
esse grupo etário só deve aumentar de tamanho. Por outro lado, no futuro, caso a situação
se mantenha, teremos um contingente menor de adultos e crianças.
Figura 13. Aumento da expectativa de vida
Fo
nt
e:
1
23
R
F.
O artigo a seguir descreve a mudança populacional no Brasil:
MIRANDA, G. M. D.; MENDES, A. da C. G.; SILVA, A. L. A. da. O envelhecimento popula-
cional brasileiro: desafios e consequências sociais atuais e futuras. Revista Brasileira de
Geriatria e Gerontologia, Rio de Janeiro, v. 19, n. 3, p. 507-519, jun. 2016. Disponível em:
https://doi.org/10.1590/1809-98232016019.150140. Acesso em: 1 mar. 2021.
SAIBA MAIS
74
Epidemiologia descritiva
2
Esse processo de transformação das características da população é chamado de tran-
sição epidemiológica e demográfica. A transição epidemiológica se refere a mudan-
ças dos padrões de morbimortalidade da população como a alteração da principal cau-
sa de morte e das doenças mais prevalentes. A transição demográfica, por sua vez,
refere-se às mudanças das características da população, que passa de uma população
jovem para uma população envelhecida. Portanto, esse processo é alavancado pela
diminuição da mortalidade e queda nas taxas de fecundidade e natalidade.
Uma ferramenta para avaliar a transição demográfica é o gráfico de pirâmide populacional
em que é possível visualizar a proporção de pessoas por faixa etária e sexo para um de-
terminado local e período. Para países e locais que ainda não passaram pelas transições,
o contorno do gráfico parece uma pirâmide com base larga e baixa com uma ponta final.
Esses locais têm alta natalidade e baixa expectativa de vida, como é o caso da pirâmide
na Figura 14B. Já os países que já passaram pelo processo de transição têm o gráfico
com um desenho que se assemelha a um barril. A proporção de crianças e idosos são
similares, com alta expectativa de vida e baixa natalidade, esse desenho ocorre em
locais desenvolvidos. Na Figura 14A é possível observar uma pirâmide durante a transi-
ção demográfica, a base está reduzindo enquanto o topo está aumentando de tamanho.
Figura 14. Pirâmide populacional de Porto Alegre/RS (A) e Autazes/AM (B), em 2010, comparada com a
do Brasil no mesmo período.
A
75
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Fonte: IBGE, [s.d.], [n.p.]. Disponível em: https://cidades.ibge.gov.br/brasil/panorama. Acesso em: 1 mar. 2021.
B
As transições acontecem em períodos diferente para cada país ou região. Logo, os mar-
cos sociais que causam a transição podem ainda não ter ocorrido. No Brasil do século
XXI, há locais com uma pirâmide populacional com desenho de pirâmide e locais que
estão mais próximos do desenho de barril.
Dessa forma, a análise do envelhecimento da população possibilita prever ou progra-
mar uma sociedade que esteja preparada para essa mudança de demanda. No futuro
não haverá tanta necessidade de pediatras e escolas, mas, em contrapartida, necessi-
taremos de um aumento de gerontólogos, da aposentadoria e de instituições de longa
permanência.
O vídeo: Hans Rosling em crescimento populacional (título original Hans Rosling: Global
population growth, box by box), do canal TED, descreve a distribuição e características ao
longo dos anos da população mundial e quais são os futuros desafios que teremos no futuro.
Disponível em: https://youtu.be/fTznEIZRkLg. Acesso em: 1 mar. 2021.
SAIBA MAIS
about:blank
https://youtu.be/fTznEIZRkLg
76
Epidemiologia descritiva
2
REFERÊNCIAS BIBLIOGRÁFICAS
BRASIL. Ministério da Saúde. Panorama da tuberculose no Brasil: indicadores epidemiológicos e operacio-
nais. Brasília: Ministério da Saúde, 2014.
DEPARTAMENTO DE INFORMÁTICA DA FUNDAÇÃO NACIONAL DE SAÚDE DO SUS - DATASUS. In-
formação de Saúde. Brasília, DF: Ministério da Saúde, 2020. Disponível em: http://www2.datasus.gov.br/
DATASUS/index.php?area=02. Acesso em: 25 fev. 2021.
DEPARTAMENTO DE INFORMÁTICA DA FUNDAÇÃO NACIONAL DE SAÚDE DO SUS - DATASUS. Portal
de Saúde. Brasília, DF: Ministério da Saúde, 2020. Disponível em: http://www2.datasus.gov.br/DATASUS/
index.php?area=02. Acesso em: 25 fev. 2021.
FLETCHER, R. H; FLETCHER, S. W.; FLETCHER, G. S. Epidemiologia clínica: elementos essenciais. 5.
ed. Porto Alegre: ArtMed, 2014.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA – IBGE. Pesquisa nacional de saúde 2019:
percepção do estado de saúde, estilos de vida, doenças crônicas e saúde bucal: Brasil e grandes regiões. Rio
de Janeiro: IBGE, 2020. Disponível em: https://biblioteca.ibge.gov.br/visualizacao/livros/liv101764.pdf. Acesso
em: 25 fev. 2021.
LAURENTI, R. Análise da informação em saúde: 1893 – 1993, cem anos da Classificação Internacional de
Doenças. Revista Saúde Pública, São Paulo, v. 25, n. 6, p. 407-417, 1991. Disponível em: https://www.scie-
losp.org/pdf/rsp/1991.v25n6/407-417. Acesso em: 15 mar. 2021.
REDE INTERAGENCIAL DE INFORMAÇÃO PARA A SAÚDE – RIPSA. Indicadores básicos para a saúde
no Brasil: conceitos e aplicações. 2. ed. Brasília: Organização Pan-Americana da Saúde, 2008. Disponível
em: http://www.ripsa.org.br/2014/10/30/indicadores-basicos-para-a-saude-no-brasil-conceitos-e-aplicacoes-
-livro-2a-edicao-2008-2/. Acesso em: 3 mar. 2021.
ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia e saúde. 8. ed. Rio de Janeiro: Medbook,
2018.
about:blank
about:blank
about:blank
about:blank
about:blank
about:blankabout:blank
about:blank
77
2
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
78
Epidemiologia analítica
3
UNIDADE 3
EPIDEMIOLOGIA ANALÍTICA
INTRODUÇÃO
Como são definidos os fatores de risco para uma doença ou, ainda, quais são os fatores
que significam uma melhor evolução do quadro clínico do indivíduo? Consumir bebida
alcóolica durante a gestação faz mal para a criança? Qual é a chance de uma pessoa
ter um infarto se for hipertensa? Como são avaliadas as eficácias de um tratamento?
Vacina funciona? Como avaliar qual o valor definirá se a pessoa tem ou não a doença?
Qual é a confiança que temos em relação ao resultado de exame alterado?
Essa unidade abordará os tipos de estudos que conseguem responder a essas pergun-
tas e como calcular e interpretar as análises estatísticas que medem a intensidade da
associação entre diversas variáveis. Para tanto, serão abordados estudos analíticos e
longitudinais, o que significa que é possível provar associações e causalidades entre
as variáveis e que a coleta de dados acontece em mais de um momento. Há os estu-
dos observacionais e os experimentais, sendo que a diferença é que no segundo tipo
de estudo é o pesquisador que decide quais sujeitos terão a intervenção. Nos estudos
observacionais, o pesquisador só observa os eventos sem definir a qual intervenção o
sujeito será submetido.
Esses tipos de estudo conseguem medir a associação entre variáveis e riscos ou chan-
ces de um evento acontecer. Para ajudar a distinguir os desenhos do estudo é impor-
tante definir quais são as variáveis pesquisadas, como elas foram coletadas e como os
grupos comparados foram divididos.
Variáveis independentes são fatores estudados que podem estar associados com a variável
dependente. Trata-se das causas presumíveis ou possíveis fatores de risco, em que pode ser
chamada de exposição, já que é a exposição ao fator de risco pode causar alguma doença
(ROUQUARYOL, 2018, p. 705). Por exemplo: fumar, bebida alcóolica e aleitamento materno.
Já a variável dependente é o efeito presumível da variável independente. Ela pode ser
chamada de desfecho ou variável de interesse. (ROUQUARYOL, 2018, p. 705). Além disso,
normalmente, ela é dicotômica, ou seja, só tem duas possibilidades de resposta, como ter ou
não ter uma doença. Por exemplo: câncer de pulmão, incapacidade e óbito.
GLOSSÁRIO
79
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
1. ESTUDO COORTE
Entre os estudos observacionais, o estudo do tipo coorte é o que melhor consegue
avaliar o risco. Isso se deve porque, no início da pesquisa, todos os sujeitos não têm o
desfecho, sendo assim possível avaliar quantos casos novos aparecerão. Esse estudo
compara dois grupos, um que tem exposição ao fator de risco a ser estudado e outro
grupo que não é exposto. Os sujeitos, por sua vez, são acompanhados ao longo do
tempo para contar o surgimento do desfecho (ROUQUARYOL, 2018, p. 123-125). O
desenho desse tipo de estudo (Figura 1) iniciará pela exposição e, após uma quantida-
de determinada de tempo, o desfecho é aferido. Desse modo, uma característica que
diferencia o estudo de coorte de outros estudos longitudinais é a pesquisa dividindo os
grupos pela exposição.
Figura 01. Esquema do desenho de estudo coorte
Fonte: elaborada pela autora.
O termo coorte se refere a um grupo de pessoas com uma característica em comum.
Por isso, um estudo coorte tem em seu desenho o acompanhamento de grupo de pes-
soas. Há coortes que são estudadas desde 1950, como a corte de nascidos vivos em
DESENHO
Pessoa com presença
de uma ou mais
variáveis independentes
Pessoa com presença da variável dependente
Pessoa com ausência da variável dependente
Pessoa com presença da variável dependente
Pessoa com ausência da variável dependente
Pessoa com câncer de pulmão
Fumante
Não fumante
Pessoa com câncer de pulmão
Pessoa sem câncer de pulmão
Pessoa sem câncer de pulmão
Pessoa com ausência
de uma ou mais
variáveis independentes
EXEMPLO
80
Epidemiologia analítica
3
Pelotas (RS) que acompanha as pessoas há 30 anos, desde o nascimento até sua fase
adulta. Por exemplo, esses estudos conseguem avaliar qual o impacto do aleitamento
materno na saúde das crianças ao longo dos anos até a idade adulta.
Os estudos de coorte acompanham indivíduos sadios divididos em grupos de quem
possui uma característica e de quem não possui. Normalmente, o objetivo é avaliar
quais consequências essa exposição pode gerar. Nesse sentido, alguns estudos acom-
panham um grupo de pessoas ao longo de vários anos para avaliar a morbidade de uma
exposição ou a associação entre ela e um desfecho.
Um marco nos estudos epidemiológicos é o estudo de Doll e Hill com o acompanhamento dos
médicos britânicos, em que essa coorte conseguiu provar as complicações causadas pelo fumo.
O artigo indicado a seguir resume a trajetória da pesquisa citada e seus resultados. Caso não te-
nha familiaridade com a língua inglesa, use ferramentas de tradução para melhor compreensão.
DI CICCO, M. E.; RAGAZZO, V.; JACINTO, T. Mortality in relation to smoking: the British
Doctors Study. Breathe (Sheff), [s. l.], v. 12, n. 3, p. 275-276, set. 2016.
CURIOSIDADE
Disponível em: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5298160/. Acesso em: 10
abr. 2021.
No começo do estudo, os participantes não podem apresentar o desfecho. Contudo, na
avaliação inicial é comum testar se a pessoa já apresenta o desfecho, ainda que ele
esteja na fase inicial da doença e seja assintomático. Por isso, esse é o único estudo
observacional capaz de medir incidência, somente a pesquisa pode monitorar esse
indicador de saúde.
A duração e a periodicidade do acompanhamento da pesquisa dever ser estabelecido a
partir da História Natural da Doença da variável dependente. Por exemplo, para avaliar se
o fumo está associado ao câncer de pulmão, a coleta de dado não precisa ser anual ou
após um ano de ter começado a fumar, já que a doença demora para se manifestar. Por-
tanto, dependendo das variáveis de interesse, um estudo coorte será de longa duração.
Por ser um estudo observacional, a decisão de que sujeitos serão expostos às variáveis
independentes não é do pesquisador.
Exemplo 1
Uma pesquisa acompanha quem fuma ou não, sem a influencia do pesquisador na decisão
de qual participante deverá fumar. Ou, então, uma pesquisa acompanha os pacientes inter-
nados que tiveram abordagens terapêuticas diferentes para avaliar a cura de uma doença,
conforme a abordagem terapêutica. Nesse último caso, a variável independente é a aborda-
81
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
gem terapêutica e o desfecho é a proporção de cura da doença. Para alguns tipos de expo-
sição, esse é o melhor desenho de pesquisa, pois, não é possível fazer estudo experimental.
De acordo com a ética, um pesquisador não pode oferecer às gestantes bebidas alcoólicas,
em razão do risco que isso pode causar à criança. No entanto, ele pode observar quais são
os efeitos encontrados em gestantes que consumiram a bebida.
A temporalidade é uma característica importante dos estudos coorte. Ela garante a
certeza de que o fator de risco existiu antes do desfecho, o que é fundamental porque,
muitas vezes, consegue-se perceber uma associação estatística entre duas variáveis,
mas não se sabe dizer qual é a causa e o efeito. Por exemplo, um estudo descritivo,
que coleta todas as informações, mostra uma associação entre ser sedentária e ter
depressão. Para definir se de fato uma variável é fator de risco para outra é preciso
um estudo longitudinal de coorte que garanta a ausência de depressão no começo do
acompanhamento dos sedentários e daqueles que praticam atividades físicas. Nesse
caso, no acompanhamento se avalia quantas pessoas apresentaram depressão.
Há dois tipos de estudo coorte, o prospectivo e o retrospectivo. Na coorte retrospec-
tiva, os grupos são selecionados no passadoe acompanhados até o presente. A título
de exemplo: uma pesquisa que quer avaliar se o uso de antibiótico em pessoas com
gripe previne que o paciente necessite de ventilação mecânica. Com levantamento de
prontuário do último ano de todos os casos internados por gripe, o pesquisador separa
quem usou de quem não usou antibiótico e, em seguida, avalia quais precisaram de
intubação. O acompanhamento é realizado com as informações do prontuário e é pos-
sível que, no tempo atual, os sujeitos já tenham o desfecho.
As vantagens da coorte retrospectiva são de que é possível ter um alto número de su-
jeitos de pesquisa e elas são de curta duração. Isso ocorre porque, como os fatos estão
no passado, não há necessidade de ficar esperando o evento acontecer desde o início
da exposição. Em contrapartida, a grande desvantagem é de que, ao utilizar registros
e informações de prontuário, não é possível garantir a qualidade dos dados e como as
informações foram coletadas. Isto é, quando os dados são coletados em prontuários
que não se pode garantir a qualidade da informação, a pesquisa apresenta um viés de
registro de informação.
Já a coorte prospectiva se trata do acompanhamento em tempo atual, como, por
exemplo, acompanhar atletas profissionais e avaliar o risco de lesões osteomioarticu-
lares. Nesse caso, a partir de hoje, por exemplo, atletas de diversas modalidades que
não tenham lesão serão acompanhados e avaliados, a fim de identificar quais e quantas
lesões aparecem ao longo dos anos. Por um lado, a vantagem é a coleta das informa-
ções ser padronizada e, assim, garantir a confiabilidade dos dados. Além disso, outra
vantagem é poder medir outras variáveis que podem influenciar na associação e avaliar
fatores de confusão. Por outro lado, as desvantagens são que essas pesquisas são
caras e de longa duração, o que pode gerar a desistência de participantes no meio do
acompanhamento.
82
Epidemiologia analítica
3
A perda de segmento é uma desvantagem de qualquer tipo de estudo, mas é mais fre-
quente em estudos longos, como a coorte prospectiva. A perda do acompanhamento
do sujeito da pesquisa pode ter várias causas, como migração, aderência, desistência e
outro desfecho que inviabilize a continuidade na pesquisa. Isso pode gerar impacto na
análise estatística e resultado.
Desse modo, a primeira informação a se avaliar é a proporção da perda, se ela for maior
do que 10% do número total da amostra da pesquisa, a qualidade dos resultados é
questionável; mas, se ela for maior do que 30%, a validade interna fica prejudicada. Em
seguida, é necessário avaliar as causas e se os grupos se mantêm comparáveis ou se
as pessoas que saíram tinham características diferentes.
Exemplo 2
Uma pesquisa para avaliar se consumir bebida alcoólica na gestação faz mal para a crian-
ça, na qual 100 mulheres foram acompanhadas em dois grupos. Ao longo do segmento, 20
mulheres desistiram de participar ou mudaram de endereço, entre as desistentes, 18 eram
usuárias de bebida alcoólica e tinham menos de 20 anos. Com a perda do segmento, o grupo
de expostos apresenta características e tamanho diferentes do grupo de não expostas.
Na pesquisa, qualquer pessoa que não saiba dizer a qual grupo o participante perten-
ce, se ele faz parte do grupo controle, intervenção, caso, exposto ou não exposto, é
considerada “cego”. O problema de não ter o participante “cego” é que ele pode mudar
o seu comportamento, o que poderá influenciar na avaliação. Dessa forma, apesar de
continuar ingerindo bebida alcoólica enquanto grávida, a mulher pode começar a comer
de forma mais saudável para garantir que o filho não tenha problemas. Assim, o resulta-
do da pesquisa pode não representar a realidade. No caso da coorte, o voluntário sabe
qual é o objetivo da pesquisa e, portanto, sabe se ele está no grupo exposto ou não.
O ideal é que todo sujeito de qualquer pesquisa seja cego, contudo, no estudo coorte,
dificilmente o sujeito da pesquisa é “cego”.
Esse tipo de estudo não é adequado para avaliar doenças de baixa prevalência. Como
a frequência do evento é baixa, é necessário ter uma amostra muito grande para conse-
guir poucos desfechos, o que, consequentemente, aumentaria o custo sem ter a certeza
de que a quantidade de desfecho seria adequada para análise. Para doenças que tem
um longo período de latência, esse desenho também não é adequado.
As principais vantagens de qualquer estudo coorte são:
` Ter relação temporal (exposição sempre veio antes do desfecho);
` Calcular incidência;
` Não expor o paciente ao risco (é um estudo observacional);
83
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
PARA REFLETIR
PARA REFLETIR
` Avaliar os múltiplos efeitos de uma exposição; e
` Que seja adequado para avaliar exposição rara.
Como em toda pesquisa, é possível que erros sistêmicos ocorram e que enfraqueçam a
validade do resultado. Assim, o viés de amostragem pode acontecer se o grupo expos-
to e o grupo não exposto tiverem características diferentes. Em outros termos, é preciso
que eles sejam similares com exceção pela exposição ou, ainda, pode acontecer quan-
do os participantes não representam todos as situações de exposição.
Tendo em mente o exposto até aqui, reflita: será que a pesquisa sobre fumo tem uma amostra
que abrange todos os tipos de exposição? Têm pessoas que fumam desde 1 a mais de 40
cigarros por dia, que fumam cigarro de palha ou elétrico, ou ainda têm pessoas de todos os
sexos e idades?
O viés de migração ocorre nos casos de perda de segmento quando os grupos ficam
diferentes do que eram no início da pesquisa e já não são mais comparáveis. Por isso,
no planejamento do estudo é importante programar estratégias que diminuam as per-
das, como ligações telefônicas para manter contato com os participantes. Ele ocorre
com mais frequência na coorte prospectiva.
O viés de aferição, por sua vez, pode acontecer sempre, mas ocorre com mais frequ-
ência na coorte retrospectiva. Nele, é importante que todos os indivíduos sejam avalia-
dos da mesma maneira e de preferência pelo mesmo equipamento. Por isso, o ideal é
criar protocolos para definir as técnicas e as frequências com que os sujeitos devem
ser avaliados. Para os estudos retrospectivos é importante garantir a confiança das
informações registradas.
As análises estatísticas principais para esse estudo são: o risco relativo e o risco atribu-
ível, além da incidência. Com elas, é possível avaliar o impacto quando o exposto tem
o risco de desenvolver o desfecho.
O Framingham Heart Study, é um famoso estudo coorte norte-americano que investiga fatores de
risco para doenças cardiovasculares. Para saber mais, leia o artigo, disponível a seguir. Caso não
tenha familiaridade com a língua inglesa, use ferramentas de tradução para melhor compreensão.
TSAO, C. W.; VASA, R. S. Cohort profile: the framingham heart study (FHS): overview of mi-
lestones in cardiovascular epidemiology. International Journal Epidemiology, [s. l.], v. 44,
n. 3, p. 1800-1813, dez. 2015.
84
Epidemiologia analítica
3
Disponível em: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5156338/. Acesso em: 10
abr. 2021.
2. ESTUDO DE PROGNÓSTICO
O estudo de prognóstico prediz quais são os resultados possíveis de um evento. Por
exemplo, o prognóstico de quem sofre um acidente de carro é 45% de chance da pes-
soa que sai ilesa; 25% de sair com alguma lesão que será curada; 15% de ficar com
alguma sequela e 15% de ir a óbito em um mês do acidente.
No estudo de prognóstico, todos os participantes, desde o início da pesquisa, têm a do-
ença a ser estudada. O objetivo é acompanhar a evolução da doença comparando gru-
pos com características diferentes (presença ou ausência de fator prognóstico) e avaliar
se elas influenciam no desfecho a ser avaliado, cujo esquema do estudo é ilustrado (Fi-
gura 2) a seguir. Como o caso de uma pesquisa que pretende avaliar se o tamanho do
tumor do câncer de mama influencia na chance de amulher estar viva depois de 5 anos.
Figura 02. Esquema do desenho de estudo prognóstico
Fonte: elaborada pela autora.
DESENHO
Pessoa doente com
presença de um ou mais
fatores prognósticos
Pessoas com presença do desfecho
Pessoas com ausência do desfecho
Pessoas com presença do desfecho
Pessoas com ausência do desfecho
Pessoas vivas após 5 anos
Pessoa com câncer com
tumor maior de 5 cm
Pessoa com câncer com
tumor menor de 5 cm
Pessoas vivas após 5 anos
Pessoas mortas após 5 anos
Pessoas mortas após 5 anos
Pessoa doente com
ausência de um ou mais
fatores prognósticos
EXEMPLO
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5156338/
85
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Essas pesquisas comparam como alguns fatores influenciam na história natural da do-
ença. Por exemplo, iniciar o tratamento nas primeiras seis horas de um Acidente Vas-
cular Cerebral (AVC) altera a história natural da doença com aumento da sobrevida e
redução das sequelas.
Os fatores prognósticos podem ser características do indivíduo, como idade, caracte-
rísticas da doença (tipo histológico do câncer ou intervenções realizadas, como realizar
inicialmente quimioterapia em vez da cirurgia). Os desfechos do estudo podem ser morte,
deficiência ou incapacidade, sofrimento ou, ainda, redução da qualidade de vida. Os es-
tudos prognósticos mais comuns são os de sobrevida, que avaliam quais são as chances
de a pessoa estar viva após 5 anos do diagnóstico. Nesse caso, o desfecho é morte.
Quando se usa a gravidade da doença como fator prognóstico, um possível problema
que pode acontecer é, no meio da pesquisa, surgir um método diagnóstico. Se após
essa novidade, os novos casos começarem a serem classificados de maneira diferente,
a pesquisa fica comprometida.
Exemplo 3
Um novo método tomográfico consegue identificar tumores menores e faz com que o que
antes seria uma classificação grau II, agora seja grau III. Por sua vez, esse processo se
chama migração de estágio e altera a análise estatística de cada fator prognóstico. Assim, as
probabilidades de sobrevida de cada fator prognóstico aumentam (FLETCHER; FLETCHER;
FLETCHER, 2014, p. 103).
O início do acompanhamento é denominado tempo zero, trata-se do diagnóstico, do
início dos sintomas, do início do tratamento, entre outras opções. O importante é que
todos os participantes entrem na pesquisa no mesmo tempo zero. Para a gestão do
sistema de saúde é importante avaliar o impacto que demora para o início do tratamento
tem sobre o prognóstico.
Esse estudo é similar ao coorte, no entanto, uma diferença é que, no prognóstico, todos
os indivíduos têm a doença. A coorte investiga fatores de risco que podem causar uma
doença, já o prognóstico investiga fatores que alteram a evolução da doença. Ainda,
no primeiro estudo, o principal desfecho é desenvolver uma doença, já no segundo, o
desfecho é avaliar as complicações da doença que são muito mais frequentes. Além
disso, na coorte, os vieses que mais frequentemente acontecem são de amostragem,
migração e aferição.
A análise estatística principal para esse estudo é a análise de sobrevida que calcula as
probabilidades dos desfechos acontecerem a partir dos grupos de fatores prognósticos.
Para doenças com estigmas associados é comum o paciente perguntar para algum
profissional de saúde qual é o seu prognóstico. Nesse contexto, a oncologia tem grande
quantidade de estudos para avaliar as associações de diversos fatores para dar uma
resposta correta ao paciente e familiares. Contudo, é importante ressaltar que o prog-
nóstico é uma probabilidade e isso não necessariamente acontecerá.
86
Epidemiologia analítica
3
Exemplo 4
O artigo a seguir é um estudo de sobrevida que avalia quais são os possíveis fatores prog-
nósticos.
SCHNEIDER, I. J. C.; D’ORSI, E. Sobrevida em cinco anos e fatores prognósticos em mulhe-
res com câncer de mama em Santa Catarina, Brasil. Cadernos de Saúde Pública, Rio de
Janeiro, v. 25, n. 6, p. 1285-1296, jun. 2009.
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2009
000600011&lng=pt&nrm=iso. Acesso em: 10 abr. 2021.
3. ESTUDO CASO-CONTROLE
O estudo de caso-controle é, também, observacional e longitudinal. A diferença com o
estudo coorte é o modo em os grupos de comparação são divididos. Na coorte se com-
para os grupos a partir da presença ou ausência de exposição. Já no caso-controle, os
grupos são presença ou ausência da variável dependente, ou seja, do desfecho.
O desenho do estudo caso-controle é dividir a amostra conforme a presença do desfecho
e depois avaliar quais são os fatores que as pessoas estavam expostas. Por exemplo,
uma pesquisa sobre a associação entre câncer de pulmão e cigarro. Inicialmente, sepa-
ra-se quem tem e não tem câncer de pulmão e depois investiga por questionário ou pron-
tuário quais pessoas fumavam. O desenho do estudo está esquematizado na Figura 03.
Figura 03. Esquema do desenho de estudo caso-controle
DESENHO
Pessoas com a
presença da variável
dependente
Pessoas com a
ausência da variável
dependente
Pessoa com presença de uma ou mais variáveis independentes
Pessoa com presença de uma ou mais variáveis independentes
Pessoa com ausência de uma ou mais variáveis independentes
Pessoa com ausência de uma ou mais variáveis independentes
87
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Fonte: elaborada pela autora.
Fumante
Fumante
Pessoas com câncer de
pulmão
Pessoas sem câncer de
pulmão
Não fumante
Não fumante
EXEMPLO
O objetivo do estudo é avaliar, a partir da doença, quais são os possíveis fatores de
risco e qual é a frequência que cada exposição ocorreu. Ele é ideal quando a doença é
rara ou tem um longo período de latência.
Os participantes são selecionados em dois grupos, o caso e o controle. Essa divisão
ocorre a partir da presença ou ausência do desfecho e é independente da exposição. A
definição do que é um caso deve ser precisa e adequada, assim, o pesquisador deve
estabelecer critérios rigorosos para não haver dúvida se uma pessoa se enquadra no
grupo caso. A amostra dos casos deve conter quem acabou de ser diagnosticado e
quem foi há mais tempo, que faz ou não acompanhamento e/ou tratamento e os diver-
sos graus da doença.
A definição do controle deve ser alguém da mesma população do caso e que poderia
se tornar um se ficasse doente. Os controles podem ser outras pessoas internadas no
mesmo hospital, mas com outro diagnóstico ou, ainda, pessoas próximas da residência
do caso ou parentes.
Exemplo 5
Uma pesquisa quer avaliar estresse de professores do ensino fundamental. Os casos foram
professores que, em uma escala de estresse, pontuaram alto, enquanto os controles são os
professores que pontuaram baixo. A amostra foi selecionada em uma única escola de ensino
fundamental, com o objetivo de avaliar se as condições de trabalho são similares.
Assim, é possível parear o controle com o caso. Normalmente, o pareamento é por
idade e sexo, mas ele pode ser por outras características que não a exposição. A quan-
tidade de controle, em geral, pode ser igual a de casos. Mas, nas situações em que há
poucos casos, é possível selecionar de duas a três vezes mais controles do que caso.
Exemplificando: um estudo sobre quedas de pacientes no hospital teve pareamento fei-
to em relação ao sexo, data de internação e clínica. Se um homem internado na clínica
88
Epidemiologia analítica
3
cirúrgica em 05/01/2015 sofreu uma queda, o controle deveria ser um homem internado
na clínica cirúrgica em 05/01/2015 que não caiu.
A vantagem desse desenho é a praticidade de curta duração. A principal desvantagem
é ser um estudo retrospectivo, o que significa que a informação sobre a exposição pode
não ser correta. Portanto, frequentemente, ocorre o viés de registro de informação.
Dessa forma, é importante utilizar fontes seguras, confiáveis e que relatem a exposição
antesde saber da existência da doença. No entanto, a avaliação de exposição só é
possível a partir de entrevista com os sujeitos ou análise de prontuário.
Os participantes podem lembrar de maneira diferente um fato, em que normalmente os
casos vão tender a lembrar com mais detalhes do que o controle. Pensemos: será que
conseguimos lembrar o que consumimos há dois dias? Provavelmente não, mas se foi
um dia com um evento importante, isso nos ajudará a lembrar. Ainda, se no dia tivemos
episódios de diarreia, é mais provável que nos lembremos dos alimentos ingeridos no
dia. Esse erro possível de acontecer em todo estudo caso-controle tem o nome de viés
de memória ou de lembrança (FLETCHER; FLETCHER; FLETCHER, 2014, p. 92).
Os profissionais de saúde, contudo, só poderão investigar sobre exposições que estão
associadas com a hipótese diagnóstica. Então, para esses casos é mais provável que
se tenha uma avaliação completa e, nos controles, a avaliação ser mais simples.
O estudo caso-controle é comum por ser rápido e prático de realizar. Além de permitir
explorar múltiplas exposições para uma mesma doença e de não precisar de muitos
indivíduos para provar associações. Apesar de parecer prático e simples, ao fazer uma
pesquisa rápida, deve-se ter cuidado para que a qualidade não seja prejudicada por
apresentar diversos vieses.
A análise estatística principal para esse estudo é a razão de chances ou, em inglês, odds
ratio (OR). Com ela é possível estimar o risco que a exposição desenvolva o desfecho.
Exemplo 6
Para um exemplo de Estudo caso-controle e sua aplicação, leia:
GAMBA, M. A. et al. Amputações de extremidades inferiores por diabetes mellitus: estudo
caso-controle. Revista de Saúde Pública, São Paulo, v. 38, n. 3, p. 399-404, jun. 2004.
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pi-
d=S0034-89102004000300010&lng=en&nrm=iso. Acesso em: 10 abr. 2021.
4. TABELA DE CONTINGÊNCIA
Entre duas variáveis podem acontecer comparações, sendo uma variável independente
e outra dependente, ou entre múltiplas variáveis, em que várias variáveis são indepen-
dentes e uma é dependente. Em geral, as variáveis independentes são as exposições
ou fatores, e a variável dependente é o desfecho, que pode ser desde deficiência, com-
plicação, morte ou doença.
89
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Para a análise entre duas variáveis é comum organizar os dados em uma tabela de con-
tingência 2 x 2 (Figura 04). Nessa tabela, nas linhas estão descritas as possibilidades da
variável independente e nas colunas as da variável dependente. Como de preferência a
exposição e o desfecho são dicotômicos (presentes ou ausentes), a tabela fica com duas
linhas e duas colunas, por isso, ela tem esse nome. As casas da tabela são nomeadas
como “a”, “b”, “c” e “d” para depois facilitar as fórmulas das medidas de associações.
Figura 04. Tabela de contingência 2 x 2
Fonte: elaborada pela autora.
Desfecho
presente
Desfecho
ausente Total
Exposição
presente a b a + b
Exposição
ausente c d c + d
Total a + c b + d a+ b +c + d
Com câncer de
pulmão
Sem câncer de
pulmão Total
Fumantes 67 9 76
Não fumantes 5 114 119
Total 72 123 195
DESENHO
EXEMPLO
A Figura 04 exemplifica uma pesquisa para avaliar a associação entre fumo e câncer de
pulmão. Nesse caso, primeiramente, deve-se definir que o fumo é a variável indepen-
dente e o câncer de pulmão a variável dependente. Então, pode-se designar que a =
67, b = 9, c = 5 e d = 114 e que os valores totais foram obtidos por uma soma simples.
É interessante observar que independentemente do tipo de estudo, se é transversal,
caso-controle ou coorte, a tabela é montada da mesma maneira.
Exemplo 7
Tabela de contingência 2 x 2
Em uma pesquisa para avaliar a associação do sexo com a chance de ter depressão, no
início do acompanhamento, nenhum dos participantes eram depressivos. Contudo, depois de
10 anos, das 452 mulheres 79 foram diagnosticadas com depressão, enquanto 39 homens
foram diagnosticados do total de 908 participantes do sexo masculino.
90
Epidemiologia analítica
3
Como os dados estão distribuídos em uma tabela?
Tabela 2 x 2
Para montar a tabela, deve-se considerar que ter depressão é o desfecho e o sexo é a expo-
sição. Como desejamos saber o risco de uma mulher ter a doença, podemos definir que ser
mulher é ter a exposição.
Então, preencha a tabela com os valores descritos no enunciado:
Tabela 01. Índices de depressão por sexo
COM DEPRESSÃO SEM DEPRESSÃO TOTAL
Mulheres 79 (a) (b) 452
Homens 39 (c) (d) 908
Total (a+c) (b+d) (a+b+c+d)
Fonte: elaborado pela autora.
Para calcular “b”: do total de mulheres subtraia aquelas que tiveram depressão = 452 – 79
= 373.
Para calcular “d”: do total de homens subtraia aqueles que tiveram depressão = 908 – 39 =
869.
Some as colunas para preencher a linha “Total.”
Quadro 01. Tabela completa
COM DEPRESSÃO SEM DEPRESSÃO TOTAL
Mulheres 79 373 452
Homens 39 869 908
Total 118 1242 1360
Fonte: elaborado pela autora.
5. RISCO RELATIVO E RISCO ATRIBUÍVEL
As medidas de associação risco relativo e risco atribuível estão associadas a incidência
de um evento. Por serem dependentes da incidência, essas medidas só podem ser
calculadas em estudos do tipo coorte, pois ele é o único que consegue avaliar o número
de casos novos de um desfecho.
Incidência, ou coeficiente de incidência, trata-se da proporção que descreve o número de
casos novos de uma doença em uma determinada população. O resultado pode ser expres-
so em coeficiente com os números decimais resultantes da divisão ou em taxa a cada 1.000
pessoas, ou qualquer outra proporção que for adequada.
GLOSSÁRIO
91
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Incidência dodesfechonos expostosRR
Incidência dodesfechonos nãoexpostos
= ou
a
a bRR c
c d
+=
+
númerodecasos novos deuma doençaemuma populaçãoeumdeterminado períodoIncidência
númerototal de pessoas emuma populaçãoeumdeterminado período
=
Fonte: Rouquayrol; Gurgel (2018, p. 682).
1
2
As duas medidas avaliam o risco de se ter o desfecho quando temos a exposição ao
fator de risco comparando com o risco nas pessoas não expostas. Risco relativo é
uma razão das incidências do desfecho do grupo exposto contra o grupo não exposto
(ROUQUAYROL; GURGEL, 2018, p. 138). A partir desse resultado, é possível saber
quantas vezes maior é o risco do desfecho ao comparar os dois grupos (expostos e não
expostos ao fator de risco). Um resultado alto favorece a causalidade da associação
das variáveis.
Fórmula do risco relativo (RR):
Em que: a, b, c e d são as casas de referência da tabela 2 x 2.
Considere que, um estudo coorte acompanhou 195 pessoas entre fumantes e não fu-
mantes e, depois de 15 anos, avaliou quantas delas desenvolveram câncer de pulmão.
A distribuição hipotética dos casos nos grupos está no exemplo da Figura 4. Para cal-
cular o risco relativo, inicialmente, é preciso calcular a incidência do desfecho nos dois
grupos (expostos e não expostos). Nessa pesquisa, a exposição é o fumo e o desfecho
é o câncer. Ao fazer o cálculo, identifica-se que incidência de câncer de pulmão em
fumantes é de 0,8816 e em não fumantes é de 0,2632. Como usaremos os valores da
incidência, podemos mantê-los na forma de coeficiente. Então, para calcular o risco
relativo é preciso dividir as incidências, na qual se obtém o resultado de 3,35. Como
interpretar esse resultado?
Esse valor de risco relativo significa que, o risco de ter câncer de pulmão entre fumantes
é 3,35 vezes maior do que entre os não fumantes ou, ainda, pode-se dizer que fumar
está associado a um risco de 3,35 vezes maior de desenvolver câncer de pulmão.
Exemplo 8
Risco relativo
Em uma pesquisa para avaliar a associação do sexo com a chance de ter depressão, no
início do acompanhamento, nenhum dos participantes tinham a doença. Porém, das 452
92
Epidemiologiaanalítica
3
mulheres analisadas, depois de 10 anos, 79 foram diagnosticadas com depressão; enquanto
apenas 39 homens foram diagnosticados com a doença em um total de 908 participantes do
sexo masculino.
Qual é o risco relativo de mulheres terem depressão após 10 anos?
Quadro 02. Tabela 2 x 2 completa
COM DEPRESSÃO SEM DEPRESSÃO TOTAL
Mulheres 79 373 452
Homens 39 869 908
Total 118 1242 1360
Fonte: elaborado pela autora.
Risco relativo
79 0,1748
452
númerodemulheres depressivasIncidência nas mulheres
total demulheres
= = =
39 0,0430
908
númerodehomens depressivosIncidência nos homens
total dehomens
= = =
Incidência dodesfechonos expostos Incidência dedepressãonas mulheresRR
Incidência dodesfechonos nãoexpostos Incidência dedepressãonos homens
= =
0,1748
0,0430
RR = realizar a divisão.
4,07RR =
Ou pela outra fórmula
a
a bRR c
c d
+=
+
substituir o valor.
79
452 39
908
RR = dividir no numerador e no denominador.
0,1748
0,0430
RR = realizar a divisão.
4,07RR =
Logo, o risco relativo é de 4,07. Isso significa que as mulheres têm um risco 4,07 maior do
que os homens de desenvolver depressão.
93
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Caso o risco relativo seja 1,0, a exposição não altera o risco de desenvolver o desfecho.
Quando o risco relativo é menor do que 1,0, pode-se dizer que a exposição é um fator
protetor, pois, a presença dela reduz o risco de ter a doença. Por exemplo, uma pes-
quisa sobre aleitamento materno e infecções respiratórias na primeira infância cujo RR
= 0,2. Isso significa que, aleitamento materno protege quanto a infecções respiratórias
na primeira infância ou que não aleitamento é um fator de risco para a doença.
Quando o risco relativo é menor do que 1,0, é possível fazer uma conta para avaliar o
quanto a exposição reduz o risco. A fórmula, simplesmente, divide 1 pelo valor do risco
relativo. No exemplo
1 1 5
0,2RR
= = = , ou seja, o aleitamento materno reduz em 5 ve-
zes o risco de infecções respiratórias na primeira infância.
Já o risco atribuível se trata do quanto a incidência aumentou por causa da exposição,
ou seja, ele avalia o risco que pode ser atribuído a exposição. Por sua vez, o cálculo é
realizado a partir da subtração das incidências do desfecho entre os dois grupos (ex-
postos e não expostos) (FLETCHER; FLETCHER; FLETCHER, 2014, p. 73-75).
Fórmula do risco atribuível (RA):
RA Incidência dodesfechonos expostos Incidência dodesfechonos nãoexpostos= −
ou
a cRA
a b c d
= −
+ +
3
Em que: a, b, c e d são as casas de referência da tabela 2 x 2.
Assim, analisando a Figura 4, é possível que um não fumante tenha câncer de pulmão,
mesmo que o risco seja bem menor. Ao usar o risco atribuível, você avaliará o quanto
fumar acrescentou no risco de desenvolver câncer. Para ficar mais fácil de interpretar
o resultado é melhor transformá-lo em taxa a cada 1.000 pessoas, ou qualquer outra
proporção que se achar adequada.
Exemplo 9
Risco atribuível
Em uma pesquisa para avaliar a associação do sexo com a chance de ter depressão, no
início do acompanhamento, nenhum dos participantes eram depressivos. Contudo, depois de
10 anos, das 452 mulheres 79 foram diagnosticadas com depressão, enquanto 39 homens
foram diagnosticados do total de 908 participantes do sexo masculino.
Qual é o risco atribuível de mulheres terem depressão após 10 anos?
94
Epidemiologia analítica
3
Risco atribuível
79 0,1748
452
númerodemulheres depressivasIncidência nas mulheres
total demulheres
= = =
39 0,0430
908
númerodehomens depressivosIncidência nos homens
total dehomens
= = =
RA Incidência dodesfechonos expostos Incidência dodesfechonos nãoexpostos= −
0,1748 0,0430RA = − subtrair.
0,1318RA =
0,1318 1 .000RA x= realizar a multiplicação para transformar em taxa.
1 31,8 1 .000 RA por pessoas=
Com isso, o risco de ter depressão atribuível a ser mulher é de 131,8 casos para 1.000 pessoas.
Quadro 03. Tabela 2 x 2 completa
COM DEPRESSÃO SEM DEPRESSÃO TOTAL
Mulheres 79 373 452
Homens 39 869 908
Total 118 1242 1360
Fonte: elaborado pela autora.
6. RAZÃO DE CHANCES (ODDS RATIO)
Para estudos que não são coorte e, portanto, não se sabe a incidência do desfecho,
o risco relativo não pode ser calculado. Para esses casos, existe a razão de chances
ou odds ratio (OR), em inglês, que significa estimativa de risco. Essa medida pode ser
usada em qualquer tipo de estudo.
Chances, no inglês Odds, é uma medida utilizada que avalia a chance de um even-
to acontecer contra a chance de não acontecer. Essa medida é popularmente usada
em eventos esportivos e apostas. Ela se assemelha a probabilidade, com a diferença
de que o denominador na probabilidade é a totalidade de possibilidades, enquanto na
chance é a frequência do evento não acontecer. Por exemplo, qual é a chance e a pro-
babilidade de sair o número 6 no dado?
` Na probabilidade a conta é
º 1 0,1667.
º 6
n deeventos esperados
n deeventos possíveis
= =
95
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
` Na chance a conta é
º 1 0, 2
º 5
n deeventos esperados
total deeventos n eventos esperados
= =
−
.
A razão de chances é a divisão das chances (odds) do desfecho acontecer nos dois
grupos (expostos e não expostos). Matematicamente, a fórmula pode ser simplificada
pela divisão dos produtos cruzados.
Em que: a, b, c e d são as casas de referência da tabela 2 x 2.
Fórmula da razão de chances ou odds ratio (OR):
ad a dOR
bd b d
×
= =
×
4
Desenvolvimento da fórmula da razão de chances ou odds ratio
Considere a tabela 2x2 de uma pesquisa de caso-controle.
Tabela 2. Exemplo de pesquisa de caso-controle
COM DESFECHO SEM DESFECHO TOTAL
Com exposição a b a + b
Sem exposição c d c + d
Total a + c b + d a + b + c + d
Fonte: elaborado pela autora.
Para calcular a razão de chances, primeiramente, é necessário calcular a chance de o des-
fecho acontecer em cada um dos grupos. Nesse caso, os grupos são: com exposição e sem
exposição.
º
º
n de pessoas comdesfecho aChancenos expostos
n de pessoas semdesfecho b
= =
º
º
n de pessoas comdesfecho cChancenos nãoexpostos
n de pessoas semdesfecho d
= =
A razão de chances ou odds ratio é a divisão da chance do desfecho no grupo dos expostos
pela chance do desfecho no grupo dos não expostos:
a
chancenos expostos bRazãodechances ouOR cchancenos nãoexpostos
d
= =
5
6
7
96
Epidemiologia analítica
3
Uma divisão de frações pode ser solucionada multiplicando a primeira fração pelo inverso da
segunda (o numerador vira o denominador e vice-versa), como na equação a seguir:
a
a dbOR c b c
d
= = ×
Já a multiplicação de frações é solucionada multiplicando os numeradores e multiplicando os
denominadores. Com isso, obtemos a fórmula final (Equação 9).
a dOR
b d
×
=
×
8
9
A interpretação do resultado é muito similar ao do risco relativo, mas a diferença é que
o RR mede o risco, enquanto o OR estima o risco. Portanto, razão de chances maior
do que 1,0 indica aumento no risco do desfecho. Se for igual a 1,0, não existe
associação entre as variáveis e se for menor do que 1,0 indica que a exposição
reduz o risco.
Exemplo 10
Razão de chances ou OR
Em uma pesquisa para avaliar a associação do sexo com a chance de ter depressão, no iní-
cio do acompanhamento, nenhum dos participantes eram depressivos. No entanto, depois de
10 anos, das 452 mulheres 79 foram diagnosticadas com depressão, enquanto 39 homens
foram diagnosticados do total de 908 participantes do sexo masculino.
Qual é a razão de chances de mulheres terem depressão após 10 anos?
Quadro 04. Tabela 2 x 2 completa
COM DEPRESSÃO SEM DEPRESSÃO TOTAL
Mulheres 79 373 452
Homens 39 869 908
Total 118 1242 1360
Fonte: elaborado pelaautora.
Razão de chances
a dOR
b d
×
=
×
substituir os valores.
97
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
79 869
373 39
OR ×=
×
multiplicar.
68.651
14.547
OR = dividir.
OR = 4,72
Logo, estima-se que ser mulher aumenta o risco de ter depressão em 4,72 vezes.
O risco relativo e a razão de chances têm valores aproximados quando a prevalência
do desfecho for inferior a 10% (FLETCHER; FLETCHER; FLETCHER, 2014, p. 106).
Nos exemplos da unidade sobre a pesquisa de depressão, nota-se que os valores es-
tão próximos, RR=4,07 e OR=4,72. Isso ocorre porque a prevalência de depressão na
amostra foi de 8,7%. Para chegar nesse resultado de prevalência, divide-se o total de
pessoas com depressão pelo total de pessoas (= 118/1360) e, em seguida, o resultado
é multiplicado por 100. Já no exemplo da pesquisa sobre fumo e câncer, em que os
valores estão descritos na Figura 4, a prevalência da doença é 75,8%. Nesse caso, o
RR=3,35 está bem distante do OR=20,84.
Como o risco relativo mede o risco enquanto a outra medida apenas estima, toda vez
que for um estudo de coorte e for possível, deve-se dar preferência as medidas de risco
relativo em vez da razão de chances.
7. ANÁLISE DE SOBREVIDA
As análises de sobrevida são gráficos que descrevem as probabilidades de o desfecho
acontecer ao longo do tempo, podendo ou não ser estratificada em grupos de fatores
prognósticos. Trata-se da medida mais completa dos estudos prognósticos, pois é pos-
sível avaliar a probabilidade do desfecho em cada ponto do tempo.
Porém, ela só pode ser calculada se o desfecho é dicotômico e só ocorre uma vez. O
evento dicotômico é quando só há duas possibilidades presente/ausente ou sim/não.
Se o desfecho não for morte/vida, mas seguir os mesmos pressupostos, pode-se usar
o termo análise de tempo ou evento.
Para fazer estimativa, o método estatístico mais habitual é a análise de Kaplan-Meier
(Figura 05). Nessa análise, a probabilidade de sobreviver é calculada em intervalos de
tempo. As pessoas que saem da pesquisa por perda de segmento são chamadas de
censurados e saem da conta do denominador naquele período em diante.
98
Epidemiologia analítica
3
Figura 05. Representação gráfica de uma curva de sobrevida com a análise de Kaplan-Meier
estratificada pelos fatores prognósticos de câncer.
Para calcular a probabilidade de sobrevida em um maior período de tempo, é necessário
multiplicar a probabilidade de cada intervalo. Por exemplo, para saber qual é a probabili-
dade de sobreviver após um ano do diagnóstico do câncer, é preciso multiplicar a probabi-
lidade de ter sobrevivido a cada mês desse primeiro ano. Então, com o passar do tempo,
a probabilidade se reduz cada vez mais. Na representação gráfica, as probabilidades já
estão calculadas considerando a chance de sobreviver a todo aquele período.
Detalhe: os valores são fictícios.
Fonte: elaborada pela autora.
A Teorema do Produto de Probabilidade fala que, quando se quer saber a probabilidade de
dois ou mais eventos acontecerem simultaneamente, é necessário multiplicar a probabilidade
de cada evento acontecer individualmente (VIEIRA, 2016, p. 177).
Por exemplo, acertar um número na loteria é mais fácil do que acertar três, que é mais fácil do
que acertar seis, porque quanto mais eventos entrarem na conta, menor fica a probabilidade.
SAIBA MAIS
A interpretação da cauda da curva deve ser feita com cuidado. Isso se deve pelo fato de
que, quando a probabilidade está baixa, o número de pessoas vivas é baixo e qualquer al-
teração terá um impacto muito maior, mas essa mudança não necessariamente represen-
ta o que pode acontecer. Por exemplo, a probabilidade de morrer quando se tem 1 morte:
` Em 100 pessoas acompanhadas é de 1%.
` Em 50 pessoas acompanhadas é de 2%.
99
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
SAIBA MAIS
` Em 25 pessoas acompanhadas é de 4%.
` Em 10 pessoas acompanhadas é de 10%.
` Em 5 pessoas acompanhadas é de 20%.
No entanto, continua sendo uma única morte, mas dependendo da amostra ela tem
um impacto muito maior na estatística. Por isso, no final da curva, em que o número de
pessoas é baixo, é importante utilizar a probabilidade com cautela.
Essa é a análise estatística principal dos estudos de prognósticos. Por ser comum o
paciente perguntar para algum profissional de saúde qual é o seu prognóstico, deve-se
refletir o que isso significa para o indivíduo e seus familiares. Nesse contexto, é impor-
tante ressaltar que a resposta é uma probabilidade e que isso não, necessariamente,
acontecerá. Desse modo, pode ser que a média de sobrevida das pessoas, após o diag-
nóstico de câncer de mama bilateral, seja de 1,5 ano. Na maioria dos casos, as pessoas
irão viver um tempo próximo a esse, mas é possível que o seu paciente sobreviva 1
mês ou 7 anos. As exceções são raras, mas elas podem acontecer. Ao conversar com o
paciente e familiar é importante considerar diversos fatores e não só números.
Estes artigos mostram curvas de sobrevidas:
` CENTEMERO, M. et al. Avaliação comparativa do valor prognóstico de quatro marcadores
bioquímicos de lesão miocárdica pós intervenções percutâneas utilizando stents coronaria-
nos. Arquivos Brasileiros de Cardiologia, São Paulo, v. 83, n. especial, p. 53-58, dez. 2004.
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pi-
d=S0066-782X2004001900010&lng=en&nrm=iso. Acesso em: 10 abr. 2021.
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pi-
d=S0034-89102010000200016&lng=en&nrm=iso. Acesso em: 10 abr. 2021.
` MIGOWSKI, A.; SILVA, G. A. Sobrevida e fatores prognósticos de pacientes com câncer
de próstata clinicamente localizado. Revista de Saúde Pública, São Paulo, v. 44, n. 2, p.
344-352, abr. 2010.
8. ENSAIO CLÍNICO
Os ensaios clínicos são estudos experimentais que avaliam benefícios, malefícios, efi-
cácia e efetividade de alguma intervenção. Considera-se como intervenção qualquer
feito que tenha o objetivo de melhorar o quadro do paciente, seja uma medicação, um
procedimento ou um atendimento.
O desenho desse estudo (Figura 06) é a comparação de dois grupos, a intervenção e o
controle. Os grupos devem ser os mais similares possíveis, sendo que a única diferença
100
Epidemiologia analítica
3
é a intervenção. Esse é um estudo longitudinal, depois de algum tempo avalia-se os
resultados. O desfecho pode variar conforme a intervenção, podendo ser ausência de
complicação, estabilidade da doença, entre outros fatores.
Figura 06. Esquema do desenho de estudo de ensaio clínico
Fonte: elaborada pela autora.
DESENHO
Grupo intervenção
Pessoa que realizaram a
intervenção
Pessoas com presença do desfecho
Pessoas com ausência do desfecho
Pessoas com presença do desfecho
Pessoas com ausência do desfecho
Pessoas com a doença
Pessoas com a doença
Vacinados com princípio
ativo
Vacinados com placebo
Pessoas sem a doença
Pessoas sem a doença
Grupo controle Pessoa
que não realizaram a
intervenção
EXEMPLO
O grupo controle pode ter outra intervenção diferente da estudada. Por princípios éti-
cos de que devemos tratar o paciente, raramente o controle não tem intervenção. Se a
pesquisa é de um medicamento novo para uma doença que não tem tratamento, nor-
malmente se administra um placebo para que o sujeito não reconheça qual grupo ele
faz parte. Entende-se como placebo uma substância que não tem princípio ativo, mas
que apresente características como cor, cheiro e formato semelhantes à intervenção.
Exemplo 11
Ao testar uma vacina contra malária, o controle deverá ser com placebo, já que não existe ou-
tra medicação preventiva. Se a vacina é vermelha, com via de administração intramuscular,
dose testada de 0,5 ml e disponibilizada em frasco único, o placebo deve ter essas mesmas
características.
101
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Sejá existe um tratamento preconizado da doença, é importante que este seja a inter-
venção do grupo controle. Pode-se comparar com o melhor tratamento disponível ou
com o tratamento convencional da doença dependendo do objetivo do estudo. Exempli-
ficando: ao testar um novo quimioterápico para câncer de mama, o grupo controle pode
ser a primeira droga de escolha do protocolo do serviço ou pode ser a droga que na
literatura médica é mais eficaz. Se a melhor medicação não é disponível para a maioria
da população brasileira, fazer essa comparação não ajudará o profissional na hora de
decidir qual remédio prescrever. Por isso, em algumas situações é melhor comparar
com o tratamento convencional.
Existem dois tipos de ensaio clínico: pode ser de superioridade ou de não inferioridade.
É de superioridade quando o objetivo do estudo é avaliar se a intervenção testada é
melhor do que o controle. Por outro lado, o objetivo do ensaio de não inferioridade é
somente quando for comparar se uma intervenção tem um efeito minimamente igual ao
do controle. Em geral, estudos sobre medicamentos genéricos ou com um custo inferior
são de não inferioridade, já que o objetivo é garantir que o novo remédio não seja pior
que a medicação comercial.
Para conhecer mais acerca dos tipos de ensaio clínico, recomendamos as leituras de:
Superioridade
RUELA, L. de O.; et al. Efetividade da acupuntura auricular no tratamento da dor oncológica:
ensaio clínico randomizado. Rev. esc. enferm. USP, São Paulo, v. 52, 2018.
SAIBA MAIS
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pi-
d=S0080-62342018000100477&lng=en&nrm=iso. Acesso em: 28 abr. 2021.
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pi-
d=S0034-89102009000600013&lng=en&nrm=iso. Acesso em: 28 abr. 2021.
Não inferioridade
LUNA, E. J. de A.; et al. Eficácia e segurança da vacina brasileira contra hepatite B em recém-
nascidos. Rev. Saúde Pública, São Paulo, v. 43, n. 6, p. 1014-1020, dez. 2009.
Uma característica importante desse estudo é o controle e o gerenciamento das variáveis
com a finalidade de reduzir o viés de confundimento. Os grupos devem ser os mais seme-
lhantes possíveis em suas características e tratamento, exceto pela intervenção pesquisa-
da. Esse controle rigoroso das diversas variáveis aumenta a validade interna da pesquisa.
Considere uma pesquisa sobre um novo tratamento para emagrecer. É preciso controlar
nos dois grupos a realização de atividade física e a ingesta de alimentos para garantir que
não são essas variáveis que causaram a redução de peso. Para isso, é possível medir
102
Epidemiologia analítica
3
essas variáveis para depois, na análise estatística, os ajustes serem realizados. Outras
estratégias para controlar variáveis que podem influenciar na associação que se está ten-
tando é solicitar que os sujeitos da pesquisa cumpram um regime, bem como orientações
específicas, ou internar os pacientes, assim, todos eles irão comer a mesma comida.
Figura 07. Fatores associados com a melhora do quadro do paciente no grupo controle e no grupo
intervenção
Fonte: Adaptado de Fletcher; Fletcher; Fletcher (2014, p. 147).
Vários fatores estão associados à melhora do quadro de um paciente, como descri-
to na Figura 7 (FLETCHER; FLETCHER; FLETCHER, 2014, p. 147). A melhora pode
acontecer pela história natural da doença, ou seja, o quadro gripal melhora depois de
sete dias, independentemente da medicação em uso. O efeito Hawthorne refere-se à
mudança de comportamento e ao cuidado com a saúde que o sujeito tem por participar
de uma pesquisa ou por estar recebendo um cuidado especial. Ou seja, só pelo fato
de uma pessoa ligar para alguém todos os dias perguntando como a outra está, pode
trazer melhoras, não importando a medicação que está sendo usada. O efeito place-
bo é a melhora do quadro por fazer algum tratamento independentemente de ser um
princípio ativo.
Esses três fatores associados com a melhora do quadro do paciente devem ser iguais
nos grupos controle e intervenção. Dessa forma, é ideal que todo o cuidado seja se-
melhante nos dois grupos para que o único fator diferente seja o efeito da intervenção.
Então, ao desenhar o estudo e o protocolo do cuidado é preciso levar em conta esses
efeitos a fim de que o resultado terapêutico seja o único diferente entre os grupos.
103
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
8.1 AMOSTRAGEM NOS ENSAIOS CLÍNICOS
A amostra do ensaio clínico segue as mesmas etapas de qualquer outra pesquisa com cri-
térios de inclusão e exclusão, ou seja, quem está no grupo controle poderia estar no grupo
intervenção. É importante manter a homogeneidade dos grupos. Para facilitar esse proces-
so, é comum que o grupo controle seja selecionado pareado com o grupo intervenção.
Exemplo 13
Se foi incluído um homem de 35 anos com peso adequado para idade no grupo intervenção,
no grupo controle deve ser incluído também uma pessoa com essas mesmas características.
O pareamento pode ter uma ou mais variáveis em comum, normalmente o sexo e a idade,
mas, dependendo da característica do estudo outras podem ser incluídas. Normalmente, o
número de pessoas no controle é a mesma que na intervenção, mas, às vezes, a proporção
pode ser de 1:2, sendo que o grupo controle tem o dobro de pessoas que a intervenção.
Denomina-se alocação o processo de definição de quem fará parte do grupo controle e
quem será intervenção. O ideal é que esse processo seja randomizado, ou seja, a deci-
são é feita por meio de um sorteio, em que todos os participantes têm a mesma chance
de serem selecionados para o grupo intervenção.
A alocação pode ser randomizada estratificada quando o sorteio ocorre dentro de
estratos. A título de exemplificação: dentro das faixas etárias (estratos) será sorteado
quem irá para determinado grupo. A alocação também pode ser randomizada por con-
glomerados, na qual o sorteio é o local da pesquisa. Por exemplo, quatro unidades de
saúde vão participar da amostra, o sorteio irá definir as duas unidades que serão contro-
le e as duas que serão intervenção. A estratégia por conglomerado é boa por questões
logísticas, já que não é preciso treinar os profissionais nos dois procedimentos.
Como o ensaio clínico é um estudo experimental, é necessária uma padronização dos
critérios de avaliação e do processo de intervenção. Para isso, é comum a criação de
protocolo da pesquisa com descrição de cada etapa. Esses protocolos reduzem os vie-
ses e aumentam a validade interna da pesquisa.
Para reduzir o viés de confundimento, a amostra pode ser bem controlada, como em
algumas etapas de estudos clínicos cuja população da pesquisa seja somente indivíduos
adultos saudáveis sem comorbidades e com hábitos de vidas saudáveis. Ao restringir par-
ticipantes com possíveis fatores de confusão é mais fácil garantir a eficácia do tratamento.
Para reduzir o viés de migração, são necessárias estratégias que garantam adesão ao
tratamento e que o sujeito siga os cuidados corretamente. É importante assegurar que
o sujeito não esteja realizando outro tratamento além do protocolado na pesquisa. Por
exemplo, em uma pesquisa de uma nova medicação para ansiedade é preciso garantir
que o único tratamento que os participantes estejam recebendo para ansiedade seja a
medicação proposta. Logo, é preciso reforçar que práticas complementares, como me-
ditação e uso de plantas medicinais não podem ser realizadas. Essas cointervenções
podem influenciar no resultado da pesquisa.
104
Epidemiologia analítica
3
Outro risco que se corre é de o participante trocar de grupo por conta própria. Se ele
sabe que está no grupo controle e tem acesso ao grupo intervenção, é possível que ele
busque o tratamento experimental em vez de manter com o que foi solicitado.
Para reduzir o viés de aferição, o avaliador é treinado para o preenchimento do ques-
tionário, e os equipamentos utilizados são os mesmos. Tomemos como exemplo uma
pesquisasobre tratamento de ferida que irá acompanhar a cicatrização com fotos da
lesão. O avaliador treinado irá tirar as fotos sempre na mesma máquina, no mesmo
local, com a mesma iluminação, na mesma distância da lesão.
Outra estratégia de redução de vieses é o cegamento na pesquisa. Isso significa que
a pessoa “cega” não sabe dizer qual sujeito está em qual grupo (intervenção ou contro-
le). Existem quatro momentos ou pessoas que podem ser “cegas” no ensaio clínico: a
alocação, o paciente, o profissional que executa a intervenção e o profissional que faz
a avaliação (Figura 08).
Fonte: elaborada pela autora.
Figura 08. Esquema com as diversas pessoas que podem ser “cegas” na pesquisa
Intervenção
Alocação
Controle
Avaliação
O sigilo da alocação é o cegamento nesse processo. Isso ocorre quando quem faz a
alocação não sabe dizer qual indivíduo foi para qual grupo. Logo, ao fazer o processo, o
alocador não pode saber que está decidindo onde a pessoa vai estar, pois saber quem é
o sujeito pode influenciar na decisão de escolher qual grupo alocar. Para facilitar o sigilo
desse processo, a seleção é feita com frequência com a ajuda do computador.
O sujeito da pesquisa também deve ser cego para que ele não seja tendencioso nas
suas condutas. É possível que a pessoa busque outras intervenções ou mude para
105
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
hábitos mais saudáveis para querer ajudar o resultado da pesquisa. Já para os sujeitos
que sabem que estão no grupo controle isso pode estimular a não adesão ao tratamen-
to ou a uma maior taxa de desistência.
Uma dificuldade em cegar o sujeito da pesquisa é a obrigatoriedade do Termo de Consenti-
mento Livre e Esclarecido (TCLE) que todo participante deve ler e assinar para poder parti-
cipar do estudo. No TCLE está descrito o objetivo da pesquisa, o que pode fazer com que a
pessoa saiba qual é o grupo que ela está.
IMPORTANTE
O profissional que realiza o cuidado também precisa ser cego para que ele preste a
mesma atenção, independentemente do grupo que o paciente está. Esse profissional
pode ser alguém do serviço onde a pesquisa está sendo realizada ou mesmo algum
pesquisador. Mas é importante que o cuidado seja o mesmo para que o efeito Hawthor-
ne seja igual nos dois grupos.
Uma estratégia que ajuda no cegamento do profissional é a alocação por conglome-
rado. Nesse caso, os sujeitos daquele serviço de saúde são do mesmo grupo e isso
impede que o profissional compare as pessoas e faça atendimento diferenciado.
Para facilitar o cegamento do sujeito e do cuidador é importante que o placebo ou a
outra intervenção do grupo controle seja muito similar à intervenção do estudo. Assim,
eles não serão capazes de diferenciar um do outro. Se a pesquisa é sobre técnicas
de curativo, as duas pomadas devem ser embaladas no mesmo frasco e quem fez a
alocação deve nomear a embalagem por paciente e não por produto. Mas se as carac-
terísticas são diferentes, o cuidador que deveria ser cego vai conseguir descobrir qual
grupo o sujeito está.
É essencial o profissional que faz a avaliação ser cego, já que a avaliação pode ser tenden-
ciosa e muito mais detalhada no grupo intervenção. O avaliador pode ser alguém do serviço
onde a pesquisa está sendo realizada ou pode ser algum pesquisador. O importante é que
ele siga o protocolo de avaliação da mesma maneira para todos os indivíduos.
No caso da pesquisa de curativo em que a avaliação é por fotos, quem faz a análise
das imagens deve realizá-la sem saber qual foi a pomada aplicada. Assim, a pessoa
não será tendenciosa em procurar algum critério de melhora ao saber que o sujeito é
do grupo intervenção.
De modo tradicional se classifica um estudo duplo cego usando como referência que o
sujeito da pesquisa e o cuidador ou avaliador são cegos. É possível que a alocação, a
intervenção e a avaliação sejam feitas pela equipe de pesquisa e, por isso, sejam con-
sideradas como um ponto cego. Mesmo sendo o termo mais tradicional, é importante
estar claro no estudo quais são os pontos cegos e quais foram as estratégias utilizadas
para garantir isso. Quando um ensaio clinico não é cego, ele é classificado como aberto.
106
Epidemiologia analítica
3 Um estudo pode ser cego em um ou mais momentos: na alocação, com o sujeito da pesqui-
sa, o profissional que realiza o cuidado e o profissional que realiza a avaliação.
Um estudo randomizado é quando a alocação dos sujeitos nos grupos, intervenção ou con-
trole é aleatória. Quando isso acontece, o estudo é cego no momento da alocação.
Um estudo duplo cego tradicionalmente indica que o sujeito e o pesquisador são cegos. Nes-
ses casos, em geral, o pesquisador será o cuidador e o avaliador. O ideal é o pesquisador
deixar claro as estratégias para cegar as pessoas.
IMPORTANTE
8.2 ANÁLISE DA PESQUISA
A análise dos resultados pode ser feita com testes estatísticos e com medidas sumárias,
que são Redução do Risco Relativo (RRR), Redução do Risco Absoluto (RRA) e Núme-
ro Necessário para Tratar (NNT) (ROUQUAYROL, 2018, p. 155). Como o desenho do
estudo é semelhante ao estudo coorte, a análise de dados também é similar. É possível,
inclusive, calcular a incidência do desfecho nos dois grupos.
A RRR é a diferença das incidências do desfecho entre os grupos divididos pela incidên-
cia do grupo controle. A RRA representa o risco absoluto com a diferença da incidência
do desfecho entre cada grupo. O NNT informa quantas pessoas são necessárias para
tratar e evitar um desfecho ruim.
Fórmula da Redução do Risco Relativo (RRR):
Incidência desfechoControle Incidência desfecho IntervençãoRRR
Incidência desfechoControle
−
=
10
A medida que as pessoas comumente utilizarem no ensaio clínico será a eficácia do
tratamento, que é a redução do risco relativo em porcentagem. Para fazer esse cálculo,
basta multiplicar por 100 o valor de RRR.
Exemplo 14
Um ensaio clínico para avaliar a efetividade de uma vacina na prevenção de COVID-19 utilizou
como desfecho as possíveis classificações de gravidade da doença. A pesquisa acompanhou
724 pessoas do grupo intervenção e 706 do grupo placebo. No grupo intervenção 85 foram
sintomáticos e 7 tiveram casos mais graves que necessitaram de assistência. No grupo place-
bo 167 foram sintomáticos e 31 tiveram casos mais graves que necessitaram de assistência.
Calcule a eficácia da vacina na prevenção de casos sintomáticos.
107
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Quadro 05. Tabela 2 x 2 completa
SINTOMÁTICOS ASSINTOMÁTICOS + NÃO DOENTES TOTAL
Intervenção 85 639 724
Placebo 167 539 706
Total 252 1178 1430
Fonte: elaborada pela autora.
Casos sintomáticos
85 0,1174
724
númerode sintomáticos na IntervençãoIncidência na Intervenção
total de Intervenção
= = =
167 0, 2365
706
númerode sintomáticos noControleIncidência noControle
total deControle
= = =
Incidência desfechoControle Incidência desfecho IntervençãoRRR
Incidência desfechoControle
−
= subs-
tituir os valores
0,2365 0,1174
0,2365
RRR −= realiza a subtração
0,1191
0,2365
RRR = realiza a divisão
0,5036RRR = multiplica por 100
Eficácia = 50,36%
A vacina reduz em 50,36% a chance de uma pessoa ser caso sintomático de COVID-19,
quando comparado a pessoas não vacinadas.
A análise dos dados pode ocorrer pela intenção de tratar ou pelo tratamento que de
fato os sujeitos receberam (denominada análise explanatória). Essa escolha, além de
ser definida, deve ser clara nos resultados da pesquisa. É uma decisão que acontece
quando há cruzamento de grupos, ou seja, apesar de a pessoa estar no grupo controle
ela recebeu o tratamento intervenção.
Normalmente, a análise é pela intenção de tratar, já que é esse o olhar que importa para
o profissional de saúde. Por exemplo, um médico precisa saber qual é a eficácia do
remédio que ele prescreve para o paciente, mesmo que se tenha o risco de o paciente
usar outrostratamentos e não fazer uso da medicação indicada.
108
Epidemiologia analítica
3
A análise explanatória é importante para saber, de fato, quão eficaz é tratamento quan-
do o paciente realmente o realiza. O grande problema dessa análise é que a amostra
pode estar enviesada, uma vez que a análise dos grupos não segue a alocação definida
no início da pesquisa.
Os ensaios clínicos avaliam a eficácia e a efetividade do tratamento. Define-se eficácia
a avaliação da intervenção em condições ideais. Ela ocorre em ensaios clínicos com
uma população de saudáveis e com o controle rigoroso das variáveis. Por conta disso,
essa pesquisa tem baixo viés de confundimento e alta validade interna. Em contrapar-
tida, há baixa capacidade de generalização, já que a amostra é tão restrita e, portanto,
não representa a população geral.
Ao restringir a população da pesquisa para somente pessoas saudáveis, a validade
interna aumenta, mas a capacidade de generalização dos resultados diminui, visto que
no mundo real são poucas as pessoas que são saudáveis. Para conseguir melhorar a
validade externa sem alterar a população, pode-se aumentar o número de participantes
e os locais de coleta de dados.
Já a efetividade é definida como a avaliação da intervenção em condições normais. Ela
ocorre em ensaios clínicos com uma população com características diferentes, como
presença de comorbidades. Essa pesquisa tem maior chance de viés de confundimento
e, portanto, pode apresentar validade interna baixa. Contudo, se for possível controlar
os fatores de confusão, a pesquisa terá uma alta capacidade de generalização.
Eficácia refere-se ao impacto que uma ação tem, por exemplo, condições ótimas ou experi-
mentais (ROUQUAYROL, 2018, p. 688).
Efetividade avalia o efeito que uma ação alcança em aplicação prática ou condições habitu-
ais (ROUQUAYROL, 2018, p. 688).
A validade externa define o quanto o resultado pode representar a população. Está associa-
da à capacidade de generalização da pesquisa (ROUQUAYROL, 2018, p. 161).
GLOSSÁRIO
A pesquisa clínica para avaliar novos tratamentos medicamentosos passa por quatro
fases. Antes dessas etapas são realizados estudos pré-clínicos em laboratórios e com
animais. O ensaio clínico de fase I avalia a faixa terapêutica de segurança e os possí-
veis efeitos colaterais. Ela descreve as características do fármaco como qual é a via de
eliminação e a meia-vida da substância. O número de participantes é muito pequeno,
com menos de 100 pessoas, e não é necessário um grupo controle.
A fase II é um ensaio clínico de avaliação de eficácia, avaliação entre doses e eficácia e
investigação de efeitos colaterais. Dessa forma, a população é de pessoas saudáveis.
Há um grupo controle e a amostra é pequena de algumas centenas.
109
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
IMPORTANTE
A fase III é um ensaio clínico de efetividade randomizado e avalia os reais efeitos do
tratamento na população. Tem grupo controle e a amostra é grande, com mais de 1.000
pessoas. Com o resultado da fase III publicado, a droga pode ser utilizada para uso
comercial a depender da aprovação do órgão regulador.
A fase IV do estudo clínico é a vigilância pós-comercialização. Nessa etapa, a coleta
de dados é feita a partir de notificação de efeitos adversos que só serão detectados
com um uso amplo da medicação. Alguns medicamentos já foram retirados do mercado
após a fase IV avaliar os efeitos colaterais que não compensavam os benefícios da
medicação.
Por ser um estudo experimental, as duas principais desvantagens são o custo elevado
e a logística complexa. O gasto é alto, já que tudo deve ser fornecido pela equipe da
pesquisa. A logística é maior do que nos estudos observacionais, uma vez que é preciso
realizar a intervenção e não somente avaliar o que já foi feito. Outro fator que influencia
é as diversas etapas necessárias para manter as pessoas “cegas”. Além disso, outro
motivo que dificulta a execução é a participação das pessoas. Se for um estudo de efi-
cácia, atualmente é difícil conseguir pessoas saudáveis. Também, as pessoas podem
ter medo de fazerem parte do grupo intervenção ou não quererem participar se for
controle.
Em alguns casos, os estudos experimentais não são possíveis de serem realizados.
Uma das justificativas para isso é o princípio ético da não maleficência, ou seja, não se
pode causar mal para o sujeito da pesquisa. Por exemplo, quando se investigava uma
possível associação de fumo com câncer de pulmão, não foi possível fazer um ensaio
clínico, já que não se podia incentivar o consumo de uma substância que podia fazer
mal às pessoas. Em outros casos, os estudos observacionais conseguem respostas
mais rápidas e com um custo menor.
O ensaio clínico randomizado duplo cego é considerado o padrão-ouro dos estudos cien-
tíficos. Entende-se como padrão-ouro a indicação mais robusta, que é um padrão de refe-
rência, seja ele um estudo, método diagnóstico ou tratamento (FLETCHER; FLETCHER;
FLETCHER, 2014, p. 117). Então, deve-se sempre almejar a realização de um ensaio clínico
para avaliar uma intervenção em vez de estudos observacionais.
9. ESTUDOS DIAGNÓSTICOS
Os estudos diagnósticos são pesquisas que avaliam a qualidade dos testes e exames.
Considera-se como teste diagnóstico qualquer exame, escala ou procedimento cujo
objetivo é avaliar e definir um diagnóstico. A pesquisa descreve as características do
teste como capacidade de medir corretamente a quantidade de acertos e erros com
proporções de verdadeiro e falso positivo. Além disso, o estudo é capaz de ajudar na
interpretação do resultado.
110
Epidemiologia analítica
3
Como a pesquisa calcula a probabilidade de um exame acertar ou errar, a partir dessas
informações, o profissional de saúde pode escolher qual exame é melhor para o seu
paciente. Esse estudo também auxilia o profissional a interpretar o resultado ao avaliar
qual é a chance de o resultado ser verdadeiro ou falso.
Esse desenho de estudo é proposto quando se quer implantar ou desenvolver um novo
teste em uma população, aplicando este teste entre a população sadia e doente. Para
definir o grupo sadio e doente, um outro método diagnóstico será utilizado.
Em geral, a comparação é com o método padrão-ouro, ou seja, o teste com evidências
mais sólidas, de maior acurácia e precisão; às vezes pode-se comparar com o exame mais
frequente a ser realizado nos casos de o padrão-ouro não ser acessível. Por exemplo, uma
pesquisa quer avaliar se um marcador tumoral sorológico é um bom teste de diagnóstico
precoce de câncer colorretal, a comparação pode ser feita com o teste padrão-ouro, que é
a colonoscopia, ou com o convencional, que é o sangue oculto nas fezes.
Para aprofundar ainda mais seus conhecimentos acerca do tipo de pesquisa, confira o
artigo abaixo:
DUARTE, Geraldo; et al. Teste rápido para detecção da infecção pelo HIV-1 em gestantes.
Rev. Bras. Ginecol. Obstet., v. 23, n. 2, p. 107-111, mar. 2001.
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pi-
d=S0100-72032001000200008&lng=en&nrm=iso. Acesso em: 1 maio 2021.
IMPORTANTE
As informações obtidas na pesquisa são descritas na Tabela de contingência 2 x 2
(Figura 09) que compara, nas linhas, os resultados do novo método diagnóstico e nas
colunas os grupos de pessoas sadias e doentes. Nesse quesito, são possíveis quatro
possibilidades de desfecho:
` Verdadeiro positivo (VP): quando os doentes testam positivo;
` Verdadeiro negativo (VN): quando os sadios testam negativo;
` Falso positivo (FP): quando os sadios testam positivo; e
` Falso negativo (FN): quando os doentes testam negativo.
111
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Figura 09. Cruzamento do resultado do novo teste nos grupos doente e sadio com as possibilidades dos
quatro desfechos.
Fonte: elaborada pela autora.
Métodos diagnósticos quantitativos, como exames de sangue, têm distribuiçãonormal
na população. Então, uma pessoa sadia pode ter uma faixa de valores que o exame
pode alterar e ela ainda ser “não doente”. O ideal com qualquer método diagnóstico é
que a curva de distribuição dos resultados dos sadios e dos doentes sejam independen-
tes (Figura 10A). Mas isso raramente ocorre, pois, em geral, as curvas se sobrepõem
(Figuras 10B e 10C) e com isso fica difícil saber qual valor se deve definir como o limite
entre um exame normal ou alterado.
Considere na Figura 10 a representação gráfica da frequência de cada valor de resulta-
do de um exame sorológico que pode ser um novo método diagnóstico para câncer. Na
Figura 10A, as curvas dos sadios e doentes são independentes, ou seja, não existe um
valor que tanto indivíduos sadios como os doentes apresentaram como resultado. Na
Figura 10B, existe um pouco de sobreposição e em alguns valores há indivíduos sadios
e doentes. Na Figura 10C, a sobreposição é total e, portanto, o exame não é adequado
como método diagnóstico.
Doente Sadio Total
Resultado
positivo
Verdadeiro
Positivo (VP)
Falso
Positivo (FP) VP + FP
Resultado
negativo
Falso
Negativo (FN)
Verdadeiro
Negativo (VN) FN+ VN
Total VP + FN FP + VN VP + FP + VN +FN
112
Epidemiologia analítica
3
Figura 10. Gráficos da frequência de cada valor de resultado de um novo exame sorológico comparando o
grupo sadio e doente
113
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Fonte: elaborada pela autora.
Na Figura 10A, o ponto de corte entre o exame normal e o alterado pode ser 10 ou 11.
Na Figura 10B, é mais difícil decidir apenas graficamente. Já na Figura 10C, o teste
diagnóstico não é eficaz e, portanto, não necessita decidir. Para ajudar na definição de
qual é o melhor ponto de corte, algumas medidas de testes diagnósticos são necessá-
rias. Além disso, o objetivo e as consequências do teste também contribuirão na tomada
de decisão.
9.1. MEDIDAS
Os testes diagnósticos têm duas medidas intrínsecas, a sensibilidade e a especificidade.
Além delas, a pesquisa consegue avaliar os valores preditivos positivo e negativo. Essas
quatro medidas são probabilidades e são expressas normalmente em porcentagem.
` Sensibilidade e especificidade
A sensibilidade e a especificidade são características do teste diagnóstico que não
sofrem alteração com mudanças de outras variáveis, como a prevalência da doença.
São informações importantes a serem consideradas antes de solicitar o exame para o
paciente. Dependendo do objetivo do exame pode ser interessante escolher um teste
com alta sensibilidade ou com alta especificidade.
A confiabilidade dos valores das medidas depende da amostra. A população deve ser
representativa e com um número amostral grande para que o valor real esteja perto do
valor estimado pelo cálculo.
114
Epidemiologia analítica
3
A sensibilidade é a proporção de pessoas do grupo doente que testaram positivo
(ROUQUAYROL, 2018, p. 151). Seu valor está associado à quantidade de falsos nega-
tivos. Quanto menor o número de falsos negativos, maior o valor da sensibilidade. Em
seguida, para transformar o valor em porcentagem é só multiplicar o resultado por 100.
Fórmula da Sensibilidade (S):
( )
Verdadeiro PositivoS
total dedoentes Verdadeiro Positivo Falso Negativo
=
+
ou VPS
VP FN
=
+
11
Um teste com alta sensibilidade significa que ele irá detectar a grande maioria dos do-
entes. Por essa característica, exames com alta sensibilidade são utilizados quando se
quer garantir que todos os doentes sejam identificados. É comum para casos de doen-
ças transmissíveis, pois é preciso certeza de que não existe algum doente com exame
falso negativo e que continuará transmitindo a doença.
Outra característica dos testes com alta sensibilidade é que se confia no resultado ne-
gativo. Isso acontece uma vez que a proporção de falsos negativos é baixa e, portanto,
um exame negativo tem grande chance de ser um verdadeiro negativo.
Os testes de rastreamento e os testes iniciais no processo diagnóstico têm alta sensibi-
lidade, sendo que o objetivo nesses dois casos é confirmar a ausência de determinada
doença. Por isso que exames de rastreamento não determinam a presença de doença e
é necessária a realização de novos exames para fechar o diagnóstico. Essa caracterís-
tica é importante ser ressaltada, já que muitas pessoas ao terem o teste rápido de HIV
positivo já consideram que são verdadeiros positivos e portadores do vírus, quando, na
verdade, o teste rápido só consegue garantir o exame negativo.
A especificidade é a proporção de pessoas do grupo sadio que testaram negativo (ROU-
QUAYROL; GURGEL, 2018, p. 151). Seu valor está associado à quantidade de falsos
positivos. Quanto menor o número de falsos positivos, maior o valor da especificidade.
Fórmula da Especificidade (E):
( )
Verdadeiro NegativoE
total de sadios Verdadeiro Negativo Falso Positivo
=
+ ou
VNE
VN FP
=
+
12
Para transformar o valor em porcentagem é só multiplicar o resultado por 100.
Um teste com alta especificidade detectará a grande maioria dos sadios, ou seja, rara-
mente se classificará alguém como doente sendo que, de fato, a pessoa é sadia. Sua
115
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
principal característica é que se confia no resultado positivo, uma vez que a proporção
de falsos positivos é muito baixa.
O principal uso de testes com alta especificidade é para confirmação diagnóstica. Além
disso, é também utilizado quando um resultado positivo pode ser nocivo para o indiví-
duo. Por exemplo, se um exame positivo significa que a pessoa deverá passar por uma
cirurgia, é importante ter certeza que o paciente não sofrerá uma intervenção desneces-
sária, já que o resultado era, na verdade, um falso positivo.
Exemplo 15
Cálculo de sensibilidade e especificidade
Uma pesquisa com o objetivo de avaliar se um novo marcador sorológico é capaz de identi-
ficar precocemente o câncer de mama realizou 200 testes e comparou com os achados da
mamografia. Dos 100 casos positivos na mamografia, 95 foram positivos no novo exame.
Dos 100 casos negativos na mamografia 20 foram negativos no novo exame.
Qual é a sensibilidade e a especificidade desse novo teste?
Tabela 2 x 2 completa
DOENTE
(MAMOGRAFIA +)
SADIO
(MAMOGRAFIA -) TOTAL
Teste positivo 95 80 175
Teste negativo 5 20 25
Total 100 100 200
Sensibilidade
VPS
VP FN
=
+
substituir o valor
95
95 5
S =
+
fazer a soma do denominador
95
100
S = realizar a divisão
0,95 S =
0,95 1 00S = × realizar a multiplicação para transformar em porcentagem
95% S =
116
Epidemiologia analítica
3
Especificidade
VNE
VN FP
=
+
substituir o valor
20
20 80
E =
+
fazer a soma do denominador
20
100
E = realizar a divisão
0, 20E =
0, 20 1 00E = × realizar a multiplicação para transformar em porcentagem
20% E =
A sensibilidade desse teste é de 95% e a especificidade é de 20%. Como tem alta sensibili-
dade, pode ser um teste de rastreamento adequado. Como tem baixa especificidade, não é
um teste adequado para confirmar o diagnóstico de câncer de mama.
Como mencionado no final do tópico anterior, para decidir qual é o melhor ponto de cor-
te entre exame normal e alterado é preciso calcular a sensibilidade e a especificidade
de cada ponto e, a partir disso, decidir qual é o melhor ponto.
Uma representação gráfica denominada curva ROC (receiver operator characteristics)
pode auxiliar nessa definição (FLETCHER; FLETCHER; FLETCHER, 2014, p. 121). A
curva é um gráfico de correlação entre as proporções da sensibilidade (eixo y) e do falso
positivo (eixo x) nos diversos pontos de cortes possíveis (pontos na curva). A proporção
de falso positivo é a parte complementar da especificidade e, às vezes, é mencionada
nográfico como “1 - Especificidade”. Por exemplo, se a especificidade for de 40%, pri-
meiro devemos transforma-la novamente em número decimal dividindo por 100 (40% ÷
100 = 0,4), depois fazer a subtração (1 - 0,4 = 0,6) para por último transformar novamen-
te em porcentagem multiplicando por 100 (0,6 × 100 = 60%).
117
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Figura 11. Curva ROC de três testes diagnósticos diferentes
Fonte: elaborada pela autora.
Fo
nt
e:
e
la
bo
ra
da
p
el
a
au
to
ra
.
A Figura 11 representa a curva ROC de três testes diagnósticos diferentes. A curva 1 é
de um teste diagnóstico que tem distribuição dos resultados de sadios e doentes com
poucas sobreposições. A curva 2 tem a distribuição conforme a Figura 12. O teste da
curva 3 da Figura 11 apresenta sobreposição completa entre os resultados dos dois
grupos e, portanto, não é um exame capaz de diferenciar doentes de sadios.
Figura 12. Distribuição da frequência de cada valor de resultado de um novo exame sorológico
comparando o grupo sadio e doente
118
Epidemiologia analítica
3
Por via de regra, a definição do limite de resultado positivo ou negativo é o valor que
representa um ponto na curva ROC em que há mudança na inclinação. Na curva 1 (Fi-
gura 11), é claro o momento em que o trajeto passa de vertical para horizontal, que é o
primeiro ponto do gráfico com sensibilidade de 90%. Na curva 2, seria possível usar três
pontos, os que têm sensibilidade de 65%, 80% ou 85%
Considerando o exame da curva 2 (Figura 11) descrito na Figura 12, calcularemos a
sensibilidade e a especificidade de dois pontos de corte com definição de doente para
resultados 1 1≥ ou 1 3≥ .
Cálculo da curva 2 da figura 11 – diversos pontos de corte
Considere que a pesquisa analisou 100 sadios e 100 doentes e realizou o novo teste soro-
lógico. O gráfico dessa pesquisa está descrito na figura 12. Qual é a sensibilidade e a espe-
cificidade desse novo teste se o ponto de definição de positivo e negativo for ≥ 11 ou ≥ 13?
Ponto de corte ≥ 11
DOENTE SADIO TOTAL
Teste positivo 85 40 125
Teste negativo 15 60 75
Total 100 100 200
Sensibilidade
85 85 0,85 0,85 1 00 85%
85 15 100
VPS
VP FN
= = = = = × =
+ +
Especificidade
60 60 0,60 0,60 1 00 60%
60 40 100
VNE
VN FP
= = = = = × =
+ +
Ponto de corte ≥ 13
DOENTE SADIO TOTAL
Teste positivo 65 10 75
Teste negativo 35 90 125
Total 100 100 200
Sensibilidade
65 65 0,65 0,65 1 00 65%
65 35 100
VPS
VP FN
= = = = = × =
+ +
119
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Especificidade
90 90 0,90 0,90 1 00 90%
90 10 100
VNE
VN FP
= = = = = × =
+ +
Com os cálculos, usar a definição de exame positivo com resultados ≥ 11, significa que
o teste diagnóstico terá alta sensibilidade, ou seja, ele será capaz de detectar quase
todos os doentes e será possível confiar no resultado negativo. Caso a definição seja
≥ 13, o teste diagnóstico terá alta especificidade, ou seja, ele será capaz de detectar
quase todos os sadios e será possível confiar no resultado positivo.
Para escolher qual desses pontos utilizar, é preciso pensar qual é o objetivo do teste.
Se o propósito for um teste de rastreamento ou avaliação inicial, deve-se escolher um
padrão com alta sensibilidade que, nesse caso, é definir como positivo ≥ 11. Também
se escolhe esse ponto caso um resultado positivo, mesmo que falso positivo, não tenha
impacto na vida do sujeito.
Agora, se o objetivo for um teste de confirmação diagnóstica, deve-se escolher um
padrão com alta especificidade, que nesse caso é definir como positivo ≥ 13. Também
se escolhe esse ponto caso resultado positivo signifique uma intervenção cirúrgica ou
algum estigma que irá impactar na vida da pessoa.
Conheça mais sobre a Análise de ponto de corte e sua aplicação no artigo abaixo. Caso não te-
nha familiaridade com a língua inglesa, use ferramentas de tradução para melhor compreensão.
INFANTINO, M. et al. Diagnostic accuracy of an automated chemiluminescent immunoassay
for anti-SARS-CoV-2 IgM and IgG antibodies: an Italian experience. J Med Virol., v. 92, n. 9,
p. 1671– 1675, 2020.
Disponível em: https://doi.org/10.1002/jmv.25932. Acessado em 12 jun. 2021.
SAIBA MAIS
Valor preditivo positivo e negativo
Os valores preditivos auxiliam na interpretação do resultado e avaliam a probabilida-
de de confiar no resultado obtido. São medidas que avaliam a probabilidade pós-teste
(ROUQUAYROL; GURGEL, 2018, p. 152).
O valor preditivo positivo (VPP) é a proporção de pessoas do grupo que testaram po-
sitivo que são doentes. Seu valor está associado à quantidade de falsos positivos e com
o valor da especificidade. Essa é a probabilidade de se confiar no resultado positivo.
120
Epidemiologia analítica
3
Fórmula do Valor Preditivo Positivo (VPP):
( )
Verdadeiro PositivoVPP
total de positivos Verdadeiro Positivo Falso Positivo
=
+
ou VPVPP
VP FP
=
+
13
14
Para transformar o valor em porcentagem é só multiplicar o resultado por 100.
O valor preditivo negativo (VPN) é a proporção de pessoas do grupo que testaram
negativo que são sadias. Seu valor está associado à quantidade de falsos negativos
e com o valor da sensibilidade. É a probabilidade de se confiar no resultado negativo.
Fórmula do Valor Preditivo Negativo (VPN):
( )
Verdadeiro NegativoVPN
total denegativos Verdadeiro Negativo Falso Negativo
=
+
ou VNVPN
VN FN
=
+
Para transformar o valor em porcentagem é só multiplicar o resultado por 100.
Exemplo 16
Cálculo de Valor Preditivo Positivo e Negativo
Uma pesquisa com o objetivo de avaliar se um novo marcador sorológico é capaz de identi-
ficar precocemente o câncer de mama realizou 200 testes e comparou com os achados da
mamografia. Dos 100 casos positivos na mamografia, 95 foram positivos no novo exame.
Dos 100 casos negativos na mamografia 20 foram negativos no novo exame.
Qual é o Valor Preditivo Positivo e o Valor Preditivo Negativo desse novo teste?
Tabela 2 x 2 completa
DOENTE
(MAMOGRAFIA +)
SADIO
(MAMOGRAFIA -) TOTAL
Teste positivo 95 80 175
Teste negativo 5 20 25
Total 100 100 200
Valor Preditivo Positivo (VPP)
VPVPP
VP FP
=
+
substituir o valor
121
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
95
95 80
VPP =
+
fazer a soma do denominador
95
175
VPP = realizar a divisão
0,5429 VPP =
0,5429 1 00VPP = × realizar a multiplicação (transformar em porcentagem)
54,29% VPP =
Valor Preditivo Negativo (VPN)
VNVPN
VN FN
=
+
substituir o valor
20
20 5
VPN =
+
fazer a soma do denominador
20
25
VPN = realizar a divisão
0,80VPN =
0,80 1 00VPN = × realizar a multiplicação (transformar em porcentagem)
80% VPN =
O valor preditivo positivo desse teste é de 54,29% e o valor preditivo negativo é de 80%.
Os valores preditivos variam conforme a sensibilidade e a especificidade dos testes.
Testes com alta sensibilidade costumam ter um alto valor preditivo negativo por possu-
írem baixa proporção de falsos negativos. É por isso que nesses testes se confia mais
no resultado negativo. Os testes de alta especificidade têm alto valor preditivo positivo,
já que a frequência de falsos positivos é baixa.
Os valores preditivos também variam se um mesmo teste for aplicado em populações
com prevalências diferentes (FLETCHER; FLETCHER; FLETCHER, 2014, p. 126).
Por isso, mesmo em um teste com alta especificidade, um resultado positivo pode
não ser confiável se a prevalência da doença na população for baixa. Quanto menor
122
Epidemiologia analítica
3
a prevalência da doença, menor o valor preditivo positivo e maior o valor preditivo
negativo. Como a prevalência da doença pode variar muito, ao avaliar o resultado esse
fator é mais importante do que a sensibilidade e a especificidade do teste.Cálculo dos Valores Preditivos em populações com prevalências diferentes da doença
Considere que a pesquisa realizou um novo teste sorológico para câncer de próstata em
duas populações diferentes. A primeira população era de pessoas que faziam acompanha-
mento com o urologista e apresentavam alguma queixa de alteração ao urinar. A segunda po-
pulação era de pessoas que faziam acompanhamento com o médico generalista na Unidade
Básica de Saúde e não tinham queixas.
Qual é a prevalência de doentes com câncer de próstata em cada grupo? Quais são os Valo-
res Preditivos Positivos e Negativos para cada população?
Grupo urologista com queixa urinária
DOENTE SADIO TOTAL
Teste positivo 179 19 198
Teste negativo 25 101 126
Total 204 120 324
Prevalência
204 0,6300 0,6300 1 00 63,00%
324
total decasos ou doentesP
total da amostra
= = = = × =
Valor Preditivo Positivo
179 179 0,9040 0,9040 1 00 90,40%
179 25 198
VPVPP
VP FP
= = = = = × =
+ +
Valor Preditivo Negativo
101 101 0,8016 0,8016 1 00 80,16%
101 19 126
VNVPN
VN FN
= = = = = × =
+ +
Grupo generalista sem queixa urinária
DOENTE SADIO TOTAL
Teste positivo 79 36 115
Teste negativo 11 198 209
Total 90 234 324
Prevalência
90 0, 2778 0,2778 1 00 27,78%
324
total decasos ou doentesP
total da amostra
= = = = × =
123
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Valor Preditivo Positivo
79 79 0,6870 0,6870 1 00 68,70%
79 36 115
VPVPP
VP FP
= = = = = × =
+ +
Valor Preditivo Negativo
198 198 0,9474 0,9474 1 00 94,74%
198 36 209
VNVPN
VN FN
= = = = = × =
+ +
O grupo do urologista que tem uma prevalência maior que o grupo do generalista. O Valor
Preditivo Positivo (VPP) é maior no grupo com maior prevalência (urologista) enquanto o Va-
lor Preditivo Negativo (VPN) é maior no grupo com menor prevalência (generalista).
A sensibilidade e a especificidade são iguais nos dois grupos já que elas são inerentes ao
exame. A sensibilidade é de 87,78% e a especificidade é de 84,61%.
Para aumentar a prevalência da doença e conseguir confiar mais no resultado positivo,
várias estratégias são possíveis, como mostra o exemplo acima. Pacientes com sinais
e/ou sintomas, histórico familiar da doença, presença de antecedentes pessoais ou
outras características individuais têm um risco maior de desenvolver a doença. Isso
significa que a prevalência dela em grupos com alguma dessas características é maior
do que na população geral.
Pacientes que passam com especialistas, muito provavelmente, já apresentam sinto-
mas, por isso os resultados positivos são mais confiáveis. Por outro lado, em situações
de alta prevalência, o resultado negativo não é confiável, já que o VPN é baixo e as
chances de falso negativo são maiores.
Em casos em que a prevalência da doença é muito baixa, os resultados positivos não
são confiáveis, por isso que a realização indiscriminada de exames de rotinas em pes-
soas assintomáticas é questionável. A chance de falsos positivos é alta e isso pode
levar a tratamentos desnecessários. É por essa razão que não existe um consenso
na literatura sobre a realização de dosagem sorológica de PSA indiscriminada para a
população geral. Mesmo que exista artigos com VPP altos, é preciso avaliar qual foi a
amostra da pesquisa.
9.2. TESTE DIAGNÓSTICOS MÚLTIPLOS
Uma estratégia para melhorar os valores de sensibilidade e especificidade dos testes é
realizar diversos exames diferentes. Os múltiplos testes diagnósticos podem acontecer
simultaneamente ou sequencialmente. Quando acontece em série, o próximo exame só
é solicitado quando o anterior for positivo.
Os testes em paralelos referem-se à quando os exames diagnósticos são realizados
simultaneamente. Em geral, eles ocorrem em situações de emergência ou quando o
paciente tem dificuldade de locomoção e se pretende reduzir a ida a serviços de saúde.
124
Epidemiologia analítica
3
Eles aumentam a sensibilidade e o VPN, além de reduzirem a especificidade e o VPP
de cada teste se ele tivesse sido realizado isoladamente.
Uma vantagem é melhorar a sensibilidade quando os testes disponíveis não são pouco
sensíveis, logo, são úteis quando se quer garantir que todos os casos de doença serão
detectados. A desvantagem é a maior probabilidade de falsos positivos que leva a um
diagnóstico errado e tratamento desnecessário do paciente (FLETCHER; FLETCHER;
FLETCHER, 2014, p. 135).
Os testes em séries são quando os exames acontecem em sequência a depender do
resultado positivo do exame anterior. Eles aumentam a especificidade e o VPP, bem
como reduzem a sensibilidade e o VPN. Eles ocorrem em atendimento ambulatorial
para aumentar a confiança do resultado positivo. Uma vantagem é melhorar a especifi-
cidade do teste quando os exames disponíveis são pouco detalhados. Uma desvanta-
gem é o maior número de falsos negativos, que faz com que alguns doentes não sejam
diagnosticados. (FLETCHER, FLETCHER; FLETCHER, 2014, p. 136).
Esses testes são usados quando há testes caros ou com maior risco de complicações.
A realização do teste caro ou com maior risco só acontece caso um exame prévio tenha
sido positivo. Por ser condicionante ao exame anterior positivo, quando se realiza testes
em séries, menos testagens são realizadas.
CONCLUSÃO
Essa unidade descreve os desenhos de estudos mais clássicos. Uma hipótese de pes-
quisa pode ser investigada com diversos desenhos. A escolha do tipo de estudo depen-
de dos recursos e acessos disponíveis além de questões éticas. Por exemplo, uma pes-
quisa tem como hipótese que fazer atividade física reduz o risco de ter câncer de mama.
A seguir podemos colocar os diversos tipos de estudos e como seria a coleta de dados:
` Estudo transversal: fazer um levantamento perguntando quem faz atividade física deta-
lhando frequência, tipo e quantidade e quem tem ou não câncer de mama. Esse estudo é
descritivo não longitudinal que não foi abordado nessa unidade.
` Estudo coorte: acompanhamento por 10 anos de voluntários com 40 a 45 anos de idade
avaliando esporadicamente a atividade física e identificação dos casos novos de câncer.
Esse estudo é observacional, longitudinal e que acompanha um grupo de pessoas. Nor-
malmente os grupos de comparação são divididos pela presença ou ausência da variável
independente.
` Estudo caso-controle: escolha de pessoas com câncer de mama e de algum fator familiar
como grupo controle. Avaliar a atividade física que as pessoas fizeram nos 10 anos ante-
riores. Esse estudo é observacional, longitudinal e que inicia identificando pessoas com a
variável dependente (desfecho) e depois avaliando possíveis fatores de risco.
` Ensaio clínico: por 10 anos fornecer atividade física para voluntários com 40 a 45 anos
de idade, sendo que um grupo a atividade é de baixo impacto e intensidade e o outro é
com alta intensidade. Identifica-se ao longo do tempo os casos novos de câncer. Esse
estudo é experimental e longitudinal.
125
3
Bioestatística e Epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
REFERÊNCIAS BIBLIOGRÁFICAS
ALMEIDA FILHO, N. de; BARRETO, M. L. Epidemiologia e saúde: fundamentos, métodos e aplicações. Rio
de Janeiro: Guanabara Koogan, 2011.
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. S. Epidemiologia clínica: elementos essenciais. 5.
ed. Porto Alegre: ArtMed, 2014.
ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia e saúde. 8. ed. Rio de Janeiro: Medbook,
2018.
VIEIRA, S. Introdução à bioestatística. 5. ed. Rio de Janeiro: Elsevier, 2016.
126
Análise dos resultados de pesquisa e saúde baseada em evidência
4
UNIDADE 4
ANÁLISE DOS RESULTADOS DE
PESQUISA E SAÚDE BASEADA EM
EVIDÊNCIA
INTRODUÇÃO
Considere uma pesquisa que avalia se a acupuntura reduz o tempo de duração de uma
crise de enxaqueca. Como resultado, obteve-se que quem fez acupuntura teve uma
crise de 2,5h, em média, enquanto quem não fez teve uma crise de, em média, 3,5h. É
possível apontar que acupunturareduz o tempo de duração das crises?
Para um leigo e pessoas que sofrem de enxaqueca essa redução de uma hora pode ser
significativa, mas nem sempre para as estatísticas esses dados mostram uma associa-
ção. Como um profissional de saúde que atua baseado nas melhores evidências, é preci-
so saber se a diferença entre os tratamentos é de fato real ou se a amostra e a associação
de outras variáveis impedem de assumir que o tratamento é um sucesso. Há várias es-
tratégias que são utilizadas para avaliar a associação de variáveis a partir de dados co-
letados e como os resultados de uma pesquisa podem ser organizados e demonstrados.
Como os dados são divulgados podem ajudar no convencimento do leitor quanto a conclu-
são da pesquisa. Ao ler artigos e estudos, é muito comum que as pessoas vejam somente
a secção métodos e a de resultados. A leitura dos métodos é muito importante porque é a
partir dele que se consegue julgar se a pesquisa foi bem-feita ou não. Os resultados pre-
cisam mostrar todas as informações obtidas que embasam a conclusão do pesquisador.
Nesta unidade, abordaremos quais pesquisas e critérios devem ser utilizados para con-
fiar nas evidências científicas disponíveis e como definir relações de causalidade.
1. ANÁLISE ESTATÍSTICA
Dentre as funções do conceito de bioestatística está a característica de analisar os da-
dos coletados da amostra da pesquisa. Esse processo acontece comparando variáveis
coletadas para avaliar possíveis associações e comparando os resultados encontrados
com o que é esperado ou o que foi encontrado em outras pesquisas. A principal ava-
liação ao ler os resultados de uma pesquisa é indagar se o que foi encontrado de fato
representa a realidade.
Exemplo
Uma pesquisa, que avaliou a nota dos alunos em uma disciplina, teve como resultado a taxa
de reprovação de 50%, e que os alunos do sexo masculino reprovaram muito mais do que
127
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
os do sexo feminino. A conclusão dessa pesquisa foi que o sexo influencia na aprovação da
disciplina. Ao ler esses resultados é preciso avaliar a probabilidade de eles serem represen-
tativos ao que acontece na população total e, portanto, generalizar as informações obtidas.
Existe a possibilidade de o resultado encontrado na pesquisa ser decorrente de um erro
sistêmico ou viés. Os vieses podem acontecer em diversos momentos da pesquisa,
desde a amostragem, na aferição ou coleta de dados, na utilização de informações de
eventos que aconteceram há muito tempo e talvez o paciente já não se lembre corre-
tamente. É por isso que, ao definir os métodos de coleta de dados da pesquisa a partir
do desenho de estudo, diversas estratégias podem ser realizadas a fim de reduzir ou
impossibilitar a ocorrência de vieses.
Outra possibilidade é que o erro da pesquisa seja em decorrência ao acaso. Define-se
como acaso um erro aleatório que é inerente a qualquer observação. Não existe estra-
tégia capaz de eliminar a ocorrência do acaso (FLETCHER; FLETCHER; FLETCHER,
2014, p. 189).
SAIBA MAIS
Para se aprofundar sobre o acaso, uma dica de leitura é “O andar do bêbado”, de Leonard
Mlodinow. Esse livro é um best-seller internacional que aborda o quanto os eventos e acon-
tecimentos da nossa vida podem ser explicados pelo acaso. MLODINOW, L. O andar do
bêbado. Rio de Janeiro: Zahar, 2008, p. 207.
Todo resultado de pesquisa, como o caso de uma pessoa que morre após utilizar uma
medicação, deve sempre ser questionado se, de fato, é o que acontece no mundo real
(natureza) ou se o que foi encontrado é justificado pelo acaso. A estatística consegue
ajudar na definição que a morte foi em decorrência do tratamento ou ela pode ser justifi-
cada pelo acaso, ou seja, a pessoa iria morrer independentemente da administração da
medicação. Toda análise estatística tem a incerteza inerente do acaso.
Para decidir se os resultados são confiáveis e que se pode generalizá-los, existem
métodos que conseguem avaliar o acaso, os quais estimam os efeitos da variação
aleatória. Os dois métodos mais utilizados são os testes de hipóteses e os intervalos
de confiança.
1.1 TESTES DE HIPÓTESES
O teste de hipótese avalia, utilizando testes estatísticos, se uma diferença ou uma as-
sociação está presente. Por exemplo, para avaliar se existe uma diferença no tempo de
duração de uma crise de enxaqueca em pessoas que realizaram tratamentos diferen-
tes, um teste de hipótese pode ser realizado. Para avaliar se existe diferença entre a
proporção de doentes ao comparar pessoas que foram vacinadas ou não, um teste de
hipótese pode ser feito.
128
Análise dos resultados de pesquisa e saúde baseada em evidência
4
Um teste de hipótese tem, inicialmente, duas possibilidades de resposta: o que é tes-
tado é diferente ou ele é igual. Isso também acontece ao testar a associação entre as
variáveis, ela pode existir ou não.
Define-se como hipótese nula a hipótese que sempre se refere a não existir diferença
ou associação (VIEIRA, 2016, p. 128). Ela é abreviada como H0 (lê-se “agá zero”). No
exemplo do teste que compara o tempo da enxaqueca dependendo do tratamento reali-
zado, a hipótese nula é que não há diferença entre os tempos de tratamento.
A hipótese alternativa refere-se à existência de diferença ou associação do que se
está testando (VIEIRA, 2016, p. 128). Ela é abreviada como H1 (lê-se “agá um”). No
exemplo do teste que compara o tempo da enxaqueca dependendo do tratamento reali-
zado, a hipótese alternativa é que há diferença entre os tempos de tratamento.
Ao final do teste, se a conclusão é aceitar a hipótese alternativa, pode-se dizer que o
resultado do teste foi significativo ou que a diferença é estatisticamente significante,
sendo possível associar H1 com um resultado positivo do teste. Mas se a conclusão é
aceitar a hipótese nula, pode-se dizer que o resultado do teste foi não significativo ou
que a diferença não é estatisticamente significante, associando então H0 com um resul-
tado negativo do teste.
Como qualquer teste, é possível que o resultado esteja errado. Logo, cada teste de
hipótese tem quatro possibilidades de resultado (Figura 01): a hipótese nula é correta,
a hipótese alternativa é correta, a ocorrência o erro tipo I e ocorrência do erro tipo II.
Figura 01. Possibilidades de resultados em um teste de hipótese
Fonte: adaptada de Fletcher; Fletcher; Fletcher (2014, p. 189).
DIFERENÇA NA NATUREZA OU NA
POPULAÇÃO
Presente Ausente
Teste estatístico
significativo Correto Erro tipo I
Teste estatístico
não significativo Erro tipo II Correto
` Erro tipo I: refere-se aos resultados falsos-positivos, ou seja, o teste mostra
uma diferença, só que na realidade ela não existe (FLETCHER; FLETCHER;
FLETCHER, 2014, p.189). Assim, é afirmar que existe diferença entre o que se
compara quando na verdade não existe diferença. Por exemplo, é concluir seu
estudo afirmando que a acupuntura altera o tempo de duração da crise de enxa-
129
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
queca da pessoa quando, no mundo real, esse tratamento não altera o tempo de
duração da crise.
` Erro tipo II: refere-se aos resultados falsos-negativos, ou seja, o teste não mostra
uma diferença, quando, na realidade, ela existe (FLETCHER; FLETCHER; FLET-
CHER, 2014, p. 189). É afirmar que não existe diferença entre o que se compara
quando, na verdade, existe sim. Por exemplo, é concluir seu estudo afirmando que
a acupuntura não altera o tempo de duração da crise de enxaqueca da pessoa
quando, no mundo real, esse tratamento altera o tempo de duração da crise.
Exemplo
Definição de hipóteses e erros
Pense que uma pesquisa deseja avaliar se a vacina reduz o número de óbitos de COVID-19.
A análise dos dados foi feita comparando a proporção de óbitos no grupo de pessoas que
tomou a vacina com o grupo de quem tomou placebo.
` A hipótese nula deste teste é que a proporção de óbitos nos vacinados nãoé diferente
da proporção de óbitos nas pessoas que tomaram placebo. Ou seja, não há diferença da
proporção de óbito entre os grupos.
` A hipótese alternativa deste teste é que a proporção de óbitos nos vacinados é diferente
da proporção de óbitos nas pessoas que tomaram placebo. Ou seja, há diferença nas
proporções de óbitos.
` O erro tipo I é afirmar que as proporções de óbitos são diferentes quando, na verdade,
elas são iguais.
` O erro tipo II é afirmar que as proporções de óbitos são iguais quando, na verdade, elas
são diferentes.
A conclusão do teste de hipótese é decidir se aceita H0 ou se rejeita H0 e aceita H1.
Para tomar essa decisão, utiliza-se a probabilidade de algum dos erros acontecerem.
Denomina-se α (lê-se alfa) a probabilidade de cometer um erro tipo I e β (lê-se beta) a
probabilidade de cometer o erro tipo II.
Como um resultado significativo tem mais impacto, porque pode promover alterações
em protocolos e em cuidados, o número de falsos-positivos deve ser baixo. É por isso
que na maioria dos casos utiliza-se α, que é a probabilidade de existir falsos-positivos.
Um teste estatístico tem como principal resultado o p-valor (ou p-value, em inglês). O
p-valor é a probabilidade do erro tipo I acontecer, ou seja, de o resultado positivo ter sido
ao acaso e não pelo fato de que ele acontece na natureza. Probabilidade é expressa,
preferencialmente, em número decimais, mas, para facilitar a compreensão, ela pode
ser transformada em porcentagem.
130
Análise dos resultados de pesquisa e saúde baseada em evidência
4 Tendo em mente uma pesquisa do tempo de crises de enxaqueca que compara o tratamento somente com acupuntura com o tratamento padrão, que é exclusivamente medicamentoso.
O resultado do teste estatístico foi um p-valor de 0,123. Isso significa que a probabilidade de
cometer o erro tipo I é de 12,3%, ou seja, existe 12,3% de probabilidade de que a acupuntura
tenha na realidade o mesmo tempo de duração da crise de enxaqueca.
Qual valor de probabilidade de um erro que seria aceitável? Você, profissional da saúde, a
partir desse resultado trocaria o tratamento padrão e a partir desse momento só prescreveria
acupuntura para seus pacientes com enxaqueca em vez de medicamento?
PARA REFLETIR
Existe um consenso na comunidade científica que considera como aceitável um p-valor
menor ou igual que 0,05. Se a probabilidade de acontecer um erro tipo I for menor do
5%, pode considerar que o resultado do teste é de fato significativo. Chama-se de nível
de significância do teste o valor máximo que se aceita de probabilidade de ocorrer o
erro tipo I. Portanto, o nível de significância que a maioria das pesquisas utilizam é de
5% (VIEIRA, 2016, p. 133).
A Figura 2 resume como interpretar o p-valor considerando um nível de significância de
5%. Quando for o p-valor ≤ 0,05, considera-se que a probabilidade de a significância
estatística não existir é, na realidade, baixa. Por isso, aceita-se uma hipótese alternati-
va. Quando for o p-valor ≥ 0,05, a probabilidade da não associação de fato acontecer é
alta, o que leva a aceitar a hipótese nula.
Figura 02. Árvore de interpretação do resultado do
teste estatístico a partir do p-valor
p-valor ≤ 0,05
Rejeitar H0
Aceitar H1
Há diferença
ou associação
Teste
estatisticamente
significante
Teste sem
significância
estatística
Não há diferença
ou associação
p-valor > 0,05
Aceitar H0
Fonte: elaborada pela autora.
131
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
IMPORTANTE
Considere, novamente, o exemplo da acupuntura na crise de enxaqueca. Se o p-valor
for 0,078, deve-se aceitar a hipótese nula: o tempo das crises não é diferente, inde-
pendentemente do tratamento. Se o p-valor for de 0,032, deve-se rejeitar H0 e aceitar
a hipótese alternativa: dependendo do tratamento, o tempo da crise é diferente. Nesse
segundo caso há uma probabilidade de 3,2% de o resultado ser ao acaso e, na realida-
de, não existir diferença.
O p-valor não mede magnitude ou intensidade da diferença ou associação. O teste de hipótese
e o p-valor medem apenas presença ou ausência, diferente ou igual, sendo associação ou não.
Por exemplo, um teste de hipótese fictício compara o tempo de ventilação mecânica com o
peso do paciente. O p-valor < 0,0001 não significa que o tempo de ventilação mecânica está
muito associado com o peso do paciente. Um p-valor de 0,042 ou < 0,0001 terá a mesma
conclusão, que é a associação das variáveis. A diferença de a chance do resultado ser ao
acaso e não acontecer na realidade é maior no caso de 0,042.
` Teste estatístico
O teste estatístico não impede o acaso, ele só calcula qual é a probabilidade de o erro
acontecer. Existem vários testes que devem ser usados em situações específicas. Para
decidir qual realizar, é preciso primeiro saber algumas informações dos grupos e das
variáveis que serão comparados.
A primeira parte é classificar as variáveis. A variável qualitativa ou categórica é expressa
em categorias mutualmente excludentes, enquanto a variável quantitativa ou numérica
é expressa em números com intervalos iguais entre os valores (VIEIRA, 2016, p. 1).
Para as variáveis quantitativas será também necessário saber se elas têm distribuição
normal ou não.
A definição se a variável tem distribuição normal pode ser por meio de um teste esta-
tístico ou pressupor, teoricamente, qual é a distribuição dos dados observados se é
próxima da curva de normalidade. Testes não paramétricos são quando uma ou mais
das variáveis quantitativas têm distribuição não normal.
Para as variáveis qualitativas também será necessário contar quantas categorias de
resposta existem. A variável peso pode ter somente duas categorias de resposta (nor-
mal ou fora do normal) ou ter quatro (baixo peso, peso adequado, sobrepeso e obesida-
de). Quanto menos categorias tiverem melhor será a análise.
Perceba na Figura 03 a comparação entre duas tabelas que exemplificam que muitas
categorias reduzem o número de observações em cada célula da tabela, o que influen-
cia na confiança dos resultados.
132
Análise dos resultados de pesquisa e saúde baseada em evidência
4
IMPORTANTE
Figura 03. Exemplo de distribuição dos dados conforme categorias das variáveis estudadas
(peso e profissão)
BAIXO
PESO
PESO
ADEQUADO SOBREPESO OBESIDADE TOTAL
Técnico (a) de enfermagem 4 10 16 8 38
Auxiliar em saúde bucal 8 9 5 22
Técnico (a) em nutrição e
dietética 1 2 3
Farmacêutico (a) 10 6 4 20
Fisioterapeuta 3 1 4
Médico (a) 7 3 1 11
Psicólogo (a) 2 4 6
Total 7 44 35 18 104
ADEQUADO NÃO ADEQUADO TOTAL
Curso superior 20 43 63
Curso técnico ou auxiliar 24 17 41
Total 44 60 104
Fonte: elaborada pela autora.
O número de variáveis que serão analisadas também influencia na escolha. Grande parte
das análises de dados acontecem com teste entre duas variáveis. Análises com mais de duas
variáveis são mais complexas e envolvem questões de modelagem.
A próxima parte é definir se o teste é pareado ou não. Ser pareado significa que os
sujeitos dos grupos que está se comparando são a mesma pessoa em momentos dife-
rentes ou pessoas com características muito similares que estão relacionadas (VIEIRA,
2016, p. 139). Por exemplo, um estudo sobre estratégia de redução alimentar pode ter
grupos pareados se a análise for comparar o antes e o depois, havendo ou não grupos
independentes que comparam o peso eliminado entre o grupo controle e o intervenção.
A análise pode ser pareada se ao selecionar os integrantes do grupo controle, ele tives-
se características específicas iguais a cada caso.
Os testes estatísticos mais comuns e suas características são (FLETCHER; FLET-
CHER; FLETCHER, 2014, p. 193):
Quadro 01. Relação de testes estatísticos
TESTES CARACTERÍSTICAS
Shapiro Wilk Avalia se uma variável quantitativa tem distribuição normal. A hipótese nula é que a variável tem distribuição normal.
133
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
São
F
ra
nc
is
co
TESTES CARACTERÍSTICAS
Qui-quadrado de
Pearson
Avalia a associação de duas variáveis qualitativas. Às vezes é expresso pelo símbolo Χ2.
Pode ser utilizado para avaliar se o sexo dos alunos influencia na aprovação da disciplina,
comparar se a proporção de aprovados em cada grupo (masculino e feminino) é diferente.
Fisher Avalia a associação de duas variáveis qualitativas que tenham poucos números de observações ou muitas tabelas de contingência vazias. É similar ao qui-quadrado.
Teste t de
student
Compara duas médias de uma variável quantitativa que tenha distribuição normal. É
um teste paramétrico, pode ser pareado ou para grupos independentes. Por exemplo
para avaliar se a idade influencia na aprovação dos alunos é preciso testar se a média
de idade entre os aprovados é igual à idade média dos reprovados. Se a idade tiver
distribuição normal, o teste a ser realizado é um teste t, já que se está comparando as
médias de uma variável normal de dois grupos.
Mann-Whitney Compara duas médias de uma variável quantitativa que não tenha distribuição normal.
É um teste não-paramétrico para grupos independentes. O exemplo é similar ao teste
t, sendo a diferença a distribuição.
Wilcoxon Compara duas médias de uma variável quantitativa que não tenha distribuição normal.
É um teste não-paramétrico para grupos pareados. O exemplo é similar ao teste t,
sendo a diferença a distribuição.
ANOVA Compara três ou mais médias de uma variável quantitativa que tenha distribuição nor-
mal. É um teste paramétrico para grupos independentes. Por exemplo serve para avaliar
se a idade média dos estudantes é diferente entre os diversos cursos da área da saúde.
Correlação Compara duas variáveis quantitativas. É possível calcular uma medida de associação
que mede a intensidade e o quanto do desfecho pode ser explicado pela outra variável.
Fonte: adaptada de Fletcher; Fletcher; Fletcher (2014, p. 193).
Antes de realizar o teste estatístico, é necessário definir, primeiro, quais variáveis analisar
para que a pergunta da pesquisa e seus objetivos possam ser respondidos. É comum
pesquisadores testarem todas as variáveis entre si, isso faz com que o número de testes
seja grande e pelo acaso possa ser que encontre um p-valor menor que 0,05, mas depois
não é possível discutir esse resultado, porque ele não faz sentido no aspecto teórico.
Após reflexão e decisão de quais análises fazer, existe uma sequência de etapa para
realizar um teste de hipótese (Figura 04).
134
Análise dos resultados de pesquisa e saúde baseada em evidência
4
Fonte: elaborada pela autora.
Figura 04. Teste de hipótese
Interpretar o
resultado do
p-valor
Definir
hipótese nula
e alternativa
Especificar
o nível de
significância
Escolher e
realizar o teste
estatístico
É importante definir o nível de significância antes de rodar os testes. Isso é fundamental
para que a escolha do que é “positivo” seja feita independentemente dos resultados
obtidos. Nas últimas décadas, tem-se mudado o paradigma de que uma boa pesquisa
precisa ter resultados estatisticamente significantes. Uma das estratégias utilizadas é
mudar o nível de significância para conseguir resultados positivos. Por isso que é co-
mum estar escrito no artigo “α de 0,05 definido a priori”.
Atualmente, tem se aceitado mais a teoria de que um resultado negativo ou de não
associação tem importância. Os cursos de pós-graduação também discutem o porquê
da significância de 5%. Raras pesquisas possuem outros valores, como 10% ou 1%.
1.2 INTERVALO DE CONFIANÇA
Uma outra estratégia de aferir o acaso é o intervalo de confiança de alguma estimativa.
Considera-se estimativa uma medida estatística que resume ou descreve característi-
cas dos dados coletados na amostra do estudo (FLETCHER; FLETCHER; FLETCHER,
2014, p. 197). Elas são capazes de aferir magnitude real do efeito. São exemplos de
estimativas: média, frequência relativa ou proporção, risco relativo, razão de chances.
135
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Medidas de associações
Risco relativo (RR) é uma razão das incidências de um evento no grupo com a variável de in-
teresse presente contra um grupo sem essa variável (ROUQUAYROL; GURGEL, 2018, p. 701).
Razão de chances ou Odds ratio (OR) é a divisão das chances de um evento acontecer en-
tre dois grupos, aqueles com a variável de interesse presente contra aqueles com a ausência
da variável (FLETCHER; FLETCHER; FLETCHER, 2014, p. 94).
GLOSSÁRIO
PARA REFLETIR
Como as estimativas são medidas de ponto, não é possível garantir quão próximo ela
pode estar ao parâmetro, que é o valor observado na população toda ou na natureza. À
vista disso, é comum que essas estimativas estejam sempre expressas com um inter-
valo de confiança. Define-se como Intervalo de Confiança (IC) uma faixa de valores que
se tem confiança que o valor real está. O valor da estimativa está sempre dentro do IC.
O IC demonstra a certeza que se tem de que os dados da amostra são representativos da
população. Costumeiramente, usa-se IC 95% ou que significa que há 95% de confiança
ou probabilidade de que o parâmetro esteja dentro do intervalo (VIEIRA, 2016, p. 116).
Em uma pesquisa de intenção de voto de uma eleição para prefeito, coletou uma amostra
de 200 pessoas, 42% votariam no Candidato A. Será que o resultado final oficial da eleição
será essa mesma proporção? Se o IC 95% for de 35,2% a 48,8% espera-se que o valor real
esteja dentro da faixa. Caso isso não aconteça, pode ser que o erro tenha ocorrido por conta
de vieses ou pelo acaso.
Toda a interpretação dos resultados, portanto, parte de que a pesquisa foi bem conduzi-
da e que tem baixo risco de vieses. Assim, espera-se que a amostra seja representativa
e, de preferência, com seleção aleatória. Como o intervalo de confiança estima probabi-
lidade é importante reforçar que todos os eventos tenham a mesma chance de ocorrer.
Chama-se de margem de erro a distância entre a estimativa e o limite superior e infe-
rior do intervalo. Para deixar a margem de erro menor, é necessário aumentar o número
de observações e dados coletados. Ao retomar o caso da pesquisa eleitoral, que agora
avalia 2.000 pessoas, o intervalo de confiança fica em 39,8% a 44,2%. Nesse exemplo,
ao considerar que a média é 42%, a margem de erro é de 2,2%.
A grande vantagem dessa estratégia é que as estimativas de pontos avaliam magni-
tude e intensidade. Intervalos de confianças amplos não conseguem deixar claro a
magnitude da associação. Para leigos e profissionais da saúde, a interpretação do IC
é mais fácil do que o p-valor. Quando se quer usar o intervalo de confiança para com-
parar se os valores são diferentes, é preciso que nenhum número dos dois intervalos
se sobreponha.
136
Análise dos resultados de pesquisa e saúde baseada em evidência
4
Exemplo
O candidato A ficou 42% de proporção com IC95% de 35,2 a 48,8%, enquanto o candidato
B ficou com 29,5% de intenção de voto com IC95% de 23,2 a 35,8%. Para um leigo, 29,5%
é diferente dos 42% o que deixaria o candidato A eleito. Mas ao interpretar o intervalo de
confiança, é preciso garantir que as faixas não se sobreponham. Nesse caso, pela análise do
intervalo de confiança é possível que o Candidato B tenha vencido. O parâmetro do candida-
to B pode ser bem no limite superior 35,7%, enquanto o candidato A possa estar com 35,3%
perto do seu limite inferior.
As fórmulas para calcular o intervalo de confiança variam de acordo com a estimativa
de ponto. Em todas as fórmulas vai existir um valor que será associado à porcentagem
de confiança que se deseja.
Ao interpretar o intervalo de confiança do risco relativo e da razão de chances é preciso
considerar se a característica da interação mudou. A interpretação dessas duas medidas
acontece de forma similar. Se o valor for maior do que 1,0, indica aumento do risco ou chance
do desfecho acontecer. Se for igual a 1,0, não existe associação entre as variáveise se for
menor do que 1,0, indica que a exposição reduz o risco ou chance de ocorrer o desfecho.
IMPORTANTE
Um teste avaliou se a presença do antecedente pessoal de insuficiência cardíaca influenciava
na incidência de óbitos de pacientes internados na UTI, teve como o risco relativo 2,22 (IC95%
0,99 – 4,98). Ao analisar somente o valor do risco relativo encontrado com os dados da amos-
tra seria possível dizer que esse antecedente aumenta em 2,2 vezes o risco de ir a óbito, já
que o RR > 1,0. Mas, ao olhar no intervalo de confiança percebe-se que existe a possibilidade
de que o valor real do RR seja 0,99, o que seria interpretar que esse antecedente pessoal
reduz o risco de ir a óbito, pois o RR < 1,0. Nesses casos em que a abrangência do intervalo
de confiança engloba números menores e maiores do que 1,0, não se pode afirmar se a
associação é verdadeira e nem qual é o sentido da interação (reduzir ou aumentar o risco).
2. APRESENTAÇÃO DOS RESULTADOS
Estatística descritiva consiste em resumir os dados coletados de cada variável. Para
as variáveis qualitativas são descritas com frequência absoluta e relativa, enquanto as
variáveis quantitativas são descritas com medidas de tendência central (média, moda e
mediana) e medidas de dispersão (amplitude, percentis, desvio padrão).
A estatística analítica faz associações entre duas ou mais variável, normalmente com
o uso de testes de hipóteses, mas podendo usar também estimativas de ponto com
intervalo de confiança.
Tanto a estatística descritiva como a analítica, podem ser apresentadas em forma de
texto, tabelas ou em gráficos. A decisão de qual meio apresentar depende do destaque
137
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
IMPORTANTE
que se deseja ter no resultado, a importância de detalhar mais as informações e a apa-
rência visual.
2.1 GRÁFICOS
Os gráficos são representações visuais que transmitem a informação de forma visual.
Muitas pessoas acham essa a forma mais agradável de fazer uma comparação e análi-
se dos dados, uma vez que ajudam a visualizar a distribuição das observações.
Todos os gráficos devem apresentar legenda, título e escala. Deve ser possível compreender as
informações descritas nele sem precisar realizar a leitura do texto auxiliar (VIEIRA, 2016, p. 18).
Os gráficos de barras são utilizados para resumir a frequência para categoria da va-
riável. Podem ser de frequência absoluta (contagem de pessoas que deram aquela
resposta) ou frequência relativa (proporção de pessoas que deram a resposta). Eles
podem ter barras horizontais ou verticais, que serão definidas pelas características dos
dados e da variável. É possível ser com apenas uma variável ou pode mostrar a distri-
buição entre duas variáveis qualitativas (Figura 05).
Figura 05. Exemplo de gráfico de barras horizontais com duas variáveis
Frequência relativa da avaliação nutricional por categoria profissional
Técnico (a) em nutrição e dietética
Técnico (a) de enfermagem
Psicólogo (a)
Médico (a)
Fisioterapeuta
Farmacêutico (a)
Auxiliar em saúde bucal
0% 10% 20% 30% 40% 50% 60% 70% 80%
Baixar peso Peso adequado Sobrepeso Obesidade
Fonte: elaborada pela autora.
O gráfico de setores (Figura 6), conhecido também como de “pizza”, é bem tradicional e
de fácil compreensão. Normalmente, é utilizado em apresentações e pôster. Não é reco-
138
Análise dos resultados de pesquisa e saúde baseada em evidência
4
mendado para artigos científicos, quando há restrição do número de imagens e as infor-
mações podem ser descritas em forma de texto sem prejudicar a compreensão do leitor.
Figura 06. Exemplo de gráfico de pizza com a frequência absoluta para descrever uma variável
Fonte: elaborada pela autora.
Categoria profissional dos sujeitos da pesquisa
13
73
64
14
39
22
118
Auxiliar em saúde bucal
Médico (a)
Farmacêutico (a)
Psicólogo (a)
Fisioterapeuta
Técnico (a) de enfermagem
Técnico (a) em nutrição e
dietética
Os gráficos de dispersão são muito utilizados quando se faz um teste estatístico de
correlação. Ele acontece quando se cruza duas variáveis numéricas, de preferência
contínuas, que são representadas em cada eixo. Cada ponto do gráfico representa um
indivíduo (Figura 07).
139
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Os gráficos podem ter uma linha estimada a partir dos dados encontrados. Essa linha é o
resultado do teste estatístico de regressão, a qual pode ser linear ou logística. Os pontos
dessa reta ou curva é uma previsão. No exemplo da Figura 7 seria possível, a partir da
regressão, prever qual seria a nota do aluno somente pelo tempo de realização da prova.
Quando a reta da regressão linear está “subindo”, pode-se concluir que existe uma
correlação positiva entre as variáveis, ou seja, quando uma aumenta a outra aumenta
também. Quando a reta está “descendo” a correlação é negativa, ou seja, as variáveis
são inversamente proporcionais: quando uma aumenta a outra diminui. Quanto mais
inclinada a reta, maior a intensidade da correlação. Quando a reta da regressão está
próxima do sentido horizontal, a correlação é nula (VIEIRA, 2016, p. 57).
Um outro gráfico possível é a diagrama de caixa (em inglês boxplot), muito bom para
descrever visualmente a dispersão de uma variável quantitativa. A Figura 8 detalha o que
significa cada parte do gráfico e nos ajuda a interpretá-lo. Lembrando que quartil são os
pontos de corte que dividem o conjunto de dados em quatro partes iguais, portanto, do
valor mínimo até o primeiro quartil estão 25% das observações e assim por diante.
Figura 07. Exemplo de gráfico de dispersão dos dados (azul) com regressão linear simples
Fonte: elaborada pela autora.
Regressão linear da nota da prova com o tempo de
realização da prova
Tempo
N
ot
a
35
11
10
9
8
7
6
5
4
3
45 55 65 75 85 95
Nota Previsto (a) nota
140
Análise dos resultados de pesquisa e saúde baseada em evidência
4
Figura 08. Descrição das estruturas de um diagrama de caixa
Fonte: elaborada pela autora.
Conforme a distância das linhas dos pontos de corte, é possível saber se os valores
estão dispersos ou concentrados.
2.2. TABELAS
Uma tabela permite ao leitor uma melhor aplicabilidade já que disponibiliza um maior
número de informação e permite que o leitor faça sua interpretação.
A estatística descritiva pode ser apresentada em tabela com as frequências absoluta e
relativa e com as medidas de tendência central e as de dispersão. A Tabela 1 exemplifi-
ca isso ao comparar os grupos caso e controle A estatística analítica, preferencialmente,
é apresentada em forma de tabela para fornecer mais detalhamento da distribuição,
deixando transparente os valores obtidos.
Tabela 01. Exemplo de tabela de resultado com estatística descritiva de um estudo caso-controle que com-
para os grupos da pesquisa
GRUPO CASO
(N = 15)
GRUPO CONTROLE
(N = 30)
Sexo feminino 10 (66,7%) 10 (33,3%)
Idade média [Desvio padrão] 45,2 [±5,4] 49,7 [±4,1]
Escolaridade
Analfabeto 2 (13,4%) 8 (26,67%)
Ensino fundamental 8 (53,3%) 10 (33,3%)
141
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Ensino médio 5 (33,3%) 12 (40%)
Ocupação
Desempregado 3 (20%) 4 (13,4%)
Emprego informal 6 (40%) 16 (53,3%)
Emprego formal 6 (40%) 10 (33,3%)
Fonte: elaborada pela autora.
É comum resultados de pesquisa serem descritos em grandes tabelas que contêm in-
formações de diversas variáveis. Isso acontece, principalmente, quando é um estudo
que investiga diversos fatores que possam estar associados a um mesmo desfecho, por
exemplo, um estudo de coorte que avaliou as causas de internação e a complicação de
sepse. As análises bivariadas foram feitas utilizando o teste qui-quadrado.
A Tabela 02 mostra os resultados com o p-valor das análises bivariadas e risco relativo
com intervalo de confiança de 95% (IC95%).
Tabela 02. Exemplo de tabela de resultado com estatística analítica de um estudo coorte queavalia a
associação das causas de internação e o risco de desenvolver sepse
CAUSA DE INTERNAÇÃO N (N=100) SEPSEN (%) RISCO RELATIVO (IC 95%) P-VALOR
Pneumonia
Presente 23 21 (91,3) 3,35 (2,28 a 4,92) <0,0001
Ausente 77 21 (27,3) Ref
Apendicectomia
Presente 14 7 (50,0) 1,23 (0,69 a 2,20) 0,7173
Ausente 86 35 (40,7) Ref
Fonte: elaborada pela autora.
Nestes casos, é preciso avaliar o intervalo de confiança da estimativa e o p-valor. Pode
ocorrer que ao interpretar o risco relativo e o IC95% conclua-se uma associação, mas
o resultado do p-valor pode ser maior do que 0,05. A partir das informações da Tabela 2
pode-se concluir que ter como causa de internação por pneumonia aumenta o risco do
paciente desenvolver sepse.
3. USO DE SOFTWARES
Ao realizar a análise dos dados, utilizam-se softwares de tabulação e de análise esta-
tística que facilitam o processo. É importante sempre mencionar na sessão métodos
do trabalho qual software foi utilizado e sua versão. Para a organização dos dados,
normalmente, utiliza-se o Excel ou o Google Planilhas (ambos são muito similares). Em
qualquer um deles é possível organizar o banco dos dados coletados, realizar estatísti-
ca descritiva, estruturar as tabelas de resultados e gerar gráficos.
142
Análise dos resultados de pesquisa e saúde baseada em evidência
4
Tanto o Excel como o Google Planilhas trabalham com células que são as casas da ta-
bela. Elas são nomeadas pela coluna e linha em que estão. Exemplo: a célula que está
na segunda coluna (coluna B) e na terceira linha (linha 3) tem o nome de B3. A Tabela 3
representa uma tabulação de um conjunto de dados de seis pessoas. O valor referente
à célula B3 seria 2,3, que é a nota que a aluna M.C.M tirou na prova.
Tabela 03. Exemplo de tabulação dos dados
A B
1 Iniciais do nome Nota
2 V.L.M 8,1
3 M.C.M 2,3
4 G.F.M.M. 1,6
5 D.C.C.G 7,4
6 J.M.R. 9,0
7 S.E. 10
Fonte: elaborada pela autora.
Nesses softwares, é possível inserir comandos que realizam operações matemáticas
ou funções que fazem o cálculo mais facilmente. Para que o software realize qualquer
função ou conta é preciso iniciar digitando o sinal “=”, assim o programa sabe que uma
operação matemática ou uma função deve ser realizada. A Tabela 4 mostra alguns co-
mandos e funções que eles podem realizar. Para saber mais informações, busque na
aba fórmulas de cada software.
Tabela 04. Exemplo de comandos de análise de dados do conjunto de observações descritos na
Tabela anterior
AÇÃO COMANDO RESULTADO DA OPERAÇÃO
Soma de dois valores =A1+A2 10,4
Média do conjunto de dados =MÉDIA (A2:A7) 6,4
Contagem de quantas notas foram
menores que 6,0 no conjunto de dados =CONT.SE (A2:A7;”<6”) 2
Fonte: elaborada pela autora.
143
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Os softwares de tabulação são capazes de realizar algumas análises estatísticas, mas
existem vários pacotes e softwares estatísticos tanto nacionais como internacionais que
conseguem realizar a grande maioria das análises estatísticas. Alguns desses pacotes
ou softwares estatísticos são pagos e outros são de livre acesso. Nesta unidade será
apresentado o software R. Outros programas utilizados com frequência na área da saú-
de são o SPSS e o BioStat.
O software R é livre e aberto para download. Ele foi inicialmente desenvolvido na University
of Auckland, e atualmente é mantido por um esforço colaborativo com uma equipe central.
Para mais informações, visite: https://www.r-project.org/. Acesso em: 23 jan. 2023.
O software SPSS é da IBM. Ele é pago e com uma interface agradável de utilizar. Para conhe-
cer, clique em: https://www.ibm.com/br-pt/products/spss-statistics. Acesso em: 23 jan. 2023.
O software BioStat é uma opção de programa nacional de livre acesso que é mantido pelo
Instituto de Desenvolvimento Sustentável Mamirauá. Ele é simples de utilizar e é em portu-
guês. Visite a plataforma: https://www.mamiraua.org.br/downloads/programas/. Acesso em:
23 jan. 2023.
SAIBA MAIS
O software R é muito utilizado internacionalmente em diversos campos de estudo, tem
inclusive uma versão que é o RStudio que apresenta uma interface mais agradável. Uma
dificuldade é que os comandos, algumas funções e alguns resultados são em inglês.
Uma vantagem é que existem pacotes que podem ser baixados com comandos específi-
cos para alguns tipos de pesquisa e análises estatísticas. Por exemplo, os dados de dis-
tribuição das residências divididas nos setores censitários é um desses pacotes. Portanto,
se alguém deseja fazer um levantamento populacional com uma amostra aleatória com
sorteio de endereços por setor será prático com o uso desse software e pacote estatístico.
Exemplo
Uma pesquisa avalia características de um grupo de 69 alunos que realizaram uma prova.
Uma das análises a ser testada é se o tempo que cada aluno ficou na prova influencia na nota
que ele tirou. Vamos considerar um nível de significância de 95%, a variável tempo de prova
é qualitativa com duas categorias: quem demorou menos ou mais do que uma hora e que a
variável nota é quantitativa com distribuição normal.
Na Figura 9, há o teste estatístico para responder essa hipótese em que a análise foi feita no
software R. Em azul há o comando para se realizar um teste t comparando as médias das
notas de dois grupos, os que fizeram a prova em um tempo menor que uma hora e os que
fizeram em um tempo maior. O resultado é o p-valor (na Figura, p-value) de 0,04233, o que
significa que a proporção de se ter errado um erro tipo I é baixa, então, deve-se aceitar a
hipótese alternativa, que é dizer que existe uma diferença entre as médias de notas dos dois
grupos. Nas últimas linhas da Figura está a média (na Figura, mean que significa média em
inglês) de notas nos dois grupos. O grupo x é o primeiro mencionado (quem demorou menos
tempo), e tem média de 8,18. O grupo y que é o que demorou mais tempo, tem média de 9,0.
https://www.r-project.org/
https://www.ibm.com/br-pt/products/spss-statistics
https://www.mamiraua.org.br/downloads/programas/
144
Análise dos resultados de pesquisa e saúde baseada em evidência
4
Fonte: captura de tela realizada pela autora do software RStudio.
Figura 09. Exemplo de comando e resultado de um teste estatístico no software RStudio
4. CAUSALIDADE
Definir uma relação de causa e efeito é mais complexo do que apenas mostrar uma
associação estatística, sendo que a matemática é só uma parte do processo. É preciso
avaliar o conjunto e garantir que todos os procedimentos e etapas sejam conduzidos
de forma correta.
Uma pesquisa tem resultados que irão descrever e analisar os eventos investigados.
Com os dados é possível estimar e predizer a probabilidade de um evento acontecer,
mas é preciso lembrar que estamos tratando de uma probabilidade, e não de uma
garantia. O acaso também influencia nas possibilidades que um quadro pode evoluir.
Definir o que causa uma doença é complexo. Ao longo dos séculos, a definição do
processo saúde-doença mudou muito e, atualmente, a teoria predominante é que a
saúde tem determinantes e condicionantes. Ficar doente, portanto, é complexo e tem
influência de múltiplos fatores.
O impacto dos elementos de risco para uma doença é influenciado pela presença de outros
fatores e, às vezes, é mais importante a soma desses fatores os quais o paciente apresenta.
É indispensável reforçar que não é porque a pessoa é diabética que ela terá um infarto agudo
do miocárdio; cada doença tem uma grande variedade de fatores que estão associados, ape-
sar de algumas condições serem mais específicas e com uma relação mais forte. Morar em
uma casa sem abastecimento de água pela rede geral tem uma associação muito maior com
doenças diarreicas, mas pode também contribuir para o surgimento de outras enfermidades.
IMPORTANTE
A estatística estabelece associações ao tentar controlar o acaso. É possível gerar uma
estimativa do efeito ou proporção que se espera com os dados coletados, como risco145
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
CURIOSIDADE
relativo ou razão de chances (odds ratio). A partir desse valor, pode-se, pelo intervalo
de confiança, supor qual será o valor do parâmetro que de fato acontece na população
(FLETCHER; FLETCHER; FLETCHER, 2014, p. 197).
Outra ferramenta da estatística é calcular a probabilidade de o teste de hipótese ser um
falso-positivo e, de fato, o que se observou na amostra não é representativo para a po-
pulação. É um consenso um nível de significância de 5%, ou seja, um p-valor menor
do que 0,05 é considerado que a associação é estatisticamente significante.
As relações causais não são explicadas somente pela matemática. A maneira como os
dados foram coletados tem um impacto muito grande. Será que houve algum viés que
pode impactar na associação estatística encontrada? Viés é um erro sistemático que
pode acontecer em diversos momentos e há diferentes estratégias que são capazes
de ser implementadas no método da coleta de dados que reduzem a chance de ele
acontecer (ROUQUAYROL, 2018, p. 705). Esses erros sistemáticos podem ocorrer na
seleção da amostra quando os grupos que serão comparados não são similares porque
houve alguma falha na amostragem.
O viés de aferição acontece quando o equipamento ou a técnica utilizada para aferir uma
variável foi executada errada ou não é confiável. Já o viés de confusão ocorre quando há
uma associação estatística entre a variável explanatória e o desfecho, só que ela aconteceu
por influência de uma terceira variável que realmente é o fator associado ao desfecho.
“Consumo de Chocolate, função cognitiva e prêmio Nobel”
Esse artigo ficou famoso por ser uma publicação em uma das revistas mais conceituadas na
área da saúde. Ele faz uma correlação entre o consumo de chocolate por habitante e o número
de prêmios Nobel que os países têm. Estatisticamente, há uma correlação forte com um p-valor
de < 0,0001 e r de 0,791. Na discussão, é abordado que existe uma plausibilidade biológica,
uma vez que chocolate melhora a função cognitiva, o que pode levar a ganhar um Nobel.
Mas será que se o consumo de chocolate dos alunos da universidade reflete em uma melho-
ra nota nas provas?
MESSERLI, Franz H. Chocolate Consumption, Cognitive Function, and Nobel Laureates.
New England Journal of Medicine, v. 367, p. 1562-1564, out. 2012.
Disponível em: https://www.nejm.org/doi/full/10.1056/nejmon1211064. Acesso em: 15
jun. 2021.
Como vários fatores influenciam em uma associação com significância estatística entre
duas variáveis, é difícil determinar com certeza que “A” causa “B”. Definir a causalida-
de tem um enorme impacto em diversos setores da sociedade. Falar que agrotóxicos
ou defensivos agrícolas causam câncer terá consequências nos setores agrícola e ali-
mentícios e na economia. Em 1965, Austin Bradford Hill, um dos pesquisadores que
descobriu a associação entre cigarro e câncer de pulmão, sistematizou quando se pode
146
Análise dos resultados de pesquisa e saúde baseada em evidência
4
definir uma relação causal. Fletcher, Fletcher e Fletcher (2014, p. 214-216), a partir da
leitura de Hill (1965), apontam os oito critérios de Bradford Hill (Figura 10).
Figura 10. Critérios de Bradford Hill
Fonte: adaptado de Fletcher, Fletcher e Fletcher (2014, p. 214-216).
Força
Relação dose-resposta
Reversibilidade Analogia
Plausibilidade biológicaTemporalidade
Consistência Especificidade
` Força: O critério da força avalia a intensidade da associação. Quanto maior o valor do
risco relativo ou da razão de chances, maior a chance de existir uma relação causal. Mas
isso não significa que associações com pouca força com certeza não têm causalidade.
É importante reforçar que a medida do p-valor não avalia intensidade, então, um valor <
0,0001 não significa que as chances de causalidade são maiores.
` Consistência: A consistência analisa se ocorre os mesmos resultados com observações
diferentes. Se pesquisas com outras populações, em outros locais ou em outra época mos-
tram resultados similares, muito provavelmente, a associação é verdadeira. É interessante
que os estudos tenham delineamentos diferentes para que a fraqueza de um se comple-
menta com a força do outro tipo de desenho. Nem sempre haverá concordância entre todos
os estudos, por isso, é preciso avaliar a qualidade das pesquisas que serão comparadas.
Ter uma discordância com um estudo de baixa qualidade não é tão impactante.
` Especificidade: O critério de especificidade investiga se o fator sempre causa o mesmo
efeito. É um critério mais relevante para as doenças transmissíveis em que existe a pre-
sença do agente infeccioso que provoca uma única doença. A relação inversa também
precisa ser avaliada – quando houve a doença, a causa também esteve presente? Mas,
se considerarmos o cigarro, esse critério não é contemplado. Fumar pode causar diversas
doenças e nem toda pessoa com câncer de pulmão fumou. A ausência dessa relação
específica de causa e efeito não exclui a possibilidade de causalidade.
` Temporalidade: A temporalidade examina a relação temporal. A causa sempre deve exis-
tir antes do efeito acontecer. Por isso que estudos longitudinais prospectivos são melhores
para definir a causalidade. Garantir que, no início do acompanhamento, os sujeitos da
pesquisa não tenham a doença, certifica a temporalidade.
` Relação dose-resposta: A relação dose-resposta investiga se a proporção da doença
aumenta se a exposição também aumentar. Quem fuma altas quantidades de cigarros no
dia tem uma taxa de mortalidade muito maior, ou seja, esse critério contribui muito para
definir a causalidade.
147
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
` Plausibilidade biológica: O critério de plausibilidade biológica sonda se existe uma ca-
deia de eventos biológicos que justifica a exposição causar o efeito. A existência de um
mecanismo fisiopatológico, que fundamente a relação causal, ajuda, mas sua ausência
não exclui a possibilidade de causalidade. Pode ser que o caminho fisiológico ainda não
foi descoberto, então, esse critério não é obrigatório para a definição da relação causal.
EXEMPLO
EXEMPLO
Em 1854, John Snow – médico conhecido como o pai da epidemiologia –, descobriu que a água
fornecida por uma bomba específica de Londres causava morte por doença diarreica, mesmo
quando na época não se sabia da existência de bactérias e das vias de transmissão da cólera.
Reversibilidade: A reversibilidade estuda se, ao remover a exposição, há uma redução dos
efeitos. A presença desse critério aumenta as chances da relação causal. Depois de 15 anos
que a pessoa para de fumar, ela tem o mesmo risco de ter um infarto agudo do miocárdio do
que alguém que nunca fumou.
Analogia: O último critério é a analogia, na qual o argumento de causalidade é favorecido
quando for possível fazer alguma associação com uma relação causal estabelecida. É mais
fácil provar que uma medicação usada por uma gestante causa má-formação no feto, se a
droga tiver características similares à talidomida (um exemplo clássico de um remédio que
causa má-formação).
Os critérios de Bradford Hill são importantes para provar que a relação é causal e não
apenas uma associação estatística ao acaso. Não é preciso ter todos os critérios pre-
sentes, mas quanto mais números deles forem contemplados, mais credibilidade terá o
estudo. Nem mesmo o cigarro – que hoje em dia está bem claro que fumar mata – tem
todos os critérios, visto que a especificidade não é contemplada.
Com esse rigor de definição é difícil um artigo concluir uma relação causal, portanto,
cabe ao leitor analisar se aquela associação tem muitas ou poucas chances de ter
causalidade. Para isso, deve-se avaliar o rigor metodológico e a presença dos critérios,
assim, com todas as informações será possível julgar quais são as chances de a asso-
ciação ser verdadeira.
Um exemplo da diferença entre associaçãoestatisticamente significante e causalidade é a
discussão se a vacina de Sarampo Caxumba e Rubéola (SCR) causa autismo. No final dos
anos 1990, o movimento antivacina ganhou força com a publicação de um artigo científico
da revista The Lancet. Esse artigo concluía que a vacina de Sarampo Caxumba e Rubéola
(SCR) causava autismo e doenças gastrointestinais. Ele foi usado como prova científica de
148
Análise dos resultados de pesquisa e saúde baseada em evidência
4
que a vacina faz mal. A publicação em uma das principais revistas de área da saúde fez com
que os profissionais de saúde e leigos questionassem a qualidade e a eficácia das vacinas,
principalmente da SCR. Em 2010, a The Lancet fez uma retratação, mas as consequências
da publicação ainda estão presentes.
O artigo original que associa a vacina SCR com autismo:
WAKEFIELD, A. J.; et al. RETRACTED: Ileal-lymphoid-nodular hyperplasia, non-specific coli-
tis, and pervasive developmental disorder in children. The Lancet, v. 351, n. 9103, p. 637-
641, 1998. Disponível em: https://doi.org/10.1016/S0140-6736(97)11096-0. Acesso em: 15
jun. 2021.
Para contrapor esse ideal de que a vacina faz mal, há uma revisão sistemática sobre a eficá-
cia e os danos da vacina SCR que avalia artigos de 1966 a 2019:
PIETRANTOJ, C. D.; RIVETTI, A.; MARCHIONE, P.; DEBALINI, M. G.; DEMICHELI, V. Vac-
cines for measles, mumps, rubella, and varicella in children. Cochrane Database of Syste-
matic Reviews, v. 4., n. CD004407. Disponível em: https://www.cochranelibrary.com/cdsr/
doi/10.1002/14651858.CD004407.pub4/full. Acesso em: 15 jun. 2021.
Em suma, várias questões metodológicas são questionadas sobre a pesquisa da vacina e
autismo, mas isso não impediu a publicação e a interpretação de que uma associação forte
era sinônimo de causalidade.
Nesse caos, para nos ajudar a confiar nas conclusões de pesquisa, as revisões são um
tipo de estudo que resumem as evidências sobre um determinado assunto.
5. REVISÃO SISTEMÁTICA
As revisões sistemáticas são um tipo de estudo que resume outras pesquisas sobre um
determinado tema (ROUQUAYROL, 2018, p. 157). Normalmente, elas ocorrem para
avaliar a eficácia de um tratamento ou estabelecer que as evidências até o momento
não são suficientes. Como os ensaios clínicos randomizados são o padrão-ouro para
avaliar um tratamento, há revisões sistemáticas que restringem a amostra para somen-
te esse tipo de estudo.
Existe um rigor metodológico no processo de seleção dos artigos. A coleta de dados, que
nesse caso são os artigos, é sistemática. Os artigos selecionados devem ser publicados
em revistas científicas com parecer de outros pesquisadores para garantir a qualidade.
Essas revistas são indexadas em bancos de artigos, bibliotecas e repositórios, como a
BIREME e a MEDLINE/PubMed. Os pesquisadores selecionam escritores que definem o
escopo da pesquisa com a finalidade de restringir a busca para o que somente eles estão
procurando. Depois dessa primeira seleção, os critérios de inclusão são aplicados.
É fundamental não excluir muitos artigos, porque isso pode deixar a amostra não representativa.
Então, mesmo que o artigo seja pago, ou em outra língua, deve-se tentar incluir na pesquisa.
IMPORTANTE
149
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Com frequência, dois avaliadores fazem a seleção dos artigos e, depois, os resultados
são cruzados. Caso haja um artigo que só um avaliador selecionou, um terceiro pes-
quisador decide se ele deve ser incluído na amostra. Todo o processo de seleção dos
artigos deve ser descrito da mesma maneira que o método de seleção dos sujeitos da
pesquisa é descrito. Em geral, um fluxograma resume o processo (Figura 11).
Figura 11. Exemplo de fluxograma do processo de seleção dos artigos
Fonte: elaborada pela autora.
O resultado da revisão sistemática são as características dos artigos. A metanálise
é uma análise estatística que combina os resultados analíticos de cada estudo para
chegar a uma única estimativa de ponto (ROUQUAYROL, 2018, p. 157). É uma análise
estatística interessante porque, ao juntar várias pesquisas, o número amostral aumen-
ta, o que melhora o poder do teste.
Exemplo
A título de exemplo, combina-se o risco relativo de cada artigo para se chegar em um risco
relativo total. Cada artigo tem um peso diferente na composição da estimativa final a depen-
der da característica da amostra e dos resultados individuais.
150
Análise dos resultados de pesquisa e saúde baseada em evidência
4
A metanálise pode ser apresentada pelo gráfico de Forest (Forest plot, em inglês). A
Figura 12 é um exemplo do gráfico com resultados fictícios de oito estudos. Sempre
haverá uma tabela com as informações e o gráfico com a representação da estimativa
de ponto e o intervalo de confiança. A última linha é a estimativa de ponto combinada
que no gráfico é representado pela imagem de losango, que também descreve o IC.
Figura 12. Exemplo de gráfico Forest
Legenda: N: número de observações da amostra; OR: odds ratio; IC: intervalo de confiança. Fonte: elabo-
rada pela autora.
Para interpretar o gráfico de Forest, é preciso relembrar que as medidas de associações
odds ratio (razão de chances) e risco relativo se interpretam de forma similar. Se o valor
for maior do que 1,0, indica aumento do risco/chance de o desfecho acontecer, mas se
for igual a 1,0, não existe associação entre as variáveis. Quando for menor do que 1,0,
indica que a exposição reduz o risco ou a chance. Outro ponto importante é que se o
valor 1,0 estiver dentro do intervalo de confiança, não é possível garantir a presença de
uma associação entre as variáveis.
No gráfico de Forest há uma linha vertical no 1,0 para visualmente ficar claro quais
estudos estão dentro do IC com o valor 1,0. Na Figura 12, os estudos B, D, E, F e G
estão nessa condição em que não se pode garantir associação, mas seus resultados
são usados para gerar o valor combinado de associação.
Vamos considerar que o gráfico de Forest (Figura 12) resume estudos que comparam
a associação do uso de um medicamento com morte por determinada doença. Mesmo
que só os estudos A e C concluam associação, o valor combinado de OR foi de 0,53 e
o seu intervalo de confiança (IC95% 0,39 A 0,73) só tem valores menores do que 1,0.
Isso significa que essa metanálise tem evidência estatística de que o uso da medicação
reduz a chance de morte.
151
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Na revisão sistemática, o viés de publicação está presente, porque pesquisas que
só tiveram resultados sem significância estatística têm mais dificuldade de publicação
(FLETCHER; FLETCHER; FLETCHER, 2014, p. 227). Rejeitar artigos que demonstram
a não associação entre as variáveis faz com que a revisão sistemática seja tendenciosa
para ter resultados que corroborem a associação. É preciso ficar atento se os critérios
de exclusão não estão enviesando a amostra quando se restringe a língua que o artigo
é escrito ou para apenas textos de acesso livre.
Aprofunde seus conhecimentos acerca de revisão sistemática com a leitura do artigo: CAM-
POS, A. C. V. et al. Prevalência de incapacidade funcional por gênero em idosos brasileiros:
uma revisão sistemática com metanálise. Revista Brasileira de Geriatria e Gerontologia
[online], v. 19, n. 3, p. 545-559, mai.-jun. 2016.
SAIBA MAIS
Disponível em: https://doi.org/10.1590/1809-98232016019.150086. Acesso em: 15 jun.
2021.
A qualidade dos estudos também precisa ser avaliada. Se a revisão sistemática resume
artigos de baixa qualidade, seu resultado não será confiável. Existem diversas escalas
para avaliar a qualidade do artigo. É possível colocar como critério de exclusão artigos
que pontuaram pouco nas escalas e, assim, fazer sua revisão e metanálise somente
com pesquisas fortes.
A escala PEDro é específica para ensaios clínicos da fisioterapia com avaliação de 11
critérios. Há a escala Downs e Black que avalia27 critérios e pode ser utilizada para
várias áreas. A Biblioteca Cochrane também tem uma escala de avaliação. De modo
geral, todas elas avaliam a presença dos vieses, como o de seleção, de relato e de afe-
rição, os cegamentos dos participantes da pesquisa e a análise estatística.
Assim como existem escalas que avaliam os estudos primários, há as que avaliam a
qualidade da revisão sistemática. As duas escalas mais utilizadas são a AMSTAR, com
14 itens, e a PRISMA, com 27 itens. É importante conhecer quais são os critérios utili-
zados para que, ao escrever o artigo, o pesquisador deixe claro o que foi feito a fim de
que o avaliador possa pontuar.
As revisões sistemáticas devem ser lidas rotineiramente pelos profissionais da saúde,
visto que elas facilitam a busca e o acesso às informações. Mas não é pelo fato de
ser uma revisão que é possível confiar nos resultados – sempre deve-se questionar a
qualidade do procedimento metodológico e da análise estatística. Atualmente existem
bancos de dados e bibliotecas virtuais que se especializaram em revisões sistemáticas,
algumas gratuitas e outras com acesso pago.
152
Análise dos resultados de pesquisa e saúde baseada em evidência
4
SAIBA MAIS
Bancos de dados e bibliotecas virtuais gratuitas:
` Biblioteca Cochrane é especializada em tratamento e até coordena alguns ensaios clíni-
cos. Disponível em: https://www.cochranelibrary.com/ (Acesso em: 15 jan. 2023).
` Epistemonikos é uma base de dados de evidências com grande número de revisões sis-
temáticas. Disponível em: https://www.epistemonikos.org/en/ (Acesso em:15 jan. 2023).
` Health Evidence é um repositório atualizado constantemente com pesquisas acerca de
gestão, finanças e prestações de serviços em sistemas de saúde. Disponível em: https://
healthevidence.org/ (Acesso em: 15 jan. 2023).
6. SAÚDE BASEADA EM EVIDÊNCIA
Saúde baseada em evidência (SBE) é uma abordagem de atuação dos profissionais
de saúde, pautada nas melhores evidências científicas (ROUQUAYROL, 2018, p. 167).
Para avaliar a qualidade das evidências são utilizadas ferramentas e conceitos de me-
todologia em pesquisa, da epidemiologia e da estatística. Esse é um conceito ampliado
do termo medicina baseada em evidência (MBE), mas, muitas vezes, as pessoas usam
a terminologia mais antiga se referindo à atuação de outros profissionais.
É difícil para um profissional de saúde se manter atualizado depois de formado. Mesmo
durante os estudos é possível que o professor não esteja ciente das mais recentes atu-
alizações. Quando existiam poucas revistas, era comum o profissional fazer uma assi-
natura e receber o exemplar em casa para se atualizar. Agora que há muitas revistas e
um acesso facilitado é difícil conseguir separar o que ler. A revisão sistemática facilita o
acesso às informações, mas, mesmo assim, há profissionais que atuam conforme o que
ele percebe que funciona e não no que as evidências falam que é o melhor tratamento.
Os delineamentos de estudo têm uma hierarquização da confiança na conclusão a par-
tir da qualidade metodológica e análise dos dados. A ordem de prioridade é:
a. Revisão sistemática: com metanálise por resumir os estudos primários e agrupar carac-
terísticas diferentes.
b. Ensaio clínico: estudo experimental e longitudinal com a comparação de dois grupos: a
intervenção e o controle. As variáveis são muito controladas e, portanto, reduzem a chan-
ce de viés de confusão ou outra interferência. De preferência, o ensaio clínico deve ser
randomizado e duplo cego para melhorar a qualidade dos dados.
c. Coorte: estudo observacional longitudinal, normalmente, prospectivo. Assim como nos
ensaios clínicos, consegue medir a incidência e o risco de uma exposição “causar” uma
doença, além disso, garante a temporalidade da associação.
153
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
SAIBA MAIS
d. Caso-controle: estudo observacional longitudinal e retrospectivo. Consegue medir a as-
sociação entre exposição e desfecho, mas não garante a temporalidade. É mais rápido e
prático do que o estudo coorte.
e. Estudo transversal: estudo descritivo em um único período de tempo. As associações
são frágeis já que não garantem temporalidade e podem apresentar fatores de confundi-
mento.
f. Série de casos e relato de casos: descrevem a evolução clínica de um grupo pequeno
de pessoas que apresentavam um quadro similar. A amostra é enviesada. É útil para des-
crição de casos incomuns ou de uma possível nova doença.
g. Opiniões de especialistas e experiência prática: não existe método de pesquisa e aná-
lise estatística. É o pensamento de um especialista sobre o assunto e sobre o que ele
vive no seu cotidiano de atendimento. Algumas revistas científicas têm uma sessão para
publicação de opiniões de especialistas.
Os estudos ecológicos não entram na lista porque as associações concluídas neles não po-
dem ser inferidas para indivíduos.
Recomendações clínicas é uma maneira fácil de resumir as evidências e comunicar os
profissionais de saúde. O Sistema GRADE (Grading of Recommendations, Assessment,
Development and Evaluation) gradua as informações, o que facilita para o profissional
a interpretação se uma prática é recomendada e a qualidade das evidências coletadas
(ALMEIDA FILHO; BARRETO, 2011, p. 358). Em suma, ele avalia intervenções de saúde.
As recomendações são classificadas pela força em (1) forte ou (2) fraca. As evidên-
cias são divididas em quatro níveis de qualidade: (a) alta, (b) moderada, (c) baixa, (d)
muito baixa. Dessa forma, uma intervenção classificada pela GRADE como 2c é uma
recomendação fraca com evidências de baixa qualidade. Há também uma avaliação da
clareza da relação risco/benefício.
CONCLUSÃO
Como profissionais de saúde, é nosso papel questionar se o que está sendo divulgado
e realizado é de fato correto, ou seja, é nossa função procurar as respostas baseadas
em evidências. Mas não se deve acreditar em qualquer evidência – precisa ser cientí-
fica, com métodos definidos e análises estatísticas, além disso, a pesquisa precisa ser
transparente e sem conflitos de interesse.
É preciso julgar qualquer pesquisa, mesmo que ela seja feita por pessoas famosas ou
publicadas em revistas importantes. Será que o procedimento metodológico foi correto?
Teve algum erro? A amostra é representativa? Podemos confiar nos resultados? Com
tais respostas, avaliamos a pesquisa e decidimos nossas condutas. Por isso, é indis-
pensável que estejamos sempre atualizados.
154
Análise dos resultados de pesquisa e saúde baseada em evidência
4
REFERÊNCIAS BIBLIOGRÁFICAS
ALMEIDA FILHO, N. de; BARRETO, M. L. Epidemiologia & Saúde: Fundamentos, Métodos e Aplicações.
Rio de Janeiro: Guanabara Koogan, 2011.
FLETCHER, R. H.; FLETCHER, S. W.; FLETCHER, G. S. Epidemiologia clínica: elementos essenciais. 5.
ed. Porto Alegre: ArtMed, 2014.
HILL, A. B. The environment and disease: association or causation? Proceedings of the Royal Society
of Medicine, v. 58, n. 5, p. 295-300, maio, 1965. Disponível em: https://www.ncbi.nlm.nih.gov/pmc/articles/
PMC1898525/. Acesso em: 15 jun. 2021.
ROUQUAYROL, M. Z.; GURGEL, M. Rouquayrol: epidemiologia & saúde. 8. ed. Rio de Janeiro: Medbook,
2018. 752 p.
VIEIRA, S. Introdução à bioestatística. 5. ed. Rio de Janeiro: Elsevier, 2016.
155
4
Bioestatística e epidemiologia
U
ni
ve
rs
id
ad
e
S
ão
F
ra
nc
is
co
Introdução a metodologia e análise de dados em pesquisas
1. Definição de bioestatística
2. Definição de epidemiologia
3. Introdução a pesquisa
4. Método de pesquisa
5. Coleta de dados
6. Resultados
7. Probabilidade
8. Distribuição normal
9. Anormalidades
Epidemiologia descritiva
1. Estudo transversal, de prevalência e seccional
2. Série ou relato de casos
3. Estudos ecológicos
4. Distribuição de eventos por pessoas, tempo e lugar
5. Conceito, histórico e características de um bom indicador
6. Incidência e prevalência
7. Indicadores de natalidade, fecundidade e morbidade8. Indicadores de mortalidade
9. Transição demográfica e epidemiológica
Epidemiologia analítica
1. Estudo Coorte
2. Estudo de prognóstico
3. Estudo caso-controle
4. Tabela de contingência
5. Risco relativo e risco atribuível
6. Razão de chances (odds ratio)
7. Análise de sobrevida
8. Ensaio clínico
9. Estudos diagnósticos
Análise dos resultados de pesquisa e saúde baseada em evidência
1. Análise estatística
2. Apresentação dos resultados
3. Uso de softwares
4. Causalidade
5. Revisão sistemática
6. Saúde baseada em evidência
_GoBack