Prévia do material em texto
2
Propriedades psicométricas dos testes psicológicos
Evandro Morais Peixoto
Carla Fernanda Ferreira-Rodrigues
A medida está presente no dia a dia das pes Soas nos mais diferentes contextos. Podemos uti
lizá-la para calcular a distância entre duas lo
calidades, para medir o tamanho dos cômodos de uma casa e assim verificar se a casa se adequa às necessidades de uma família ou para aferir as
medidas do corpo antes e depois de iniciar uma dieta, apenas para citar alguns exemplos. Em tais situações são aferidos atributos físicos e para
eles há uma única forma de se avaliar (centíme
tro, metro, milhas, quilômetro, quilo). Na ciência
psicológica também são utilizados instrumentos a
fim de mensurar as características psicológicas, no
entanto, os psicólogos possuem vários instrumen
tos (testes psicológicos, técnicas psicológicas, ob
servações e entrevistas) com diferentes formas de
avaliação de um mesmo fenômeno ou caracterís
tica (tempo de reação, quantidade de acertos, ní
vel de concordância a um determinado item etc.).
Você deve ter percebido que diferente dos
atributos físicos, os construtos psicológicos não
são palpáveis, ou seja, não podemos pegar, por
exemplo, a inteligência Ou a personalidade, da
mesma maneira que não podemos acessar toda a
extens�o da inteligência ou personalidade de uma
pessoa. Assim, para aferir as características psico0
lógicas, os psicólogos utilizam os instrumentos
psicológicos como forma de verificar indireta
mente as características e fenômenos psicológicos
(Primi, Muniz, & Nunes, 2009). De acordo com
Anastasi e Urbina (2000), "o teste psicológico e
essencialmente uma medida objetiva e padroni
zada de uma amostra do comportamento" (p.
18). Obviamente, esta amostra não é selecionada
ao acas0, mas cuidadosamente, pois através dela
Cumpre-se o principal objetivo de avaliar o cons
truto dos quais aqueles comportamentos sáo ex
pressão. A título de exemplo, as autoras afirmam
que, neste caso, o psicólogo procede de forma
muito semelhante ao bioquímico que, ao avaliar
O sangue de um paciente, analisa as característi
cas de uma amostra dele (Urbina, 2014).
Diferentemente do bioquímico frente à amos
tra de sangue, o psicólogo depende de outros
meios para saber o quão adequado está sendo
na escolha da amostra a ser analisada, haja vista
a impossibilidade de observação direta dos cons
trutos psicológicos (Pasquali, 2010). Diante de
tais dificuldades, o psicólogo precisa demonstrar que existe uma correspondência entre a amos
tra de comportamento escolhida e o construto
-alvo, essa relação deve ser apresentada através das diferentes evidências de validade e precisão
do instrumento (Primi et al., 2009). Vale salien
tar que apenas tais evidências não são o bastante
para que o instrumento venha a ser utilizado pe
los profissionais da Psicologia, bem como para
sua conercialização no Brasil. Também é neces
sário que apresente estudos reterentes à padro
nização dos procedimentos, aplicação, correção
e análises dos dados, bem como referências às
normas, diante da população para a qual o ins
30 Evandro Morais Peixotoe Carla Fernanda Ferreira Rodriques
trumento foi validado (Rabelo, Brito, & Rego,
2011). Diante da centralidade dos paranictros
psicometricos dos testes, neste capitulo serao
apresentados os parametros de validadC, prect
Sao e normatizacão com base nas diretrizes do
The Standiards for Educatiotal and lP'sychological
lestnig (era, APA & NCME, 2014) ou mais co
nhecido como Standards, que é a publicação de
reterencia na area tanto para pesquisadores que
cOnstroem e adaptan testes psicologicos quanto
para professores, profissionaise estudantes inte
ressados nos paråmetros psiconetricos dos testes.
Validade
A validade corresponde ao parâmetro psi
cométrico mais importante para a área de Psi
cologia, e a definição mais clássica do termo re
Fonte
Evidéncias baseadas no conteúdo.
Evidéncias baseadas no processo de
resposta
Evidéncias baseadas na estrutura interna.
EvidenCias baseadas nas relações com
variáveis externas.
Evidéncias baseadas nas consequéncias
da testagem.
lerc-sC aO LTaW Cm qlC O teste mede O que se propoc a medir, ao quc o teste mede e quao bem cle faz isso (Anastasi & Urbina, 2000). Poré, essas definiçóes impoem validade ao teste, ra-
Fonte: Primi et al.. 2009. p. 25 1.
zendo a ideia de que o teste é válido
válido. Atualmente a validade é entendida como O grau com que teorla e evidências sustentam a
interpretação dos escores do teste. Assim, para cada contexto/propósito de utilização do teste.
para cada interpretaçao pretendida é necessáris
que os escores do t teste poSsuam evidências de va-
lidade (Aera et al., 2014). O termo *fontes da
evidências de validade" introduzido por Messick
(1986), e não mais "validade" como era tratada
essa propriedade psicométrica, representa bem
essa mudança de visão para grau e não mais tudo
ou nada. Nesse sentido, o processo de validacão
de um instrumento pode ser entendido como o
Definição
Levanta dados sobre a representatividade dos itens do teste, investigando
se esses consistem em amostras abrangentes do dominio que se pretende
avaliar com o teste.
Levanta dados sobre os processos mentais envolvidos na realização das
tarefas propostas.
Levanta dados sobre a estrutura das correlações entre os itens, avaliando o
mesmo construto, e também sobre as correlacões entre subtestes, avaliando
Construtos similares.
Levanta dados sobre os padrões da correlação entre escores do teste e
outras variáveis, medindo o mesmo construto ou construtos relacionados
(convergência), e com variáveis medindo construtos diferentes (divergência)
lambén traz dados sobre a capacidade preditiva do teste de outros fatos de
interesse direto (critério externo) que têm importância por si só e associam-se
ao propósito direto do uso do teste (p. ex.. sucesso no trabalho).
Examina as consequências sociais intencionais e não intencionais do uso
teste para verificar se sua utilização está surtindo os efeitos desejados.
acordo com o propósito para o qual foi criado.
Quadro 1 Fontes de evidencia de validade
2 Propriedades psicométricas dos testes psicológicos
desenvolvimentoeo acúulo de evidencias com O propósito de fornecer bases cientificas sólidas que sustentem as interpretações realizadas a par tir dos resultados do teste, bem como a relevân cia de sua utilização.
Nos Standards são definidos 5 fontes de evi dência de validade: 1) evidências baseadas no conteúdo; 2) evidências baseadas no processo de resposta; 3) evidências baseadas na estrutura interna; 4) evidências baseadas na relação com variáveis externas; e 5) evidências baseadas na consequência da testagem (Aera et al., 2014). Tais fontes são apresentadas no Quadro 1, segui das de suas definiÇões.
O primeiro tipo de evidência, baseada na aná lise de conteúdo, destaca a avaliação de especia listas no construto, que avaliam a importância dos itens, tendo em vista sua relação com os aspectos a serem avaliados. Além disso, julga-se o conjunto de itens quanto à sua abrangência, frente à ava
liação do construto proposto. Nesse sentido, au
tores têm feito uso de diferentes procedimentos
que contribuem para a realização desse tipo de
análise. Dentre eles, destacam-se a porcentagem
de concordância, estimativa do coeficiente Kappa
e coeficiente de validade de conteúdo.
O primeiro deles, porcentagem de concor
dância interavaliadores, é feita por meio do
cálculo da porcentagem de concordância entre
juízes independentes. A tarefa de cada juiz é
analisar os itens que compõem o instrumento,
julgando qual das áreas da escala o conteúdo
do item contempla. A porcentagem de concor
dância entre os juízes é estimada, sendo conside
rados, para análise, valores que envolvem, por
exemplo, classificações em: concordância quase
perfeita (entre 0,80 e 1,00), concordância subs
tancial (0,60 a 0,80), concordância moderada
(0,40 a 0,60), concordância regular (0,20a 0,40)
e concordancia discreta (0,00 a 0,20), contorime
modelo proposto por Landis e Koch (1977).
O segundo método, coeficiente Kappa, ten
sido considerado um índice útil quando vários
avaliadores categorizam cada grupo de objetos
Ou sujeitos em categorias nominats (Alexan
dre & Coluci, 20 11). Para tanto, cada classifica
ção efetuada pelos juízes foi comparada com um
"juiz ideal", o qual representava a classificação
originalmente pensada para cada item. Para uma
análise qualitativa, cosiderou-se que valores de
Kappa acima de 0,75 indicariam uma concor
dância excelente; entre 0,40 e 0,75, uma con
cordância satisfatória; e abaixo de 0,40, uma
concordância insatisfatória, recomendados por
Fleiss (198 1).
Esse método pode ser definido como uma
medida de associação usada para descrever e tes
tar o grau de concordância (confiabilidade e pre
cisão) na classificação de diferentes juízes (Perro
ca & Gaidzinski, 2003). Os mesmos autores, no
entanto, argumentam que, apesar de largamente utilizado para o estudo de confiabilidade, o coe
ficiente Kappa apresenta limitações na medida em que não fornece informações a respeito da
estrutura de concordância e discordância, mui
tas vezes não considerando aspectos importantes presentes nos dados. Dessa forma, não deve ser
utilizado indiscriminadamente como uma única medida de concordância, devendo-se incorporar outras abordagens com o objetivo de comple
O terceiro métod0, apresentado por Cassep -Borges, Balbinotti e Teodoro (2010), para ava
liação dos itens quanto à clareza da linguagem,
pertinência práica, relevância teórica e dimen
são teórica avaliada, é denominado de Coefi
ciente de Validade de Coteúdo (CVC). Esse
coeficiente é derivado da concordância entre os
mentar a análise.
32 Evandro Morais Peixoto e Carla Fernanda Ferreira-Rodrigues
julgamentos de juizes independentes, leta me
diante unna escala de tipo Likert de S pontos cm
que o juiz indica o grau de adequaçio dos itens.
Esse metodo tem como principal objcto superar
as deficiências de metodos conmo o Kappa, que
servem apenas a analises de variávcis categóricas
(Cassep-Borges et al.. 2010).
O segundo tipo de evid�ncia de validade, ba
seada no processo de resposta, de acordo com
Aera et al. (2014), normalmente decorrem do
processo individual de resposta, questionando o
sujeito avaliado quanto ao caminho percorrido,
cognitivamente, para chegar a determinado re
sultado. Quanto mais o construto teórico prevê
os processos mentais utilizados para a resolução
dos problemas propostos pelo teste, mais evi
dências de validade ele apresenta.
Quanto às fontes de informação de evidên
cia de validade para análise da estrutura interna,
comumente utiliza-se Análise Fatorial Explora
tória (AFE) e análise da consistência interna dos
itens. Nesse caso, a busca por evidências envolve
a verificação da coesão da estrutura prevista pelo
construto, com a observada nos dados empíricos
(Primi et al., 2009). No entanto, pesquisadores
tém contestado o poder da AFE, especialmen
te pela instabilidade e volatilidade das soluções
fatoriais quando testadas em diferentes estratos
da mesma população (Osborne & Fitzpatrick,
2012). Outra importante limitação deste proce
dimento diz respeito às suas limitações teóricas.
Efetivamente, trata-se de uma técnica explorató
ria que busca a descoberta de variáveis latentes,
capazes de explicar o comnportamento manifes
to, a partir dos resultados de análise estatística
(Maroco, 2010).
Diante de tais circunstáncias, os autores pas
saram a fazer uso da Análise Fatorial Confirma
tória. Segundo Maroco (2010), essa técnica tem
como principal objetivo a avaliacao da qualidad
de ajustamento de um modelo de medida teó-
'iCO, a cstrutura correlacional cntre as variáveis
observadas (itens). P'ara tanto, o pesquisador
deve cstabclecer, d priori, o número de fatores
esperados, de acordo com a teoria preestabele
cida ou com estudos anteriores. Assim, ao cox
trário da análise fatorial exploratória, na qual ,
método estatístico determinao número de fato.
res e carga fatorial de cada item, na Análise Fa
torial Confirmatória o pesquisador começa por
formular o quadro teórico, especifica o número
de fatores, bem como quais variáveis carregam
sobre tais fatores e, posteriormente, recolhe da
dos que confirmem ou não esse quadro teórico.
�Em um certo sentido, a AFCé uma ferramen
ta que nos permite confirmar ou rejeitar nossa
teoria preconcebida" (Hair et al., 2009, p. 590).
Nessa direção, a adequação do modelo fatorial
pode ser avaliada por meio de diferentes índices
de ajuste (cf. Maroco, 2010), que avaliam dife
rentes critérios representantes de diferentes as
pectos na avaliação do modelo estrutural.
Atualmente tem se destacado o uso do Explo
ratory Structural Equation Modeling (Esem) para
a avaliação da estrutura interna dos instrumentos
de medida em psicologia. De acordo com Marsh,
Morin, Parker e Kaur (2013) este método agrega
Os principais aspectos da Análise Fatorial Explo
ratória (AFE) e Análise Fatorial Confirmatória
(AFC). Com base em informações prévias, teorI
cas ou empíricas, o pesquisador estabelece o nu
mero de fatores, e uma estrutura complexa onde
todos os itens podem se correlacionar com todos
os fatores é estimada. Nesta perspectriva, o Ese
Se caracteriza como uma importante alternativa
à AFC, onde os itens são intencionalmente dis-
postos a Correlacionar-se com apenas um fator,
resultando cm modelos altamente restritivOS,
2 Propriedades psicométricas dos testes psicologicos
muitas vezes não condizentes com a realidade,
levando os pesquisadores a falhas na estimação
de evidências de ajuste dos dados observados
aos modelos teóricos. Por outro lado, o Esem
pode ser considerado como alternativa à AFE,
uma vez que possibilita avaliação da invariância
de modelos fatoriais frente a diferentes grupos, bem como o cálculo de índices de ajustes comu
mente observados em modelos tradicionais de
AFC (Tomás, Marsh, González-Romá, Valls, &
Nagengast, 2014).
Para a obtenção de evidências de validade
Com base na relação com variáveis eXternas, co
mumente emprega-se o estudo de correlacão dos
escores do instrumento com variáveis externas a
ele, que são estes: critério (que busca a evidên
cia da capacidade do instrumento em predizer
O construto avaliado), teste medindo o mesmo
construto (com os quais se espera uma conver
gência entre os escores obtidos através de corre
lações significativas), testes medindo construtos
relacionados (com os quais se espera uma cor
relação moderada) e testes medindo construtos
diferentes (quando se espera uma divergência en
tre os resultados, através de correlações baixas ou
nulas). Os primeiros tipos s�o também chamados
de evidências de validade convergente e, o últi
mo, divergente. "Evidentemente tais relações de
vem ser fundamentadas por um racional teórico
lastreado em literatura" (Primi et al., 2009).
Por fim, o último tipo de informação das
evidências de validade de um teste refere-se à
evidência baseada na consequência da testagem.
Para tanto, busca-se verificar as consequências
sociais advindas da utilização do instrumento,
especialmente quanto aos seus eteitos na popu
lação submetida a sua avaliação. Nesse sentido,
espera-se que a utilização do teste seja conver
gente cOm os propósitos para os quais foi cria
do. Embora se discuta de quem seria de tato tais
responsabilidades, o construtor do instrumentO
não pode isentar-se dessa responsabilidade, uma
vez que ele deve, já na elaboração do teste, 11
formar os objetivos finais desta construção, pois
já é claro que a má utilização do instrumento
pode comprometer a validade das interpretaçöes
e consequentemente a legitimidade dos dados
obtidos (Primi et al., 2009).
Ao longo da exposição referentes aos dife
rentes tipos e fontes de evidências de validade
você pode ter sentido falta de exemplos concre
tos que operacionalizassemos procedimentos
apresentados. Conscientes da impossibilidade
de esgotarmos 0 tema, sugerimos que acessem
a edição especial da revista Psicothema, vol. 26,
n. 1, 2014 (http://www.psicothema.com/english/
table.asp?Make = 20 14&Team= 1001). Nesse vo
lume pesquisadores de grande relevância na
área, de diferentes partes do mundo, apresentam
artigos metodológicos com exemplos práticos e
claros dos métodos a serem empregados para es
timação dos diferentes tipos de evidências de va
lidade. Acreditamos que tais publicações podem
ser tomadas como referências práticas aos pes
quisadores e profissionais que têm como objetivo
o processo de avaliação de evidências de validade
de instrumentos psicomnétricos.
Precisão
Segundo Pasquali (2003), o conceito de pre
cisão vem sendo relatado ao longo do tempo por
diferentes expressões com0: fidedignidade, esta
bilidade, constância, confiabilidade, consistência
interna, homogeneidade, entre outras. Embora
as mais genéricas e, portanto, mais utilizadas,
sejam precisão e fidedignidade. Segundo o au
tor, essa variedade de expressoes torna-se um
34
probiem.a a medida em psicologia, unna vez que
Os protissionaIs as utilizam em decorrência dos
aspectos que querem salicntar em seus estudos.
Evandro Morais Peixotoe Carla Fernanda Ferreira-Rodrigues
Precisão ou confiabilidade se referem à con
Sisténcia dos escores quando o procedimento de
testagem é repctido. em momentos diferentes, em
uma populacão. indivíduo ou grupo. Assim, tais
conceitos apresentam-se ntimamente associa
dos ao erro de medida, que é representado pela
1ariaço entre os escores obtidos, em diferentes
momentos (4era et al., 2014: Anastasi & Urbina,
2000: Primi. 2012). Diversos são os mnotivos que
podem intluenciar a variabilidade dos escores de
um teste, mesmo porque seus itens podem ser
inadequados ao construto avaliado. Deve-se en
tão atentar ao fato de que o próprio instrumento
carrega em si erros de medida, o que faz com que
o escore produzido pelo instrumento se distancie
do escore verdadeiro do sujeito. Nesta direção,
Primi (2012) afirma que "Em razão da comple
xidade própria às variáveis psicológicas, pratica
Teste-reteste
Forma-alternada (Imediata)
Forna-alternada (Retardada)
Métodos das Metades (Split-Hal)
Kuder-Richardson e Coeficiente Alpha
Avaliador
mente nunca a variabilidade em esCores observa-dos reflete com exatidão e precisão as diferenças reais na variável latente" (p. 300).
Os erros de medida são classificados oet
mente como aqueles que não podem ser co
trolados pelo pesquisador, ou seja, são rando.
mizados e consequentemente imprevisíveis. Por
outro lado, distinguem-se fortemente dos errOS
sistematizados, aqueles que podem ser previs.
tos, tais como: condiÇÕes e ambiente da testa.
gem, procedimentos de aplicação, correção e
análise dos instrumentos, entre Outros. Desta
forma, as informações sobre o erro de medida
são essenciais ao propósito de avaliação e utili
zação de instrumentos psicológicos, não poden
do nenhum profissional que atua na construção,
adaptação e avaliação dos testes isentar-se desta
responsabilidade (Aera et al., 2014).
Para avaliação da precisão, Anastasie Urbina
(2000) propõem cinco procedimentos, apresen
tados no Quadro 2.
Amostragem de tempo
Amostragem de conteúdo
O procedimento de teste-reteste apresenta-se
Como o mais óbvio, uma vez que por meio dele
o pesquisador pode estimar a correlação entre a
distribuição de escores derivados das avaliaÇões
realizadas em dois momentos diferentes, estabe
lecendo assim uma estimativa do escore verda
dciro e do erro. Contudo, é um procedmento
Amostragem de tempo e de conteúdo
Amostragem de conteúdo
Amostragem de conteúdo e heterogeneidade de conteúdo
Diferença entre avaliadores
Quadro 2 Fontes de variáncia de erro em relação aos coeficientes de fidedignidade
Fonte: Anastasi c Urbina (2000, p. 97).
que apresenta algumas limitações, especialmente
no caso de avaliações de grandes amostras, ou
COnstrutos psicológicos, em que mudanças en
função do tempo são esperadas, como no c
da avaliação do humor, ou construtoS que
frem influência de questöes maturacionais (Pas-
quali, 2003).
2 Propriedades psicom�licas dos testes psicológicos
Frente às limitlcòes cnconradas na fide dignidade do procedimento teste-reteste há a possibilidade de utilização de formas alterna das do mesmo instrunmento, seja ela imediata ou retardad.a. Desta fornma os participantes da pesquisa såo testados com uma forma na pri meira ocasiâo e com outra, equivalente, na se gunda (Anastasi & Urbina, 2000). Também não é difícil observar algumas das limitações deste método, como a possibilidade de um grupo de testandos ser beneficiado com uma forma mais fácil do instrumento, de haver aprendizagem das características do instrumento, por conta da experiência com a primeira aplicação, ou ainda da dificuldade, enfrentada pelos pesquisadores, de construir duas formas alternativas do mesmo
instrumento em face dos recursos necessários
exigidos para a construção de um instrumento (Pasquali, 2010).
A fidedignidade através de duas metades
(Split-Half) consiste na aplicação de um único
teste, em uma única amostra, e depois na divisão
dos itens em duas partes paralelas, e equivalen
tes. Nesse caso, o índice de precisão é estima
do pela correlação entre as duas metades. Nessa
situação, supõe-se que todos os itens do teste
medem o mesmo construto psicológico. Assim,
a divis�o deste teste em duas metades compa
ráveis equivale a obter duas medidas por meio
de formas paralelas do mesmo teste e, portanto,
passam a ser válidas as mesmas deduções obtidas
por medidas paralelas (Primi, 2012). Deve-se no
entanto atentar ao fato de que o cálculo desta
correlação baseia-se somente na metade do teste
e, como o número de itens afetao tamanho da
correlação, é preciso corrigir este coeficiente, o
que é usualmente feito com o emprego de uma
fórmula denominada correção de Spearman
-Brown (Brown, 1910; Spearman, 1910).
Quanto aos métodos Kuder-Richardson c
Coeficiente Alpha, també denominados pre
CIsão por consistência interna, sustentam-sC na
"suposição de que cada item representa uma
medida paralela do mesmo construto C, por
tanto, pode-se estimar a precisão de um tcs
te baseando-se na covariância entre os itens"
(Primi, 2012, p. 303). O objetivo é o de es
timar a homogeneidade/heterogeneidade do
conjunto de itens (Anastasi & Urbina, 2000). A
diferença entre o método proposto por Kuder
e Richardson (1937) e a técnica de Cronbach
(1951) consiste na extensão da última aos itens
politômicos, enquanto a proposta de Kuder-Ri
chardson se prestava apenas aos itens dicotô
micos: certo ou errado.
Embora o coeficiente alfa de Cronbach seja,
ainda, mais utilizado na literatura especializada, algumas críticas têm sido direcionadas a este
procedimento. Em especial destacam-se algumas de suas limitacões como o tato de ser um coe ficiente influenciado pelo número de itens que compõem o instrumento, bem como pelo núme ro de alternativa de resposta da escala Likert uti lizada. Além disso, trata-se de um procedimen to que matematicamente considera as variáveis como contínuas e não ordinais, como é o caso dos itens politômicos (p. ex., sistemas de res posta baseados na escala Likert). Nesta direção, autores como Ventura-Leóne Caycho-Rodrigues (2017) sugerem o Omega de Mcdonald como um método alternativo para a estimação da con sistência interna de testes com itens politômicos, sob a justificativa de que este método se baseia nas cargas fatoriais dos Instrunmentos c, portal tO, são mais estáveis aO esUar o nível de con
sistência internal. Alem disso, enn sua expressão matemática, nao sofre intluencia do número de
Itens que cOmpoem o mstrumento.
36
Evandro Morais Peixoto e Carla Fernanda Ferreira Rodriques
l'or i, uma fonte de variincia de crro que
pode scr Veriicada de lorma simples e .a varia
Cil do valhdor.Issa se aplil s aos teses
projctivos e de personalidade, usL.tlente de
pendentes de jul:aneno por parte dos avalido
res, Nesses Casos o Que deve ser avaliadocograu
de acordo obido cnre diterentes vali:adores.
A medid.a da idedignid.ade do avahador pode
seT obtid.a por mncio da correlaçao cntre proto
colos de testes pontuados, independentemente,
por examinadores diferentes. Este procedimcnto
e norm.almente realizado quando instrumentos
avaliados subjetivamente são empregados em pes
quisas (Anastasi & Urbina, 2000).
De fornna geral, considera-se índices de con
fiabilidade maiores que 0,7 apropriados para os
instrumentos de avaliação psicológica e desejá
veis se maiores que 0,80 (Anastasi & Urbina,
2000; Maroco, 2010; Primi, 2012). Em inves
tigações exploratórias, como a primeira versão
de um instrumento em desenvolvimento, valores
acima de 0,6 passam a ser aceitáveis (Hair et al.,
2009). Ainda sobre as propriedades psicométri
cas dos testes, Primi (2012) alerta para a relação
entre precisão e validade, pois embora o primei
ro conceito seja de extrema importância, não é
suficiente para afirmar a validade de um instru
mento. Mesmo preciso, um teste pode estar me
dindo uma variável diferente daquela para a qual
foi proposto.
Normatizaçãolpadronização
Embora não cxista uma unanimidade quanto
à diferenciação entre os conceitos de normatiza
ção e padronizaç�o, por exemplo, Anastasi e Ur
bina (2000) e Urbina (2007) consideram a nor
matização como uma segunda etapa do processo
de padronização de um teste psicológico; alguns
autorcs tém proposto uma scparaçao cOnceitual
para lins didáticos (Rabclo ct al., 2011), cnquan-
to ouros procuraram estabelecer uma clara defi.
niçao entre os conceitos (1asquali, 2003, 2016
Nesta dircção, a padronização diz respcito à unj.
formidade de procedimentos frentc à utilizaçãs do testc, os quais envolvem: ambiente de aplica-
cão, material, aplicador, instruções de aplicação,
correção c interpretação do instrumento. Visa
Com taus proccd1mentos, garantir as mesmas cos
dições de aplicação do instrumento e de resposta
a todos os examinandos, a fim de que seus resul
tados possam, posteriormente, Ser comparados
por meio das tabelas normativas.
Normatização, por sua vez, corresponderia
à uniformidade na interpretação dos escores que
uma pessoa recebeu no teste. Desta forma, com
param-se os escores obtidos pela pessoa com os
escores obtidos por um grupo de referência (gru
po normativo), de maneira que a posição relativa
desse escore frente ao grupo possa ser interpre
tada através de um escore padr�o (Embretson &
Reise, 2000; Primi et al., 2009). A partir dos da
dos normativos, a pessoa pode ser classificada
em relação a iguais, de maneira a verificar seu
desempenho comparado a um grupo, dando
assim sentido psicológico ao escore bruto (so
matório dos itens) que compuseram o instrumen
to respondido.
Usualmente, as tabelas comparativas po
dem ser elaboradas para a população geral, ou
separadas de acordo com variáveis que exercem
influência nos resultados do teste, tais como ni
vel de escolaridade, sexo, região do país, nivel
socioeconômico, dentre outras. Procura-se ga
rantir, assim, igualdade de condições na compa
ração dos resultados. Neste caso, o grande desa
fio a ser enfrentado pelos construtores de teste
e contar com amostras grandes parao proceSso
2Propriedades psicomélricas dos testes psicológicos
de normaizaca0, para que lesmo lO SCT Cstra tificada en diferentes subamostras possam gur dar a representatividade das diferentes canmadas amostrais.
Quanto aOs procedimentos para transforma cão de escores brutos em resultados compará veis com o grupo nornmativo, diferentes méto dos podem ser encontrados na literatura, como também não é objetivo deste capítulo esgotar o tema, serão apresentados os métodos mais c0 mumente empregados na literatura brasileira: percentil e escore padr�o. Dentre os motivos que justifiquem a maior utilização destes procedi mentos destaca-se a facilidade de interpretação e a universalidade destes métodos, possibilitando por exemplo a comparação de uma pessoa em relação às pontuações apresentadas em diferen tes instrumentos (Anastasi & Urbina, 2000).
No método percentil os dados referentes a
um grupo normativo são dispostos numa cur
va de Gauss, sob o pressuposto de que os da
dos assumem distribuição normal. Desta forma,
o resultado de uma pessoa pode ser comparado
com o grupo normativo à medida que o posto
percentil atingido por ela indica a quantidade de
pessoas da amostra que apresentou resultados
inferiores ao dela.
O segundo método escore padrão, também
denominado de resultado padrão ou simples
mente escore z busca transformar o escore bruto
apresentado por uma pessoa no teste em uma
escala que expressa a posição dessa pessoa em
relação à média da amostra nornativa, tendo
como base unidades de desvio padrão. Vale res
saltar que a média do escore z é ancorada em 0e
o desvio padrão é igual a 1, desta forma os esco
res são distribuídos simetricamente, numa escala
que varia de -4 a +4.
Confornme discutido por Peixoto c Nakano
(2014), a fórmula para o cálculo do cscore pa
drão pode ser obtida por duas vias distintas que
resultarão no escore padrão ou escore padráo
normatizado. Para a transformação do cscore
bruto em escore z. obtém-se inicialmente a di
terença entre o resultado bruto do indivíduo c
a média do grupo normativo, e posteriormen
te divide-se esta diferença pclo desvio padrão
do grupo normativo, como represen tado na
fórmula:
Onde:
Z=
X = escore bruto
X- M
DP
M= média do grupo normativo
DP = desvio padrão do grupo normativo
Os escores padrão normatizados, por sua
vez, correspondem à transformação que obje
tiva ajustar esStes escores a uma curva normal e
encontrar o escore padrão correspondente às
frequências desta curva, localizado com a ajuda de uma tabela de frequência de curva normal onde se obtém o escore padrão normatizado (Peixoto & Nakano, 2014). De acordo com essa correspondência, 0 escore padrão normatizado correspondente à média é igual a 100 (desvio Dadrão 0), de modo a indicar que a pessoa está localizada no centro da curva normal e seu es core superou 0 de s00 da amostra normativa.
Enquanto uma pessoa com escore 85 (desvio pa drão -1) supera aproximadamente l60, e outra com escore T15 supera aproximadamente 8400 (desvio padrão 1). Uma pessoa que apresenta es core padrão normatizado igual a 130 supera o
desempenho obtido por cerca de 980% (desvio padräo 2) da população.
38 Evandro Morais Peixoto e Carla Fernanda Ferreira-Rodrigues
Considerações finais
Este capitulo teve como principal objctivo a
apresent:ação e definição dos principais parâne
tros psicOmétricos dos testes psicológicos, mais
especificamente os conceitos de validade, preci
são e normatização de acordo com o que é pro
posto nos Standards. O leitor deve ter percebido,
ao final da leitura, que nos exemplos apresen
tados para medidas físicas, no início do capítu
lo, o parâmetro psicométrico mais importante é
a precisão, pois o instrumento de medida não
pode conter variação na medida (centímetro,
metro, kilograma etc.). Na Psicologia também é
importante queo erro de mensuração seja míni
mo para termos mais segurança nas decisões a
tomar. Porém, a validade possui mais peso, uma
vez que antes de ter um instrumento bem cali
brado é importante saber se ele realmente mede
O que se prope.
Referências
Alexandre, N.M.C. & Coluci, M.Z.O. (201 1).
Validade de conteúdo nos processos de construção
e adaptação de instrumentos de medidas. Ciência e
Saúde Coletiva, 16(7), 3.061-3.068 [doi: 10.1590/
S1413-8123201 1 000800006].
American Educational Research Association (Aera),
American Psychological Association (APA), & National
Council on Measurement in Education (NCME)
(2014). Standards for educational and psychological
testing. Washington: American EducationalResearch
Association.
Anastasi, A. & Urbina, S. (2000). Testagem psicológi
ca. Porto Alegre: Artes Médicas Sul.
Brown, W. (1910). Some experimental results in
the corrclation of mental abilities. British Journal of
Psychology, 3, 296-322.
Cassepp-Borges, V Balbinotti, M.A.A., & Teodoro,
M.L.M. (2010). Tradução c validação de conteúdo:
uma proposta para a adaptação de instrumento. In
Destaca-se que os procedimentos aqul apre-sentados se basearam na Teoria Clássica dos Tes-tes (TCT). Embora bastante consolidada ens
os psicometristas e presente na grande parte do.
1nstrumentos desenvolvidos até a atualidade
estes não são os únicos métodos para avaliação das propriedades psicométricas dos testes. Ou-
tras propriedades podem ser investigadas Dor
meio da Teoria de Resposta ao Item (TRI) como
parâmetros: dificuldade, discriminação e proba
bilidade de respostas ao acaSO, e caracteristicas
das pessoas: nível de habilidade no construro
avaliado. A TRI possibilita também a norma
tização dos instrumentos com referência nos
itens; maiores detalhes sobre a aplicação deste
procedimento podem ser acessados em Peixoto e
Nakano (2014). Além disso, outros procedimen
tos com base na TRI serão discutidos com maior
profundidade em outros capítulos desta obra.
L. Pasquali et al. (Orgs.). Instrumentação psicológica:
fundamentos e prática (pp. 506-520). Porto Alegre:
Artmed.
Cronbach, LJ. (1951). Coefficient alpha and the in
ternal structure of tests. Psychometrika, 16, 297-334.
Embretson, S.E. & Reise, S.P (2000). Item response
theory for psychologists. Mahwah, NJ: Lawrence
Erlbaum.
Kuder, G.F. & Richardson, M. W. (1937). The theo
ry of the estimation of test reliability. Psychometrika,
2(3), 151-160.
Landis,J.R. & Koch, G.G. (1977). The measure
ment of observer agreement for categorical data.
Biometrics, 33, 159-174 [doi: 10.2307/25 293 10].
Marsh, H.W., Morin, A.J.S., Parker, P, & Kaur, G.
(2013). Exploratory Structural Equarion Modeling:
an integration of the best features of Exploratory
and Confirmatory Factor Analysis. Annual Revieu
Propicdades psicométicas dos testes psicológicos
of Clinical Psvcbology, 10, S I0 do: 10.1Ho
annurev-clinpsv-0328L31s37001
Messick, S. (198o). The onve and tutume Issies of validity: Assessing the meanmg and consequences ol measurement.
Osborne. ]. & Fitzpatrick, D.C. (202). Replhcation Analvsis in Exploratory Factor Analvsis: What it is and vh it makes vour analvsis better. Practical Assessient. Rescarch c Eraluation, 17(1S), I-8.
Pasquali. L. (2003). Tsicometria: Teoria dos testes na Psicologiacna Educação. Petropolis: Vozes.
Pasquali. L. (2007). TRI - Teoia de Resposta ao ltem: teoria. procedimentos e aplicações. Brasília: LabPAM.
Pasquali, L. (2010). Testes referentes a construto: reorias e modelos de construção. In L. Pasquali et al. (Orgs.). Instrumentação psicológica: fundamentos e
prática (pp. 165-198). Porto Alegre: Artmed.
Pasquali, L. & Primi, R. (2003). Fundamentos da teo
ria da resposta ao item: TRI. Avaliação Psicológica,
2, 99-110.
Peixoto, E.M. & Nakano, TK. (2014). Problemas
e perspectivas na utilização dos testes psicológicos
em psicologia do esporte. In C.R. Campos & T.C.
Nakano (Orgs.). Avaliação psicológica direcionada a
populações especificas: técnicas, métodos e estratégias
(pp. 201-232). São Paulo: Vetor.
Perroca, M.G. & Gaidzinski, R.R. (2003). Avaliando
a confiabilidade interavaliadores de um instrumento
Pa Issilicacao de paciCutes: cochcicntc Kappa.
Rerista lol de nleraeH) UST 7 U). 72-%0
|do: 10. I s90/S0080 62342003000 |00009].
I'rm, R. (2012). 'ICometra: funduncntos Inatematt
COs da tcoria dássICa dos tcstes, Avltacao l'eiColozica,
1I(2), 297-307.
Rabclo, L.S., Brit0, L., RCyo, M..S. 2011).
P'adronizaçao e normatizacão de testes psicológicos:
simplificando conceitos. In R. Ambicl, 1. Rabclo, S.
Pacanaro, G. Alves, & 1. Leme. (Orgs.). Aualiacao ps
cológica: guia de consulta para estudantes e profts
sionais de psicologia (pp. 129-162). São Paulo: Casa
do Psicólogo.
Spearman, C. (1910). Correlation calculated from
faulty data. British Journal of Psychology, 3, 271-295.
Tomás, I., Marsh, H.W., González-Romá, V., Valls,
V., & Nagengast, M. (2014). Testing measurement
invariance across Spanish and English versions of
the physical self-description questionnaire: An appli
cation of exploratory structural equation modeling.
Journal of Sport Exercise Psychology, 36, 179-188
[doi:10.1123/jsep.2013-0070].
Urbina, S. (2014). Essentials of psychological testing.
Nova Jersey: Wiley.
Vallerand, R.J. (1989). Vers une méthodologie de
validation transculturelle des questionnaries psycho logiques: implications pour la recherche em langue
française. Psychologie Canadiense, (s.l.], 30, 662-680.
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }
{ "type": "Document", "isBackSide": false }