Prévia do material em texto
2Módulo
Avaliação de bens e
imóveis com foco no
método evolutivo
Infraestrutura
Conceitos e noções básicas de Estatísticas
aplicadas na avaliação de imóveis
Enap, 2021
Fundação Escola Nacional de Administração Pública
Diretoria de Desenvolvimento Profissional
SAIS - Área 2-A - 70610-900 — Brasília, DF
Fundação Escola Nacional de Administração Pública
Diretoria de Desenvolvimento Profissional
Conteudista/s
Antônio Sérgio Costa Amorim, 2021.
Diretoria de Desenvolvimento Profissional.
Sumário
Unidade 1: Noções de estatística ........................................................4
1.1 Considerações Iniciais ................................................................................................ 4
1.2 Medidas Estatísticas ................................................................................................... 5
1.3 Aplicando Conceitos ................................................................................................... 8
1.3.1 Calculando Amostras .............................................................................................. 9
1.3.2 Desvios nas Amostras ........................................................................................... 12
Referências ..................................................................................................................... 14
Unidade 2: Econometria .....................................................................15
2.1 Considerações Iniciais .............................................................................................. 15
2.2 Regressão Linear ...................................................................................................... 16
2.3 Método dos Mínimos Quadrados........................................................................... 18
2.3.1 Formas de Encontrar uma Reta de Regressão Linear e sua Equação ............ 19
2.4 Coeficientes de Determinação (R²) e Correlação (R) ............................................ 23
2.5 Distribuição Normal ................................................................................................. 26
2.6 Pressupostos Básicos para a Validação dos Modelos ......................................... 29
2.7 Estimativas Intervalares ........................................................................................... 41
2.7.1 Hipóteses Estatísticas ........................................................................................... 42
2.7.2 Intervalo de Confiança (IC) ................................................................................... 43
2.7.3 Distribuição F de Snedecor .................................................................................. 43
Referências ..................................................................................................................... 45
4Enap Fundação Escola Nacional de Administração Pública
Módulo
Conceitos e noções básicas
de Estatísticas aplicadas na
avaliação de imóveis
2
Esse módulo abordará os conceitos mínimos necessários de estatística para melhor
entender os pressupostos normativos e resultados obtidos no tratamento científico
de dados de uma amostra em uma avaliação de imóveis.
1.1 Considerações Iniciais
Unidade 1: Noções de estatística
Objetivo de aprendizagem
Ao final desta unidade, você será capaz de entender conceitos básicos de estatística
utilizados nos métodos de avaliações de imóveis.
A partir de agora, o curso vai começar a falar em números, fazer contas, analisar dados,
enfim, algo que todo engenheiro de avaliações gosta de fazer.
A utilização da metodologia científica, especialmente nas etapas de analise
exploratória dos dados coletados e construção do modelo de avaliação, fica mais
fácil com a ajuda de sistemas computacionais específicos. Embora existam vários
softwares específicos de avaliação de imóveis e de estudos estatísticos avançados
disponíveis no mercado, neste curso, você irá se aprofundar somente na abordagem
introdutória da estatística descritiva e nas impressões iniciais sobre a regressão
linear aplicada às avaliações de imóveis.
Estatística é a área da matemática que estuda a coleta, registro, organização e análise
dos dados de uma pesquisa.
Há três tipos de estatísticas:
• Descritiva: é a base inicial de uma análise, caracterizada pela coleta, organização
e apresentação de dados por meio de técnicas que permitem descrever e resumir
de forma simplificada algumas características de um conjunto de dados;
Enap Fundação Escola Nacional de Administração Pública 5
• Inferencial: é caracterizada por ferramentas e técnicas que possibilitam obter
afirmações e conclusões a partir da amostra de uma população e, com base
nessa análise, é possível obter afirmações e conclusões sobre essa população;
• Probabilística: caracterizada por análises de situações de incerteza oriundas
de fenômenos aleatórios.
Para o estudo de estatística, é fundamental que alguns conceitos sejam bem assimilados
para melhor compreensão das técnicas e ferramentas que serão utilizadas.
1.2 Medidas Estatísticas
Na estatística, utilizam-se alguns parâmetros/números para medir e resumir certas
características das distribuições (ou frequência) dos dados de uma amostra ou
população, que são denominados Medidas Estatísticas.
Para o estudo deste curso, serão melhor explicadas algumas dessas medidas de
Posição (ou Tendência Central) e medidas de Dispersão, que são as mais utilizadas
para a avaliação de bens.
As Medidas de Posição (ou Tendência Central) são as estatísticas que representam
uma série de dados que orientam quanto à posição da distribuição em relação
ao eixo horizontal do gráfico da curva de frequência. Elas mostram o valor
representativo em torno do qual os dados tendem a se agrupar, seja com maior ou
menor frequência. São utilizadas para sintetizar, em um único número, o conjunto
de dados observados. As principais medidas de posições são:
A. Média aritmética: é o valor obtido somando-se um conjunto
de valores observados e dividindo-se o total pelo número de
valores. É denotada por x̄ (leia-se “x barra”).
B. Mediana (Md): é um valor central de um rol, ou seja, a mediana de um
conjunto de valores ordenados (crescente ou decrescente) é a medida que
divide este conjunto em duas partes iguais.
C. Moda (Mo): é o valor que se repete com maior frequência no conjunto.
6Enap Fundação Escola Nacional de Administração Pública
Exemplo: nos dados dos conjuntos abaixo, tem-se:
A = {3, 4, 6, 7, 9, 10, 14}
x̄ = 7,57 Md = 7 Mo = amodal (nenhuma moda)
B = {2, 4, 6, 8, 9, 11, 13, 15}
x̄ = 8,5 Md = 8,5 Mo = amodal (nenhuma moda)
C = {1, 3, 6, 5, 9, 4, 3, 8} => ordenando => {1, 3, 3, 4, 5, 6, 8, 9}
x̄ = 4,875 Md = 4,5 Mo = 3 unimodal (uma moda)
E = {10, 3, 5, 8, 3, 6, 10, 4} => ordenando => {3, 3, 4, 5, 6, 8, 10, 10}
x̄ = 6,125 Md = 5,5 Mo = 3 e 10 multimodal (duas ou mais modas)
Já as Medidas de Dispersão mostram o grau de afastamento dos valores observados em
relação ao valor representativo. Servem para verificar a representatividade das medidas
de posição, pois é muito comum encontrar séries que, apesar de terem a mesma média,
são compostas de maneira distinta. As principais medidas de dispersão são:
A. Amplitude (h): é a diferença entre o maior e o menor valor de um
conjunto de dados.
h = xmáx – xmín > Ex.: X = { 8, 2, 6, 4, 9, 15, 13, 11 } -> h = 15 – 2 = 13
B. Desvio médio (DM): é o desvio médio ou afastamento médio em relação à média.
C. Desvio médio absoluto (DMA): é o desvio médio absoluto ou afastamento
médio absoluto em relação à média.
D. Variância da Amostra (σ²): é a soma dos quadrados dos desvios dividida
pelo número de ocorrências. Utilizada para avaliação da variabilidade de
um processo/amostra.
E. Desvio Padrão (σ): é a raiz quadrada positiva da média aritmética dos
quadrados das diferenças entre cada valor e a média aritmética do conjunto,
ou a raiz quadrada da variância.
F. Coeficiente de Variância (CV): é uma comparação,em
termos percentuais, do desvio padrão de uma série de
dados em relação ao valor médio dessa série. Permite a
comparação de amostras com unidades diferentes.
Enap Fundação Escola Nacional de Administração Pública 7
Exemplo CV:
Em um grupo de pessoas, observou-se os resultados abaixo. Qual das duas grandezas
possui maior grau de dispersão?
- Altura -> CV = (5 / 175) x 100 => CV = 2,86 %
- Peso -> CV = (3 / 68) x 100 => CV = 4,41 %
Resposta: neste caso, o Peso apresenta o maior grau de dispersão.
Média Desvio Padrão
Altura 175 cm 5,0 cm
Peso 68,0 kg 3,0 kg
Exemplo - Com os dados do conjunto X = {2, 4, 6, 8, 10}, tem-se:
Série
(x)
Dados Desvios
x̄ - xⁿ
DMA
Variância (σ²) Desvio Padrão (σ)
x¹ 2 4 4 16
x² 4 2 2 4
x³ 6 0 0 0
x⁴ 8 - 2 2 4
x⁵ 10 - 4 4 16
Somatória 30 0 12 40
Média x̄ 6 - - σ²=10 σ=3,16
O desvio padrão é uma medida que possibilita uma análise melhor e mais conclusões
que uma simples média.
Exemplo σ - Um professor aplica uma prova a duas turmas de 100 alunos cada,
obtendo as seguintes notas:
8Enap Fundação Escola Nacional de Administração Pública
Notas de duas turmas de alunos, coletadas e organizadas em forma de tabela.
Fonte: CEPED/UFSC (2022).
Neste caso, fazendo os cálculos das médias e desvio padrão de cada turma:
- Média das notas da Turma 1 = 6,85 Desvio padrão das Notas da T 1 = 2,07
- Média das notas da Turma 2 = 6,85 Desvio padrão das Notas da T 2 = 1,71
Assim, é possível concluir que a Turma 2 seria mais homogênea do que a Turma 1.
1.3 Aplicando Conceitos
Como você aprendeu, a engenharia de avaliações se ocupa em estimar o valor do bem
avaliando, e que, sendo o imóvel pertencente ao mercado de concorrência imperfeita,
seu valor geralmente será consequência do mercado em que ele está inserido.
Veja o seguinte exemplo: em uma determinada região, existe uma seleção de indivíduos
homogêneos, composta predominantemente indivíduos “roxos”, de forma que, ao
extrair uma amostra dessa população, ela deverá ser eminentemente homogênea.
Em um segundo quadrante, existe uma seleção de indivíduos heterogêneos, no qual
não é possível afirmar como ela é composta em sua predominância, de forma que, ao
extrair uma amostra dessa população, ela será eminentemente heterogênea.
Enap Fundação Escola Nacional de Administração Pública 9
Logo, populações homogêneas produzirão amostras homogêneas,
ao passo que populações heterogêneas produzirão mais
facilmente amostras heterogêneas. Entretanto, toda amostra,
sendo ela homogênea ou heterogênea, apresentará variação em
torno de sua média. Essas variações são chamadas de desvios
ou erros, e acontecem devido aos fatores socioeconômicos e
diferenças físicas entre os dados. Isso é a chamada “aleatoriedade
de mercado”, conforme apresentado na imagem:
Ilustração de tipos de amostras.
Fonte: CEPED/UFSC (2022). Adaptado de Pinto (2018).
1.3.1 Calculando Amostras
4
5
6
Agora, você entenderá como são feitos esses cálculos no mercado imobiliário.
Imagine a seguinte situação: em uma pesquisa, coletam-se sete amostras – que são
chamados dados de mercado –, cada uma com um preço.
10Enap Fundação Escola Nacional de Administração Pública
Dessa amostra, tem-se o dado 1, com o preço ofertado de 360 reais; o dado 2, com
o preço ofertado 370 reais; o dado 3, com preço ofertado de 330 reais; e assim por
diante. A soma dos sete dados totaliza 2.270 reais e a média de preços da amostra
é de 324 reais.
Seria muito fácil parar no valor médio obtido pela média aritmética direta das amostras
obtidas. Porém, no mercado imobiliário, os dados podem ser bem diferentes entre
si, e considerar apenas os preços ofertados não explicará a realidade do mercado,
deixando margem para uma grande variação em torno da média, como você verá a
partir de agora.
Para fazer esses cálculos, é importante saber calcular a variação de cada dado, que é
chamado de resíduo. Para calcular o resíduo de cada dado, basta subtrair seu preço
ofertado pela média das amostras.
Continuando o exemplo anterior, tem-se: o dado 1 tem resíduo de 35,70 (360 -324);
o dado 2 tem resíduo de 45,7 (370 - 324); e assim por diante, até o dado 7 com
resíduo -94,30 (230 - 324), de modo que o somatório dos resíduos da amostra é
zero, como mostra a coluna “Resíduo (Y - Ymed)” do quadro a seguir:
Dados Preço (Y) Preços médios
(Ymed)
Resíduo
(Y – Ymed)
Resíduo²
1 360 324 35,7 1.275,51
2 370 324 45,7 2.089,80
3 330 324 5,7 32,65
4 460 324 135,7 18.418,37
5 270 324 -54,3 2.946,94
6 250 324 -74,3 5.518,37
7 230 324 -94,3 8.889,80
Total 2270 0 39.171,43
Média 324
Cálculo dos resíduos da Amostra.
Fonte: CEPED/UFSC (2022).
Enap Fundação Escola Nacional de Administração Pública 11
O somatório dos resíduos sempre será zero, pois esse dado
corresponde às restrições impostas pela média, sendo suas
diferenças positivas anuladas pelas negativas.
Você reparou que na última coluna consta “resíduo²”?
Isso é necessário para eliminar o sinal negativo dos resíduos, ou seja, eleva-se ao
quadrado ou trabalha-se em módulo. Para representação mais adequada, eleve ao
quadrado cada resíduo: o dado 1 tem resíduo² de 1.275,51 (35,7)², e assim por diante,
até o dado 7, com resíduo² de 8.889,80 (-94,3)². Assim, o somatório do quadrado
dos resíduos é 39.171,43, o que representa a variação total da amostra, ou seja, a
diferença entre os dados e a média da amostra.
Essa variação se explica pela aleatoriedade de mercado, diferenças
físicas entre os dados e fatores socioeconômicos da região.
Graficamente, a dispersão dos dados é visualizada em torno do valor médio,
conforme apresenta a imagem a seguir. A amostra apresenta uma média de preços
de 324 reais e uma variação total de 39.171,43.
Gráfico dos desvios em relação à média (324).
Fonte: CEPED/UFSC (2022).
12Enap Fundação Escola Nacional de Administração Pública
Perceba que obter somente a média é uma informação muito frágil. Conhecer
apenas os preços ofertados da amostra não garante segurança para conhecimento
desse mercado. Aliás, é fundamental conhecer bem o imóvel avaliando e o mercado
em que ele se encontra, de modo a coletar mais variáveis para que a variação em
torno da média seja diminuída.
1.3.2 Desvios nas Amostras
Conforme já mencionado, a variação em torno da média advém de três fatores
principais: os fatores socioeconômicos, a aleatoriedade de mercado e as diferenças
físicas entre os imóveis. Este último é o de maior importância ao método comparativo
de dados de mercado, até porque avaliar é comparar e, por conta disso, as diferenças
físicas entre os imóveis (que são abundantes e facilmente identificadas) explicam
boa parte da variação em torno da média, traduzindo em poder de explicação ao
trabalho avaliatório.
Será utilizada a variável “área" para a explicação do modelo de avaliação, de modo
que foi identificada a área de cada imóvel da amostra. Dando continuidade ao
exemplo anterior, tem-se: o dado 1 com área de 410, o dado 2 com área de 330, e
assim por diante, até o dado 7 com área de 230.
A princípio, o valor médio da amostra permanece o mesmo (324), bem como sua
variação (39.171,43). No entanto, ao esboçar o gráfico de dispersão entre as duas
variáveis – preço e área –, valiosíssimas informações são reveladas, conforme
apresenta a imagem a seguir, na qual constam os dados da amostra e o gráfico:
Ilustração dos desvios em relação à média com influência da área.
Fonte: CEPED/UFSC (2022).
Enap Fundação Escola Nacional de Administração Pública 13
Para o gráfico de dispersão, sempre será utilizada a variável
dependente no eixo das ordenadas e a variável independente no
eixo das abscissas.
Os valores da média e do Resíduo² não se alteram, mas pode-
se observar que a dispersão tem tendência decrescente, ou seja,
quanto maior a área, menor o preço. Portanto, há uma correlação
negativa, pois as maiores áreas estão com os preços abaixo da
média, enquanto as menores estão acima da média. É a partir
desse ponto que serãoutilizadas as técnicas econométricas. No
mercado de concorrência imperfeita que são os imóveis, espera-
se sempre uma grande variação dos preços em torno da média,
de forma que se faz necessário aplicar técnicas científicas para
reduzir tais variações, aumentando a confiança dos valores
estimados pelos engenheiros avaliadores.
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o
conteúdo e se aprofunde nos temas propostos.
14Enap Fundação Escola Nacional de Administração Pública
ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS (ABNT). NBR 14653-1: Avaliação de
Bens Parte 1: Procedimentos gerais. Rio de Janeiro, 2019.
ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS (ABNT). NBR 14653-2: Avaliação de
Bens Parte 2: Imóveis urbanos. Rio de Janeiro, 2011.
BRASIL. Ministério do Planejamento, Desenvolvimento e Gestão. Secretaria do
Patrimônio da União. Manual de avaliação de imóveis do patrimônio da União,
Brasília, DF, 2017. 114 p.
DANTAS Rubens Alves. Engenharia de Avaliações – Uma introdução à metodologia
científica, 2011, São Paulo, Editora PINI.
GUEDES Terezinha Aparecida; MARTINS, Ana Beatriz Tozzo; ACORSI, Clédina Regina
Lonardan; JANEIRO, Vanderly . Projeto de Ensino: Aprender Fazendo Estatística.
Universidade estadual de Maringa, 2005. 49 p.
GUJARATI, Damodar. Econometria Básica, 2006, São Paulo, Editora Campus.
HOCHHEIM, Norberto. Avaliação de Imóveis Urbanos: Fundamentos e aplicação
da estatística inferencial, UFSC.
PINTO, Rodrigo Lobo. Cálculo da Amostra. [S.L.], [201-]. 47 slides, color. Disponível
em: https://slideplayer.com.br/slide/13403287. Acesso em: 07 jan. 2022.
MAYER, Fernando de Pol. Introdução à Estatística e conceitos de amostragem.
Laboratório de Estatística e Geoinformação. UFPR, 2016.
Referências
https://slideplayer.com.br/slide/13403287
Enap Fundação Escola Nacional de Administração Pública 15
2.1 Considerações Iniciais
Unidade 2: Econometria
Objetivo de aprendizagem
Ao final desta unidade, você será capaz de entender as noções de econometria aplicada
à avaliação de imóveis, bem como os pressupostos básicos da inferência estatística
utilizada no tratamento científico de dados.
Não basta o engenheiro avaliador se valer apenas dos preços ofertados em sua
amostra para estimativa de valor do imóvel avaliando. É fundamental a coleta e
utilização de outras variáveis (além dos preços) para que a variação em torno do
valor médio seja reduzida. Para tanto, faz-se necessária a aplicação de recursos
estatísticos (o tratamento científico dos dados da amostra), sendo o principal deles
oriundo da econometria.
A econometria, como sugere Damodar Gujarati (2006), pode haver várias definições,
desde a mais literal, que diz:
Econometria significa medição econômica.
Outras definições mais elaboradas afirmam que:
Pode-se dizer que econometria é a aplicação da
estatística matemática aos dados econômicos para
dar apoio aos modelos formulados pela economia
matemática e obter resultados numéricos.
Gerhard Tintner (1968)
16Enap Fundação Escola Nacional de Administração Pública
2.2 Regressão Linear
Qualquer modelo de regressão linear aplicado à avaliação de imóveis estudará o efeito
que a variável ou as variáveis independentes exercem sobre a variável dependente,
que geralmente são preços à vista, sendo eles de oferta ou os transacionados.
A regressão linear pode ser simples ou múltipla:
• Regressão Linear Simples: Y= β⁰ + β¹X
• Regressão Linear Múltipla: Y= β⁰ + β¹X¹ + β²X² +
... + βⁿXⁿ
Para este caso, será utilizada a regressão linear múltipla.
Os preços estarão sempre nos eixos das ordenadas (y), enquanto as variáveis
independentes ficam sempre no eixo das abscissas (x), de modo que: Y = f (x).
Ou ainda uma definição intermediária:
A econometria pode ser definida como a ciência
social em que as ferramentas da teoria econômica, da
matemática e da inferência estatística são aplicadas à
análise dos fenômenos econômicos.
Arthur Golberger (1964).
No entanto, para sua compreensão e correta aplicação, você irá conhecer antes a
principal ferramenta da econometria: a regressão!
Neste curso de avaliação de imóveis, serão abordadas exclusivamente a regressão
linear simples e múltipla, não fazendo parte outros tipos de regressão como a não
linear, espacial etc.
Como complemento, é sugerida a leitura do texto que faz uma
breve abordagem histórica e uma interpretação moderna sobre
a regressão que se encontra na página 13 do livro Econometria
Básica, de Damodar Gujarati e Dawn C. Porter.
Enap Fundação Escola Nacional de Administração Pública 17
A análise da regressão se ocupa do estudo da
dependência de uma variável dependente, em relação
a uma ou mais variáveis independentes, com vistas a
estimar e/ou prever o valor médio do bem avaliando.
Damodar Gujarati (2006)
Para facilitar a compreensão, imagine a seguinte situação, em que as características
para um conjunto de n preços coletados xi (i= 1, 2, ...n), representados pelos pontos
vermelhos, e os correspondentes valores de Yi = f (xi), admitindo uma relação
linear simples (apenas uma variável independente). Se for inserida uma linha de
tendência, obtém-se a reta representativa do modelo matemático que relaciona as
duas variáveis (Yi e Xi).
Observe na imagem a seguir o modelo de regressão linear em que se estuda o
efeito que uma variável independente (X) exerce sobre a variável dependente (Y).
Seu modelo estatístico será:
Você deve ter percebido que, na equação, consta o erro (e). Esse “erro" inclui todos os
fatores residuais, mais os possíveis erros de medição. Tratando-se de erro (resíduos),
a seguir você verá um dos métodos mais conhecidos e utilizados na engenharia de
avaliações: o método dos mínimos quadrados!
Modelo de regressão linear.
Fonte: CEPED/UFSC (2022).
18Enap Fundação Escola Nacional de Administração Pública
2.3 Método dos Mínimos Quadrados
O Método dos Mínimos Quadrados (MMQ), ou Quadrados Mínimos Ordinários
(MQO), ou ainda o nome em inglês, Ordinary Least Squares (OLS), é uma técnica de
otimização matemática que procura encontrar o melhor ajuste para um conjunto
de dados, tentando minimizar a soma dos quadrados das diferenças entre o valor
estimado e os dados observados (tais diferenças são chamadas de resíduos).
A utilização dos mínimos quadrados permite ao
engenheiro de avaliações explicar uma grande parte
da variação, em torno da média aritmética, encontrada
nos preços dos imóveis que compõe as amostras do
mercado imobiliário, bem como identificar as variáveis
chaves que estão fortemente correlacionadas com
os preços. Geralmente, essa variação é elevada,
principalmente nas parcelas referentes às diferenças
físicas e aos fatores socioeconômicos. A utilização
de uma metodologia científica permite reduzir as
incertezas sobre os valores estimados para os imóveis.
Antônio Pelli Neto (2014)
Voltando ao exemplo, verifica-se que cada amostra coletada tem uma distância da
média, de modo que a variação total da amostra em torna da média é representada
pela soma do quadrado das distâncias de todos os dados, cujo resultado é 39.171,43.
Sendo a média aritmética definida pela equação Y est= a + bx + e, na reta horizontal
o coeficiente angular (b) é nulo, restando o intercepto (a), portanto, 324, como
mostra a imagem:
Enap Fundação Escola Nacional de Administração Pública 19
Somatória dos desvios ao quadrado.
Fonte: CEPED/UFSC (2022).
No mercado de concorrência imperfeita que são os imóveis, espera-se uma grande
variação dos preços em torno da média, de forma que a utilização da regressão linear
poderá se mostrar eficaz na redução da variação total da amostra. Para tanto, deve ser
encontrada outra reta que se aproxime mais dos pontos (preços observados na amostra).
2.3.1 Formas de Encontrar uma Reta de Regressão Linear e sua Equação
Veja a seguir como encontrar uma reta de regressão linear no Excel:
Uma forma simples e rápida é plotando um gráfico de dispersão seguido da inserção
de linha detendência, optando pelo tipo linear. Ao ativar a opção “exibir equação
do gráfico”, verifica-se a seguinte equação: Y = 538,26 – 0,4329X, que representa o
modelo estatístico (Yest= a + bx). Veja na imagem a seguir que o Excel permite optar
pela análise de regressão diretamente do menu análise de dados:
20Enap Fundação Escola Nacional de Administração Pública
Regressão linear definida com auxílio do Excel.
Fonte: CEPED/UFSC (2022).
Essa opção mostra uma série de informações valiosas que devem ser utilizadas, porém,
para o caso em análise, serão considerados somente os coeficientes de regressão. Ao
montar o modelo de equação, tem-se mesmo valor: Y = 538,26 – 0,4329X.
Resultado de uma análise de dados por regressão linear pelo Excel.
Fonte: CEPED/UFSC (2022).
Enap Fundação Escola Nacional de Administração Pública 21
Na equação Y = 538,26 – 0,4329X, deve-se observar que o valor médio estimado
para cada imóvel não será mais constante, pois ele se modifica de acordo com a
variação das áreas. Veja que, para cada valor estimado para a variável dependente,
pode ser calculado um erro ou desvio (ei) relativo ao respectivo valor observado:
• e¹ = y¹ – (a+bx¹);
• e² = y² – (a+bx²);
• eⁿ = yⁿ – (a+bxⁿ);
Deduzindo-se tais equações e valendo-se de suas derivadas parciais, chega-se,
matematicamente, aos mesmos parâmetros: a (538,26) e b (-0,4329). Portanto: Y =
538,26 – 0,4329x, conforme mostra a imagem a seguir.
Equação estimativa que define a reta da regressão linear.
Fonte: CEPED/UFSC (2022).
Embora os softwares auxiliem com fórmulas matemáticas,
recomenda-se que o engenheiro de avaliações seja incansável na
busca das devidas interpretações, valendo-se de leituras e estudos.
Este curso é focado em outras interpretações que têm significados
práticos ao mercado de imóveis tão valiosos quanto as fórmulas.
Aplicando-se o modelo de equação (Y = 538,26 – 0,4329x), o valor médio estimado para
cada imóvel não será mais constante, culminando em nova variação residual em função
da área. Voltando ao exemplo anterior, em que se tem o dado 1 com valor estimado de
361 e resíduo de -0,77, o dado 2 com valor estimado de 395 e resíduo de -25,40, o dado
22Enap Fundação Escola Nacional de Administração Pública
3 com valor estimado de 322 e resíduo de 8,19 e assim por diante, ao final, a variação
residual total representada pelo somatório dos quadrados das diferenças entre os
preços e os valores estimados da equação de regressão é de 1.582,82, indicando uma
considerável redução em relação ao resíduo total inicial de 39.717,43.
Cálculo de novo resíduo, incluindo a influência da área.
Fonte: CEPED/UFSC (2022).
Os dados que apresentam menores resíduos (soma dos quadrados)
são aqueles mais próximos à reta de regressão.
Assim sendo, não se pode simplesmente atribuir um valor médio
das amostras coletadas sem o devido tratamento estatístico, o que
seria um julgamento de valor. Os engenheiros de avaliação devem
entender as principais características (variáveis independentes)
que influenciam diretamente os preços dos imóveis (variáveis
dependentes) por meio da metodologia científica, de forma que a
variação não explicada seja inferior a variação total dos dados em
torno da média. Como você já aprendeu, o processo de minimizar a
variação ao quadrado é chamado de método dos mínimos quadrados.
Mas isso é só o começo, pois, para o devido enquadramento ao
que dispõe a NBR 14653, outras análises fundamentais deverão
ser feitas, começando pelas estatísticas de regressão na qual
permitem avaliar a qualidade do ajustamento da reta de regressão
aos dados, auxiliando na escolha do modelo mais adequado. As
estatísticas básicas de regressão são:
• Coeficiente de determinação; e
• Coeficiente de correlação linear.
Enap Fundação Escola Nacional de Administração Pública 23
2.4 Coeficientes de Determinação (R²) e Correlação (R)
Se a dispersão observada em relação à reta de regressão for menor do que aquela
observada em relação à reta que indica o valor médio, então as estimativas baseadas
na reta de regressão serão melhores do que as baseadas na média.
O coeficiente de determinação R² ou r² representa o poder de explicação das
variáveis dependentes sobre a variável independente. Assim, ao dizermos que o
coeficiente de determinação é 0,85, por exemplo, significa dizer que 85,00% da
variação dos preços em torno da média aritmética são explicadas.
Conceituando o coeficiente de determinação R².
Fonte: CEPED/UFSC (2022).
Na figura, é possível enxergar a dispersão dos dados em torno da média e em
torno da reta de regressão, de forma que concluímos que o desvio de um ponto em
torno da reta de regressão é chamado de desvio não explicado ou resíduo, porque
ele não pode ser explicado apenas pelo x (Local), mesmo levando-se em conta a
regressão. Já o desvio de um ponto situado na reta de regressão em relação à média
é chamado de desvio explicado. Finalmente, o desvio de um ponto em torno da
média é chamado de desvio total.
24Enap Fundação Escola Nacional de Administração Pública
Conceituando o coeficiente de Determinação.
Fonte: CEPED/UFSC (2022).
Ele sempre terá valor que varia de 0 a 1 (0 ≤ R² ≤ 1), sendo próximo de 1 quando a
dispersão em torno da reta de regressão for pequena em relação à variação total dos
valores de Y em torno de sua média, significando que a variação explicada responde
por grande porcentagem da variação total.
No caso prático, calculando a relação entre a variação explicada (variação total –
resíduo da regressão) e a variação total, tem-se: (39.171-1.582) / 39.171 = 0,9596,
significando dizer que 96% da variação do preços dos imóveis da amostra em torno
de sua média aritmética se devem à variação das áreas dos mesmos.
O coeficiente de determinação pode ser aumentado com a
introdução de mais variáveis independentes no modelo.
O poder de explicação de um modelo de regressão pode ser
aferido pelo seu coeficiente de determinação, conforme o item
A.4 da NBR 14653-2 (ABNT, 2011).
O coeficiente de correlação, também chamado de R ou r, mede a intensidade, direção
e dispersão numérica em torno da equação linear ajustada através do método dos
mínimos quadrados, de modo que expressa o grau de relação das variáveis na amostra,
podendo variar entre -1 e 1. Quanto maior a correlação, maior o poder de explicação. É
encontrada tirando a raiz quadrada do coeficiente de determinação.
Enap Fundação Escola Nacional de Administração Pública 25
Exemplos de coeficiente de correlação R e tabela com sugestão de classificação.
Fonte: CEPED/UFSC (2022). Adaptado de Brasil (2018).
Para o caso estudado, calculando a relação entre a variação explicada (variação total
– resíduo da regressão) e a variação total, tem-se: (39.171-1.582) / 39.171 = 0,96, o
que significa dizer que o poder de explicação do modelo foi de 96%.
Para ter ideia da eficiência da equação, deve-se extrair a raiz quadrada do coeficiente
de determinação. Portanto:
R = Raiz (R²) = Raiz (0,96) = 0,9796, ou seja, uma relação negativa muito forte de causa
e efeito da variável preço e área no modelo.
Para um engenheiro de avaliação de imóveis, concluir por uma
equação de regressão linear com alto poder de explicação e
verificar a correlação das variáveis coerentes com o mercado
analisado já seria suficiente para boa fundamentação de seu
trabalho avaliatório?
Não. Os coeficientes de determinação e correlação indicam
apenas que parte da variação foi explicada e que as variáveis
apresentam relação de causa e efeito. Outros testes devem ser
feitos para maior consistência do modelo de regressão.
26Enap Fundação Escola Nacional de Administração Pública
2.5 Distribuição Normal
Para entender o que é distribuição normal, é necessário entender o que é um
“evento aleatório”.
O evento aleatório é um evento cuja ocorrência individual não
obedece a regras ou padrões que permitam fazer previsões acertadas,
por exemplo, qual face de um dado lançado cairá para cima.
A estatística mostra que,apesar de a ocorrência individual destes eventos aleatórios
serem objetivamente imprevisíveis, é possível tirar algumas conclusões a partir de um
conjunto suficientemente grande deles. Muitos dos conjuntos de eventos aleatórios
apresentam padrões que não são identificáveis em cada evento isoladamente, como
a tendência de os eventos se concentrarem próximos a uma posição que representa
uma média matemática deles. Assim, a quantidade de eventos diminui constante e
gradativamente à medida em que se afasta da média.
Eventos aleatórios que seguem este padrão enquadram-se na chamada "distribuição
normal", representada pela curva também conhecida como Curva de Gauss ou
Curva do Sino (Bell Curve), conforme a imagem a seguir:
Curva de distribuição normal.
Fonte: CEPED/UFSC (2022). Adaptado de Vieira (2017).
A distribuição normal, conhecida também como distribuição gaussiana, é sem
dúvida a mais importante distribuição contínua. Sua importância se deve a vários
fatores, como o fato de que um grande número de fenômenos naturais apresenta
sua distribuição de probabilidade tão proximamente normal e também devido ao
teorema central do limite, que é um resultado fundamental em aplicações práticas
Enap Fundação Escola Nacional de Administração Pública 27
e teóricas, pois garante que, mesmo que os dados não sejam distribuídos segundo
uma normal, a média dos dados converge para uma distribuição normal conforme
o número de dados aumenta.
Além disso, diversos estudos práticos têm como resultado uma distribuição normal.
Quanto mais afastado do centro da curva normal, mais área compreendida abaixo da
curva haverá. A um desvio padrão, tem-se 68,26% das observações contidas. A dois
desvios padrões, 95,44% dos dados são compreendidos. Finalmente, a três desvios,
99,73%. Pode-se concluir que, quanto maior a variabilidade dos dados em relação à
média, maior a probabilidade de encontrarmos o valor buscado embaixo da normal.
Gráfico do comportamento da Distribuição Normal.
Fonte: Santos (2020).
• Algumas propriedades da Curva Normal:
- tem forma de sino e é simétrica em torno da origem e da média, que é = 0;
- a área total sobre a curva é de 100%;
- tende a zero quando x tende para + infinito ou – infinito.
A distribuição normal é a mais familiar das distribuições de probabilidade e também
uma das mais importantes em estatística. Observe no exemplo a seguir:
Exemplo - O peso de recém-nascidos é uma variável aleatória contínua. As figuras
a seguir mostram a distribuição de frequências relativas de 100 e 5.000 pesos de
recém-nascidos com intervalos de classe de 500g e 125g, respectivamente.
28Enap Fundação Escola Nacional de Administração Pública
Histograma de frequências relativas a 100 pesos de recém-nascidos com intervalo de classe de 500g (A) e
Histograma de frequências relativas a 5000 pesos de recém-nascidos com intervalo de classe de 125g (B).
Fonte: CEPED/UFSC (2022). Adaptado de Laboratório de Estatística e Geoinformação (LEG) [20--]
O segundo histograma é um refinamento do primeiro, obtido ao aumentar o
tamanho da amostra e reduzir a amplitude dos intervalos de classe.
As distribuições das figuras sugerem a curva mostrada na imagem a seguir, que é
conhecida como curva normal ou Gaussiana. A variável aleatória (peso) considerada
neste exemplo e muitas outras variáveis de outras áreas das ciências, como na
avaliação de imóveis, podem ser descritas pelo modelo normal ou Gaussiano.
Função de densidade de probabilidade para a variável aleatória contínua X=peso do recém-nascido (g).
Fonte: CEPED/UFSC (2022). Adaptado de Laboratório de Estatística e Geoinformação (LEG) [20--]
Figura A Figura B
Enap Fundação Escola Nacional de Administração Pública 29
A equação da curva normal é especificada usando dois parâmetros: a média µ e o
desvio padrão σ.
Denota-se N (µ, σ) à curva normal com média µ e desvio padrão σ.
A média refere-se ao centro da distribuição e o desvio padrão ao espalhamento (ou
achatamento) da curva.
A distribuição normal é simétrica em torno da média, o que implica que a média, a
mediana e a moda são todas coincidentes.
Para referência, a equação da curva é:
2.6 Pressupostos Básicos para a Validação dos Modelos
Quando um modelo de regressão é escolhido em uma pesquisa, deve-se verificar se
ele é adequado para os propósitos a que se destina. Uma ou mais características do
modelo podem não se ajustar aos dados da amostra. Então, é importante investigar
a aptidão do modelo, antes de qualquer análise mais aprofundada dos resultados.
O exame inicial é realizado quanto ao ajustamento do modelo, por meio dos testes
de variância e de inferência estatística.
O modelo numérico gerado na análise não pode ser generalizado e aceito em qualquer
situação e, para que possa ser empregado na estimação de valores, deve obedecer a
algumas exigências, chamadas de pressupostos, hipóteses ou condições básicas.
Todos os pressupostos devem ser atendidos. Entretanto, os testes
estatísticos geralmente não indicam respostas do tipo "sim/não"
(determinístico), mas do tipo "melhor/pior" (probabilístico), e a
análise da gravidade da situação cabe ao avaliador.
Neste sentido, há prioridades na análise. A normalidade dos resíduos e a existência
de outliers são razoavelmente fáceis de serem examinadas e estão ligadas a outros
problemas. Por esse motivo, devem ser verificadas inicialmente.
.
30Enap Fundação Escola Nacional de Administração Pública
Outro teste a examinarmos de imediato é o poder de explicação do modelo, que é
a verificação do grau de ajuste da estimativa, uma forma de avaliar a qualidade do
ajuste do modelo, realizado através dos coeficientes de correlação e de determinação.
A análise da correlação dá um indicador que resume o grau de relacionamento entre
variáveis, a análise da regressão tem como resultado uma equação matemática que
descreve o relacionamento.
Surgindo problemas, o modelo deve ser descartado, sem que se perca tempo com
os outros testes.
Os pressupostos básicos a serem observados para a validação dos modelos de
Regressão Linear estão preconizados no Anexo A da NBR 14653-2 (2011, p. 34):
• Aderência
• Linearidade
• Normalidade
• Homocedasticidade
• Não Auto-correlação
• Não-Multicolinearidade
• Micronumerosidade
Entenda o papel cada um desses pressupostos a seguir.
Aderência
A aderência pode ser vista por meio do gráfico com os valores estimados pelo modelo
em função dos valores da variável dependente de cada amostragem. Quanto mais
os pontos se aproximam da reta de referência (bissetriz), conforme a figura a seguir,
melhor foi o ajuste do modelo (equação da regressão escolhida pelo usuário, que dá a
variável dependente em função das independentes) aos dados (NASSER JÚNIOR, 2011).
Valor observado x Valor estimado.
Fonte: Hochheim (2010).
Enap Fundação Escola Nacional de Administração Pública 31
Linearidade
A análise de regressão baseia-se no "modelo linear clássico". Essa condição poderá
ser verificada através do comportamento gráfico da variável dependente em relação
a cada variável independente. Espera-se que não haja forma definida para os pontos.
Se forem detectadas tendências, deve-se linearizar a relação usando transformações
nas variáveis, pois a análise de uma reta é mais simples que a análise de uma curva.
Linearizar é o procedimento para tornar uma curva em uma reta. É encontrar uma
relação entre duas variáveis que satisfaça a equação da reta, ou seja, determinar os
coeficientes angular e linear da reta “y = a + bx”.
As transformações utilizadas para linearizar o modelo devem, tanto quanto possível,
refletir o comportamento do mercado, com preferência pelas transformações mais
simples de variáveis, que resultem em modelo satisfatório.
Após as transformações realizadas, se houver, examina-se a linearidade do modelo
pela construção de gráficos dos valores observados para a variável dependente
versus cada variável independente, com as respectivas transformações.
Normalidade
A análisede regressão baseia-se na hipótese de que os erros seguem uma
distribuição normal (distribuição de Gauss). A condição de normalidade dos resíduos
não é necessária para a obtenção dos estimadores de mínimos quadrados, mas é
fundamental para a definição de intervalos de confiança e testes de significância.
Ou seja, em falta de normalidade, os estimadores são não-tendenciosos, mas
os testes não têm validade, principalmente em amostras pequenas. Entretanto,
pequenas fugas da normalidade não causam grandes problemas.
A não-normalidade dos resíduos pode ser causada por violações de outras
condições básicas, tais como a heterocedasticidade ou a escolha de um modelo
incorreto para a equação.
A verificação da normalidade pode ser realizada, entre outras formas:
• Exame do histograma;
• Análise gráfica de resíduos padronizados versus valores ajustados;
• Comparação da frequência relativa dos resíduos (68%, 90% e 95%);
• Pelos testes de aderência não paramétricos, como o qui-quadrado, o de
Kolmogorov-Smirniv ajustado por Stephens e o de Jarque-Bera.
32Enap Fundação Escola Nacional de Administração Pública
As análises mais simples de serem feitas para observar a normalidade dos resíduos
são a do comportamento do histograma e a observância da distribuição da frequência
relativa dos resíduos amostrais padronizados, exemplificados nas figuras a seguir:
Histograma - Frequência relativa dos resíduos.
Fonte: Brasil (2018, p. 46)
Curva Normal.
Fonte: Brasil (2018, p. 110)
Homocedasticidade
Homocedasticidade é a variância constante dos resíduos. Essa é uma propriedade
fundamental que deve ser garantida, sob pena de invalidar toda a análise estatística.
Deseja-se que os erros sejam aleatórios, ou seja, não devem ser relacionados
com as características dos imóveis. Se isto não ocorre, há heterocedasticidade, o
que significa dizer que há tendências nos erros. A heterocedasticidade pode ser
verificada através da análise gráfica dos resíduos versus valores ajustados ou pelos
testes de Park e de White.
Histograma - Frequência relativa dos resíduos Curva Normal
Gráfico bom (nuvem de pontos)
– Homocedástico
Gráfico ruim (tendência crescente)
– Heterocedástico
Gráfico bom (nuvem de pontos) – Homocedástico.
Fonte: Brasil (2018, p. 47)
Gráfico ruim (tendência crescente) – Heterocedástico.
Fonte: Brasil (2018, p. 47)
Enap Fundação Escola Nacional de Administração Pública 33
Não autocorrelação
Existe autocorrelação quando os erros são correlacionados com os valores anteriores
ou posteriores na série.
Se a hipótese de independência dos erros for violada, os pacotes estatísticos irão
errar no cálculo do desvio padrão dos coeficientes e errar nos valores dos testes de
hipótese. Este é o problema da autocorrelação.
Pode-se detectar a autocorrelação por meio de gráficos dos resíduos contra os
valores da variável dependente ou pelo teste não-gráfico de Durbin-Watson. Esse
teste é utilizado quando se trabalha com séries temporais (elementos coletados
ao longo de um determinado tempo, meses ou anos). Lembre-se que os dados
devem que estar ordenados de forma crescente ou decrescente. Se os dados
estiverem aleatoriamente dispostos, o resultado (positivo ou negativo) não pode
ser considerado (NASSER JÚNIOR, 2011).
Não multicolinearidade
Uma forte dependência linear entre duas ou mais variáveis independentes provoca
degenerações no modelo e limita a sua utilização. Isso não gera estimativas viesadas
ou alterações, mas “infla” os desvios padrões de cada coeficiente. Esse é o problema
da multicolinearidade.
O que ocorre é que há duas variáveis explicativas com o mesmo conteúdo informacional
(variabilidade similar, altamente correlacionada). Com isso, o método de mínimos
quadrados não consegue distinguir entre os efeitos diretos e indiretos das variáveis.
Entre as variáveis que podem ser altamente correlacionadas, pode-se citar o
tamanho da testada com área e o índice fiscal com distância ao centro.
O mais razoável é pensar no problema e identificar qual variável (dentre aquelas
que têm, na prática, a mesma informação) é a mais importante e/ou a mais
representativa, retirando do modelo a variável menos importante.
Uma medida corretiva para o caso de haver multicolinearidade é aumentar o
tamanho da amostra.
Uma forma de verificação da multicolinearidade é pela matriz de correlações,
que espelha as dependências lineares de primeira ordem entre as variáveis
independentes, com especial atenção especial para resultados superiores a 0,80.
34Enap Fundação Escola Nacional de Administração Pública
Imagem do software SISdea: Matriz de colinearidade (exceto a última linha e última
coluna) é recomendável que os valores não sejam superiores a 0,80.
Fonte: CEPED/UFSC (2022)
Micronumerosidade
Micronumerosidade ocorre quando se utiliza uma quantidade reduzida de dados
amostrais com uma determinada característica.
A NBR 14653-2, em seu Anexo A, item A.2, letra a) (ABNT, 2011, p. 34), descreve
que, para evitar a micronumerosidade, ao serem utilizadas variáveis dicotômicas
ou qualitativas expressas por códigos alocados ou ajustados, o número mínimo de
dados efetivamente utilizados (n) no modelo deve obedecer aos seguintes critérios,
com respeito ao número de variáveis independentes (k):
n ≥ 3(k+1)
para n ≤ 30, nj ≥ 3
para 30 < n ≤ 100, nj ≥ 10% n
para n > 100, nj ≥ 10
onde:
nj é o número de dados de mesma característica.
A observação da multicolinearidade deve ocorrer entre as variáveis independentes. A
correlação entre uma variável independente e uma dependente poderá ser elevada
(acima de 0,80), conforme a figura:
Enap Fundação Escola Nacional de Administração Pública 35
Além dos pressupostos elencados, há mais dois parâmetros a serem observados
para a definição do modelo a ser adotado:
• Outliers; e
• Significâncias.
Outliers
Em virtude da forma de estimação da equação, geralmente por mínimos quadrados, os
mesmos acarretam um erro grande, modificando significativamente os somatórios e
alterando os coeficientes da equação. Assim, apenas um elemento pode modificar a equação.
Não existem limites fixos, mas, geralmente, adota-se o intervalo de dois desvios-
padrão em torno da média dos erros. Como a média precisa ser zero, os resíduos
padronizados devem estar no intervalo [-2; +2].
A existência desses pontos atípicos pode ser verificada pelo gráfico dos resíduos
(Gráfico A) versus cada variável independente (Gráfico B), como também em relação
aos valores ajustados, ou ainda usando técnicas estatísticas mais avançadas, como a
estatística de Cook (Gráfico Distância de Cook) para detectar pontos influenciantes.
Gráfico de resíduos (A) sem outliers e (B) com outliers (3, conforme destaque).
Fonte: Brasil (2011, p. 49)
Distância de Cook (SisDea): os outliers identificados ficaram abaixo de 1,00.
Fonte: Brasil (2011, p. 118)
36Enap Fundação Escola Nacional de Administração Pública
Se forem encontrados outliers, não se recomenda a exclusão
automática, mesmo que a amostra seja grande. Deve ser feita
a análise da adequação dos elementos suspeitos ao conjunto da
amostra e de sua semelhança com o avaliando. Se os outliers
forem muito distintos do avaliando (tamanho, idade, localização,
tipo), devem ser removidos. Contudo, se os outliers são mais
parecidos com o avaliando do que o restante da amostra, a
coleta de dados foi mal conduzida, e deve-se analisar melhor
as informações desses elementos ou voltar ao mercado para a
busca de um conjunto de dados melhor.
Significâncias
A vantagem da inferência estatística sobre os outros processos de avaliação é a
possibilidade de aferição do grau de precisão e de estabelecer se os resultados
obtidos têm significância estatística de acordo com limites pré-estabelecidos.
- Nível de significância
O nível de significância é o limite que se toma como base para afirmar que um
certo desvio é decorrente do acaso ou não. São aceitos como estatisticamente
significativos os níveis P = 0,05 e P = 0,01,ou seja, 5% e 1%, respectivamente.
Se, por exemplo, utilizarmos o nível de significância de 5%, a hipótese nula (Ho) será
rejeitada somente se o resultado da amostra for tão diferente do valor suposto que
uma diferença igual ou maior ocorreria com uma probabilidade máxima de 0,05.
A partir de um nível de significância convencionado (alfa – α), os desvios são devidos
à lei do acaso e o resultado é considerado não significativo.
O nível de significância deve ser estabelecido antes de o experimento ser realizado
e corresponde ao risco que se corre de rejeitar uma hipótese verdadeira ou aceitar
uma hipótese falsa.
Enap Fundação Escola Nacional de Administração Pública 37
Testes de Significância
As primeiras verificações sobre uma equação de regressão são
os testes estatísticos. Basicamente, consistem em testes de
hipóteses sobre a validade do modelo em si e sobre a importância
isolada de cada uma das variáveis.
A. Teste de hipótese unicaudal para a relação entre a variável
dependente e as independentes (Teste de significância do
modelo ou Teste F)
Para se testar a significância global de todos os parâmetros que
participam de um modelo de regressão de “n” preços observados
sobre “k” variáveis independentes, utiliza-se o teste F, que tem
distribuição F de Snedecor, que leva em conta a razão entre a
variância explicada pela variância não explicada do modelo.
Essa relação tem distribuição F, com k e (n–k–1) graus de liberdade,
sendo k o número de regressores e n o tamanho da amostra.
Então, compara-se o parâmetro estatístico calculado Fcalc (obtido
pelo software) com o tabelado F(k,n–k–1). Sendo Fcalc>Ftab, rejeita-
se a hipótese nula de não existência de relação linear, de acordo
com as indicações de 1% de significância da norma de avaliações,
ou seja, aprova-se (aceita-se) a equação de regressão.
Conforme a Associação Brasileira de Normas Técnicas (ABNT),
no caso de utilização de modelos de regressão linear, em relação
a este teste, são exigidos os seguintes níveis de significância
máximos: 1% para Grau III; 2% para Grau II e 5% para o Grau I.
A utilização da Tabela de F de Snedecor (mostrada a seguir) será
exemplificada em exercício ao final deste curso.
38Enap Fundação Escola Nacional de Administração Pública
Limites unilaterais da distribuição F de Fisher-Snedecor ao nível de 1,0% de probabilidade.
Fonte: Brasil (2011, p. 124)
B. Teste de hipótese bicaudal para os parâmetros da
Regressão (teste t de Student)
Enap Fundação Escola Nacional de Administração Pública 39
"O objetivo desse teste individual de um parâmetro
qualquer bj é verificar se a variável correspondente xj é ou
não importante na composição do modelo."
Ragnar Thofehrn (2010)
Para determinar a importância de um coeficiente individual no
modelo de regressão, usa-se um teste baseado na estatística t de
Student. O parâmetro estatístico calculado, tcalc, deve ser maior
que o tabelado, t(n–k–1), em que k é o número de regressores e n
é o tamanho da amostra. Se tcalc>ttab, rejeita-se a hipótese nula
de não significância do parâmetro, com os níveis de significância
indicados em cada regressão apresentada em geral superando os
níveis indicados pela NBR 14653.
Para isso, formula-se um teste de hipótese. Muitas vezes, as
hipóteses são formuladas com o único intuito de rejeitá-las. Para
decidir se a regressão linear é adequada, formula-se a hipótese
de que os regressores são iguais a 0, ou seja, o que o avaliador
não quer que ocorra. Essa hipótese é chamada de “hipótese nula”
(H0), que tem como objetivo ser rejeitada.
Exemplo: a figura abaixo mostra o resultado do T calculado e sua
significância. Nesse caso, tem-se uma amostra com 19 dados e
dois regressores (para as variáveis independentes). Portanto, o t
tabelado para o modelo da figura a seguir é:
t(n–k–1) = 19 – 2 – 1 = 16
Consultando a tabela 2, o t tabelado, para a significância de 10% (5%
em cada calda) é de 1,746. Para a variável Área (m²), o t calculado foi
de 15,05. Portanto, t calculado > t tabelado, logo, H0 é rejeitada. Ou
seja, o regressor não é nulo. A significância para a essa variável é de
0,01%, que quer dizer que a probabilidade do t tabelado ser maior
que o t calculado é de 0,01%: Prob (t tabelado >|t calculado|).
40Enap Fundação Escola Nacional de Administração Pública
Janela do software SisDea – valores de t calculado em destaque.
Fonte: Brasil (2011, p. 121)
Conforme a Associação Brasileira de Normas Técnicas (ABNT),
no caso de utilização de modelos de regressão linear em relação
a este teste, são exigidos os seguintes níveis de significância
máximos: 10% para Grau III; 20% para Grau II; e 30% para Grau I.
T de Student.
. Fonte: Brasil (2011, p. 122)
Enap Fundação Escola Nacional de Administração Pública 41
Tabela de t de Student – a ser comparado com o t calculado.
Fonte: Brasil (2011, p. 122)
2.7 Estimativas Intervalares
Existem dois tipos de estimativas que podem ser obtidas a partir de uma amostra aleatória:
• Estimativa Pontual, em que se tem como resultado um único valor numérico
para o parâmetro de interesse;
• Estimativa Intervalar, em que é definido um intervalo de valores utilizados para
estimar o parâmetro de interesse.
42Enap Fundação Escola Nacional de Administração Pública
“Consideremos uma população com uma média µ,
desconhecida, e uma amostra dessa população com
a média x- , conhecida; embora, geralmente, a média
x- esteja muito próxima de µ, quase que certamente
estará um pouco acima ou um pouco abaixo de µ. Daí
decorre que se desejarmos ter uma dose razoável
de confiança na correção de nossa inferência, não
poderemos afirmar que µ seja precisamente igual a
x- e deveremos estabelecer um intervalo de confiança
expresso por: µ = x- ± um erro de amostragem. O
importante aqui é saber qual deve ser a amplitude
da tolerância para esse erro amostral e a resposta
obviamente depende de quanto x- flutuar um relação
a µ, de forma que esse intervalo de confiança
efetivamente englobe µ” (MOREIRA, 2001, p. 195-196).
A Associação Brasileira de Normas Técnicas (ABNT) define o intervalo de confiança
como o intervalo de valores dentro do qual está contido o parâmetro populacional
com determinada confiança.
A ABNT também considera a amplitude do intervalo de confiança de 80% em torno
do valor central da estimativa para medir a precisão das estimativas, de acordo com
o seguinte critério: Grau III, se a amplitude for menor ou igual a 30%; Grau II, se a
amplitude estiver entre 30% e 40%; e Grau I, se a amplitude estiver entre 40% e 50%.
2.7.1 Hipóteses Estatísticas
Hipótese, em estatística, é uma suposição formulada a respeito dos parâmetros de uma
distribuição de probabilidade de uma ou mais populações. Ao ser feita determinada
suposição sobre uma população, mais especificamente sobre um parâmetro dessa
população, é natural desejar saber se os resultados experimentais provenientes de
uma amostra contrariam ou não tal afirmação. Para isso, é feito o teste de hipóteses.
A hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada.
Ela somente será rejeitada se o resultado da amostra for claramente improvável de
ocorrer quando a hipótese for verdadeira.
Enap Fundação Escola Nacional de Administração Pública 43
Existem duas suposições acerca dos parâmetros de uma população (suposições
verdadeiras ou não), que são:
• Hipótese nula ou básica: é a hipótese a ser validada por um teste (H⁰);
• Hipótese alternativa: qualquer hipótese contrária à hipótese nula (H¹).
Por meio de um procedimento ou regra de decisão, o teste de hipóteses estatísticas é o
que nos possibilita decidir pela aceitação ou rejeição de H⁰, com base na informação
contida na amostra.
2.7.2 Intervalo de Confiança (IC)
O Intervalo de Confiança (IC) é um intervalo estimado de um parâmetro de interesse
de uma população. Em vez de estimar o parâmetro por um único valor, é dado
um intervalo de estimativas prováveis. Quão prováveissão estas estimativas é
determinado pelo coeficiente de confiança (1 – α), para α ϵ (0, 1). Os ICs são usados
para indicar a confiabilidade de uma estimativa, por exemplo, para descrever o
quanto os resultados de uma pesquisa são confiáveis.
Sendo todas as estimativas iguais, uma pesquisa que resulte em um IC pequeno é
mais confiável do que uma que resulte em um IC maior.
2.7.3 Distribuição F de Snedecor
A distribuição F de Snedecor, também conhecida como distribuição de Fisher,
é frequentemente utilizada na inferência estatística para análise da variância,
especialmente para comparação das médias amostrais.
No caso específico de avaliações de imóveis, a distribuição F é usada para realizar
testes de hipóteses da equação de regressão como um todo. A distribuição F testa
a hipótese de que nenhum dos coeficientes de regressão tenha significado contra a
hipótese de que pelo menos um tenha significado, ou seja, formulando as seguintes
hipóteses nula e alternativa:
• H⁰ = nenhum dos coeficientes da regressão tenha significado;
• H¹ = pelo menos um tenha significado.
O valor da estatística deve ser comparado com uma tabela de valores de F, no
caso da tabela de distribuição F de Fisher-Snedecor, que indica o valor máximo da
estatística no caso de H⁰ ser verdadeira, a um determinado nível de significância.
44Enap Fundação Escola Nacional de Administração Pública
Compara-se o número resultante com um valor F da tabela: se o valor é maior que
o valor tabulado, rejeita-se a hipótese nula; se o valor calculado é menor, a hipótese
nula não pode ser rejeitada.
Até o momento, você aprendeu sobre a importância da utilização da metodologia científica
aplicada à avaliação de imóveis e as principais etapas principais de sua utilização.
Não se esqueça de que os assuntos e tópicos abordados neste curso não têm a
pretensão de esgotar todo conteúdo sobre o tema, mas provê-lo dos conhecimentos
mínimos necessários para entender as etapas de elaboração de um laudo de
avaliação. Continue sempre aprendendo, seja insistente e curioso, afinal, quem
sabe quanto vale, sabe mais.
Que bom que você chegou até aqui! Agora é hora de você testar seus conhecimentos.
Então, acesse o exercício avaliativo que está disponível no ambiente virtual. Boa sorte!
Enap Fundação Escola Nacional de Administração Pública 45
ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS (ABNT). NBR 14653-2: Avaliação de
Bens Parte 2 - Imóveis urbanos. Rio de Janeiro, 2011.
BRASIL. Ministério do Planejamento, Desenvolvimento e Gestão - Secretaria do
Patrimônio da União. Manual de avaliação de imóveis do patrimônio da União.
Brasília, 2018.
DANTAS Rubens Alves. Engenharia de Avaliações – Uma introdução à metodologia
científica, 2011, São Paulo, Editora PINI.
GOLBERGER, Arthur S. Econometric Theory. New York: John Wiley and Sons. 1964.
GUJARATI, Damodar; PORTER, Dawn C. Econometria Básica, 2006, São Paulo:
Editora Campus., 2006.
HOCHHEIM, Norberto. Engenharia de Avaliações. Florianópolis, 2010. (Apostila).
LABORATÓRIO DE ESTATÍSTICA E GEOINFORMAÇÃO (LEG) (Curitiba). A distribuição
Normal. [20--]. Disponível em: http://www.leg.ufpr.br/~silvia/CE008/node44.html.
Acesso em: 07 jan. 2022.
MOREIRA, Alberto Lélio. Princípios de engenharia de avaliações. 3ª ed. São
Paulo: Pini, 2001.
MAYER, Fernando de Pol. Introdução à Estatística e conceitos de amostragem.
Laboratório de Estatística e Geoinformação. UFPR, 2016.
NASSER JÚNIOR, Radegaz. Avaliação de Bens Princípios Básicos e Aplicações.
Guarulhos: Editora Leud, 2011.
PELLI NETO, Antônio. Apostila do Curso de Avaliações de Empreendimentos
Imobiliários, de Base Imobiliária e Industrial. Belo Horizonte, 2014.
SANTOS, João Victor Ribeiro. O que é Estatística Descritiva? 2020. Disponível em:
https://sif.org.br/2020/05/como-apresentar-os-seus-resultados-use-a-estatistica-
descritiva/. Acesso em: 07 jan. 2022.
TINTNER, Gerhard. Methodology of Mathematicial Economics and Econometrics.
Chicago: University of Chicago Press. 1968.
Referências
http://www.leg.ufpr.br/~silvia/CE008/node44.html
https://sif.org.br/2020/05/como-apresentar-os-seus-resultados-use-a-estatistica-descritiva/
https://sif.org.br/2020/05/como-apresentar-os-seus-resultados-use-a-estatistica-descritiva/
46Enap Fundação Escola Nacional de Administração Pública
THOFEHRN, Ragnar. Avaliação em massa de imóveis urbanos: para cálculo de
IPTU e ITBI. São Paulo: Pini, 2010.
VIEIRA, Sonia. Meus dados são normais? 2017. Disponível em: http://soniavieira.
blogspot.com/2017/01/meus-dados-sao-normais.html. Acesso em: 07 jan. 2022.
http://soniavieira.blogspot.com/2017/01/meus-dados-sao-normais.html
http://soniavieira.blogspot.com/2017/01/meus-dados-sao-normais.html
Referências
Unidade 2: Econometria
2.5 Distribuição Normal
2.6 Pressupostos Básicos para a Validação dos Modelos
2.7 Estimativas Intervalares
2.7.1 Hipóteses Estatísticas
2.7.2 Intervalo de Confiança (IC)
2.7.3 Distribuição F de Snedecor
2.4 Coeficientes de Determinação (R²) e Correlação (R)
2.3.1 Formas de Encontrar uma Reta de Regressão Linear e sua Equação
2.3 Método dos Mínimos Quadrados
2.2 Regressão Linear
2.1 Considerações Iniciais
Referências
Unidade 1: Noções de estatística
1.3.2 Desvios nas Amostras
1.3.1 Calculando Amostras
1.2 Medidas Estatísticas
1.1 Considerações Iniciais
1.3 Aplicando Conceitos