Prévia do material em texto
1. Qual a principal consequência de ignorar a estrutura clusterizada dos dados numa regressão MQO? 2. Qual o fator de inflação pelo qual o erro padrão incorreto de MQO deveria ser ajustado? Lembre de definir cada termo. 3. Suponha que o erro padrão incorreto de MQO é 0.03. Suponha que px=0.5, pu=0.1, e o numero médio de clusteres é 50. Qual seria aproximadamente o erro padrão que ajusta por cluster? 4. Imagine que o coeficiente Beta de MQO sem cluster é 0.0456788. Qual será o coeficiente de MQO com cluster? Maior ou menor? 5. Imagine que você tem dados em painel de indivíduos ao longo do tempo. Quando você usa erro padrão de cluster, você está controlando por qual tipo de problema? 6. Imagine que você tem dados ao nível de municípios brasileiros para o ano 2000, do PIB e escolaridade média, onde a última é a variável explanatória. Se você usar erro padrão por cluster de Estado, você estaria controlando por qual possível problema? 7. Qual a intuição de porque os erros padrões são diferentes quando usa cluster? 8. Imagine que você quer analisar a relação entre seca e renda agrícola com dados de painel de municípios ao longo do tempo. Se o objetivo for controlar por autocorrelaçao ao longo de tempo, o que você poderia fazer? Se você quiser controlar por autocorrelaçao de tempo e espacial, o que você poderia fazer? 9. Desenhe uma matriz com a estrutura de cluster para N=4 e dois grupos ou cluster G=2. Em cada cluster há dois indivíduos. 10. Derive a formula correta da variância de MQO sob correlação intra cluster. 11. A variância de MQO que ajusta por cluster é eficiente? 12. O que acontece com o teste de significância global F se o numero de cluster é maior do que o numero de clsuteres? 13. Considere o seguinte modelo: yijmt = 𝛽1x 1 ijmt + 𝛽2x 2 jmt + 𝛽3x 3 mt + 𝜖ijmt. Em que os subscritos i=individuo, j=município, m=Estado (UF), e t=ano. Como pode ser visto, a variável x1 varia por individuo, município, estado e ano. A variável x2 varia por município, estado e ano. A variável x3 varia por estado e ano. Dado que não é conhecido a natureza do problema de questão de pesquisa (ou seja, não sabe o que é Y ou as X), qual seria o nível correto pelo qual os erros padrões deveriam ser clusterizados? Explique brevemente porque?