Logo Passei Direto
Buscar

Conceitos de Regressão Linear e Agrupamento Hierárquico

User badge image
Karen -

em

Ferramentas de estudo

Questões resolvidas

Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: "Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros."
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o algoritmo formar.
II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo.

Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos modelos de regressão que existem, por exemplo, árvores de decisão para regressão, k-vizinhos mais próximos para regressão e outros (não vimos nenhum desses aqui, mas não se preocupe: o nosso curso é introdutório!), são justamente os modelos de regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais diversas áreas.
Desse modo, é sobre eles que queremos saber o que você já aprendeu. Para isso, analise as afirmativas a seguir.
I. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.
II. As variáveis de entrada também são denominadas variáveis regressoras, variáveis preditoras ou variáveis independentes.
III. A variável resposta também pode ser denominada variável de saída ou variável dependente.
IV. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.

Leia o excerto a seguir: “O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma ​árvore de decisão​, outra ferramenta de modelagem de previsão no kit de um cientista de dados.”
Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A resposta à pergunta “Você poderia usar dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”.
II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato.
III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se sairá bem ou mal na entrevista.
IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser

Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo.
Está correto o que se afirma em:
A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito.
A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas.
Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável.
O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito.
Resposta Selecionada: ​I, II, III e IV.
Resposta Correta: ​I, II, III e IV.

Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta unidade, usamos pela primeira vez a função summary() do ​software ​estatístico R.
Em relação ao ​output ​dessa função, aplicada a dados quantitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A ordem do ​output ​é valor máximo, terceiro quartil, mediana, média, segundo quartil e valor mínimo observado.
II. ( ) A ordem do ​output ​é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado.
III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos dados observados.
IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados observados.
Resposta Selecionada: ​F, V, V, F.
Resposta Correta: ​F, V, F, V.

Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, sequências, séries, etc. São muitos os dados que hoje coletamos de diferentes fontes, e muitas as formas de organizá-los e armazená-los. Uma dessas forma, talvez a mais importante delas, são os dados estruturados.
Relativamente a esse assunto, analise as afirmativas a seguir.
Dados estruturados são dados que não possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciências da computação, estatística e ciência dos dados.
A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas linhas e as observações são dispostas nas colunas.
Dados estruturados são dados que possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciência da computação, estatística e ciência dos dados.
A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas colunas e as observações são dispostas nas linhas.
Resposta Selecionada: ​III e IV, apenas.
Resposta Correta: ​III e IV, apenas.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: "Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros."
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o algoritmo formar.
II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo.

Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos modelos de regressão que existem, por exemplo, árvores de decisão para regressão, k-vizinhos mais próximos para regressão e outros (não vimos nenhum desses aqui, mas não se preocupe: o nosso curso é introdutório!), são justamente os modelos de regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais diversas áreas.
Desse modo, é sobre eles que queremos saber o que você já aprendeu. Para isso, analise as afirmativas a seguir.
I. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.
II. As variáveis de entrada também são denominadas variáveis regressoras, variáveis preditoras ou variáveis independentes.
III. A variável resposta também pode ser denominada variável de saída ou variável dependente.
IV. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.

Leia o excerto a seguir: “O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma ​árvore de decisão​, outra ferramenta de modelagem de previsão no kit de um cientista de dados.”
Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A resposta à pergunta “Você poderia usar dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”.
II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato.
III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se sairá bem ou mal na entrevista.
IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser

Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo.
Está correto o que se afirma em:
A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito.
A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas.
Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável.
O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito.
Resposta Selecionada: ​I, II, III e IV.
Resposta Correta: ​I, II, III e IV.

Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta unidade, usamos pela primeira vez a função summary() do ​software ​estatístico R.
Em relação ao ​output ​dessa função, aplicada a dados quantitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A ordem do ​output ​é valor máximo, terceiro quartil, mediana, média, segundo quartil e valor mínimo observado.
II. ( ) A ordem do ​output ​é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado.
III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos dados observados.
IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados observados.
Resposta Selecionada: ​F, V, V, F.
Resposta Correta: ​F, V, F, V.

Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, sequências, séries, etc. São muitos os dados que hoje coletamos de diferentes fontes, e muitas as formas de organizá-los e armazená-los. Uma dessas forma, talvez a mais importante delas, são os dados estruturados.
Relativamente a esse assunto, analise as afirmativas a seguir.
Dados estruturados são dados que não possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciências da computação, estatística e ciência dos dados.
A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas linhas e as observações são dispostas nas colunas.
Dados estruturados são dados que possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciência da computação, estatística e ciência dos dados.
A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas colunas e as observações são dispostas nas linhas.
Resposta Selecionada: ​III e IV, apenas.
Resposta Correta: ​III e IV, apenas.

Prévia do material em texto

ESTATÍSTICA 
● Pergunta 1 
● 1 em 1 pontos 
● 
 
 Leia o excerto a seguir sobre as ideias-chave para agrupamento 
hierárquico: 
 
“Começa com todos os registros. Progressivamente, os grupos são 
unidos aos grupos próximos até que todos os registros pertençam a 
um único grupo. O histórico de aglomeração é retido e plotado, e o 
usuário pode visualizar o número e a estrutura dos grupos em 
diferentes estágios. As distâncias intergrupos são calculadas de 
jeitos diferentes, todas baseadas no conjunto de distância 
inter-registros.” 
 
BRUCE, Peter; BRUCE, Andrew. ​Estatística prática para 
cientistas de dados​ ​: 50 conceitos iniciais. Rio de Janeiro: Alta 
Books, 2019, p. 278. 
 A partir do apresentado, analise as asserções a seguir e a relação 
proposta entre elas. 
 
I. No agrupamento hierárquico, o usuário deve obrigatoriamente 
especificar o número de grupos que deseja ver o algoritmo formar. 
Pois 
II. O algoritmo começa com grupos formados por registros 
individuais e, progressivamente, os grupos são unidos aos grupos 
mais próximos, até que todos os registros pertençam a um único 
grupo. 
 
 
ESTATÍSTICA 
 
Resposta 
Selecionad
a: 
 ​A asserção I é uma proposição falsa, e 
a II é uma proposição verdadeira. 
Resposta 
Correta: 
 ​A asserção I é uma proposição falsa, e a II 
é uma proposição verdadeira. 
 
Feedback
da 
respo
sta: 
Resposta correta. A alternativa está correta, 
pois no agrupamento hierárquico, 
diferentemente do que se requer para o 
agrupamento por k-médias, o usuário não
especifica o número de grupos que o 
algoritmo deve formar. Em estágios 
progressivos, se parte de tantos grupos 
quanto o número de registros 
(observações) do conjunto de dados, 
formam-se sequencialmente vários 
agrupamentos, por fusão entre grupos 
mais similares entre si, até se formar um 
único grupo, ao final, com todos os 
registro do conjunto de dados analisado. 
Ao usuário cabe examinar essa estrutura,
e decidir que agrupamentos fazem mais 
sentido para a sua análise. 
 
 
● 
Pergunta 2 
● 0 em 1 pontos 
● 
 
ESTATÍSTICA 
 Os modelos de regressão são de enorme importância na estatística e na
ciência dos dados. Dentre os diversos modelos de regressão que 
existem, por exemplo, árvores de decisão para regressão, k-vizinhos
mais próximos para regressão e outros (não vimos nenhum desses 
aqui, mas não se preocupe: o nosso curso é introdutório!), são 
justamente os modelos de regressão linear aqueles considerados os
mais importantes e, sem dúvida, os mais difundidos, com aplicações
nas mais diversas áreas. 
 
Desse modo, é sobre eles que queremos saber o que você já aprendeu.
Para isso, analise as afirmativas a seguir. 
 
I. Modelos de regressão linear são usados como modelos preditivos 
para casos em que a variável resposta é quantitativa. As variáveis 
de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.
II. As variáveis de entrada também são denominadas variáveis 
regressoras, variáveis preditoras ou variáveis independentes. 
III. A variável resposta também pode ser denominada variável de 
saída ou variável dependente. 
IV. Modelos de regressão linear são usados como modelos 
preditivos para casos em que a variável resposta é qualitativa. As 
variáveis de entrada podem ser de qualquer tipo: quantitativas ou 
qualitativas. 
 
Está correto o que se afirma em: 
 
 
 
 
Resposta Selecionada: ​IV, apenas. 
Resposta Correta: ​I, II e III, 
apenas. 
 
 
Feedback
da 
respo
sta: 
Sua resposta está incorreta. A alternativa 
está incorreta, pois a única afirmativa 
falsa é a que expõe que modelos de 
regressão linear são usados como 
modelos preditivos para casos em que a 
variável resposta é qualitativa. Assim, é 
correto afirmar que modelos de regressão
linear são usados como modelos 
preditivos para casos em que a variável 
resposta é quantitativa e as variáveis de 
entrada podem ser de qualquer tipo: 
quantitativas ou qualitativas. 
 
ESTATÍSTICA 
 
 
● 
Pergunta 3 
● 1 em 1 pontos 
● 
 
 O texto em referência explica que o processo de descoberta com a 
mineração de dados possui tanto um sentido romântico (um 
processo emocionante e prazeroso), quanto técnico (um estudo 
criterioso sobre dados). Também defende a ideia que é preciso 
conhecer o ambiente em que os dados são produzidos e que tipo de
conhecimento esse ambiente necessita e espera receber.. Ou seja, 
o que as pessoas necessitam e esperam receber.Lei 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. ​Introdução à 
mineração de dados​ ​: com aplicações em R. Rio de Janeiro: 
Elsevier, 2016, p.3. 
 
Considerando as ideias apresentadas acima e o que sabemos sobre
ciência dos dados, mineração de dados e machine learning, analise 
as afirmativas a seguir: 
 
I. Machine learning são algoritmos desenvolvidos, principalmente, 
pela ciência da computação. São usados na estatística, na ciência 
de dados e na mineração de dados. 
II. O processo de descoberta de padrões e geração de 
conhecimento por meio de dados tem um sentido romântico, por ser 
emocionante e prazeroso, e um sentido técnico, pois demanda 
estudos técnicos criteriosos. 
III. A estatística, a ciência da computação e a ciência de dados são 
áreas relacionadas, mas a mineração de dados e ciência de dados 
são áreas independentes, sem nenhuma relação. 
IV. Não é importante conhecer o ambiente em que os dados são 
produzidos e que tipo de conhecimento esse ambiente necessita e 
espera receber. 
 
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): 
 
ESTATÍSTICA 
 
Resposta Selecionada: ​I e II 
apenas; 
Resposta Correta: ​I e II 
apenas; 
 
Feedback
da 
respo
sta: 
Resposta correta. A alternativa está correta, 
pois machine learning são algoritmos 
desenvolvidos, principalmente, pela 
ciência da computação, e são usados na 
estatística, na ciência de dados e na 
mineração de dados, e o processo de 
descoberta de padrões e geração de 
conhecimento por meio de dados tem um 
sentido romântico, por ser emocionante e 
prazeroso, e um sentido técnico, pois 
demanda estudos técnicos criteriosos. 
Também sabemos que a mineração de 
dados e ciência de dados são áreas 
relacionadas, e que é importante 
conhecer o ambiente em que os dados 
são produzidos e que tipo de 
conhecimento esse ambiente necessita e 
espera receber. 
 
 
● 
Pergunta 4 
● 0 em 1 pontos 
● 
 
ESTATÍSTICA 
 Na Unidade 1, usamos um modelo de regressão múltipla para a 
predição do valor de imóveis. Aqui, para o mesmo problema, 
usamos como modelo uma árvore de decisão. Dizemos que este 
modelo é um modelo de árvore de decisão para regressão, já que a 
variável resposta, o valor do imóvel, é quantitativa. 
 
 
 
Figura: Árvore de decisão ajustada aos valores dos imóveis 
Fonte: Elaborada pelo autor. 
 
A respeito deste modelo de árvore de decisão aplicado ao problema 
de predição do valor dos imóveis (replicado aqui, para sua 
conveniência), analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Se o apartamento tiver uma área menor que 73,6 metros 
quadrados e for localizado no bairro, a estimativa para seu valor é 
de 319,20 mil reais, se seu andar for menor ou igual ao 6º andar. 
II. ( ) Se o apartamento tiver uma área menor que 73,6 metros 
quadrados, for localizado no centro e seu andar for menor ou igual 
ao 6º andar, a estimativa para seu valor é de 366,50 mil reais. 
III. ( ) Se o apartamento tiver uma área maior que 73,6 metros 
quadrados, a estimativa para seu valor é de 448,80 mil reais, 
independentemente da sua localização, bairro ou centro, e do seu 
andar. 
IV. ( ) Se o apartamento tiver uma área menor que 73,7 metros 
quadrados, for localizado no centro e seu andar for igual ou maior 
que o 7º andar, a estimativa para seu valor é de 366,50 mil reais. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
 
Resposta Selecionada: ​F, V, 
V, V. 
Resposta Correta: ​F, F, V, 
V. 
 
 
ESTATÍSTICA 
Feedbackda 
respo
sta: 
Sua resposta está incorreta. A sequência 
está incorreta. Se o apartamento tiver 
uma área menor que 73,6 metros 
quadrados e for localizado no bairro, a 
estimativa para seu valor não é de 319,20
mil reais. Se seu andar for menor ou igual
ao 6º andar, assim como se o 
apartamento tiver uma área menor que 
73,6 metros quadrados, for localizado no 
centro e seu andar for menor ou igual ao 
6º andar, a estimativa para seu valor não 
é de 366,50 mil reais. Você deve 
percorrer a árvore de cima para baixo, até
os nós terminais, nos quais encontrará as
estimativas corretas. 
 
● 
Pergunta 5 
● 1 em 1 pontos 
● 
 
ESTATÍSTICA 
 Muitos dos modelos ou algoritmos usados na estatística e na ciência dos
dados são denominados modelos paramétricos, ou seja, que 
possuem parâmetros. Esses parâmetros devem ser determinados 
quando se treina (se ajusta) o modelo ou algoritmo aos dados 
amostrados. Na regressão linear simples ou múltipla, esses 
parâmetros são denominados coeficientes do modelo. 
 
No que tange aos coeficientes do modelo de regressão linear simples 
para o valor do imóvel em função do seu andar, analise as 
afirmativas a seguir. 
 
I. O estatístico usou o software R e obteve, para os coeficientes do 
modelo de regressão linear simples do valor do imóvel em função do
seu, b0 = 333,71 e b2 = 6,55. 
II. Os coeficientes do modelo de regressão linear simples do valor 
do imóvel em função da sua área possuem unidades, que são, 
respectivamente, kR$ (mil reais) para b0 e kR$/andar(mil reais 
dividido pelo andar do imóvel) para b2. 
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo 
vertical y quanto x2 = 0. Pode ser interpretado como o valor 
estimado de um apartamento localizado no térreo, porém isso é uma
extrapolação, pois, na amostra analisada, não há nenhum 
apartamento no andar térreo. 
IV. O coeficiente b2 indica quanto varia o valor esperado do imóvel 
para um aumento de seu andar em exatamente 1 andar. 
Graficamente, esse coeficiente é a inclinação da reta que representa
o modelo de regressão linear simples ajustado aos dados da 
amostra. 
Está correto o que se afirma em: 
 
 
 
 
Resposta Selecionada: ​I, II, III e 
IV. 
 
Resposta Correta: ​I, II, III e 
IV. 
 
 
 
ESTATÍSTICA 
Feedback
da 
respo
sta: 
Resposta correta. A alternativa está correta, 
pois todas as afirmativas dessa questão 
se apresentam de maneira adequada. O 
estatístico usou o software R e obteve, 
para os coeficientes do modelo de 
regressão linear simples, b0 = 333,71 e 
b2 = 6,55; os coeficientes do modelo de 
regressão linear simples do valor do 
imóvel em função da sua área possuem 
unidades, que são, respectivamente, kR$ 
para b0 e kR$/andar para b2; o 
coeficiente b0 é a intersecção da reta do 
modelo com o eixo vertical y quanto x2 = 
0 e pode ser interpretado como o valor 
estimado de um apartamento localizado 
no térreo; já o coeficiente b2 indica 
quanto varia o valor esperado do imóvel 
para um aumento de seu andar em 
exatamente 1 andar. 
 
● 
Pergunta 6 
● 1 em 1 pontos 
● 
 
ESTATÍSTICA 
 Algoritmos de aprendizado de máquina nos permitem tratar de 
problemas que seriam difíceis de serem tratados por regras criadas 
por seres humanos, mas que, curiosamente, ficam relativamente 
fáceis de serem tratados por algoritmos criados por seres humanos. 
As formas de solução desses problemas são chamadas tarefas de 
aprendizado de máquina. 
 
Tomando como base esse texto e o que já discutimos sobre as tarefas 
de aprendizado de máquina, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Tarefas de regressão são capazes de predizer valores para 
variáveis resposta quantitativas e tarefas de classificação para 
variáveis resposta qualitativas. 
II. ( ) Tarefas de classificação com dados faltantes são tarefas de 
classificação aplicadas a situações em que alguns dados de entrada
estão faltando. 
III. ( ) Transcrição é uma tarefa na qual se pede ao algoritmo que 
transcreva um conjunto de dados não tão bem estruturados em uma
forma discreta bem estruturada. 
IV. ( ) Tradução é uma tarefa em que se pede ao algoritmo que 
converta uma sequência de símbolos escritos em uma linguagem 
para uma sequência de símbolos em outra linguagem. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
 
Resposta Selecionada: ​V, V, 
V, V. 
Resposta Correta: ​V, V, V,
V. 
 
Feedback
da 
respo
sta: 
Resposta correta. A sequência está correta, 
pois tarefas de regressão são capazes de
predizer valores para variáveis resposta 
quantitativas e tarefas de classificação 
para variáveis resposta qualitativas. 
Tarefas de classificação com dados 
faltantes são tarefas de classificação 
aplicadas a situações em que alguns 
dados de entrada estão faltando. 
Transcrição é uma tarefa na qual se pede
ao algoritmo que transcreva um conjunto 
de dados não tão bem estruturados em 
uma forma discreta bem estruturada. 
Tradução é uma tarefa em que se pede 
 
ESTATÍSTICA 
ao algoritmo que converta uma sequência
de símbolos escritos em uma linguagem 
para uma sequência de símbolos em 
outra linguagem. 
 
● 
Pergunta 7 
● 0 em 1 pontos 
● 
 
 Leia o excerto a seguir: 
“O vice-presidente de Talentos da DataSciencester entrevistou 
um número de candidatos para emprego do site, com níveis 
de sucesso variados. Ele coletou um conjunto de dados com 
vários atributos (qualitativos) de cada candidato, bem como se
o candidato se saiu bem ou mal na entrevista. Você poderia 
usar esses dados para construir um modelo identificando 
quais candidatos farão boas entrevistas, para que ele não 
precise perder tempo fazendo entrevistas? [...] Isso parece 
perfeito para uma ​árvore de decisão​, outra ferramenta de 
modelagem de previsão no kit de um cientista de dados.” 
 
GRUS, J. Data science do zero: primeiras regras com o 
Python. Rio de Janeiro: Alta Books, 2016. p. 201. 
 
Tomando como base esse texto e o conteúdo apresentado 
sobre árvores de decisão, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) A resposta à pergunta “Você poderia usar dados para 
construir um modelo identificando quais candidatos farão boas
entrevistas, para que o vice-presidente não precise perder 
tempo entrevistando-os?” é “não”. 
II. ( ) Uma árvore de decisão pode ser desenvolvida para o 
processo de seleção de candidatos, em que as variáveis de 
entrada seriam um conjunto de dados com vários atributos 
(qualitativos) de cada candidato. 
III. ( ) O autor do texto imagina poder usar uma árvore de 
decisão para o processo de seleção de candidatos, em que a 
variável de saída é qualitativa dicotômica — se o candidato se
 
ESTATÍSTICA 
sairá bem ou mal na entrevista. 
IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore 
de decisão de classificação para o processo de seleção, pois 
a variável resposta é qualitativa, porém árvores de decisão 
também podem ser usadas para problemas de regressão. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
Resposta Selecionada: ​V, V, 
F, V. 
Resposta Correta: ​F, V, V,
V. 
 
Feedback
da 
respo
sta: 
Sua resposta está incorreta. A sequência 
está incorreta. A única afirmativa errada 
desta questão é a que diz que a resposta 
à pergunta é “não”, pois o procedimento é
possível e, de fato, é comum que seja 
feito — podemos usar uma árvore para 
modelar o processo de seleção de 
candidatos. 
 
 
● 
Pergunta 8 
● 1 em 1 pontos 
● 
 
ESTATÍSTICA 
 Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um
modelo de regressão logística múltipla aos dados da amostra. Os 
resultados que encontrou foram muito ricos, sugerindo uma série de 
explicações, aprendidas pelo algoritmo com base nos dados 
fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer
resultado de um algoritmo deve ser confrontado com especialistas 
da área em estudo. Contudo, vamos rever o queo modelo de 
regressão múltipla treinado pela jovem cientista de dados sugere. 
Para isso, analise as afirmativas a seguir. 
 
● A probabilidade da inadimplência cresce com o aumento 
dos gastos médios com o cartão de crédito. Isto, que nos 
parece óbvio, foi o que os dados “contaram” para o 
algoritmo de regressão logística múltipla. 
● A probabilidade da inadimplência cresce com o aumento da 
renda média mensal das pessoas. Isto não é tão óbvio e 
provavelmente não teríamos coragem de generalizar para 
outras situações, mas foi o que os dados da amostra do 
gerente do banco “contaram” para o algoritmo de regressão 
logística múltipla. 
● Para duas pessoas com a mesma renda mensal e o mesmo
gasto mensal com cartão de crédito, a probabilidade de 
inadimplência com o cartão é maior para aquela sem 
emprego estável. Novamente, isto foi o que os dados 
amostrados “contaram” para o algoritmo de regressão 
logística múltipla. 
● O modelo de regressão logística múltipla, ajustado aos 
dados da amostra, consegue predizer os efeitos da renda 
mensal da pessoa, do seu gasto médio mensal com cartão 
de crédito e se ela tem ou não um emprego estável, na 
probabilidade de a pessoa ficar inadimplente com o cartão 
de crédito. Um algoritmo desse tipo pode ajudar no 
processo decisório de um banco quanto à aprovação de 
cartão de crédito, ao lado de outros critérios e ferramentas 
analíticas disponíveis para o banco. 
 
 
Está correto o que se afirma em: 
 
 
 
ESTATÍSTICA 
 
Resposta Selecionada: ​I, II, III e 
IV. 
 
 
Resposta Correta: ​I, II, III e 
IV. 
 
 
 
Feedback
da 
respo
sta: 
Resposta correta. Todas as asserções desta 
questão são verdadeiras. Para os dados 
analisados, probabilidade da 
inadimplência cresce com o aumento dos 
gastos médios com o cartão de crédito e 
com o aumento da renda média mensal 
das pessoas. Para duas pessoas com a 
mesma renda mensal e o mesmo gasto 
mensal com cartão de crédito, a 
probabilidade de inadimplência com o 
cartão é maior para aquela sem emprego 
estável. E o modelo de regressão 
logística múltipla é um modelo preditivo, 
um classificador probabilístico. 
 
 
● 
Pergunta 9 
● 0 em 1 pontos 
● 
 
ESTATÍSTICA 
 Já sabemos o que são resumos ou sumários estatísticos, que fazem 
parte da análise descritiva dos dados, ao lado das técnicas gráficas 
para a visualização dos dados. Nesta unidade, usamos pela primeira
vez a função summary() do ​software ​estatístico R. 
 
Em relação ao ​output ​dessa função, aplicada a dados quantitativos, 
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) 
e F para a(s) Falsa(s). 
 
I. ( ) A ordem do ​output ​é valor máximo, terceiro quartil, mediana, 
média, segundo quartil e valor mínimo observado. 
II. ( ) A ordem do ​output ​é valor mínimo, segundo quartil, mediana, 
média, terceiro quartil e valor máximo observado. 
III. ( ) O segundo quartil informa o valor da variável, acima do qual 
se encontram 25% dos dados observados. 
IV. ( ) A mediana informa o valor da variável, abaixo do qual se 
encontram 50% dos dados observados. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
 
Resposta Selecionada: ​F, V, 
V, F. 
Resposta Correta: ​F, V, F,
V. 
 
Feedback
da 
respo
sta: 
Sua resposta está incorreta. A sequência 
está incorreta. A ordem correta do ​output 
da função summary() do R, quando 
aplicada aos dados de uma variável 
quantitativa, como o preço da boneca 
falante, é valor mínimo, segundo quartil, 
mediana, média, terceiro quartil e valor 
máximo observado. O segundo quartil 
informa o valor da variável, abaixo do 
qual se encontram 25% dos dados 
observados, e a mediana fornece o valor 
da variável, abaixo do qual se encontram 
50% dos valores observados. 
 
 
● 
Pergunta 10 
ESTATÍSTICA 
● 1 em 1 pontos 
● 
 
 Dados podem aparecer na forma de textos, imagens, vídeos, sons, 
tabelas, listas, sequências, séries, etc. São muitos os dados que 
hoje coletamos de diferentes fontes, e muitas as formas de 
organizá-los e armazená-los. Uma dessas forma, talvez a mais 
importante delas, são os dados estruturados. 
 
Relativamente a esse assunto, analise as afirmativas a seguir. 
 
● Dados estruturados são dados que não possuem uma 
estrutura regular e repetitiva, seguindo um padrão comum 
adotado pelas ciências da computação, estatística e 
ciência dos dados. 
● A forma de organização básica dos dados, preferida na 
estatística e na ciência dos dados, é a forma tabular, na 
qual as variáveis são dispostas nas linhas e as 
observações são dispostas nas colunas. 
● Dados estruturados são dados que possuem uma estrutura
regular e repetitiva, seguindo um padrão comum adotado 
pelas ciência da computação, estatística e ciência dos 
dados. 
● A forma de organização básica dos dados, preferida na 
estatística e na ciência dos dados, é a forma tabular, na 
qual as variáveis são dispostas nas colunas e as 
observações são dispostas nas linhas. 
 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: ​III e IV, 
apenas. 
Resposta Correta: ​III e IV, 
apenas. 
 
 
ESTATÍSTICA 
Feedback
da 
respo
sta: 
Resposta correta. Dados estruturados são 
dados que possuem uma estrutura 
regular e repetitiva, seguindo um padrão
comum adotado pelas ciência da 
computação, estatística e ciência dos 
dados. Também está correto dizer que a
forma de organização básica dos dados,
preferida na estatística e na ciência dos 
dados, é a forma tabular, na qual as 
variáveis são dispostas nas colunas e as
observações são dispostas nas linhas. 
 
Quinta-feira, 16 de Abril de 2020 12h50min18s BRT

Mais conteúdos dessa disciplina