08

FAM

Eliane Ferreira

em 16/03/2026

Conteúdos escolhidos para você

3 pág.

Perguntas dessa disciplina

vilhena não o município não enviou os dados para o sistema. Esse tipo de lacuna é comum em cidades menores. Não é problema do site ou da atualização —

UNINASSAU

s primeiras xilogravuras japonesas impressas em policromia, por volta de 1765, são conhecidas Requisição: 8554816 Matricula: 872132 Data: 30/06/202...

Anhanguera

Dada a imagem abaixo, qual das alternativas abaixo corresponde à cláusula SQL correta, para que os dados possam ser visualizados conforme o resulta...

ockpit+ 0 01:4 Questão 08 Qual conceito melhor define a palavra Bioética? A Ciência dos bons e maus. B Ciência da sobrevivência. C Ética da vida. D...

UNINGÁ

Material

Conteúdos escolhidos para você

3 pág.

Perguntas dessa disciplina

vilhena não o município não enviou os dados para o sistema. Esse tipo de lacuna é comum em cidades menores. Não é problema do site ou da atualização —

UNINASSAU

s primeiras xilogravuras japonesas impressas em policromia, por volta de 1765, são conhecidas Requisição: 8554816 Matricula: 872132 Data: 30/06/202...

Anhanguera

Dada a imagem abaixo, qual das alternativas abaixo corresponde à cláusula SQL correta, para que os dados possam ser visualizados conforme o resulta...

ockpit+ 0 01:4 Questão 08 Qual conceito melhor define a palavra Bioética? A Ciência dos bons e maus. B Ciência da sobrevivência. C Ética da vida. D...

UNINGÁ

Prévia do material em texto

www.datascienceacademy.com.br

Preparação para Carreiras em
Ciência de Dados

20 Perguntas e Respostas em
Entrevistas para Data Science

Preparação para Carreira em Ciência de Dados

Data Science Academy
www.datascienceacademy.com.br

No momento atual Big Data, Ciência de Dados e Aprendizagem de Máquina estão realmente
dominando o mercado, e os profissionais que possuem esses conhecimentos estão cada dia
mais disputados pelo mercado de trabalho.

Não podemos negar, nem tão pouco ignorar a importância dos dados e a nossa capacidade de
analisar, tratar e apresentar esses dados. Dessa forma, os Cientista de Dados são as estrelas
do momento e há uma enorme lacuna a ser preenchida por esses profissionais que também
estão escassos no mercado de trabalho no mundo todo.

Portanto, você que deseja seguir essa carreira precisará estar tecnicamente proficiente de
conceitos sobre dados, estatísticas, aplicativos, linguagens, frameworks e algoritmos.

A seguir vamos disponibilizar 20 perguntas mais populares que você pode se deparar em
alguma entrevista na área de Ciência de Dados, todas essas perguntas, foram retiradas de
artigos mais populares sobre os assuntos e todas as referências estão no item de referências e
links úteis.

Perguntas e Respostas:

1) Fale um pouco sobre você:
Meu nome é Fulano, tenho mestrado em Ciência da Informação e oito anos de experiência
como Cientista de Dados, acredito que eu possa ser um grande ativo para sua organização.
Minha experiência profissional inclui a criação de algoritmos fazendo uso de linguagem de
aprendizagem de máquinas para explorar e dar sentido aos dados e, em seguida, usar a
visualização de dados para apresentar esses dados aos tomadores de decisão. Aliado a essa
experiência está a minha paixão pelos dados e penso que seria excelente desenvolver um
trabalho em equipe na sua empresa.

2) Fale sobre seus projetos nos quais trabalhou com Ciência de Dados:
Elaborei algoritmos utilizando a linguagem Python para filtrar resultados de dados coletados.
Implementei estratégias de mineração de dados para construir um banco de dados de dados
significativo para organização.
Desenvolvi um detector de anomalia automatizada para aumentar a eficiência e a precisão das
transações financeiras.
Criei gráficos de visualização de dados que facilitavam a explicação e significado dos dados
para os gestores e tomadores de decisão.
Desenvolvi e segui um procedimento operacional padrão para verificar a integridade dos dados.

Preparação para Carreira em Ciência de Dados

Data Science Academy
www.datascienceacademy.com.br

3) Você tem algo publicado no Guithub? Pode nos apresentar?
Sim. Tenho vários, você pode acessar a URL https//github.com/fulanoxpto/MLparaalimentos
O meu projeto mais recente é o de Machine Learning onde um implementei um algoritmo
efetivo para realizar o reconhecimento de imagens para informar as características dos
alimentos.

4) Quais cientistas de dados você admira mais?

Ex: Hadley Wickham, por seu fantástico trabalho sobre Ciência dos Dados e Visualização de
Dados em R, incluindo dplyr, ggplot2 e Rstudio.
Geoff Hinton, por seus insigths em inteligência artificial.

5) Explique o que você entende por métodos de reescalonamento:

Os testes paramétricos estatísticos clássicos comparam as estatísticas observadas com as
distribuições teóricas de amostragem. Revezando uma metodologia orientada por dados, não
orientada por teoria, baseada em amostras repetidas dentro da mesma amostra.

6) É melhor ter muitos falsos positivos ou muitos falsos negativos? Explicar.

Depende tanto da questão quanto do domínio para o qual estamos tentando resolver a
questão.

Nos testes médicos, falsos negativos podem fornecer uma mensagem falsamente
reconfortante aos pacientes e aos médicos que a doença está ausente, quando está realmente
presente. Isso às vezes leva a um tratamento inadequado do paciente e da sua doença. Então,
é desejável ter muitos falsos positivos.

Para a filtragem de spam, um falso positivo ocorre quando as técnicas de filtragem de spam ou
de bloqueio de spam classificam incorretamente uma mensagem de e-mail legítima como
spam e, como resultado, interferem na sua entrega. Enquanto a maioria das táticas anti-spam
pode bloquear ou filtrar uma alta porcentagem de e-mails indesejados, fazê-lo sem criar
resultados falsos positivos significativos é uma tarefa muito mais exigente. Então, eu prefiro
muitos falsos negativos sobre muitos falsos positivos.

7) O que é o viés de seleção, por que é importante e como você pode evitá-lo?

O viés de seleção, em geral, é uma situação problemática em que o erro é introduzido devido a
uma amostra de população não aleatória. Por exemplo, se uma determinada amostra de 100
casos de teste fosse constituída por uma separação de 4 classes de 60/20/15/5 que realmente
ocorreu em números relativamente iguais na população, então um determinado modelo pode
Preparação para Carreira em Ciência de Dados

Data Science Academy
www.datascienceacademy.com.br

4
fazer a falsa suposição de que a probabilidade poderia ser o fator determinante. Evitar
amostras não aleatórias é a melhor maneira de lidar com o viés; No entanto, quando isso não é
prático, técnicas como a reamostragem, o aumento e a ponderação são estratégias que podem
ser introduzidas para ajudar a lidar com a situação.

8) O que é regressão logística?

Regressão logística também é conhecida como modelo logit. É uma técnica para prever o
resultado binário de uma combinação linear de variáveis preditoras.

9) O que são os sistemas de recomendação?

Os sistemas de recomendação são uma subclasse de sistemas de filtragem de informações
que pretendem prever as preferências ou classificações que um usuário daria a um produto. Os
sistemas de recomendação são amplamente utilizados em filmes, notícias, artigos de
pesquisa, produtos, tags sociais, música, etc.

10) Linguagem Python ou R - Qual você preferiria para realizar análise de texto?

A melhor resposta possível para isso seria o Python porque possui uma biblioteca Pandas que
fornece estruturas de dados fáceis de usar e ferramentas de análise de dados de alto
desempenho.

11) Qual técnica é usada para prever respostas categóricas?

A técnica de classificação é amplamente utilizada na mineração e para classificar conjuntos de
dados.

12) O que é Regressão Linear?

A regressão linear é uma técnica estatística em que o escore de uma variável Y é previsto a
partir da pontuação de uma segunda variável X. O X é referido como a variável preditora e Y
como variável de critério.

13) Quais são as várias etapas envolvidas em um projeto de análise?

I. Compreender o problema do negócio;
II. Explorar os dados e familiarize-se com ele;
III. Preparar os dados para modelagem por detecção de valores anormais, tratamento de
valores missing, variáveis de transformação, etc;

Preparação para Carreira em Ciência de Dados

Data Science Academy
www.datascienceacademy.com.br

5
IV. Após a preparação dos dados, comece a executar o modelo, analise o resultado e ajuste
a abordagem. Este é um passo iterativo até obter o melhor resultado possível;
V. Valide o modelo usando um novo conjunto de dados;
VI. Comece a implementar o modelo e acompanhe o resultado para analisar o desempenho
do modelo durante o período de tempo.

14) Durante a análise, como você trata os valores missing?

A extensão dos valores missing é identificada após identificar as variáveis com valores
missing. Se algum padrão for identificado, o analista deve concentrar-se neles, pois isso pode
levar a informações comerciais interessantes e significativas. Se não houver padrões
identificados, os valores missing podem ser substituídos por valores médios ou simplesmente
podem ser ignorados.

Existem vários fatores a serem considerados ao responder a essa pergunta:• Compreenda a afirmação do problema, compreenda os dados e dê a resposta.
Assinando um valor padrão que pode ser o valor médio, mínimo ou máximo. A entrada
nos dados é importante.
• Se for uma variável categórica, o valor padrão é atribuído. O valor faltante é atribuído a
um valor padrão.
• Se você tiver uma distribuição de dados, a distribuição normal dará o valor médio.

15) Você pode usar a aprendizagem de máquinas para análise de séries temporais?

Sim, pode ser usado, mas depende das aplicações.

16) Exemplifique algumas situações em que você usaria um SVM ou um algoritmo
RandomForest Machine Learning e vice-versa.

SVM e Random Forest são usados em problemas de classificação.
a) Se você tiver certeza de que seus dados são livres e gratuitos, então utilize o SVM. Mas,
se seus dados puderem conter outliers, então RandomForest seria a melhor escolha.
b) Geralmente, o SVM consome mais poder computacional do que Random Forest, então,
se você não possuir muita memória, prefira o algoritmo Random Forest.
c) Random Forest dá uma boa ideia da importância da variável em seus dados.
d) Algoritmos Random Forest são recomendados para problemas multi classe.
e) O SVM é preferido em um conjunto de problemas multidimensionais, como
classificação de texto

Mas como um bom cientista de dados, você deve experimentar ambos e testar a precisão ou,
em vez disso, você pode usar o conjunto de muitas técnicas de Aprendizado de máquinas.

Preparação para Carreira em Ciência de Dados

Data Science Academy
www.datascienceacademy.com.br

6
17) Qual é o objetivo do teste A / B?

É um teste de hipóteses estatísticas para experiências aleatorizadas com duas variáveis A e B.
O objetivo do Teste A / B é identificar quaisquer alterações na página da Web para maximizar
ou aumentar o resultado de um interesse. Um exemplo disso pode ser a identificação da taxa
de cliques para um banner.

18) Como os valores Outliers podem ser tratados?

Os valores Outliers podem ser identificados usando o método de análise gráfica univariada ou
qualquer outro. Se o número de valores Outliers forem poucos, eles podem ser avaliados
individualmente, mas para um grande número de valores Outliers, os valores podem ser
substituídos pelos valores do percentil 99 ou 1º.

As formas mais comuns de tratar os valores Outliers - Alterar o valor e introduzir dentro de um
intervalo ou simplesmente remover o valor.

19) Qual é a diferença entre aprendizagem supervisionada e aprendizagem não
supervisionada?

Se um algoritmo aprender algo dos dados de treinamento para que o conhecimento possa ser
aplicado aos dados do teste, então é referido como Aprendizagem Supervisionada. A
classificação é um exemplo para a aprendizagem supervisionada. Se o algoritmo não aprende
nada de antemão porque não há variável de resposta ou qualquer dado de treinamento, então é
referido como aprendizagem não supervisionada. Clustering é um exemplo para a
aprendizagem não supervisionada.

20) Vamos te enviar um dataset *.csv, por favor importe esses dados, realize e tratamento,
demonstre em formato de dashbord e nos apresente em modo storytelling nas
próximas 24 horas.

08

Bases de Dados

FAM

Ferramentas de estudo

Conteúdos escolhidos para você

074 - 08

Perguntas dessa disciplina

vilhena não o município não enviou os dados para o sistema. Esse tipo de lacuna é comum em cidades menores. Não é problema do site ou da atualização —

s primeiras xilogravuras japonesas impressas em policromia, por volta de 1765, são conhecidas Requisição: 8554816 Matricula: 872132 Data: 30/06/202...

Dada a imagem abaixo, qual das alternativas abaixo corresponde à cláusula SQL correta, para que os dados possam ser visualizados conforme o resulta...

ockpit+ 0 01:4 Questão 08 Qual conceito melhor define a palavra Bioética? A Ciência dos bons e maus. B Ciência da sobrevivência. C Ética da vida. D...

Conteúdos escolhidos para você

074 - 08

Perguntas dessa disciplina

vilhena não o município não enviou os dados para o sistema. Esse tipo de lacuna é comum em cidades menores. Não é problema do site ou da atualização —

s primeiras xilogravuras japonesas impressas em policromia, por volta de 1765, são conhecidas Requisição: 8554816 Matricula: 872132 Data: 30/06/202...

Dada a imagem abaixo, qual das alternativas abaixo corresponde à cláusula SQL correta, para que os dados possam ser visualizados conforme o resulta...

ockpit+ 0 01:4 Questão 08 Qual conceito melhor define a palavra Bioética? A Ciência dos bons e maus. B Ciência da sobrevivência. C Ética da vida. D...

Mais conteúdos dessa disciplina