Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

www.datascienceacademy.com.br 
 
 
 
Preparação para Carreiras em 
Ciência de Dados 
 
 
20 Perguntas e Respostas em 
Entrevistas para Data Science 
 
 
	Preparação	para	Carreira	em	Ciência	de	Dados	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
	
2	
 
 
No momento atual Big Data, Ciência de Dados e Aprendizagem de Máquina estão realmente 
dominando o mercado, e os profissionais que possuem esses conhecimentos estão cada dia 
mais disputados pelo mercado de trabalho. 
 
Não podemos negar, nem tão pouco ignorar a importância dos dados e a nossa capacidade de 
analisar, tratar e apresentar esses dados. Dessa forma, os Cientista de Dados são as estrelas 
do momento e há uma enorme lacuna a ser preenchida por esses profissionais que também 
estão escassos no mercado de trabalho no mundo todo. 
 
Portanto, você que deseja seguir essa carreira precisará estar tecnicamente proficiente de 
conceitos sobre dados, estatísticas, aplicativos, linguagens, frameworks e algoritmos. 
 
A seguir vamos disponibilizar 20 perguntas mais populares que você pode se deparar em 
alguma entrevista na área de Ciência de Dados, todas essas perguntas, foram retiradas de 
artigos mais populares sobre os assuntos e todas as referências estão no item de referências e 
links úteis. 
 
Perguntas e Respostas: 
 
1) Fale um pouco sobre você: 
Meu nome é Fulano, tenho mestrado em Ciência da Informação e oito anos de experiência 
como Cientista de Dados, acredito que eu possa ser um grande ativo para sua organização. 
Minha experiência profissional inclui a criação de algoritmos fazendo uso de linguagem de 
aprendizagem de máquinas para explorar e dar sentido aos dados e, em seguida, usar a 
visualização de dados para apresentar esses dados aos tomadores de decisão. Aliado a essa 
experiência está a minha paixão pelos dados e penso que seria excelente desenvolver um 
trabalho em equipe na sua empresa. 
 
2) Fale sobre seus projetos nos quais trabalhou com Ciência de Dados: 
Elaborei algoritmos utilizando a linguagem Python para filtrar resultados de dados coletados. 
Implementei estratégias de mineração de dados para construir um banco de dados de dados 
significativo para organização. 
Desenvolvi um detector de anomalia automatizada para aumentar a eficiência e a precisão das 
transações financeiras. 
Criei gráficos de visualização de dados que facilitavam a explicação e significado dos dados 
para os gestores e tomadores de decisão. 
Desenvolvi e segui um procedimento operacional padrão para verificar a integridade dos dados. 
 
	Preparação	para	Carreira	em	Ciência	de	Dados	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
	
3	
 
 
3) Você tem algo publicado no Guithub? Pode nos apresentar? 
Sim. Tenho vários, você pode acessar a URL https//github.com/fulanoxpto/MLparaalimentos 
O meu projeto mais recente é o de Machine Learning onde um implementei um algoritmo 
efetivo para realizar o reconhecimento de imagens para informar as características dos 
alimentos. 
 
4) Quais cientistas de dados você admira mais? 
 
Ex: Hadley Wickham, por seu fantástico trabalho sobre Ciência dos Dados e Visualização de 
Dados em R, incluindo dplyr, ggplot2 e Rstudio. 
Geoff Hinton, por seus insigths em inteligência artificial. 
 
5) Explique o que você entende por métodos de reescalonamento: 
 
Os testes paramétricos estatísticos clássicos comparam as estatísticas observadas com as 
distribuições teóricas de amostragem. Revezando uma metodologia orientada por dados, não 
orientada por teoria, baseada em amostras repetidas dentro da mesma amostra. 
 
 
6) É melhor ter muitos falsos positivos ou muitos falsos negativos? Explicar. 
 
Depende tanto da questão quanto do domínio para o qual estamos tentando resolver a 
questão. 
 
Nos testes médicos, falsos negativos podem fornecer uma mensagem falsamente 
reconfortante aos pacientes e aos médicos que a doença está ausente, quando está realmente 
presente. Isso às vezes leva a um tratamento inadequado do paciente e da sua doença. Então, 
é desejável ter muitos falsos positivos. 
 
Para a filtragem de spam, um falso positivo ocorre quando as técnicas de filtragem de spam ou 
de bloqueio de spam classificam incorretamente uma mensagem de e-mail legítima como 
spam e, como resultado, interferem na sua entrega. Enquanto a maioria das táticas anti-spam 
pode bloquear ou filtrar uma alta porcentagem de e-mails indesejados, fazê-lo sem criar 
resultados falsos positivos significativos é uma tarefa muito mais exigente. Então, eu prefiro 
muitos falsos negativos sobre muitos falsos positivos. 
 
7) O que é o viés de seleção, por que é importante e como você pode evitá-lo? 
 
O viés de seleção, em geral, é uma situação problemática em que o erro é introduzido devido a 
uma amostra de população não aleatória. Por exemplo, se uma determinada amostra de 100 
casos de teste fosse constituída por uma separação de 4 classes de 60/20/15/5 que realmente 
ocorreu em números relativamente iguais na população, então um determinado modelo pode 
	Preparação	para	Carreira	em	Ciência	de	Dados	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
	
4	
fazer a falsa suposição de que a probabilidade poderia ser o fator determinante. Evitar 
amostras não aleatórias é a melhor maneira de lidar com o viés; No entanto, quando isso não é 
prático, técnicas como a reamostragem, o aumento e a ponderação são estratégias que podem 
ser introduzidas para ajudar a lidar com a situação. 
 
 
8) O que é regressão logística? 
 
Regressão logística também é conhecida como modelo logit. É uma técnica para prever o 
resultado binário de uma combinação linear de variáveis preditoras. 
 
9) O que são os sistemas de recomendação? 
 
Os sistemas de recomendação são uma subclasse de sistemas de filtragem de informações 
que pretendem prever as preferências ou classificações que um usuário daria a um produto. Os 
sistemas de recomendação são amplamente utilizados em filmes, notícias, artigos de 
pesquisa, produtos, tags sociais, música, etc. 
 
 
10) Linguagem Python ou R - Qual você preferiria para realizar análise de texto? 
 
A melhor resposta possível para isso seria o Python porque possui uma biblioteca Pandas que 
fornece estruturas de dados fáceis de usar e ferramentas de análise de dados de alto 
desempenho. 
 
11) Qual técnica é usada para prever respostas categóricas? 
 
A técnica de classificação é amplamente utilizada na mineração e para classificar conjuntos de 
dados. 
 
12) O que é Regressão Linear? 
 
A regressão linear é uma técnica estatística em que o escore de uma variável Y é previsto a 
partir da pontuação de uma segunda variável X. O X é referido como a variável preditora e Y 
como variável de critério. 
 
13) Quais são as várias etapas envolvidas em um projeto de análise? 
 
I. Compreender o problema do negócio; 
II. Explorar os dados e familiarize-se com ele; 
III. Preparar os dados para modelagem por detecção de valores anormais, tratamento de 
valores missing, variáveis de transformação, etc; 
 
	Preparação	para	Carreira	em	Ciência	de	Dados	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
	
5	
IV. Após a preparação dos dados, comece a executar o modelo, analise o resultado e ajuste 
a abordagem. Este é um passo iterativo até obter o melhor resultado possível; 
V. Valide o modelo usando um novo conjunto de dados; 
VI. Comece a implementar o modelo e acompanhe o resultado para analisar o desempenho 
do modelo durante o período de tempo. 
 
 
14) Durante a análise, como você trata os valores missing? 
 
A extensão dos valores missing é identificada após identificar as variáveis com valores 
missing. Se algum padrão for identificado, o analista deve concentrar-se neles, pois isso pode 
levar a informações comerciais interessantes e significativas. Se não houver padrões 
identificados, os valores missing podem ser substituídos por valores médios ou simplesmente 
podem ser ignorados. 
 
Existem vários fatores a serem considerados ao responder a essa pergunta:• Compreenda a afirmação do problema, compreenda os dados e dê a resposta. 
Assinando um valor padrão que pode ser o valor médio, mínimo ou máximo. A entrada 
nos dados é importante. 
• Se for uma variável categórica, o valor padrão é atribuído. O valor faltante é atribuído a 
um valor padrão. 
• Se você tiver uma distribuição de dados, a distribuição normal dará o valor médio. 
 
15) Você pode usar a aprendizagem de máquinas para análise de séries temporais? 
 
Sim, pode ser usado, mas depende das aplicações. 
 
16) Exemplifique algumas situações em que você usaria um SVM ou um algoritmo 
RandomForest Machine Learning e vice-versa. 
 
SVM e Random Forest são usados em problemas de classificação. 
a) Se você tiver certeza de que seus dados são livres e gratuitos, então utilize o SVM. Mas, 
se seus dados puderem conter outliers, então RandomForest seria a melhor escolha. 
b) Geralmente, o SVM consome mais poder computacional do que Random Forest, então, 
se você não possuir muita memória, prefira o algoritmo Random Forest. 
c) Random Forest dá uma boa ideia da importância da variável em seus dados. 
d) Algoritmos Random Forest são recomendados para problemas multi classe. 
e) O SVM é preferido em um conjunto de problemas multidimensionais, como 
classificação de texto 
 
Mas como um bom cientista de dados, você deve experimentar ambos e testar a precisão ou, 
em vez disso, você pode usar o conjunto de muitas técnicas de Aprendizado de máquinas. 
 
	Preparação	para	Carreira	em	Ciência	de	Dados	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
	
6	
17) Qual é o objetivo do teste A / B? 
 
É um teste de hipóteses estatísticas para experiências aleatorizadas com duas variáveis A e B. 
O objetivo do Teste A / B é identificar quaisquer alterações na página da Web para maximizar 
ou aumentar o resultado de um interesse. Um exemplo disso pode ser a identificação da taxa 
de cliques para um banner. 
 
18) Como os valores Outliers podem ser tratados? 
 
Os valores Outliers podem ser identificados usando o método de análise gráfica univariada ou 
qualquer outro. Se o número de valores Outliers forem poucos, eles podem ser avaliados 
individualmente, mas para um grande número de valores Outliers, os valores podem ser 
substituídos pelos valores do percentil 99 ou 1º. 
 
As formas mais comuns de tratar os valores Outliers - Alterar o valor e introduzir dentro de um 
intervalo ou simplesmente remover o valor. 
 
19) Qual é a diferença entre aprendizagem supervisionada e aprendizagem não 
supervisionada? 
 
Se um algoritmo aprender algo dos dados de treinamento para que o conhecimento possa ser 
aplicado aos dados do teste, então é referido como Aprendizagem Supervisionada. A 
classificação é um exemplo para a aprendizagem supervisionada. Se o algoritmo não aprende 
nada de antemão porque não há variável de resposta ou qualquer dado de treinamento, então é 
referido como aprendizagem não supervisionada. Clustering é um exemplo para a 
aprendizagem não supervisionada. 
 
20) Vamos te enviar um dataset *.csv, por favor importe esses dados, realize e tratamento, 
demonstre em formato de dashbord e nos apresente em modo storytelling nas 
próximas 24 horas.

Mais conteúdos dessa disciplina