Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

A IMPORTÂNCIA DA ESTATÍSTICA PARA 
TECNOLOGIA
INTRODUÇÃO
• A Tecnologia busca tratar de conjuntos de dados 
extensos (Big Data), e quando temos muitos dados 
disponíveis, este tamanho pode deixar qualquer 
profissional sobrecarregado. 
INTRODUÇÃO
• Por isso, antes de sair aplicando modelos de machine 
learning em um conjunto de dados, é preciso conhecer a 
“matéria-prima” com que se está trabalhando, através de 
características que nos servem de resumo sobre sua 
natureza. 
INTRODUÇÃO
• A área de conhecimento que nos informa sobre estas 
características é a Estatística.
INTRODUÇÃO
• A Estatística proporciona os meios e as ferramentas para encontrar 
estrutura em dados, e assim fornecer insights sobre as informações 
mais profundas ali escondidas. Medidas estatísticas como média, 
mediana, moda, desvio padrão e distribuição servem para 
descrever de uma forma generalizada o comportamento das 
variáveis de trabalho, assim como identificar anomalias. 
INTRODUÇÃO
• Se os modelos de machine learning são as ferramentas 
que os cientistas de dados operam, a Estatística é o 
conhecimento sobre como essas ferramentas funcionam, 
que permite escolher as ferramentas mais adequadas, e 
tirar o melhor proveito delas.
EXPLORAÇÃO DE DADOS
• A boa Ciência de Dados começa com uma boa exploração 
dos dados. Nesta etapa, o cientista tem a oportunidade de 
desenvolver uma intuição sobre os dados com que está 
trabalhando, seja isoladamente, seja em relações simples 
entre as variáveis. 
EXPLORAÇÃO DE DADOS
• A exploração de dados ganha uma nova dimensão na época 
de big data, já que, quanto maior o número de amostras (ou 
instâncias, no caso), mais certeza se tem sobre as 
características da população inteira. A maior contribuição da 
estatística aqui é a noção de distribuição. 
EXPLORAÇÃO DE DADOS
• Conseguir atribuir uma distribuição conhecida a um conjunto de 
dados permite escolher os métodos estatísticos mais adequados 
para solucionar o problema, além de fornecer os parâmetros 
distribucionais que constituem conhecimento a priori importante 
para tomar as decisões analíticas subsequentes.
ANÁLISE ESTATÍSTICA
• Compreende encontrar padrões e tendências em dados. 
Encontrar estrutura em dados é a tarefa essencial que 
permite depois fazer predições. Os principais métodos de 
análise estatística e sua relação com a Ciência de Dados 
são descritos a seguir.
TESTE DE HIPÓTESES
• Muitas das perguntas que surgem de problemas dirigidos por 
dados podem ser traduzidas em hipóteses. Por exemplo: Amanhã 
vai chover? Qual desses produtos vende mais? Qual desses 
tratamentos médicos é melhor? As hipóteses são o link natural 
entre a teoria destes fenômenos e a Estatística. 
TESTE DE HIPÓTESES
• Testar uma hipótese pode nos fornecer insights poderosos sobre fenômenos e a 
inter-relação entre os agentes envolvidos, mas sua validade depende de um 
domínio estatístico compatível. Apesar de o teste de hipóteses ser bastante 
usado na indústria para dirigir ações de negócios, sua aplicação indiscriminada, 
sem rigor científico, pode conduzir a conclusões erradas que se revelarão 
decisões de mercado frustradas.
CLASSIFICAÇÃO
• Uma das tarefas básicas de machine learning, os métodos de 
classificação servem para encontrar subpopulações de dados, seja 
em problemas sem conhecimento a priori sobre estas 
subpopulações (classificação não-supervisionada), seja em 
problemas onde as subpopulações são conhecidas mas não suas 
características delineadoras (classificação supervisionada). 
CLASSIFICAÇÃO
• Nestes casos, o domínio estatístico é importante porque um 
número grande de instâncias de dados, ou de características que 
descrevem esses dados, como acontece com big data, pode levar 
ao consumo elevado de recursos computacionais e a problemas 
numéricos. 
CLASSIFICAÇÃO
• O bom cientista de dados deve saber como contornar estes 
entraves, seja na utilização de algoritmos com menor complexidade 
computacional, seja no reexame dos métodos tradicionais agora 
aplicados para big data.
REGRESSÃO
• Outra tarefa básica de machine learning, os métodos de regressão 
nos ajudam a encontrar relações entre as características que 
descrevem cada instância de dado quando a variável alvo é 
medida. Diferentes abordagens devem ser utilizadas em função da 
distribuição que se assume para os dados de trabalho. 
REGRESSÃO
• Por exemplo, se os dados forem normalmente distribuídos, a 
regressão linear pode ser aplicada, mas se seguirem uma 
distribuição exponencial, regressões generalizadas são mais 
adequadas. 
REGRESSÃO
• Além da escolha do método, os mesmos empecilhos que surgem 
nos problemas de classificação em big data podem afligir os casos 
de regressão. O cientista de dados deve saber como reduzir 
adequadamente o número de instâncias, ou como selecionar as 
características mais relevantes que descrevem estas instâncias, 
sem comprometer o desempenho do modelo.
ANÁLISE DE SÉRIE TEMPORAL
• Esta análise procura estabelecer a estrutura temporal de dados que 
têm essa natureza. Prever o comportamento de eventos futuros é 
um grande desafio para o cientista de dados, com importantes 
implicações práticas. 
ANÁLISE DE SÉRIE TEMPORAL
• Aqui, conhecimento estatístico pode ser essencial para desenvolver 
um modelo de machine learning eficiente. Uma variável que tenha 
comportamento periódico, por exemplo – como é o caso da 
flutuação de temperatura ao longo do dia -, pode servir para definir 
a janela de tempo que o modelo deve considerar quando estiver 
sendo ajustado.
VALIDAÇÃO DE MODELOS
• Nos casos onde mais de um modelo é aplicável para a resolução 
de um problema, suas performances devem ser comparadas 
através de testes estatísticos. Neste caso, não só é necessário 
saber qual teste aplicar em cada situação, mas também como 
interpretá-los.
VALIDAÇÃO DE MODELOS
• Mesmo um único modelo deve ser validado para levar em conta 
que, por mais amplo que seja o banco de dados, ele está usando 
apenas uma amostragem da população total. Aqui é importante o 
conceito de validação cruzada, cuja fundamentação também deriva 
do conhecimento estatístico sobre população e amostragem. 
VALIDAÇÃO DE MODELOS
• Os métodos de validação cruzada, por sua vez, são dependes de 
características estatísticas das variáveis, já que estas influenciam a 
capacidade de generalização do modelo escolhido.
VISUALIZAÇÃO
• Se imagens valem mais do que mil palavras, o mesmo pode ser 
dito sobre números e tabelas. Visualizar os dados é fundamental 
para desenvolver um senso intuitivo sobre sua natureza, que guia 
nossas decisões sobre como abordá-los matematicamente. 
VISUALIZAÇÃO
• Isso é especialmente verdadeiro em big data, onde o volume de 
dados extrapola nossa capacidade analítica meramente numérica. 
A visualização é importante tanto na fase exploratória dos dados, 
quanto na interpretação dos resultados. 
VISUALIZAÇÃO
• Histogramas e boxplots são formas rápidas de entender a 
característica das variáveis de estudo e reconhecer dados 
anômalos. Problemas multidimensionais podem ser analisados 
visualmente usando técnicas de redução de dimensionalidade, que 
ainda são capazes de incorporar as relações entre as variáveis 
para indicar padrões e tendências. 
VISUALIZAÇÃO
• São muitas as técnicas voltadas à visualização, mas sem o devido 
conhecimento estatístico, o cientista de dados não saberá sua 
aplicabilidade e como extrair informações a partir destas poderosas 
ferramentas.
	A importância da Estatística para Tecnologia
	Número do slide 2
	INTRODUÇÃO
	INTRODUÇÃO
	INTRODUÇÃO
	INTRODUÇÃO
	INTRODUÇÃO
	Exploração de dados�
	Exploração de dados�
	Exploração de dados�
	Análise estatística�
	Teste de hipóteses�
	Teste de hipóteses�
	Classificação
	Classificação
	Classificação
	Regressão�
	Regressão�
	Regressão�
	Análise de série temporal�
	Análise de série temporal�
	Validação de modelos�
	Validação de modelos�
	Validação de modelos�
	Visualização�
	Visualização�Visualização�
	Visualização�

Mais conteúdos dessa disciplina