Prévia do material em texto
Profa. Dra. Miryam de Moraes UNIDADE I Ciência de Dados Introdução e Visão Geral sobre a Ciência de Dados. Descoberta de Conhecimento em Base de Dados. Visão Geral sobre o Aprendizado de Máquina. Viés Indutivo. Aprendizado Descritivo e Preditivo. Mineração de Dados. Ciência de Dados Big Data x Ciência de Dados. “Big Data é qualquer dado que seja computacionalmente caro de gerenciar e difícil de extrair valor”. – Michael Franklin, UC, Berkeley. Big Data refere-se ao volume de dados tão grandes e/ou complexos para serem efetiva e/ou eficientemente tratados por teorias tradicionais sobre os dados relacionados, as tecnologias e as ferramentas (CAO, 2017). Avanços recentes nas tecnologias para a aquisição, o armazenamento, a transmissão e os processamento de dados geram maior quantidade de dados, com maior rapidez e a menor custo. Os dados têm natureza não ortodoxas, como: imagens, sons etc. Introdução e Visão Geral sobre a Ciência de Dados Dados que são grandes demais para os sistemas tradicionais de processamento de dados. Dados que precisam de novas técnicas para serem processados. Dados que são muito complexos. Dados que são importantes. Desafios e oportunidades decorrentes da disponibilidade de dados sobre tudo. Big Data (CARVALHO, 2021) Grande volume de dados, gerados com grande velocidade e variedade (3 Vs). Volume: tanto de dados estruturados quanto de não estruturados. Variedade: vindos de fontes diferentes e que precisam ser integrados. Velocidade: gerados em fluxos cada vez mais rápidos. Características de Big Data (CARVALHO, 2021) Trata-se de um novo campo interdisciplinar que sintetiza e se fundamenta sobre as disciplinas, como: Estatística, Informática, Computação, Ciências Sociais, para estudar os dados e os seus ambientes, incluindo os aspectos contextuais tais como aqueles organizacionais e sociológicos, a fim de transformar os dados em insights para a tomada de decisões (CAO, 2017). “A Ciência de Dados é um novo campo transdisciplinar que constrói e sintetiza várias disciplinas, e corpos de conhecimento relevantes, incluindo: Estatística, Informática, Computação, Comunicação, Gerenciamento e Sociologia” (CAO, 2017). Os resultados de Ciência de Dados são produtos de dados. Produtos de dados: são sistemas com inteligência estatística desenvolvidos para responder uma pergunta de negócio a partir de dados. São exemplos: previsão, serviço, recomendação, insight de tomada de decisão, pensamento, modelo, modo e paradigma. Ciência de Dados Ciência de Dados: estuda os princípios e as técnicas para extrair o conhecimento de um conjunto de dados (novo, relevante e útil). Big Data lida com as tecnologias para coletar, gerenciar e processar os (Big) dados. Ciência de Dados lida com a criação de soluções para a modelagem de dados, capazes de extrair o conhecimento de dados reais. As tecnologias de processamento de dados, através da Ciência de Dados, permite que sejam tomadas as decisões, orientadas pelos dados. Ciência de Dados (CARVALHO, 2021) Dotado de pensamento crítico, criativo, inquisitivo e analítico. Estatística. Mineração de Dados. Metodologias e Modelos de Aprendizado de Máquina (Machine Learning). Infraestruturas de Big Data: computação em nuvem, paradigmas de sistemas distribuídos, processamento de stream e bancos de dados. Conhecimento sobre a interação homem – máquina, representação, gerenciamento e visualização do conhecimento. Background em Engenharia de Software e Qualidade de Software. Interesse em estudos multidisciplinares: métodos em Ciências Sociais e da vida. Linguagens de programação, estruturas de dados e desenvolvimento em plataformas Linux, sistemas distribuídos, nuvem. Conjunto de habilidades do profissional cientista de dados (CAO, 2017) Negociação. Comunicação. Pensamento crítico. Curiosidade. Conhecimento de negócio. Conjunto de habilidades do profissional cientista de dados (PRÓXIMO NÍVEL, 2020) Visão Geral sobre KDD (Knowledge Discovery in Database). Segundo Fayyad et al. (1996), esse conjunto é composto de cinco etapas: Seleção dos dados; Pré-processamento e limpeza dos dados; Transformação dos dados; Mineração de dados; Interpretação dos dados. Descoberta de Conhecimento em Base de Dados Fonte: Adaptado de: Steiner et al. (2006). Dados relevantes Dados pré-processados Dados transformados Padrões Conhecimento a) Ação 1 b) Ação 2 Dados Seleção Pré- processamento Transformação Data Mining Interpretação Os algoritmos de Aprendizado de Máquina (Machine Learning) são ferramentas de propósito geral para se obter as generalizações a partir dos dados. São capazes de resolver os problemas de diferentes disciplinas sem que se tenha um conhecimento detalhado de um específico domínio. São algoritmos que têm sido empregados com muito sucesso em visão computacional, reconhecimento de voz, classificação de documentos e suporte à decisão (HOPCROFT et al., 2020). Trata-se de uma disciplina centrada em duas questões inter-relacionadas: Como é possível construir um sistema computacional que, automaticamente, aprende com a experiência? Quais são as leis que governam cada sistema de aprendizagem, independentemente, se o mesmo é implementado em computadores, humanos ou organizações? (MITCHELL, 2017). Aprendizado de Máquina Como resultado, cada vez mais empresas, órgãos públicos e instituições sem fins lucrativos empregam IA e AM. O maior crescimento ocorre em empresas onde o uso de IA e AM varia desde a sua adoção como a estratégia de negócio, como é o caso da companhia Google, até para o desenvolvimento de aplicações marginais ao negócio, como os assistentes automáticos comuns nos aplicativos e sites de diversos bancos. Exemplos: Organização de fotos no Google Fotos, em que AM é utilizado, por exemplo, para a identificação dos elementos das fotos ou agrupamento das fotos por padrões; Legendas automáticas para os vídeos no YouTube; Recomendação de respostas rápidas às mensagens de e-mail no Gmail; Uso de redes neurais artificiais, mais, especificamente, Deep Learning, para melhorar a fluência e a eficácia das traduções no Google Tradutor. Aprendizado de Máquina (CARVALHO, 2021) Aplicações incluem: Interfaces que utilizam a linguagem natural (escrita ou falada); Reconhecimento facial; Filtragem de spam em e-mails, detecção de fraude por bancos e operadoras de cartões de crédito, auxílio ao diagnóstico; Doenças por meio da análise de dados clínicos, de imagem e/ou dados genéticos; Recomendação de produtos com base no perfil do consumidor e em seu histórico de consumo; Comportamento inteligente em personagens de jogos. Aprendizado de Máquina (CARVALHO, 2021) Em AM, os dispositivos computacionais empregam um princípio de inferência denominado de indução, que permite extrair as conclusões genéricas a partir de um conjunto particular de exemplos. Exemplo: um conjunto de dados de pacientes de um hospital: cada dado (também chamado de objeto, exemplo, padrão ou registro) corresponde a um paciente, representado por uma tupla formada pelos valores de características (também chamadas de campos, variáveis ou atributos) e as observações do estado do paciente, tais como: código de identificação, nome, idade, sexo, estado de origem, além de alguns sintomas e resultados de exames clínicos. Alguns exemplos de sintomas podem ser: pressão sanguínea, manchas na pele, peso e temperatura do corpo. Aprendizado de Máquina (CARVALHO, 2021) Seja, por exemplo, um algoritmo de AM aplicado aos dados para aprender um modelo (por exemplo, uma regra) capaz de diagnosticar os pacientes de acordo com os valores de seus atributos de entrada. Esse modelo deve ser capaz de diagnosticar, corretamente, novos pacientes. A regra tambémdeve ser válida para outros objetos do mesmo domínio ou problema, que não fazem parte do conjunto de treinamento. A essa propriedade de um modelo continuar a ser válido para os novos objetos dá-se o nome de capacidade de generalização. Quando um modelo apresenta baixa capacidade de generalização, a regra está superajustada aos dados (overfitting). Isso significa que o modelo memorizou ou se especializou nos dados de treinamento. Quando o modelo possui baixa capacidade preditiva para os dados de treinamento, pode ter ocorrido um subajuste (underfitting). Aprendizado de Máquina (CARVALHO, 2021) Durante o processo de aprendizado, um algoritmo de AM procura por um modelo, no espaço de possíveis modelos, capaz de modelar a relação entre os atributos preditivos e o atributo-alvo. Viés Indutivo Fonte: Adaptado de: Carvalho (2021). (a) [Árvore de Decisão] (b) [Conjunto de regras] (c) [Redes neurais] Doente Saudável Doente M F Sexo Peso < 50 > 50 Se Peso > 50, então Doente Se Peso < 50 e Sexo = M, então Doente Se Peso < 50 e Sexo = F, então Saudável 0,45 –0,40 0,54 0,12 0,98 0,37 –0,45 0,11 0,91 0,34 –0,20 0,83 0,29 0,32 –0,25 –0,51 0,41 0,70 A forma como um algoritmo procura pelo melhor modelo, espaço de possíveis modelos, define um outro viés, o viés de busca. Por exemplo, o algoritmo ID3, que é utilizado para a indução de árvores de decisão, tem como viés de busca a sua preferência por Árvores de Decisão com poucos nós. Assim, cada algoritmo de AM possui dois vieses, um viés de representação e um viés de busca. O viés é necessário para restringir os modelos a serem avaliados no espaço de busca. Sem viés não haveria o(a) aprendizado/generalização. Viés Indutivo O aprendizado de máquina pode ser classificado em supervisionado e não supervisionado. Aprendizado de Máquina (ARTERO, 2009) Fonte: Adaptado de: Carvalho (2021). Preditivo Descritivo Aprendizado de Máquina Aprendizado de Máquina Não supervisionadoSupervisionado Agrupamento Associação SumarizaçãoRegressãoClassificação No aprendizado não supervisionado, apenas, as entradas são fornecidas, sendo que, neste caso, o padrão de saída deve ser deduzido pelo próprio sistema de aprendizado. No aprendizado supervisionado, deve ser apresentado um conjunto de pares entrada-saídas, sendo as entradas formadas por alguns atributos relativos aos objetos em que se deseja descobrir algum padrão ou tendência, e as saídas correspondem às classes desejadas. Aprendizado de Máquina (ARTERO, 2009) Fonte: Adaptado de: Carvalho (2021). Preditivo Descritivo Aprendizado de Máquina Não supervisionadoSupervisionado Agrupamento Associação SumarizaçãoRegressãoClassificação A classificação visa identificar à qual classe determinado registro pertence. Nesta tarefa, o modelo analisa o conjunto de registros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de “aprender” como classificar um novo registro (aprendizado supervisionado). Aprendizado supervisionado Fonte: Adaptado de: Carvalho (2021). Classificação e Regressão (a) [Classificação] (b) [Regressão] Exame 1 Ano E x a m e 2 V a z ã o Função aproximada Classe saudável Classe doente Exemplo de conjunto de dados para os problemas de classificação (CARVALHO, 2021) Tamanho (P) Largura (P) Tamanho (S) Largura (S) Espécie 5,1 3,5 1,4 0,2 Setosa 4,9 3,0 1,4 0,2 Setosa 7,0 3,2 4,7 1,4 Versicolor 6,4 3,2 4,5 1,5 Versicolor 6,3 3,3 6,0 2,5 Virgínica 5,8 2,7 5,1 1,9 Virgínica Fonte: Adaptado de: Carvalho (2021). A regressão é similar à classificação, porém, é usada quando o registro é identificado por um valor numérico e não um categórico. Assim, pode-se estimar o valor de determinada variável analisando-se os valores das demais. Aprendizado supervisionado – Regressão Fonte: Adaptado de: Carvalho (2021). (a) [Classificação] (b) [Regressão] Exame 1 Ano E x a m e 2 V a z ã o Função aproximada Classe saudável Classe doente Exemplo de conjunto de dados para o problema de regressão (CARVALHO, 2021) Fertilidade Agricultura Educação Renda Mortalidade 80,2 17,0 12 9,9 22,2 83,1 45,1 9 84,8 22,2 92,5 39,7 5 93,4 20,2 85,8 36,5 7 33,7 20,3 76,9 43,5 15 5,2 20,6 Fonte: Adaptado de: Carvalho (2021). Considere às seguintes afirmações: I. Estuda os princípios e as técnicas para extrair o conhecimento de um conjunto novo, relevante e útil de dados; II. Dados que são grandes demais para os sistemas tradicionais de processamento de dados, ou seja, são os dados que precisam de novas técnicas para serem processados; III. Trata-se de uma disciplina centrada na questão: como é possível construir um sistema computacional que, automaticamente, aprende com a experiência? Tais asserções referem-se, respectivamente, ao/à: a) Aprendizado de Máquina, Ciência de Dados, Big Data. b) Big Data, Ciência de Dados, Ciência de Dados. c) Ciência de Dados, Big Data, Aprendizado de Máquina. d) Aprendizado de Máquina, Big Data, Ciência de Dados. e) Big Data, Ciência de Dados, Aprendizado de Máquina. Interatividade Considere às seguintes afirmações: I. Estuda os princípios e as técnicas para extrair o conhecimento de um conjunto novo, relevante e útil de dados; II. Dados que são grandes demais para os sistemas tradicionais de processamento de dados, ou seja, são os dados que precisam de novas técnicas para serem processados; III. Trata-se de uma disciplina centrada na questão: como é possível construir um sistema computacional que, automaticamente, aprende com a experiência? Tais asserções referem-se, respectivamente, ao/à: a) Aprendizado de Máquina, Ciência de Dados, Big Data. b) Big Data, Ciência de Dados, Ciência de Dados. c) Ciência de Dados, Big Data, Aprendizado de Máquina. d) Aprendizado de Máquina, Big Data, Ciência de Dados. e) Big Data, Ciência de Dados, Aprendizado de Máquina. Resposta No aprendizado não supervisionado, as tarefas descritivas são genericamente divididas em: agrupamento, que dividem os dados em grupos de acordo com a sua similaridade; sumarização, que buscam uma descrição simples e compacta para um conjunto de dados; e associação, que procuram os padrões frequentes de associações entre os atributos de um conjunto de dados. As principais técnicas em aprendizado não supervisionado são as redes neurais com treinamento não supervisionado, como a Rede de Kohonen; os algoritmos de agrupamento, como o k-médias, entre outros e, também, a técnica de mineração de dados, chamada de regras de associação. Aprendizado não supervisionado Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos de descobrimento que produzem uma enumeração de padrões (ou modelos) particular sobre os dados. São técnicas de mineração de dados: Árvores de Decisão, K-vizinhos mais próximos, K-Médias e Naive Bayes. O k-NN considera que os registros do conjunto de dados correspondem aos pontos no Rn, em que cada atributo corresponde a uma dimensão deste espaço. Utilizado em aplicações envolvendo a Tarefa de Classificação. O conjunto de dados é armazenado. Mineração de Dados – K-vizinhos mais próximos (GOLDSCHMIDT E BEZERRA, 2015) Quando um novo registro deve ser classificado, este registro é comparado a todos os registros do conjunto de treinamento para identificar k-vizinhos mais próximos, i.e., mais semelhantes, de acordo com alguma métrica. Além disso, o valor de k é um parâmetro de entrada deste método. A classe do novo registro é determinada por inspeção das classes desses vizinhos mais próximos, de acordo com a métrica selecionada. São portanto, passos do Método KNN: 1. Cálculo da distância do novo registro a cada um dos registros existentes no conjunto de referência; 2. Identificação dos k registros do conjunto de referência que apresentaram menor distância em relação ao novo registro(i.e., mais similares); 3. Apuração da classe mais frequente entre os k registros identificados no passo anterior. Passos do Método KNN Considere o exemplo no contexto da análise de crédito, cujo conjunto de dados de referência (fictício) é reapresentado. Este conjunto está dividido em duas classes: os negligentes, representados com um “X” e os não negligentes, representados por um “O”. Nesta aplicação, deseja-se avaliar a possibilidade de concessão de crédito às novas solicitações. Exemplo Renda D e s p e s a s Negligentes Não negligentes Fonte: Goldschmidt e Bezerra (2015). Suponha que um novo registro (solicitante) é apresentado, registro este representado por *, a seguir. O método k-NN calcula a distância entre o novo registro e todos os 14 registros existentes no conjunto de dados de referência. Se considerarmos que k, o número de vizinhos mais próximos, seja 3, somente os 3 registros com menor distância ao novo registro são considerados. Esses 3 vizinhos estão delimitados pelo círculo na próxima figura: K-vizinhos mais próximos Renda D e s p e s a s Negligentes Não negligentes Fonte: Goldschmidt e Bezerra (2015). Observa-se que a classe com maior ocorrência dentro da região delimitada pelo algoritmo k-NN foi o “cliente não negligente” (dois votos contra um da outra classe). Sendo assim, pela aplicação do algoritmo k-NN, no exemplo apresentado, o crédito seria concedido ao solicitante. Um valor adequado para o parâmetro k é, normalmente, determinado em função do conjunto de dados de referência. Em geral, quanto maior o valor de k, menor o efeito de eventuais ruídos no conjunto de referência. Por outro lado, os valores grandes para k tornam mais difusas as fronteiras entre as classes existentes. K-vizinhos mais próximos Uma Árvore de Decisão é um modelo de representação de conhecimento em que cada nó interno representa uma decisão sobre um atributo que determina como os dados estão particionados pelos seus nós filhos. Uma Árvore de Decisão indutiva (ou Árvore de Decisão de aprendizado) envolve o uso de um conjunto de dados de treinamento para gerar uma árvore de decisão que classifique, corretamente, os dados de treinamento. Se o aprendizado tiver funcionado, a Árvore de Decisão classificará, então, corretamente, os novos dados de entrada também. O algoritmo de Árvore de Decisão indutiva mais bem conhecido é o ID3, que foi desenvolvido por Quinlan, nos anos 1980. No algoritmo ID3, os nós são selecionados pela escolha de características do conjunto de dados de treinamento que forneçam o máximo de informação sobre os dados, transformando, então, essas características em perguntas. Árvore de Decisão (COPPIN, 2013) O algoritmo ID3 encontra a menor Árvore de Decisão possível que classifica, corretamente, os dados de treinamento. O método usado pelo ID3, para determinar quais características usar, a cada estágio da Árvore de Decisão, é selecionar, em cada estágio, a característica que oferece o maior ganho de informação. Ganho de informação é definido como a redução em entropia. A entropia de um conjunto de dados de treinamento, S, é definida por: H(S) = –p1 log2 p1 – p0 log2 p0, onde: p1 é a proporção dos dados de treinamento que inclui exemplos positivos; p0 é definido como a proporção que inclui exemplos negativos; A entropia de S será zero quando todos os exemplos forem positivos ou quando todos os exemplos forem negativos; A entropia alcançará o seu valor máximo, de 1, quando, exatamente, a metade dos exemplos for positiva e a outra metade, negativa. Árvore de Decisão (COPPIN, 2013) O ganho de informação de uma característica específica nos mostra o quanto aquela característica representa toda a função-alvo e, então, a cada estágio a característica que proporcionar o maior ganho de informação será escolhida para se transformar em uma pergunta. Exemplo: considere-se os seguintes dados de treinamento: Árvore de Decisão indutiva (COPPIN, 2013) Filme Origem Grande estrela Gênero Sucesso 1 Estados Unidos Sim Ficção científica Verdadeiro 2 Estados Unidos Não Comédia Falso 3 Estados Unidos Sim Comédia Verdadeiro 4 Europeu Não Comédia Verdadeiro 5 Europeu Sim Ficção científica Falso Exemplo (continuação) Filme Origem Grande estrela Gênero Sucesso 6 Europeu Sim Romance Falso 7 Outros países Sim Comédia Falso 8 Outros países Não Ficção científica Falso 9 Europeu Sim Comédia Verdadeiro 10 Estados Unidos Sim Comédia Verdadeiro Calcularemos, agora, o ganho de informação para os três atributos diferentes dos filmes, para selecionar qual usar no topo da árvore: H (EUA) = – (3/4) log2 (3/4) – (1/4) log2 (1/4) = 0,311 + 0,5 = 0,811; H (Europeu) = 1; H (Do restante do mundo) = 0. O ganho de informação total é definido, agora, pela entropia original do conjunto, menos a soma ponderada dessas entropias, onde o peso aplicado a cada valor de entropia é a proporção dos dados de treinamento que se enquadraram naquela categoria. Por exemplo, quatro décimos dos dados de treinamento eram dos Estados Unidos; então, o peso aplicado à H(EUA) é de 4/10 = 0,4. O ganho de informação é definido por: Ganho = 1 – (0,4 × 0,811) – (0,4 × 1) – (0,2 × 0); = 1 – 0,3244 – 0,4 – 0 = 0,2756. Árvore de Decisão indutiva (COPPIN, 2013) Então, neste estágio, o ganho de informação para o atributo “Origem” é de 0,2756. Para o atributo de “Grande estrela”: H(sim) = 0,9852; H(não) = 1. Então, o ganho de informação para este atributo é: Ganho = 1 – (0,7 × 0,9852) – (0,3 × 1) = 1 – 0,68964 – 0,3 = 0,01. Para o atributo “Gênero”: H (Ficção científica) = 0,918296; H (Comédia) = 0,918296; H (Romance) = 0; Ganho = 1 – (0,3× 0,918296) – (0,6 × 0,918296) – (0,1 × 0) = 1 – 0,2754888 – 0,5509776 – 0 = 0,17. Árvore de Decisão indutiva (COPPIN, 2013) O k-Means é um método popular da tarefa de agrupamento. Assim como o método k-NN, o k-Means considera que os registros do conjunto de dados correspondem aos pontos no Rn, em que cada atributo corresponde a uma dimensão deste espaço. Além disso, o k-Means também possui um parâmetro de entrada, k, que, aqui, corresponde à quantidade de grupos a ser identificados. Inicialmente, o k-Means seleciona k pontos do conjunto de dados. Esses pontos são denominados de sementes. Essas sementes são os representantes iniciais, ou centroides, dos k grupos a serem formados. Em seguida, para cada ponto (ou registro do conjunto de dados), calcula-se a distância deste ponto a cada um dos centroides. Atribui-se este ponto ao grupo representado pelo centroide, cuja distância é a menor entre todas as calculadas. O resultado desse passo inicial é que cada ponto do conjunto de dados fica associado a um e, apenas, um dos k grupos. K-Médias (GOLDSCHMIDT E BEZERRA, 2015) Após a alocação inicial, o método segue iterativamente, por meio da atualização dos centroides de cada grupo e da realocação dos pontos ao centroide mais próximo. O novo centroide de cada grupo G é calculado pela média dos pontos alocados a G. O processo iterativo termina quando os centroides dos grupos param de se modificar ou após um número preestabelecido de iterações ter sido realizado. O k-Means divide um conjunto de n objetos em k grupos tal que a similaridade intragrupos resultante seja alta, mas a similaridade intergrupos seja baixa. A similaridade em um grupo é a média dos pontos alocados neste grupo (i.e., é o centro de gravidade do grupo). Isso é equivalente a determinar uma partição de tamanho k que minimize a função do erro quadrático médio (do inglês, Mean Squared Error, MSE). K-Médias Escolher k centroides aleatoriamente. Repita: Calcular k-distância dos clusters; Obter a menor distância; Atribuir objeto ao cluster; Calcular um erro acumulado; Atualizar os clusters; Até que não haja mais mudança na configuração dos clusters.K-Médias Muitas variações do k-Means são encontradas, atualmente. Em geral, essas variações diferem na seleção das k-Médias iniciais, no cálculo da similaridade, ou na estratégia para calcular a média dos grupos. K-Médias Inicialização das médias Atribuição dos rótulos aos objetos Atualização das médias Nova atribuição de rótulos e atualização das médias Fonte: Goldschmidt e Bezerra (2015). Trata-se de um dos classificadores bayesianos mais populares. Naive Bayes: abordagem probabilística para a aprendizagem. É uma técnica estatística (probabilidade condicional) baseada no Teorema de Thomas Bayes. Segundo o Teorema de Bayes, é possível encontrar a probabilidade de certo evento ocorrer, dada a probabilidade de um outro evento que já ocorreu: Probabilidade (B dado A) = Probabilidade (A e B)/Probabilidade(A); O classificador Naive Bayes será apresentado na próxima unidade. Naive Bayes – Introdução Considere as seguintes afirmações: I. No aprendizado supervisionado, se apresentam um conjunto de pares entradas-saídas, sendo as entradas formadas por alguns atributos relativos aos objetos que se deseja descobrir algum padrão ou tendência, e as saídas correspondem às classes desejadas; II. No aprendizado não supervisionado, apenas, as entradas são fornecidas e o padrão de saída deve ser deduzido pelo próprio sistema de aprendizado; III. A grande vantagem das técnicas de agrupamento, como KNN e K-Médias, é aquela de não ser necessário conhecer a classe de saída de cada item de dado. Estão corretas as afirmações: a) Apenas a I e a II. b) Apenas a II e a III. c) Apenas a I. d) I, II e III. e) Apenas a III. Interatividade Considere as seguintes afirmações: I. No aprendizado supervisionado, se apresentam um conjunto de pares entradas-saídas, sendo as entradas formadas por alguns atributos relativos aos objetos que se deseja descobrir algum padrão ou tendência, e as saídas correspondem às classes desejadas; II. No aprendizado não supervisionado, apenas, as entradas são fornecidas e o padrão de saída deve ser deduzido pelo próprio sistema de aprendizado; III. A grande vantagem das técnicas de agrupamento, como KNN e K-Médias, é aquela de não ser necessário conhecer a classe de saída de cada item de dado. Estão corretas as afirmações: a) Apenas a I e a II. b) Apenas a II e a III. c) Apenas a I. d) I, II e III. e) Apenas a III. Resposta ARTERO, A. O. Inteligência Artificial – Teoria e Prática. São Paulo: Livraria da Física, 2009. CAO, L. Data Science: A Comprehensive Overview ACM Computing Surveys, v. 50, n. 3, Article 43, June 2017. CARVALHO, A. C. P. L. F. de. Data Science and Big Data. Disponível em: ciencia-dados.pdf (usp.br). CARVALHO, A. C. P. L. F. de. et al. Inteligência Artificial – Uma Abordagem de Aprendizado de Máquina. 2. ed. São Paulo: Grupo GEN, 2021. COPPIN, B. Inteligência Artificial. Rio de Janeiro: LTC, 2013. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM. 1996. Acesso em: 01 mai. 2022. GOLDSCHMIDT, R.; BEZERRA, E. Data mining: conceitos, técnicas, algoritmos, orientações e aplicações. 2. ed. Rio de Janeiro: Elsevier, 2015. ISBN 978-85-352-7822-4. Referências HOPCROFT, J.; BLUM, A.; KANNAN, R. Foundations of Data Science. 1. ed. Cambridge University Press, 2020. MITCHELL, T. Key Ideas in Machine Learning. 2017. Disponível em: keyIdeas.pdf (cmu.edu). PRÓXIMO NÍVEL. Data Science: 10 habilidades que seu cientista de dados deve ter. 10/02/2020. Disponível em: https://proximonivel.embratel.com.br/data-science-10- habilidades-que-seu-cientista-de-dados-deve-ter/. Acesso em: 01 mai. 2022. STEINER, M. T. A. et al. Abordagem de um problema médico por meio do processo de KDD com ênfase à análise exploratória dos dados. Gestão & Produção, 13(2), mai. 2006. Disponível em: https://www.scielo.br/j/gp/a/gC9RkgLD8B8FffPsNhBYWkB/?lang=pt. Acesso em: 01 mai. 2022. Referências ATÉ A PRÓXIMA!