Prévia do material em texto
Tarefa Ead sobre ML - Aprendizagem Não-Supervisionada Jaqueline de Lima 170404 Com base no material sobre o método K Means disponibilizado na última aula presencial faça uma pesquisa a respeito do uso deste método com dados georeferenciados (ou geoespaciais) (dataset que contém entre suas variáveis as colunas com os valores de latitude e de longitude). Encontre uma aplicação desta natureza que faça uso do K Means e que é solucionada em R ou em Python. Indique o link da aplicação/projeto e faça uma breve descrição do seu funcionamento e dos resultados que foram obtidos. Link: https://medium.com/programadores-ajudando-programadores/k-means-o-que-%C3%A9- como-funciona-aplica%C3%A7%C3%B5es-e-exemplo-em-python-6021df6e2572 Breve descrição do funcionamento e dos resultados obtidos: O autor usa o dataset Iris, que contém as coordenadas geográficas de 19 cidades onde uma rede de lojas possui filiais. Ele quer encontrar os melhores lugares para construir três centros logísticos de abastecimento, usando o algoritmo K-Means para clusterizar os dados. Para isso, ele segue os seguintes passos: 1 Importa as bibliotecas necessárias ( numpy, matplotlib, sklearn, cluster). 2 Cria uma matriz com as coordenadas geográficas de cada loja e plota um gráfico para visualizar os pontos. 3 Define o número de clusters (k) como 3 e cria um objeto Kmeans com esse parâmetro. 4 Aplica o método fit_predict do objeto Kmeans na matriz de dados e obtém um vetor com labels dos clusters para cada ponto. 5 Plota um novo gráfico com os pontos coloridos de acordo com os labels e os centroides dos clusters em preto. 6 Calcula a inércia do modelo, que é a soma dos quadrados das distâncias das amostras para o centro do cluster mais próximo. 7 Repete os passos 3 e 6 com diferentes valores de k e plota um gráfico da inércia em função de k, usando o método do cotovelo para escolher o melhor valor de k. Os resultados obtidos no exemplo são: k = 3 Os clusters são formados por: São Paulo, Rio de Janeiro, Curitiba, Porto Alegre, Belo Horizonte, Campinas, Ribeirão Preto, Maringá, Florianópolis e Juiz de Fora; Brasília, Salvador, Recife, Goiânia e Fortaleza; Manaus, Belém, Rio Branco e Porto Velho. A inércia é de 312.8. k = 4 Os clusters são formados por: São Paulo, Rio de Janeiro, Curitiba, Porto Alegre, Belo Horizonte, Campinas, Ribeirão Preto e Juiz de Fora; Brasília, Salvador e Goiânia; Recife e Fortaleza; Manaus, Belém, Rio Branco e Porto Velho. A inércia é de 181.9. https://medium.com/programadores-ajudando-programadores/k-means-o-que-%C3%A9-como-funciona-aplica%C3%A7%C3%B5es-e-exemplo-em-python-6021df6e2572 https://medium.com/programadores-ajudando-programadores/k-means-o-que-%C3%A9-como-funciona-aplica%C3%A7%C3%B5es-e-exemplo-em-python-6021df6e2572 k = 5 Os clusters são formados por: São Paulo, Rio de Janeiro, Curitiba e Porto Alegre; Belo Horizonte, Campinas e Ribeirão Preto; Brasília e Goiânia; Salvador, Recife e Fortaleza; Manaus, Belém, Rio Branco e Porto Velho. A inércia é de 104.6. k = 6 Os clusters são formados por: São Paulo e Rio de Janeiro; Curitiba e Porto Alegre; Belo Horizonte e Juiz de Fora; Campinas e Ribeirão Preto; Brasília, Salvador, Recife e Fortaleza; Manaus, Belém, Rio Branco e Porto Velho. A inércia é de 62.2. Pelo método do cotovelo, o melhor valor de k seria 4 ou 5, pois a partir desses valores a inércia diminui muito pouco. O autor escolhe k = 4 como o melhor valor para o seu problema.