Prévia do material em texto
Este arquivo traz a transcrição do áudio da videoaula que faz parte deste curso para que você possa, sempre que precisar, acessar um conteúdo específico e rever os conceitos apresentados. VISÃO COMPUTACIONAL Nos vídeos anteriores, você viu como o processamento de imagens acontece. Preparamos uma imagem e analisamos os seus objetos para descobrir fraudes. Meu nome é Marlos Bosso, e sou arquiteto técnico da Microsoft com experiência em inteligência artificial e dados. Hoje, encerramos a série sobre visão computacional, aplicada a detecção de fraudes em documentos. Agora, vou explorar com você o Vision Studio do Azure, onde podemos experimentar alguns recursos de análise de imagens. Então, esse aqui é o Vision Studio, ele tem várias opções do que a gente pode fazer com visão computacional. A gente está interessado hoje na categoria das análises de imagem, e a gente vai começar usando essa daqui que é adicionar uma descrição. Claro que antes de a gente vir aqui pro Vision Studio, eu já criei uma "subscription" no Azure, eu criei um "resource group", eu criei uma conta para a gente usar AI. Então, todo esse "setup" já foi feito, o que a gente vai fazer é usar a mesma. Então, essa funcionalidade nos permite criar a descrição automaticamente de imagem. Então, quando a gente tem um monte de imagem, eu preciso de uma descrição para essas imagens, e eu quero fazer isso com Inteligência Artificial, eu não quero fazer isso com um trabalho humano. Tem algumas imagens de exemplo aqui, se vocês quiserem testar, mas vamos trazer uma imagem nossa para testar com algo mais personalizado. Essa aqui é a imagem à esquerda, então, claramente uma mulher com o celular tirando foto de uma garota em um supermercado. E é isso que vem da descrição. "A woman and a girl in a grocery store." A descrição vem em inglês, e aí, é nosso papel aqui como desenvolvedor de aplicações de inteligência artificial, como quem está interagindo com as tecnologias de inteligência artificial. Se a gente precisar gerar a descrição em português, na sequência a gente faz uma tradução do inglês para o português usando também algum recurso de inteligência artificial. Então, vem uma descrição legal, a gente colocou a foto em poucos segundos, está aqui a descrição. Por curiosidade, a gente tem o "JSON" aqui, então quando nós estivermos fazendo isso programaticamente, né?...codificando ao invés de fazer através do portal. Portal é um instrumento para a gente aprender, para a gente testar, mas não necessariamente aquilo que a gente vai usar no dia a dia quando a gente estiver desenvolvendo uma aplicação para usar isso. A gente vai ter, quando a gente estiver fazendo isso através de interface programática, é essa que é a resposta que a gente vai ter, um objeto "JSON" com todos os atributos, incluindo a descrição que a gente acabou de receber. Legal, mas se eu quiser uma descrição um pouco mais detalhada, eu não quero só essa descrição, eu quero um pouco mais de detalhe. Então, vamos voltar lá na página inicial, de novo aqui na análise de imagem, e a gente tem essa opção aqui que é para adicionaras descrições mais densas das imagens. Então, vamos clicar nessa opção, de novo eu vou arrastar a mesma foto para cá, arrastou, soltou, nenhuma dificuldade, e ele está gerando uma série de outras descrições O que é mais legal, é que além dele gerar outras descrições, ele traz um quadrado de onde ele encontrou aquela descrição na imagem. Então, se a gente coloca na primeira, que é a mesma descrição que a gente tinha anteriormente, ele está mostrando a foto inteira. Se a gente vem aqui falar uma mulher sorrindo, segurando um telefone, ele vai criar um quadrado só onde ele capturou essa imagem da mulher. Aqui, uma pessoa segurando o telefone, ele dá o foco no telefone, uma mulher vestindo um capuz lilás, e aí ele dá o foco. Então, além dele descrever a foto toda, ele identifica elementos dentro da foto e traz a descrição para cada um desses elementos. Bem útil se a gente precisar só de um pedaço da foto, ou encontrar alguma coisa dentro da foto. Legal, né? Essas são as funcionalidades de visão computacional que o Azure oferece. Um outro recurso que podemos usar é o de etiquetar a imagem para criar índices. Isso facilita a busca por informações da imagem no futuro. Então, a gente vem nessa opção aqui, que é extrair tags das imagens. De novo, uma interface muito parecida com aquela. Algumas fotos de exemplo, mas de novo a gente não vai usar as fotos que estão aqui, vamos trazer uma foto nossa. É só eu arrastar e soltar essa foto aqui. Essa é a foto que a gente vai usar agora, uma temática semelhante, uma mulher fazendo compras em algo que parece um supermercado, segurando uma cestinha aqui com alguns produtos. E ele traz uma série de "tags", ou seja, uma série de etiquetas de elementos que existem nessa foto. Então, roupa, uma pessoa está vestida, parece uma loja de conveniência ou uma loja de varejo, um supermercado, uma loja de alimentos, compras, um cliente, texto, então ele traz uma série de etiquetas que estão associadas a essa imagem. Isso aqui é muito útil, muitas vezes você armazena a imagem junto com essas etiquetas e depois se alguém for precisar de imagens, pode fazer a busca para pesquisar. Eu preciso de fotos em que apareça uma mulher, que seja um supermercado, vai trazer as fotos que têm as etiquetas mulher e supermercado. Então isso aqui é muito útil quando você tem um volume grande de fotos para analisar, de imagens para analisar, quer saber o que que tem nela e é inviável você fazer uma análise humana, uma a uma. Vamos testar um último recurso? Eu falo da detecção de objetos em uma imagem. Então a gente vem aqui numa opção que é detectar objetos comuns e uma interface muito semelhante, de novo as imagens de exemplo. Não vamos usar nenhuma delas, deixa eu trazer um exemplo nosso aqui. Arrastei, soltei a foto, essa aqui é uma imagem também na mesma temática. Uma mulher fazendo compras em um supermercado e empurrando um carrinho. E aí quando a gente fala, extraia, identifique objetos nessa foto. O primeiro objeto que ele identificou é uma pessoa e aí da mesma forma que no exemplo das descrições densas ele traz um quadrado de onde está a pessoa. Então esse quadrado aqui que a gente vê a pessoa e ele identifica um supermercado e um quadrado de qual a parte da foto que fez ele identificar o supermercado. Uma característica, uma particularidade que a gente tem aqui é a questão de confiança. Então a gente tem esse "slider" aqui que é um "threshold value" ou seja, traz uma confiança para aquilo que ele identificou. Então ele tem 84,8% de confiança que identificou uma pessoa e 51,7% de confiança que ele identificou um supermercado. A gente pode usar isso para omitir algo que a gente não queira correr o risco de estar errado. Então, eu só quero que você mostre para mim o que você tem mais de 70% de confiança. Ele sumiu o supermercado daqui e ele continuar mostrando só a pessoa. Ou não, eu quero que você mostre também o que você tem confiança mais baixo. Vou baixar meu "threshold" aqui para 18 e ele mostra também o supermercado. Então além da gente ter a identificação de objetos, a gente tem uma medida da confiança de que aquele objeto realmente foi identificado e a gente tem a capacidade de filtrar os resultados só por aqueles que têm uma confiança mínima estabelecida por nós. Bem interessante, né? Você viu nesse vídeo como um computador pode detectar objetos e classificá-los? Ou ainda, como adicionar descrições a imagens, Esses recursos também podem ajudar na investigação de fraudes, Esses recursos também podem ajudar na investigação de fraudes, identificando objetos novos ou adulterados em um documento. Você pode explorar ainda mais sobreesses recursos de processamento de imagem no Vision Studio do Azure. E assim ficar mais preparado para o exame de certificação AI-900. Boa sorte!