Prévia do material em texto
<p>Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>D</p><p>0</p><p>Traduzido do Inglês para o Português - www.onlinedoctranslator.com</p><p>Listas de conteúdo disponíveis emCiência Direta</p><p>Sistemas especialistas com aplicativos</p><p>Página inicial do jornal:www.elsevier.com/locate/eswa</p><p>DeepNAVI: um assistente de navegação em smartphone baseado em aprendizagem profunda</p><p>para pessoas com deficiência visual</p><p>Bineeth Kuriakose∗, Raju Shrestha, Frode Eika Sandnes</p><p>Departamento de Ciência da Computação, Universidade Metropolitana de Oslo, Oslo, Noruega</p><p>INFORMAÇÕES DO ARTIGO ABSTRATO</p><p>Palavras-chave:</p><p>Assistente de navegação</p><p>Aprendizado profundo</p><p>Cego</p><p>Deficiência visual</p><p>Portátil</p><p>Smartphone</p><p>A assistência à navegação é uma área de investigação activa, cujo objectivo é promover uma vida independente para pessoas</p><p>com deficiência visual. Apesar de muitos assistentes de navegação utilizarem tecnologias e métodos avançados, descobrimos</p><p>que não abordavam explicitamente dois requisitos essenciais num assistente de navegação: portabilidade e conveniência. É</p><p>igualmente imperativo, ao projetar um assistente de navegação para deficientes visuais, que o dispositivo seja portátil e fácil</p><p>de usar, sem muito treinamento. Alguns assistentes de navegação não fornecem aos utilizadores informações detalhadas</p><p>sobre os tipos de obstáculos que podem ser detetados, o que é essencial para tomar decisões informadas ao navegar em</p><p>tempo real. Para colmatar estas lacunas, propomos o DeepNAVI, um assistente de navegação baseado em smartphone que</p><p>aproveita a competência de aprendizagem profunda. Além de fornecer informações sobre o tipo de obstáculos presentes,</p><p>nosso sistema também pode fornecer informações sobre sua posição, distância do usuário, status do movimento e</p><p>informações do cenário. Todas essas informações são oferecidas aos usuários em modo áudio, sem comprometer a</p><p>portabilidade e a comodidade. Com um modelo pequeno e tempo de inferência rápido, nosso assistente de navegação pode</p><p>ser implantado em um dispositivo portátil, como um smartphone, e funcionar perfeitamente em um ambiente em tempo real.</p><p>Realizamos um teste piloto com um usuário para avaliar a utilidade e praticidade do sistema. Os resultados dos nossos testes</p><p>indicam que o nosso sistema tem potencial para ser um assistente de navegação prático e útil para deficientes visuais.</p><p>1. Introdução países que não possuem leis de acessibilidade (Austin,2016;Recanto, 2020).</p><p>Pessoas com deficiência visual sentem-se seguras e confortáveis quando</p><p>assistidas por alguém com visão. No entanto, depender de outra pessoa</p><p>para navegar pode ser uma barreira à independência.</p><p>Para resolver problemas como desconforto em locais públicos,</p><p>problemas de portabilidade, formação dispendiosa e demorada,</p><p>dependência constante de uma segunda pessoa, etc., vários sistemas de</p><p>assistência à navegação têm sido propostos na literatura.Bhowmick e</p><p>Hazarika,2017;Chanana, Paul, Balakrishnan e Rao,2017;Real e Araújo,2019).</p><p>Alguns foram projetados para uso interno, alguns para uso externo e outros</p><p>para ambos (Real e Araújo,2019). No entanto, muitos desses dispositivos são</p><p>desconfortáveis e levam ao estigma social percebido pelos usuários ao usar</p><p>essas soluções (Dos Santos, Ferrari, Medola e Sandnes,2022).</p><p>Os pesquisadores investigaram diversas tecnologias, como inteligência artificial e</p><p>aprendizado de máquina, para encontrar soluções para auxílios à navegação para</p><p>pessoas com deficiência visual. Modelos de aprendizagem profunda têm sido cada vez</p><p>mais explorados para detecção de obstáculos em sistemas de assistência à navegação.</p><p>Apesar da disponibilidade de muitos modelos de detecção de objetos, a seleção de um</p><p>modelo adequado com baixo tempo de inferência e pequeno consumo de memória para</p><p>um ambiente de navegação em tempo real requer um estudo e análise cuidadosamente</p><p>elaborados.</p><p>Globalmente, cerca de 2,2 mil milhões de pessoas são diagnosticadas com</p><p>deficiência visual ou cegueira (QUEM,2021). Diversos estudos têm relatado as</p><p>dificuldades enfrentadas por pessoas com deficiência visual durante a navegação (</p><p>Manduchi e Kurniawan,2011;Riazi, Riazi, Yoosfi e Bahmeei, 2016). A liberdade de</p><p>circular de forma independente é um componente de uma vida digna, e as</p><p>ferramentas para apoiar esta liberdade são a principal motivação para este</p><p>trabalho.</p><p>Pessoas com deficiência visual normalmente usam bengalas brancas, cães-</p><p>guia e pessoas com visão para ajudá-las (Aspinall,2012;Hersh & Johnson,2010)</p><p>para navegação. As bengalas brancas têm muitas vantagens, incluindo facilidade</p><p>de substituição, economia, fácil manobrabilidade e baixos requisitos de</p><p>manutenção. No entanto, os usuários de cana podem encontrar desafios ao</p><p>navegar em áreas lotadas (Recanto,2020). Além disso, os usuários não podem usar</p><p>as mãos para segurar qualquer outra coisa ao usar bengalas. Os cães-guia podem</p><p>proporcionar companheirismo, amor, conforto e respeito aos seus tratadores, ao</p><p>mesmo tempo que mantêm seus usuários (donos) seguros. No entanto, treinar e</p><p>gerenciar cães-guia consome muito tempo e é caro. Além disso, existem certos</p><p>locais onde os cães não são permitidos, tais como teatros interiores, pisos</p><p>pegajosos e alguns locais estrangeiros.</p><p>∗ Autor correspondente.</p><p>Endereço de e-mail:bineethk@oslomet.no (B. Kuriakose),raju.shrestha@oslomet.no (R. Shrestha),frodes@oslomet.no (FE Sandnes).</p><p>https://doi.org/10.1016/j.eswa.2022.118720</p><p>Recebido em 30 de maio de 2022; Recebido de forma revisada em 25 de agosto de 2022; Aceito em 27 de agosto de</p><p>isponível online em 31 de agosto de 2022.</p><p>957-4174/© 2022 O(s) Autor(es). Publicado pela Elsevier Ltd. Este é um artigo de acesso</p><p>2022.</p><p>aberto sob a licença CC BY (http://creativecommons.org/licenses/by/4.0/).</p><p>http://www.elsevier.com/locate/eswa</p><p>http://www.elsevier.com/locate/eswa</p><p>mailto:bineethk@oslomet.no</p><p>mailto:raju.shrestha@oslomet.no</p><p>mailto:frodes@oslomet.no</p><p>https://doi.org/10.1016/j.eswa.2022.118720</p><p>https://doi.org/10.1016/j.eswa.2022.118720</p><p>http://crossmark.crossref.org/dialog/?doi=10.1016/j.eswa.2022.118720&domain=pdf</p><p>http://creativecommons.org/licenses/by/4.0/</p><p>https://www.onlinedoctranslator.com/pt/?utm_source=onlinedoctranslator&utm_medium=pdf&utm_campaign=attribution</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Como a portabilidade é uma consideração importante no design de sistemas</p><p>de suporte à navegação, os pesquisadores têm explorado o potencial do uso de</p><p>smartphones.Kuriakose, Shrestha e Sandnes,2020). Muita atenção está sendo</p><p>dada à pesquisa sobre como os dispositivos portáteis podem ajudar as pessoas</p><p>com deficiência nas atividades diárias, como a navegação. Os smartphones</p><p>modernos são promissores por causa de seus sensores, câmeras, aumento do</p><p>poder de processamento e disponibilidade mais ampla (Kuriakose et al.,2020).</p><p>Propomos o DeepNAVI, uma solução de navegação portátil baseada em</p><p>smartphone que utiliza modelos de aprendizagem profunda para detecção de</p><p>obstáculos e reconhecimento de cenas. Além disso, o DeepNAVI pode fornecer</p><p>informações detalhadas sobre os diversos atributos dos obstáculos, como</p><p>distância até o usuário, posição e status do movimento (estacionário ou em</p><p>movimento). Embora existam vários assistentes de navegação baseados em</p><p>smartphones ou sistemas de assistência à navegação baseados em aprendizagem</p><p>profunda propostos na literatura, o que diferencia o DeepNAVI é o seu design que</p><p>dá importância a fatores técnicos e de usabilidade. DeepNAVI possui modelos de</p><p>aprendizagem profunda treinados a bordo que não requerem conectividade com</p><p>a Internet para processar informações. Além disso, o DeepNAVI pode ser</p><p>integrado num smartphone e utiliza sensores existentes para fornecer instruções</p><p>de navegação a pessoas com deficiência visual. Este trabalho é uma extensão do</p><p>nosso trabalho anterior relatado emKuriakose, Shrestha e Eika Sandnes(2021). No</p><p>entanto, este trabalho foi ampliado com mudanças substanciais, adicionando mais</p><p>recursos, treinamento e</p><p>usuário.</p><p>A partir dos resultados do teste (verFigura 8), é visível que existem poucos</p><p>erros de classificação associados ao modelo de reconhecimento de cena. E esses</p><p>erros de classificação podem ocorrer devido à ambiguidade de rotulagem, à</p><p>semelhança entre as imagens e à sobreposição entre duas categorias na mesma</p><p>cena. Um conjunto de dados maior com mais cenas e rótulos precisos pode</p><p>mitigar esses problemas. Nosso trabalho anterior (Kuriakose et al.,2021b) fornece</p><p>uma lista de soluções possíveis. Apesar disso, adicionar um módulo de</p><p>reconhecimento de cena pode ser útil ao usuário durante a navegação, pois</p><p>permitiria que ele aprendesse mais sobre o ambiente em que está navegando.</p><p>O teste piloto com o usuário dá uma impressão da praticidade e</p><p>utilidade do nosso sistema. Ficou mais fácil para o usuário ter uma ideia dos</p><p>obstáculos e evitá-los com as informações adicionais fornecidas pelo</p><p>sistema. Como o sistema é portátil, o usuário ficou otimista quanto a isso.</p><p>Nosso assistente de navegação baseado em smartphone levava menos</p><p>tempo para o usuário chegar ao destino do que uma bengala inteligente.</p><p>Recebemos feedback após a avaliação de que, em um ambiente da vida real,</p><p>seria mais útil se o usuário soubesse quais obstáculos evitar durante a</p><p>navegação. A consciência dos obstáculos no ambiente de um usuário pode</p><p>ajudá-lo a chegar ao destino com segurança. Após o teste no nível do</p><p>usuário, o feedback reflete que o DeepNAVI tem um bom desempenho e</p><p>permite que o usuário chegue ao destino, fornecendo informações valiosas,</p><p>como tipo de obstáculo, distância e posição. Em contraste com sistemas de</p><p>navegação semelhantes, o DeepNAVI pode fornecer informações ambientais</p><p>sobre obstáculos e o ambiente circundante.</p><p>Consideramos este teste piloto para coletar sugestões valiosas do usuário</p><p>para desenvolver e refinar ainda mais nosso assistente de navegação. Como o</p><p>processo de teste foi feito em ambiente controlado, conhecemos as limitações do</p><p>experimento. E, ao mesmo tempo, obtivemos feedback construtivo do usuário</p><p>para melhorar o sistema. Devido às complicações éticas e às preocupações</p><p>desafiadoras de recrutar mais participantes com deficiência visual, conduzimos</p><p>este procedimento de teste com um único usuário. Mas pretendemos ampliar e</p><p>elaborar os ambientes e procedimentos de teste, incluindo mais participantes em</p><p>nosso trabalho futuro.</p><p>A análise comparativa com os atributos quantitativos emTabela 5 mostra</p><p>que nosso sistema proposto é enriquecido com muitos recursos que não</p><p>estão atualmente presentes em sistemas similares. Isto mostra como um</p><p>sistema portátil como o DeepNAVI é valioso e prático para assistência à</p><p>navegação em ambientes internos e externos. Com base na análise</p><p>comparativa, é evidente que falta funcionalidade de saída multimodal na</p><p>versão atual do sistema. Mas pretendemos incluí-lo na versão estendida do</p><p>nosso assistente de navegação no futuro.</p><p>Muitos sistemas propostos na literatura usavam placas de hardware em</p><p>miniatura, como Raspberry Pi, como componente central de processamento.</p><p>Analisamos o projeto de tais sistemas e interagimos com pessoas com deficiência</p><p>visual em relação ao mesmo conceito. Até onde sabemos, esses sistemas não</p><p>estão disponíveis no mercado, portanto não pudemos compará-los em nossos</p><p>experimentos. Esses sistemas precisam de câmeras e sensores externos para</p><p>14</p><p>torná-los uma solução implantável. E isso envolve fios para conectar cada</p><p>componente à placa. Todos esses fatores poderiam questionar o conceito de</p><p>portabilidade. Durante as interações com pessoas com deficiência visual, também</p><p>obtivemos respostas sobre os incômodos causados pelos fios emaranhados por</p><p>todo o corpo. Portanto, suspeitamos que um sistema que utiliza câmeras externas</p><p>e fios de conexão não seja uma solução portátil e conveniente para a navegação</p><p>de pessoas com deficiência visual. Além disso, através desta pesquisa, buscamos</p><p>uma solução mais viável que os usuários possam usar em um ambiente em tempo</p><p>real sem muitos problemas. Assim, a busca pelo design foi concluída com uma</p><p>solução baseada em smartphone que já vem integrada com câmeras, sensores e</p><p>unidades de processamento.</p><p>Além disso, como o DeepNAVI não requer nenhuma conectividade de rede, é</p><p>mais conveniente para os usuários evitar possíveis atrasos de rede que podem</p><p>surgir em um sistema que utiliza um servidor externo ou dados do ambiente de</p><p>processo de serviço em nuvem durante a navegação. Além disso, depender de</p><p>uma rede de dados externa para recuperar resultados nem sempre funcionaria</p><p>em áreas sem acesso à rede (como estações subterrâneas, porões, etc.). Mas</p><p>existem poucas oportunidades e escopo em ter conectividade com a Internet. Ele</p><p>pode ser usado para treinamento de modelo em movimento e coleta de imagens</p><p>relevantes para o conjunto de dados pelos usuários. O verdadeiro desafio neste</p><p>cenário diz respeito às preocupações de privacidade e segurança que surgem ao</p><p>capturar imagens de ambientes públicos e privados ou de pessoas sem</p><p>preocupações. Portanto, tal coleta de dados e plano de treinamento modelo é</p><p>outra direção potencial de pesquisa a ser explorada.</p><p>7. Conclusão</p><p>O assistente de navegação proposto baseado em smartphone oferece uma</p><p>solução conveniente que pode funcionar em tempo real. Além de fornecer</p><p>informações sobre obstáculos detectados, o assistente também fornece</p><p>informações necessárias como distância, posição, status de movimento e</p><p>informações do cenário durante a navegação. A solução também oferece</p><p>comodidade, portabilidade e conforto, já que os usuários não precisam carregar</p><p>nenhum hardware adicional. Os resultados mostram que nossos modelos podem</p><p>funcionar bem em um ambiente de tempo real sem depender da rede de dados</p><p>externa. Isso faz com que nosso assistente de navegação proposto possa ser útil</p><p>em situações onde as redes de dados não estão prontamente disponíveis. A</p><p>versão atual do sistema pode detectar 20 tipos diferentes de obstáculos e 20</p><p>cenas relevantes para ambientes de navegação internos e externos. O sistema</p><p>pode ser estendido para detectar mais obstáculos e cenas, se necessário, após a</p><p>coleta e treinamento de conjuntos de dados adicionais. Uma comparação do</p><p>nosso assistente de navegação com sistemas semelhantes indica que ele fornece</p><p>muitos recursos não disponíveis em sistemas semelhantes, incluindo</p><p>reconhecimento de cena, detecção de movimento, estimativa de posição, etc. O</p><p>teste piloto com um usuário real valida que nosso sistema pode ser uma solução</p><p>promissora para navegação assistência a pessoas com deficiência visual.</p><p>Melhorias futuras na solução proposta podem incluir a adição de recursos</p><p>como saída multimodal e um assistente de voz mais enriquecido que fornece</p><p>navegação contínua. Além disso, pode-se considerar a adição de um componente</p><p>de reforço aos modelos de aprendizagem profunda, que pode ser usado para</p><p>treinar novamente os modelos em movimento, conforme observado pelos</p><p>usuários. Isso pode ser usado para gerar um conjunto de dados maior e melhorar</p><p>a classificação e precisão de detecção dos modelos. Além disso, com base no</p><p>feedback dos testes dos usuários, planejamos refinar o sistema DeepNAVI</p><p>proposto e, em seguida, realizar testes elaborados com mais usuários.</p><p>Declaração de contribuição de autoria CRediT</p><p>Bineth Kuriakose:Conceitualização, Metodologia, Software,</p><p>Validação, Análise formal, Investigação, Recursos, Curadoria de dados,</p><p>Redação – rascunho original, Redação – revisão e edição, Visualização.</p><p>Raju Shrestha:Conceitualização, Redação – revisão e edição,</p><p>Supervisão, Administração de projetos, Aquisição de financiamento.</p><p>Frode Eika Sandnes:Redação – revisão e edição, Supervisão.</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>H</p><p>H</p><p>J</p><p>K</p><p>K</p><p>B</p><p>K</p><p>K</p><p>K</p><p>K</p><p>K</p><p>L</p><p>L</p><p>S</p><p>L</p><p>M</p><p>M</p><p>M</p><p>M</p><p>Y</p><p>C</p><p>R</p><p>P</p><p>A</p><p>B</p><p>B</p><p>B</p><p>B</p><p>B</p><p>C</p><p>D</p><p>D</p><p>C</p><p>F</p><p>G</p><p>G</p><p>Declaração de interesse concorrente</p><p>Os autores declaram que não têm interesses financeiros</p><p>concorrentes ou relações pessoais conhecidas que</p><p>possam ter</p><p>influenciado o trabalho relatado neste artigo.</p><p>Disponibilidade de dados</p><p>Os dados utilizados são confidenciais.</p><p>Agradecimentos</p><p>Os autores gostariam de agradecer ao usuário pelas discussões frutíferas que</p><p>ajudaram no desenvolvimento e aprimoramento do DeepNAVI e pela participação</p><p>nos testes do usuário, conforme relatado no artigo.</p><p>Referências</p><p>Ali A., H., Rao, SU, Ranganath, S., Ashwin, T., & Reddy, GRM (2021). Um Google</p><p>análise de cena em tempo real baseada em vidro para deficientes visuais.Acesso IEEE</p><p>,9, 166351–166369.http://dx.doi.org/10.1109/ACCESS.2021.3135024.</p><p>Ashiq, F., Asif, M., Ahmad, MB, Zafar, S., Masood, K., Mahmood, T., et al. (2022).</p><p>Sistema de reconhecimento e rastreamento de objetos baseado em CNN para auxiliar pessoas com</p><p>deficiência visual.Acesso IEEE,10, 14819–14834.http://dx.doi.org/10.1109/ACCESS.2022. 3148036.</p><p>Aspinall, A. (2012). Tecnologia Assistiva: Princípios e aplicação para comunicação</p><p>transtornos e educação especial.Revista de Tecnologias Assistivas,http://dx.doi.org/</p><p>10.1108/17549451211285799.</p><p>ustin, K. (2016). Bengala branca vs. cão-guia. Segundo Sentido. URLhttps://www.second-</p><p>sense.org/2016/09/white-cane-vs-guide-dog-why-or-why-not/. (Acessado em 01 de outubro</p><p>de 2020).</p><p>ai, J., Liu, Z., Lin, Y., Li, Y., Lian, S. e Liu, D. (2019). Auxílio de viagem vestível para</p><p>percepção ambiental e navegação de pessoas com deficiência visual.Eletrônicos, 8(6),</p><p>697.http://dx.doi.org/10.3390/electronics8060697.</p><p>ai, J., Liu, D., Su, G. e Fu, Z. (2017). Um sistema de navegação baseado em nuvem e visão</p><p>usado para pessoas cegas. EmConferência internacional sobre tecnologias de inteligência</p><p>artificial, automação e controle(págs. 1–6).http://dx.doi.org/10.1145/3080845.3080867.</p><p>arontini, F., Catalano, MG, Pallottino, L., Leporini, B., & Bianchi, M. (2020).</p><p>Integração de sensação tátil vestível e prevenção de obstáculos para deficientes visuais na</p><p>navegação interna: uma abordagem centrada no usuário.Transações IEEE em Haptics,14(1),</p><p>109–122.http://dx.doi.org/10.1109/TOH.2020.2996748.</p><p>howmick, A. e Hazarika, SM (2017). Uma visão sobre tecnologia assistiva para o</p><p>pessoas com deficiência visual e cegas: estado da arte e tendências futuras.Diário sobre</p><p>interfaces de usuário multimodais,11(2), 149–172.http://dx.doi.org/10.1007/</p><p>s12193-016-0235-6.</p><p>howmick, A., Prakash, S., Bhagat, R., Prasad, V. e Hazarika, SM (2014). IntelliNavi:</p><p>Navegação para cegos baseada em Kinect e aprendizado de máquina. EmWorkshop</p><p>internacional sobre tendências multidisciplinares em inteligência artificial(pp. 172–183).</p><p>Springer, http://dx.doi.org/10.1007/978-3-319-13365-2_16.</p><p>hanana, P., Paul, R., Balakrishnan, M., & Rao, P. (2017). Soluções de tecnologia assistiva</p><p>para auxílio ao deslocamento de pedestres com deficiência visual.Revista de Engenharia de</p><p>Reabilitação e Tecnologias Assistivas,4,http://dx.doi.org/10.1177/2055668317725993. Croce,</p><p>., Gallo, P., Garlisi, D., Giarré, L., Mangione, S., & Tinnirello, I. (2014).</p><p>ARIANNA: Um sistema de navegação baseado em smartphone com humanos no circuito. Em</p><p>22ª Conferência Mediterrânica sobre Controlo e Automação(págs. 8–13). IEEE,http://</p><p>dx.doi.org/10.1109/MED.2014.6961318.</p><p>eng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). ImageNet: um grande</p><p>dimensionar banco de dados de imagens hierárquicas. EmConferência IEEE sobre visão</p><p>computacional e reconhecimento de padrões(pp. 248–255). IEEE,http://dx.doi.org/10.1109/</p><p>VPR.2009.520684. Dos Santos, ADP, Ferrari, ALM, Medola, FO e Sandnes, FE (2022). Estética</p><p>e o estigma percebido da tecnologia assistiva para deficiência visual.Deficiência e</p><p>Reabilitação: Tecnologia Assistiva,17(2), 152–158.http://dx.doi.org/10.1080/</p><p>17483107.2020.1768308.</p><p>usco, G. e Coughlan, JM (2020). Localização interna para viajantes com deficiência visual</p><p>usando visão computacional em um smartphone. EmAnais da 17ª conferência web</p><p>internacional para todos(págs. 1–11).http://dx.doi.org/10.1145/3371300.3383345.</p><p>anz, A., Schafer, JM, Tao, Y., Wilson, C. e Robertson, M. (2014). PERCEBER-</p><p>II: Sistema de navegação interior baseado em smartphone para cegos. Em36ª Conferência</p><p>Internacional Anual da Sociedade IEEE de Engenharia em Medicina e Biologia(págs. 3662–</p><p>3665). IEEE,http://dx.doi.org/10.1109/EMBC.2014.6944417.</p><p>uerrero, JC, Quezada-V, C. e Chacón-Troya, D. (2018). Design e implementação</p><p>de uma bengala inteligente, com sensores de proximidade, localização GPS e feedback GSM.</p><p>EmConferência canadense IEEE sobre engenharia elétrica e de computação(págs. 1–4). IEEE,</p><p>http://dx.doi.org/10.1109/CCECE.2018.8447741.</p><p>15</p><p>arvard, U. (2012). Medindo o tamanho a partir de imagens: uma disputa com ângulos e</p><p>escala da imagem. EmObservatório astrofísico Smithsonian. Universidade de Harvard, URL</p><p>https://lweb.cfa.harvard.edu/webscope/activities/pdfs/measureSize.pdf. (Acessado em 01 de</p><p>outubro de 2020).</p><p>ersh, M. e Johnson, MA (2010).Tecnologia assistiva para deficientes visuais e cegos</p><p>pessoas. Springer Ciência e Mídia de Negócios.</p><p>oshi, RC, Yadav, S., Dutta, MK e Travieso-Gonzalez, CM (2020). Eficiente</p><p>detecção de múltiplos objetos e navegação inteligente usando inteligência artificial para</p><p>pessoas com deficiência visual.Entropia,22(9), 941.http://dx.doi.org/10.3390/e22090941.</p><p>ahraman, M. e Turhan, C. (2021). Uma orientação e navegação interior inteligente</p><p>sistema para deficientes visuais.Tecnologia assistiva, 1–9.http://dx.doi.org/10.</p><p>1080/10400435.2021.1872738.</p><p>anwal, N., Bostanci, E., Currie, K. e Clark, AF (2015). Um sistema de navegação para</p><p>deficientes visuais: uma fusão de visão e sensor de profundidade.Biônica Aplicada e</p><p>Biomecânica,2015, Artigo 479857.http://dx.doi.org/10.1155/2015/479857. Kuriakose,</p><p>., Shrestha, R. e Eika Sandnes, F. (2021). Rumo à navegação independente</p><p>com deficiência visual: um protótipo de um assistente de aprendizagem profunda baseado em</p><p>smartphone. EmA 14ª conferência sobre tecnologias difundidas relacionadas a ambientes assistivos</p><p>(págs. 113–114).http://dx.doi.org/10.1145/3453892.3464946.</p><p>uriakose, B., Shrestha, R. e Sandnes, FE (2020). Suporte de navegação para smartphones</p><p>para pessoas cegas e com deficiência visual – uma análise abrangente de potenciais</p><p>e oportunidades. EmConferência Internacional sobre Interação Humano-</p><p>Computador(pp. 568–583). Springer,http://dx.doi.org/10.1007/978-3-030-49108-6_41.</p><p>uriakose, B., Shrestha, R. e Sandnes, FE (2021a). Métodos de estimativa de distância</p><p>para sistemas de suporte à navegação baseados em smartphones. EmAnais da conferência</p><p>de sistemas inteligentes SAI(pp. 658–673). Springer,http://dx.doi.org/</p><p>10.1007/978-3-030-82196-8_49.</p><p>uriakose, B., Shrestha, R. e Sandnes, FE (2021b). SceneRecog: um aprendizado profundo</p><p>modelo de reconhecimento de cena para auxiliar cegos e deficientes visuais na navegação</p><p>por meio de smartphones. EmConferência internacional IEEE sobre sistemas, homem e</p><p>cibernética(pp. 2464–2470). IEEE,http://dx.doi.org/10.1109/SMC52423.2021.9658913.</p><p>uriakose, B., Shrestha, R. e Sandnes, FE (2022). Ferramentas e tecnologias para cegos</p><p>e suporte à navegação para deficientes visuais: uma revisão.Revisão Técnica do IETE,39(1), 3–</p><p>18.http://dx.doi.org/10.1080/02564602.2020.1819893.</p><p>uznetsova, A., Rom, H., Alldrin, N., Uijlings, J., Krasin, I., Pont-Tuset, J., et al.</p><p>(2020). O conjunto de dados de imagens abertas v4.Jornal Internacional de Visão Computacional,128</p><p>(7), 1956–1981.</p><p>in, B.-S., Lee, CC-C., & Chiang, P.-Y. (2017). Sistema de orientação simples baseado em smartphone</p><p>para pessoas com deficiência visual.Sensores,17(6), 1371.http://dx.doi.org/10.3390/</p><p>s17061371.</p><p>in, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., et al. (2014).</p><p>Microsoft COCO: objetos comuns no contexto. EmConferência Europeia sobre Visão Computacional(</p><p>pp. 740–755). Springer,http://dx.doi.org/10.1007/978-3-319-10602-1_48. Lin, Y., Wang, K., Yi, W. e Lian,</p><p>. (2019). Sistemas assistivos vestíveis baseados em aprendizagem profunda</p><p>tema para pessoas com deficiência visual. EmAnais da conferência internacional IEEE sobre</p><p>workshops de visão computacional(pp. 2549–2557).http://dx.doi.org/10.1109/ICCVW.</p><p>2019.00312.</p><p>ock, JC, Gilchrist, ID, Cielniak, G. e Bellotto, N. (2019). Áudio de condução óssea</p><p>interface para orientar pessoas com deficiência visual. EmConferência Internacional sobre</p><p>Cidade Inteligente e Informatização(pp. 542–553). Springer,http://dx.doi.org/10.1007/</p><p>978-981-15-1301-5_43.</p><p>anduchi, R. e Kurniawan, S. (2011). Acidentes relacionados à mobilidade sofridos por pessoas</p><p>com deficiência visual.Revista AER: Pesquisa e Prática em Deficiência Visual e</p><p>Cegueira,4(2), 44–54.</p><p>egalingam, RK, Nambissan, A., Thambi, A., Gopinath, A., & Nandakumar, M.</p><p>(2015). Bengala inteligente baseada em som e toque: Melhor experiência de caminhada para</p><p>deficientes visuais. EmComputação, comunicação e dispositivos inteligentes. avanços em</p><p>sistemas inteligentes e computação. Vol. 308(pp. 589–595). Índia: Springer,http://dx.doi.org/</p><p>10.1109/IHTC.2014.7147543.</p><p>ogelmose, A., Trivedi, MM e Moeslund, TB (2012). Sinal de trânsito baseado em visão</p><p>detecção e análise para sistemas inteligentes de assistência ao motorista: Perspectivas e</p><p>levantamento.Transações IEEE em Sistemas de Transporte Inteligentes,13(4), 1484–1497.</p><p>http://dx.doi.org/10.1109/TITS.2012.2209421.</p><p>oharkar, L., Varun, S., Patil, A. e Pal, A. (2020). Um sistema de percepção de cena para</p><p>deficientes visuais com base na detecção e classificação de objetos usando CNN.ITM</p><p>Web de Conferência,32, 03039.http://dx.doi.org/10.1051/itmconf/20203203039. Moo</p><p>i, K., Yun, K., Wan Kim, S., Jin Chang, H. e Young Choi, J. (2013). Detecção de</p><p>objetos em movimento com câmeras não estacionárias em 5,8 ms: Trazendo a detecção de</p><p>movimento para o seu dispositivo móvel. EmConferência IEEE sobre oficinas de visão computacional e</p><p>reconhecimento de padrões(pp. 27–34).http://dx.doi.org/10.1109/CVPRW.2013.9. Mukhiddinov, M. e</p><p>ho, J. (2021). Sistema de vidro inteligente usando aprendizagem profunda para o</p><p>cegos e deficientes visuais.Eletrônicos,10(22), 2756.http://dx.doi.org/10.3390/</p><p>eletrônica10222756.</p><p>ecanto, C. (2020). Cães-guia vs. bengalas brancas: a comparação abrangente.</p><p>Recanto Trevo. URLhttps://clovernook.org/2020/09/18/guide-dogs-vs-white-canesthe-</p><p>comprehensive-comparison/. (Acessado em 20 de abril de 2022).</p><p>eng, E., Peursum, P., Li, L. e Venkatesh, S. (2010). Um sensor de obstáculos baseado em smartphone</p><p>sor para deficientes visuais. EmConferência Internacional sobre Inteligência Onipresente e</p><p>Computação(pp. 590–604). Springer,http://dx.doi.org/10.1007/978-3-642-16355-5_45.</p><p>http://dx.doi.org/10.1109/ACCESS.2021.3135024</p><p>http://dx.doi.org/10.1109/ACCESS.2022.3148036</p><p>http://dx.doi.org/10.1109/ACCESS.2022.3148036</p><p>http://dx.doi.org/10.1109/ACCESS.2022.3148036</p><p>http://dx.doi.org/10.1108/17549451211285799</p><p>http://dx.doi.org/10.1108/17549451211285799</p><p>http://dx.doi.org/10.1108/17549451211285799</p><p>https://www.second-sense.org/2016/09/white-cane-vs-guide-dog-why-or-why-not/</p><p>https://www.second-sense.org/2016/09/white-cane-vs-guide-dog-why-or-why-not/</p><p>https://www.second-sense.org/2016/09/white-cane-vs-guide-dog-why-or-why-not/</p><p>http://dx.doi.org/10.3390/electronics8060697</p><p>http://dx.doi.org/10.1145/3080845.3080867</p><p>http://dx.doi.org/10.1109/TOH.2020.2996748</p><p>http://dx.doi.org/10.1007/s12193-016-0235-6</p><p>http://dx.doi.org/10.1007/s12193-016-0235-6</p><p>http://dx.doi.org/10.1007/s12193-016-0235-6</p><p>http://dx.doi.org/10.1007/978-3-319-13365-2_16</p><p>http://dx.doi.org/10.1177/2055668317725993</p><p>http://dx.doi.org/10.1109/MED.2014.6961318</p><p>http://dx.doi.org/10.1109/MED.2014.6961318</p><p>http://dx.doi.org/10.1109/MED.2014.6961318</p><p>http://dx.doi.org/10.1109/CVPR.2009.520684</p><p>http://dx.doi.org/10.1080/17483107.2020.1768308</p><p>http://dx.doi.org/10.1080/17483107.2020.1768308</p><p>http://dx.doi.org/10.1080/17483107.2020.1768308</p><p>http://dx.doi.org/10.1145/3371300.3383345</p><p>http://dx.doi.org/10.1109/EMBC.2014.6944417</p><p>http://dx.doi.org/10.1109/CCECE.2018.8447741</p><p>https://lweb.cfa.harvard.edu/webscope/activities/pdfs/measureSize.pdf</p><p>http://dx.doi.org/10.3390/e22090941</p><p>http://dx.doi.org/10.1080/10400435.2021.1872738</p><p>http://dx.doi.org/10.1080/10400435.2021.1872738</p><p>http://dx.doi.org/10.1080/10400435.2021.1872738</p><p>http://dx.doi.org/10.1155/2015/479857</p><p>http://dx.doi.org/10.1145/3453892.3464946</p><p>http://dx.doi.org/10.1007/978-3-030-49108-6_41</p><p>http://dx.doi.org/10.1007/978-3-030-82196-8_49</p><p>http://dx.doi.org/10.1007/978-3-030-82196-8_49</p><p>http://dx.doi.org/10.1007/978-3-030-82196-8_49</p><p>http://dx.doi.org/10.1109/SMC52423.2021.9658913</p><p>http://dx.doi.org/10.1080/02564602.2020.1819893</p><p>http://dx.doi.org/10.3390/s17061371</p><p>http://dx.doi.org/10.3390/s17061371</p><p>http://dx.doi.org/10.3390/s17061371</p><p>http://dx.doi.org/10.1007/978-3-319-10602-1_48</p><p>http://dx.doi.org/10.1109/ICCVW.2019.00312</p><p>http://dx.doi.org/10.1109/ICCVW.2019.00312</p><p>http://dx.doi.org/10.1109/ICCVW.2019.00312</p><p>http://dx.doi.org/10.1007/978-981-15-1301-5_43</p><p>http://dx.doi.org/10.1007/978-981-15-1301-5_43</p><p>http://dx.doi.org/10.1007/978-981-15-1301-5_43</p><p>http://dx.doi.org/10.1109/IHTC.2014.7147543</p><p>http://dx.doi.org/10.1109/IHTC.2014.7147543</p><p>http://dx.doi.org/10.1109/IHTC.2014.7147543</p><p>http://dx.doi.org/10.1109/TITS.2012.2209421</p><p>http://dx.doi.org/10.1051/itmconf/20203203039</p><p>http://dx.doi.org/10.1109/CVPRW.2013.9</p><p>http://dx.doi.org/10.3390/electronics10222756</p><p>http://dx.doi.org/10.3390/electronics10222756</p><p>http://dx.doi.org/10.3390/electronics10222756</p><p>https://clovernook.org/2020/09/18/guide-dogs-vs-white-canes-the-comprehensive-comparison/</p><p>https://clovernook.org/2020/09/18/guide-dogs-vs-white-canes-the-comprehensive-comparison/</p><p>https://clovernook.org/2020/09/18/guide-dogs-vs-white-canes-the-comprehensive-comparison/</p><p>http://dx.doi.org/10.1007/978-3-642-16355-5_45</p><p>http://dx.doi.org/10.1007/978-3-642-16355-5_45</p><p>http://dx.doi.org/10.1007/978-3-642-16355-5_45</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Real, S., & Araújo, A. (2019). Sistemas de navegação para cegos e deficientes visuais:</p><p>Trabalhos anteriores, desafios e problemas em aberto.Sensores,19(15), 3404.http://dx.doi.</p><p>org/10.3390/s19153404.</p><p>Riazi, A., Riazi, F., Yoosfi, R., & Bahmeei, F. (2016). Dificuldades ao ar livre experimentadas</p><p>por um grupo de iranianos com deficiência visual.Jornal de Oftalmologia Atual, 28(2),</p><p>85–90.http://dx.doi.org/10.1016/j.joco.2016.04.002.</p><p>Saaid, MF, Mohammad, A. e Ali, MM (2016). Bengala inteligente com notificação de alcance</p><p>para pessoas cegas. EmConferência internacional IEEE 2016 sobre controle automático e</p><p>sistemas inteligentes(pp. 225–229). IEEE,http://dx.doi.org/10.1109/I2CACIS.2016. 7885319.</p><p>Saksham, S. (2014). Visão geral do smartcane. Cana inteligente. Confiança Saksham. URLhttps:</p><p>//smartcane.saksham.org/?page_id=8. (Acessado em 25 de abril de 2022).</p><p>Suresh, A., Arora, C., Laha, D., Gaba, D., & Bhambri, S. (2017). Inteligente inteligente</p><p>vidro para deficientes visuais usando técnicas de visão de máquina de aprendizado profundo</p><p>e sistema operacional de robô (ROS). EmConferência internacional sobre tecnologia e</p><p>aplicações de inteligência robótica(pp. 99–112). Springer,http://dx.doi.org/</p><p>10.1007/978-3-319-78452-6_10.</p><p>Tan, M. e Le, Q. (2019). Efficientnet: Repensando o dimensionamento do modelo para convolucional</p><p>redes neurais. EmConferência Internacional sobre Aprendizado de Máquina(págs. 6105–</p><p>6114). PMLR,http://dx.doi.org/10.48550/arXiv.1905.11946.</p><p>16</p><p>Tan, M., Pang, R. e Le, QV (2020). Efficientdet: Objeto escalável e eficiente</p><p>detecção. EmConferência IEEE/CVF sobre visão computacional e reconhecimento de padrões(</p><p>pp. 10781–10790).http://dx.doi.org/10.1109/CVPR42600.2020.01079.</p><p>Tapu, R., Mocanu, B., Bursuc, A., & Zaharia, T. (2013). Um obstáculo baseado em smartphone</p><p>sistema de detecção e classificação para atendimento a pessoas com deficiência visual. Em</p><p>Conferência internacional IEEE sobre workshops de visão computacional(pp. 444–451).http://dx.doi.</p><p>org/10.1109/ICCVW.2013.65.</p><p>Tawalbeh, M., Eardley, A., et al. (2016). Estudando o consumo de energia em dispositivos móveis</p><p>dispositivos.Procedia Ciência da Computação,94, 183-189.http://dx.doi.org/10.1016/j.procs.</p><p>2016.08.028.</p><p>OMS (2021). Deficiência visual e cegueira. EmCegueira e deficiência visual.</p><p>Organização Mundial da Saúde, URLhttps://www.who.int/news-room/fact-sheets/detail/</p><p>blindness-and-visual-impairment. (Acessado em 20 de abril de 2022).</p><p>Zhou, B., Lapedriza, A., Khosla, A., Oliva, A., & Torralba, A. (2017). Lugares: Um</p><p>Banco de dados de 10 milhões de imagens para reconhecimento de cena.Transações IEEE</p><p>em análise de padrões e inteligência de máquina,40(6), 1452–1464.http://dx.doi.org/10.1109/</p><p>TPAMI.2017.2723009.</p><p>http://dx.doi.org/10.3390/s19153404</p><p>http://dx.doi.org/10.3390/s19153404</p><p>http://dx.doi.org/10.3390/s19153404</p><p>http://dx.doi.org/10.1016/j.joco.2016.04.002</p><p>http://dx.doi.org/10.1109/I2CACIS.2016.7885319</p><p>http://dx.doi.org/10.1109/I2CACIS.2016.7885319</p><p>http://dx.doi.org/10.1109/I2CACIS.2016.7885319</p><p>https://smartcane.saksham.org/?page_id=8</p><p>https://smartcane.saksham.org/?page_id=8</p><p>https://smartcane.saksham.org/?page_id=8</p><p>http://dx.doi.org/10.1007/978-3-319-78452-6_10</p><p>http://dx.doi.org/10.1007/978-3-319-78452-6_10</p><p>http://dx.doi.org/10.1007/978-3-319-78452-6_10</p><p>http://dx.doi.org/10.48550/arXiv.1905.11946</p><p>http://dx.doi.org/10.1109/CVPR42600.2020.01079</p><p>http://dx.doi.org/10.1109/ICCVW.2013.65</p><p>http://dx.doi.org/10.1109/ICCVW.2013.65</p><p>http://dx.doi.org/10.1109/ICCVW.2013.65</p><p>http://dx.doi.org/10.1016/j.procs.2016.08.028</p><p>http://dx.doi.org/10.1016/j.procs.2016.08.028</p><p>http://dx.doi.org/10.1016/j.procs.2016.08.028</p><p>https://www.who.int/news-room/fact-sheets/detail/blindness-and-visual-impairment</p><p>https://www.who.int/news-room/fact-sheets/detail/blindness-and-visual-impairment</p><p>https://www.who.int/news-room/fact-sheets/detail/blindness-and-visual-impairment</p><p>http://dx.doi.org/10.1109/TPAMI.2017.2723009</p><p>http://dx.doi.org/10.1109/TPAMI.2017.2723009</p><p>http://dx.doi.org/10.1109/TPAMI.2017.2723009</p><p>DeepNAVI: A deep learning based smartphone navigation assistant for people with visual impairments</p><p>Introduction</p><p>Related works</p><p>Hardware boards</p><p>Smart canes</p><p>Smart glasses</p><p>Smartphones</p><p>Proposed system and implementation</p><p>Design considerations</p><p>Proposed system</p><p>Implementation</p><p>Obstacle detection</p><p>Distance estimation</p><p>Position estimation</p><p>Motion detection</p><p>Scene recognition</p><p>Output</p><p>Custom datasets</p><p>Android application</p><p>Experiments and results</p><p>Evaluation of object detection and scene recognition models</p><p>Evaluation of distance estimation module</p><p>Evaluation of motion detection and position estimation modules</p><p>User testing</p><p>Comparison of navigation systems</p><p>Discussion</p><p>Conclusion</p><p>CRediT authorship contribution statement</p><p>Declaration of competing interest</p><p>Data availability</p><p>Acknowledgments</p><p>References</p><p>testes com melhores modelos de aprendizado profundo</p><p>com conjuntos de dados mais extensos e estendidos. A versão atual do DeepNAVI</p><p>evoluiu após a colaboração de pesquisa de design com os usuários incorporar</p><p>alterações do protótipo anterior. Alguns dos componentes da versão atual do</p><p>DeepNAVI são discutidos detalhadamente nos trabalhos anteriores dos autores.</p><p>Por exemplo, na estimativa de distância, reconhecimento de cena e detecção de</p><p>obstáculos, os autores elaboraram estudos e testes e finalizaram com os utilizados</p><p>na versão atual do DeepNAVI. Muitos trabalhos semelhantes e recentes na</p><p>literatura usaram conjuntos de dados gerais existentes ou um modelo de</p><p>detecção de objeto/obstáculo pré-treinado (Rao, et al.,2021;Ashiq, et al.,2022;Joshi,</p><p>Yadav, Dutta e Travieso-Gonzalez,2020;Mukhiddinov e Cho,2021). Mas neste</p><p>trabalho, criamos conjuntos de dados personalizados para modelos de</p><p>treinamento, em vez de conjuntos de dados gerais, que incluem apenas objetos/</p><p>obstáculos relevantes em cenários de navegação. Além disso, este artigo também</p><p>fornece uma avaliação detalhada do desempenho de diferentes módulos do</p><p>sistema no Deep-NAVI. Além disso, realizamos extensos testes piloto com um</p><p>usuário com deficiência visual para avaliar a praticabilidade e usabilidade do</p><p>sistema proposto.</p><p>As principais contribuições deste trabalho são as seguintes: (1) o projeto proposto de</p><p>um assistente de navegação baseado em smartphone após considerar cuidadosamente</p><p>várias opções de design e requisitos dos usuários-alvo; (2) a criação de conjuntos de</p><p>dados personalizados para detecção de obstáculos e reconhecimento de cenas que</p><p>consistem em 20 tipos diferentes de obstáculos e 20 categorias de cenas relevantes para</p><p>o domínio da navegação; (3) modelos leves de detecção de objetos e reconhecimento de</p><p>cena treinados com nossos conjuntos de dados, (4) um teste piloto detalhado e análise</p><p>de nosso assistente de navegação baseado em smartphone com uma bengala inteligente</p><p>da perspectiva de um usuário com deficiência visual e (5) uma análise comparativa</p><p>consolidada do nosso sistema com outros sistemas similares propostos no domínio.</p><p>O artigo está organizado da seguinte forma. Seção2apresenta trabalhos</p><p>relacionados relatados em assistentes de navegação. Seção3fornece</p><p>detalhes do design e implementação do nosso sistema. O desenvolvimento</p><p>do nosso aplicativo para smartphone é descrito na Seção4. Seção5fornece os</p><p>experimentos e resultados. É seguido pela discussão na Seção6. O artigo</p><p>conclui na Seção7. Usamos os termospessoas com deficiência visualou</p><p>usuários com deficiência visualouUsuáriosao longo deste artigo para se</p><p>referir a pessoas legalmente cegas ou com visão reduzida para perceber</p><p>estímulos visuais.</p><p>2. Trabalhos relacionados</p><p>Diversos sistemas são propostos na literatura para auxiliar a navegação</p><p>de pessoas com deficiência visual. Os pesquisadores usaram vários</p><p>2</p><p>critérios para categorizar os assistentes de navegação para deficientes visuais. Aqui,</p><p>categorizamos os sistemas de assistente de navegação em quatro categorias principais</p><p>com base em seus ambientes de processamento, que se referem ao dispositivo principal</p><p>usado para processar informações. São placas de hardware, bengalas inteligentes,</p><p>óculos inteligentes e smartphones. As subseções a seguir descrevem cada um, e os</p><p>sistemas de exemplo se enquadram em cada um.</p><p>2.1. Placas de hardware</p><p>Os sistemas nesta categoria utilizam placas de hardware como Arduino,</p><p>Raspberry Pi ou até mesmo um laptop para processar informações</p><p>adquiridas do ambiente. Tais sistemas utilizam câmeras externas, beacons</p><p>BLE e sensores para adquirir informações do ambiente de navegação.</p><p>O sistema assistivo baseado em aprendizagem profunda proposto emLin, Wang, Yi e</p><p>Lian(2019) consistia em uma câmera RGB-D, um fone de ouvido, um laptop para</p><p>processamento de aprendizagem profunda e um smartphone para interação baseada</p><p>em toque. O sistema utilizou redes de segmentação que fornecem informações</p><p>semânticas por meio de imagens RGB e de profundidade. O sistema afirmava fornecer</p><p>feedback confiável às pessoas com deficiência visual para evitar obstáculos. A falta de</p><p>portabilidade pode ser uma desvantagem do sistema.</p><p>Kanwal, Bostanci, Currie e Clark(2015) introduziu um assistente de navegação</p><p>baseado no Kinect que usa valores de profundidade de um sensor infravermelho.</p><p>Os obstáculos são detectados aplicando o algoritmo de detecção de cantos às</p><p>imagens, e o sensor de profundidade fornece a distância correspondente dos</p><p>obstáculos. O sistema também sugere um caminho seguro com sinais de direção</p><p>e diz ao usuário para parar, mover para a esquerda ou para a direita. A câmera</p><p>Kinect destina-se ao uso doméstico estacionário e, portanto, não é prática do</p><p>ponto de vista da portabilidade. Além disso, se o sistema pudesse fornecer</p><p>informações sobre obstáculos, poderia beneficiar os utilizadores.Bhowmick,</p><p>Prakash, Bhagat, Prasad e Hazarika(2014) apresentou um sistema de navegação</p><p>assistiva que também usava um sensor de profundidade Microsoft Kinect a bordo.</p><p>Os modelos Speed-Up Robust Features (SURF) e Bag-of-Visual-Words (BOVW)</p><p>extraem recursos e são usados na detecção de obstáculos. O usuário receberia a</p><p>saída de áudio através de um fone de ouvido. Embora o sistema possa fornecer</p><p>informações sobre obstáculos, poderão surgir questões relacionadas com</p><p>aspectos de portabilidade.</p><p>Moharkar, Varun, Patil e Pal(2020) propôs um assistente de navegação</p><p>baseado em PC de placa única (chamado Odroid). Uma câmera USB foi integrada</p><p>ao sistema para capturar vídeo em tempo real. O sistema detectou obstáculos,</p><p>encontrou a distância usando um laser e depois forneceu os resultados ao usuário</p><p>por meio de feedback de áudio. A detecção e classificação de obstáculos foram</p><p>realizadas usando um RCNN mais rápido baseado em fusão multimodal.</p><p>O sistema introduzido porAshiq, et al.(2022) utiliza a arquitetura MobileNet</p><p>para detecção de obstáculos e utiliza uma placa Raspberry Pi para processar as</p><p>informações. O usuário recebe feedback de áudio e o sistema pode compartilhar a</p><p>localização com familiares/amigos do usuário. Da mesma forma, emJoshi et al.(</p><p>2020), o sistema usa YOLOv3 para detecção de obstáculos executado em uma</p><p>placa Raspberry Pi. O sistema pode reconhecer diferentes objetos e a saída</p><p>auditiva é fornecida ao usuário em tempo real. Mas algumas limitações existentes</p><p>nestes sistemas são a falta de suporte a recursos (como estimativa de distância,</p><p>reconhecimento de cena ou detecção de movimento de obstáculos) que podem</p><p>ser úteis para uma navegação contínua. Além disso, embora os sistemas sejam</p><p>novos no domínio, suas arquiteturas para detecção de obstáculos não eram as</p><p>melhores entre os modelos de aprendizagem profunda atualmente disponíveis,</p><p>que podem oferecer melhor precisão de detecção, tempo de inferência e</p><p>capacidade de implantação em dispositivos portáteis em miniatura, como</p><p>smartphones. .</p><p>O sistema de orientação interna proposto emKahraman e Turhan (2021)</p><p>utiliza uma infraestrutura híbrida de identificação por radiofrequência</p><p>(RFID)/Bluetooth Low Energy (BLE) para fornecer navegação inteligente e</p><p>orientação ao usuário em ambientes internos complexos. O sistema permite</p><p>aos usuários inserir seu propósito de navegação através de uma interface de</p><p>usuário especialmente projetada e fornece orientação inteligente através de</p><p>uma cadeia de destinos, que são determinados de acordo com os</p><p>procedimentos inerentes ao ambiente. A instalação de RFID/BLE</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>é caro e complexo. Além disso, tal sistema não é uma opção viável em</p><p>ambientes de navegação exterior.</p><p>Barontini, Catalano, Pallottino, Leporini e Bianchi(2020) introduziram um sistema que</p><p>consiste em uma câmera RGB-D, uma unidade de processamento para computar</p><p>informações visuais para evitar obstáculos e um dispositivo vestível, que pode fornecer</p><p>feedback de força específico para orientação em um ambiente interno desconhecido.</p><p>As</p><p>principais limitações do sistema estão associadas à portabilidade, e o ambiente</p><p>operacional é restrito a ambientes internos.</p><p>Assistentes de navegação que usam placas de hardware como unidade central de</p><p>processamento são frequentemente inconvenientes e com portabilidade limitada. Placas de</p><p>processamento de hardware e câmeras externas possuem fontes de alimentação e fios de</p><p>conexão, de modo que os usuários podem se sentir desconfortáveis ao carregá-los durante a</p><p>navegação.</p><p>2.2. Bastões inteligentes</p><p>Bengalas inteligentes são dispositivos eletrônicos que servem como alça em</p><p>bengalas brancas utilizadas por pessoas com deficiência visual. Enquanto as bengalas</p><p>brancas só conseguem detectar obstáculos até a altura dos joelhos, as bengalas</p><p>inteligentes detectam obstáculos desde os joelhos até a altura da cabeça (Saksham,2014).</p><p>Ondas sônicas são usadas para detectar obstáculos, e padrões vibracionais intuitivos</p><p>indicam a presença de obstáculos em uma bengala inteligente. Nos últimos anos, vários</p><p>sistemas de navegação foram propostos para aprimorar e modificar a funcionalidade</p><p>básica das bengalas inteligentes. A seção a seguir discute alguns assistentes de</p><p>navegação inteligentes recentes baseados em bengala.</p><p>Megalingam, Nambissan, Thambi, Gopinath e Nandakumar (2015) propôs uma</p><p>bengala inteligente com um módulo de detecção de obstáculos habilitado para</p><p>Bluetooth. Obstáculos são detectados com a ajuda de telêmetros ultrassônicos. O</p><p>sistema utiliza duas modalidades de saída: feedback de fala sintética para</p><p>informar a distância através de um fone de ouvido Bluetooth e feedback tátil para</p><p>alertar o usuário sobre obstáculos em movimento.</p><p>O auxílio eletrônico de viagem desenvolvido emGuerrero, Quezada-V e Chacón-Troya</p><p>(2018) é composto por um sensor ultrassônico para detectar possíveis obstáculos, faixa</p><p>de trabalho entre 0,5 e 5 m, um módulo de som e uma campainha para alertar o usuário</p><p>sobre possíveis obstáculos. Foi utilizado um aplicativo android para comunicação com a</p><p>bengala inteligente através de um módulo GPS e GSM para auxiliar na localização do</p><p>usuário, enviando uma mensagem de texto a um familiar para acessar a localização do</p><p>usuário e visualizá-la através do Google Maps.</p><p>Saaid, Mohammad e Ali(2016) propôs uma bengala inteligente com notificação de</p><p>alcance. O sistema utilizou um sensor ultrassônico para medir a distância do obstáculo. O</p><p>processamento dos dados foi realizado utilizando o controlador myRIO-1900 da National</p><p>Instruments. A bengala alertou os usuários sobre obstáculos por meio de áudio. Os</p><p>autores afirmam que o sistema pode reconhecer obstáculos tanto em ambientes</p><p>internos quanto externos. Nenhum teste em nível de usuário foi relatado.</p><p>A bengala inteligente é fácil de aprender e pode ser usada facilmente como auxiliar</p><p>de mobilidade, quase sem qualquer assistência. No entanto, uma pessoa deve passar por</p><p>um breve treinamento para se tornar um usuário especialista. Além disso, embora as</p><p>bengalas inteligentes modernas sejam caras e tenham recursos como integração com</p><p>smartphones, elas não fornecem muitas informações sobre o ambiente circundante ou</p><p>obstáculos.</p><p>2.3. Óculos inteligentes</p><p>O vidro inteligente é um dispositivo portátil que escaneia o ambiente de navegação</p><p>por meio de uma câmera montada nos óculos para fornecer informações sobre</p><p>obstáculos. Várias empresas de tecnologia estão desenvolvendo soluções de vidros</p><p>inteligentes para apoiar as diversas atividades de pessoas com deficiência visual. Esta</p><p>seção discute algumas pesquisas que utilizam óculos inteligentes como auxílio à</p><p>navegação para pessoas com deficiência visual.</p><p>Rao, et al.(2021) propôs uma solução de navegação usando o</p><p>Google Glass. A câmera embutida nos óculos inteligentes foi usada</p><p>para capturar as imagens do entorno, que foram analisadas usando a</p><p>Microsoft Custom Vision Application Programming Interface (Vision</p><p>API) dos Serviços Cognitivos do Azure. A saída da API Vision sobre</p><p>vários obstáculos foi convertida em fala e apresentada para</p><p>3</p><p>o usuário. Este sistema exigia conectividade de rede constante para processar</p><p>dados ambientais. Isto pode ser uma limitação quando os usuários viajam para</p><p>porões ou áreas com conectividade de rede limitada.</p><p>A solução de vidro inteligente introduzida emMukhiddinov e Cho(2021) inclui um</p><p>modelo de detecção de objetos baseado em transformador e um modelo de</p><p>reconhecimento de texto que usa visão computacional e métodos de aprendizagem</p><p>profunda. O sistema proposto executa esses modelos em um servidor externo conectado</p><p>a um smartphone. Os autores afirmam que o sistema pode detectar e reconhecer</p><p>obstáculos de imagens com pouca luz e cenas escuras para auxiliar os usuários em</p><p>ambientes noturnos. Este sistema também exigia acesso constante a uma rede que</p><p>poderia limitar a operação, semelhante aoRao, et al.(2021).</p><p>Suresh, Arora, Laha, Gaba e Bhambri(2017) propuseram óculos inteligentes</p><p>que consistem em sensores ultrassônicos para detectar obstáculos durante a</p><p>navegação. A parte central de processamento foi um Raspberry Pi que analisa os</p><p>dados de entrada. O sistema também poderia fornecer aviso através de vibrações</p><p>na direção reconhecida. A estrutura do software foi gerenciada em um Robot</p><p>Operating System (ROS). Os sensores externos incorporados e a placa Raspberry</p><p>Pi podem ser inconvenientes para os usuários durante a navegação.</p><p>Embora os óculos inteligentes sejam fáceis de usar, sua principal desvantagem é o</p><p>alto custo. A maioria dos usuários que vivem em países de renda média ou baixa não tem</p><p>condições de comprar óculos inteligentes.</p><p>2.4. Smartphones</p><p>O crescimento exponencial da indústria de smartphones abriu caminho para</p><p>explorá-los mais na pesquisa de assistência à navegação. O sistema de assistência</p><p>à navegação proposto emBai, Liu, Su e Fu(2017) usaram um smartphone para</p><p>interagir com o usuário por meio de entrada de voz. Câmeras estéreo foram</p><p>utilizadas para capturar vídeo do ambiente e depois enviá-lo para a plataforma de</p><p>computação em nuvem. Igual aRao, et al.(2021),Mukhiddinov e Cho(2021), o</p><p>sistema também exigia conectividade constante com a rede de dados para</p><p>funcionar.</p><p>O sistema introduzido emLin, Lee e Chiang(2017) consiste em um</p><p>sistema de reconhecimento de imagem integrado a um aplicativo para</p><p>smartphone. O sistema suporta dois modos de operação com base na</p><p>disponibilidade da rede: online e offline. Um smartphone foi utilizado para</p><p>capturar objetos na frente do usuário e enviá-los para um servidor back-end.</p><p>Dois algoritmos, Faster R-CNN e YOLO, foram aplicados para</p><p>reconhecimento de objetos. O algoritmo R-CNN mais rápido foi utilizado no</p><p>modo offline do sistema para obter maior precisão. Em contrapartida, o</p><p>algoritmo YOLO foi aplicado em modo online para obter maior velocidade</p><p>de processamento. Após identificar os obstáculos e sua distância, o usuário</p><p>seria informado sobre os resultados através do modo de áudio.</p><p>Bai, et al.(2019) apresentou um sistema de assistência à navegação com uma</p><p>câmera RGB-D, uma unidade de medição inercial (IMU) montada em um par de</p><p>óculos e um smartphone como componentes principais. Uma CNN leve foi</p><p>instalada no smartphone para detectar obstáculos e sua posição e orientação.</p><p>Embora os autores afirmem que o sistema foi testado e funciona em ambientes</p><p>internos e externos, os cabos que conectam vários componentes do sistema</p><p>podem incomodar os usuários durante a navegação.</p><p>O sistema proposto emFusco e Coughlan(2020) possui um aplicativo para</p><p>smartphone em tempo real que combina visão computacional, um mapa 2D e a</p><p>IMU do smartphone para estimar e rastrear a localização do usuário em um</p><p>ambiente interno. Ao mesmo tempo, o aplicativo exige que o usuário segure o</p><p>smartphone ou o use com a câmera voltada para frente enquanto caminha, o que</p><p>pode ser desconfortável para o usuário.</p><p>PERCEPT-II é um sistema de navegação interna baseado em smartphone</p><p>proposto emGanz, Schafer, Tao, Wilson e Robertson(2014). É um aplicativo</p><p>Android que permite que deficientes visuais</p><p>recebam instruções de</p><p>navegação até o destino alvo quando tocam em pontos de referência</p><p>específicos equipados com tags Near Field Communication. A principal</p><p>limitação do sistema está associada à instalação de tags NFC, que envolve</p><p>alta manutenção em uma implantação em larga escala.</p><p>ARIANNA (reconhecimento de caminho para navegação assistida em ambientes internos</p><p>com percepção aumentada) (Croce, et al.,2014) permite que os usuários encontrem</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>pontos de interesse em ambiente de navegação indoor seguindo um</p><p>caminho pintado ou colado no chão. A câmera do smartphone detecta</p><p>o caminho e o telefone também gera um sinal vibratório que fornece</p><p>feedback ao usuário para corrigir a direção. Igual aGanz, et al. (2014), a</p><p>manutenção e a implantação não são praticáveis em situações da vida</p><p>real.</p><p>Tapu, Mocanu, Bursuc e Zaharia(2013) veio com sistema de detecção e</p><p>classificação de obstáculos em tempo real baseado em smartphone para ajudar</p><p>pessoas com deficiência visual a navegar em ambientes internos e externos. O</p><p>sistema tentou estimar o movimento da câmera e do fundo usando</p><p>transformações homográficas. Um descritor HOG foi utilizado com a estrutura de</p><p>recuperação Bag of Visual Words (BoVW) para classificação de obstáculos em</p><p>streams de vídeo.</p><p>Peng, Peursum, Li e Venkatesh(2010) propuseram um sistema de assistência à</p><p>navegação baseado em smartphone para detectar objetos no chão,</p><p>independentemente da sua altura. O sistema proposto pressupõe que o usuário</p><p>possa sempre manter o smartphone em um ângulo de inclinação, como 45, para</p><p>que o chão à frente do usuário fique sempre visível na imagem. Devido a esta</p><p>suposição, os autores afirmam que obstáculos no chão à frente do usuário podem</p><p>ser detectados em tempo real utilizando o sistema proposto. O sistema foi testado</p><p>em diferentes condições de piso e um teste de campo foi realizado com cinco</p><p>usuários. As limitações descritas no artigo descrevem a dificuldade da maioria dos</p><p>usuários em segurar o smartphone no ângulo de inclinação solicitado (cerca de</p><p>45).</p><p>Em resumo, as limitações significativas associadas à maioria dos sistemas aqui</p><p>analisados estão associadas à portabilidade, o que os torna inconvenientes</p><p>durante a navegação. Embora existam soluções portáteis, muitas dependem da</p><p>conectividade de rede e do processamento do servidor. Os usuários que precisam</p><p>se conectar à Internet durante a navegação podem levantar preocupações sobre</p><p>privacidade e segurança. Embora alguns tenham explorado modelos de detecção</p><p>de objetos de uso geral com melhor precisão, eles não mostraram como eles</p><p>podem ser integrados a um sistema portátil com baixos recursos computacionais.</p><p>Geralmente, quando usados em ambientes de tempo real, os modelos de</p><p>detecção de objetos/obstáculos devem ter um tempo de inferência baixo sem</p><p>comprometer a precisão. No entanto, quando modelos de objeção de uso geral</p><p>foram utilizados, eles poderiam ter precisão adequada, mas levar mais tempo</p><p>para entregar o resultado, o que poderia causar acidentes ou colisões durante a</p><p>navegação devido a um atraso no tempo de resposta (Kuriakose, Shrestha e</p><p>Sandnes,2021b).</p><p>3. Sistema proposto e implementação</p><p>Para identificar as limitações dos sistemas de navegação existentes, revisamos</p><p>os resultados da nossa pesquisa bibliográfica relatada emKuriakose, Shrestha e</p><p>Sandnes(2022) e consideramos as recomendações que fizemos. Também</p><p>consideramos os resultados do nosso estudo sobre a capacidade e o potencial dos</p><p>smartphones modernos para serem usados como assistentes de navegação (</p><p>Kuriakose et al.,2020). Com base em todos esses estudos, focamos em diversos</p><p>atributos de design que poderiam melhorar a experiência de navegação de</p><p>usuários com deficiência visual. Além disso, esses atributos (ou as escolhas de</p><p>design) foram consolidados com um usuário deficiente visual com experiência no</p><p>uso de auxílios à navegação de base tecnológica. O usuário esteve ativamente</p><p>envolvido em nosso processo de análise de requisitos e teste de usuário. Esta</p><p>seção discute as considerações de design, nosso sistema proposto e seus detalhes</p><p>de implementação.</p><p>3.1. Considerações de projeto</p><p>Várias considerações de design que aprendemos serem importantes em um</p><p>assistente de navegação para deficientes visuais são as seguintes: Precisão e</p><p>velocidade:A compensação entre a precisão e a velocidade da detecção de</p><p>obstáculos é vital em uma aplicação em tempo real. Com base nessa constatação,</p><p>escolhemos modelos leves de aprendizado profundo para detecção de objetos e</p><p>reconhecimento de cenas em nosso sistema. Ambos os modelos ofereceram um</p><p>equilíbrio entre atributos de precisão e velocidade sem compromisso. Além disso,</p><p>é ideal implantar em um dispositivo móvel para ter</p><p>4</p><p>modelos leves, o que favoreceu a seleção de modelos apropriados em nosso</p><p>cenário de aplicação.</p><p>Redução na latência:Acredita-se que os sistemas de baixa latência proporcionam a</p><p>melhor experiência do usuário. Portanto, em vez de implantar os modelos de</p><p>aprendizagem profunda em um servidor de computação em nuvem, decidimos implantá-</p><p>los em um dispositivo móvel. O smartphone pode atuar como o núcleo do nosso sistema</p><p>de navegação, que calcula e fornece informações relacionadas à navegação ao usuário.</p><p>Privacidade de dados garantida:Alguns dos sistemas propostos na literatura (Rao,</p><p>et al.,2021;Bai et al.,2017;Mukhiddinov e Cho,2021) utilizam uma rede externa ou</p><p>serviços de computação em nuvem para processar informações sobre o ambiente</p><p>para navegação. Mas existem possíveis problemas de privacidade ao enviar dados</p><p>ambientais para um servidor de nuvem externo. No nosso caso, as informações</p><p>capturadas do ambiente de navegação seriam processadas no dispositivo local.</p><p>Assim, fica garantida a total privacidade dos dados do utilizador e das entidades</p><p>ambientais. Acessibilidade:O principal componente de hardware do nosso sistema</p><p>é um smartphone. Os smartphones são dispositivos de computação padrão e em</p><p>miniatura disponíveis para qualquer indivíduo. Como não dependemos de</p><p>servidores externos de computação em nuvem ou de outros dispositivos de</p><p>hardware, como câmeras externas, isso reduz o custo de implementação.</p><p>Baixo consumo de energia:Não há necessidade de WiFi ou rede de dados externa</p><p>para operar nosso sistema, portanto, o consumo de energia pode ser menor (</p><p>Tawalbeh, Eardley, et al.,2016). Além disso, nosso sistema não utiliza câmeras</p><p>externas para captura de imagens, como emAshiq, et al.(2022),Bhowmick, et al.(</p><p>2014),Kanwal et al.(2015). Todos esses motivos podem contribuir para a redução</p><p>do consumo de energia. Portabilidade:A portabilidade é um atributo de design</p><p>crucial que passou despercebido em muitos assistentes de navegação. Nosso</p><p>sistema pode ser implantado em um dispositivo portátil, como um smartphone.</p><p>Portanto, o dispositivo pode ser facilmente transportado por uma pessoa (no</p><p>nosso caso, uma pessoa com deficiência visual) e não precisa de hardware</p><p>adicional volumoso para capturar ou processar dados, como emAshiq, et al.(2022),</p><p>Kanwal et al.(2015),Lin et al.(2019).</p><p>3.2. Sistema proposto</p><p>Os principais componentes do nosso sistema são um smartphone e um fone</p><p>de ouvido de condução óssea, e seis módulos de software diferentes,</p><p>nomeadamente detecção de obstáculos, estimativa de distância, estimativa de</p><p>posição, detecção de movimento e reconhecimento de cena, conforme mostrado</p><p>emFigura 1. A câmera do smartphone captura vídeos do ambiente de navegação</p><p>enquanto o usuário navega. Os quadros de vídeo são então enviados para os</p><p>módulos de software. Os resultados do módulo de detecção de obstáculos ajudam</p><p>a estimar os resultados do módulo de estimativa de posição, razão pela qual</p><p>ambos os módulos estão conectados em linhas tracejadas em Figura 1. Após</p><p>receber os resultados de cada módulo, o módulo de saída os concatena e os envia</p><p>ao usuário em formato de áudio. O usuário recebe as informações de navegação</p><p>através</p><p>de um fone de ouvido de condução óssea. A razão para usar fones de</p><p>ouvido de condução óssea é que eles permitem instruções de voz do aplicativo</p><p>sem perder a consciência situacional (Lock, Gilchrist, Cielniak e Bellotto,2019). Os</p><p>fones de ouvido de condução óssea usam placas nas maçãs do rosto para enviar</p><p>vibrações sonoras diretamente através da mandíbula e do osso do crânio até a</p><p>cóclea no ouvido interno. Utilizando dois componentes de hardware relativamente</p><p>leves, como um smartphone para capturar e processar informações e o fone de</p><p>ouvido de condução óssea para gerar informações de navegação, garantimos a</p><p>portabilidade e conveniência do nosso assistente de navegação. Os seis módulos</p><p>de software são descritos abaixo, seguidos de sua implementação.</p><p>Detecção de obstáculos: Este módulo obtém como entrada uma imagem adquirida pela</p><p>câmera do smartphone e detecta obstáculos. A detecção de obstáculos é crítica, pois</p><p>ajuda os usuários a evitar colisões e a ficarem vigilantes ao longo do caminho de</p><p>navegação.</p><p>Estimativa de distância: Para evitar colisão com obstáculos durante a navegação, o</p><p>conhecimento sobre suas distâncias até o usuário é fundamental. O módulo de</p><p>estimativa de distância estima a distância dos obstáculos detectados pelo módulo</p><p>de detecção de obstáculos. A estimativa de distância</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Figura 1.Design modular do assistente de navegação DeepNAVI.</p><p>módulo mostra a que distância o obstáculo está do usuário. Isso pode ajudar o usuário a</p><p>contornar obstáculos quando eles estiverem próximos.</p><p>Estimativa de posição: A estimativa da posição dos obstáculos fornece</p><p>informações sobre a posição do obstáculo em relação ao usuário. As</p><p>informações de posição ajudam o usuário a localizar obstáculos e evitá-los</p><p>durante a navegação.</p><p>Detector de movimento: A detecção de movimento de obstáculos ajuda o usuário</p><p>a identificar se o obstáculo está em movimento ou parado. Em um ambiente de</p><p>navegação em tempo real, obter informações sobre o estado de movimento do</p><p>objeto é essencial, pois são informações valiosas para evitar colisões em</p><p>comparação com obstáculos estacionários.</p><p>Reconhecimento de cena: O reconhecimento de cena pode fornecer uma</p><p>descrição fundamental do ambiente. Com um sistema de navegação integrado a</p><p>um módulo de reconhecimento de cena, pessoas com deficiência visual poderiam</p><p>reconhecer cenas em uma emergência, comosaída de incêndioourio, na rota de</p><p>navegação. Muitas soluções de navegação existentes não possuem esse recurso (</p><p>Kuriakose et al.,2021b). A partir da nossa análise de requisitos, compreendemos a</p><p>relevância e o significado de tal módulo no sistema de navegação e, portanto,</p><p>incluímo-lo no nosso sistema.</p><p>Saída: As informações dos vários módulos sobre os obstáculos e o ambiente</p><p>de navegação devem ser fornecidas ao usuário em um formato de saída</p><p>adequado. O módulo de saída converte os resultados de vários módulos em</p><p>um áudiof formato e é fornecido ao usuário.</p><p>3.3. Implementação</p><p>3.3.1. Detecção de obstáculos</p><p>Vários métodos de aprendizado de máquina clássico e aprendizado profundo são</p><p>usados na literatura para detecção de objetos/obstáculos. Aprendemos que métodos</p><p>baseados em aprendizagem profunda podem fornecer melhores resultados</p><p>considerando- er o cenário de aplicação em tempo real eo precisa entregar a saída no</p><p>tempo mínimoeu para os usuários. Para obsta detecção de cle, usamos um</p><p>modelo leve, EfficientDet-Lite4, da família EfficientDet. EficienteDet (Tan,</p><p>Pang e Le,2020) tem uma estrutura escalável que expressa a mesma</p><p>arquitetura em diferentes tamanhos de modelo. EfficientDet usa EfficientNet</p><p>(Tan & Le,2019) como a espinha dorsal da rede. EfficientNet é uma rede</p><p>neural convolucional pré-treinada com o ImageNet (Deng, et ai.,2009) banco</p><p>de dados de imagens para classificação. EfficientDet utiliza várias</p><p>otimizações e ajustes de backbone, como BiFPN (Rede de Pirâmide de</p><p>Recursos Bidirecional) e um composto</p><p>5</p><p>método de escalonamento que dimensiona uniformemente a resolução, profundidade e</p><p>largura para todos os backbones, redes de recursos e redes de predição de caixa/classe</p><p>ao mesmo tempo.Figura 2mostra a arquitetura do modelo de detecção de obstáculos</p><p>EfficientDet.</p><p>O modelo EfficientDet é avaliado no conjunto de dados COCO (Common</p><p>Objects in Context) (Lin, et al.,2014), que é considerado um desafio de uso geral</p><p>para detecção de objetos/obstáculos. De acordo comTan et al. (2020), foi</p><p>demonstrado que o modelo EfficientDet supera modelos de tamanhos</p><p>semelhantes nos conjuntos de dados de benchmark com melhor precisão média</p><p>média (mAP) usando menos parâmetros e menos computação.</p><p>Conseqüentemente, o modelo é mais rápido tanto na GPU quanto na CPU do que</p><p>outros detectores de objetos.</p><p>EfficientDet-Lite (versões 0–4) é uma família de modelos leves de</p><p>detecção de objetos compatíveis com dispositivos móveis/IoT, derivados da</p><p>arquitetura EfficientDet. Os modelos EfficientDet-Lite são projetados para</p><p>desempenho em CPU, GPU e EdgeTPU móveis e otimizados para TensorFlow</p><p>Lite, uma estrutura de código aberto para dispositivos móveis e</p><p>incorporados. Após comparar a latência e a precisão média de cada versão</p><p>do modelo EfficientDet-Lite, entendemos que o modelo EfficientDet-Lite4 é</p><p>apropriado devido à precisão e latência oferecidas pelo modelo em um</p><p>cenário de aplicação em tempo real. O modelo EfficientDet-Lite4 possui o</p><p>backbone EfficientNet-Lite4 com extrator de recursos BiFPN, preditor de</p><p>caixa compartilhada e perda focal, treinado no conjunto de dados COCO</p><p>2017 (Lin, et al.,2014).</p><p>3.3.2. Estimativa de distância</p><p>Os pesquisadores exploraram vários métodos de estimativa de distância</p><p>usando sensores adicionais e câmeras externas. Como parte da nossa escolha de</p><p>design, pesquisamos vários métodos de estimativa de distância que podem ser</p><p>usados apenas com um smartphone. Assim, consideramosRegra de 57para o</p><p>módulo de estimativa de distância em nosso sistema. Selecionamos este método</p><p>devido aos nossos detalheseu liderei experimento relatado emKuriakose, Shrestha</p><p>e Sandnes(2021a). Além disso, o método poderia ser implementado apenas com a</p><p>câmera de um smartphone, oferecendo portabilidade e comodidade ao assistente</p><p>de navegação.</p><p>ORegra de 57indica que um objeto (obstáculo) com ângulo é tamanho de</p><p>1◦está cerca de 57 vezes mais longe do que é significativo (ver Figura 3).</p><p>Portanto, a razão entre o tamanho angular de um obstáculo (em graus) e</p><p>todo o círculo de 360 graus deve ser igual à razão entre o tamanho real do</p><p>obstáculo e a circunferência do círculo àquela distância do</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Figura 2.O modelo EfficientDet que usa EfficientNet como rede backbone e uma rede de recursos BiFPN. Fonte:</p><p>Inspirado emTan et al.(2020).</p><p>Figura 3.A Regra de 57.</p><p>Fonte:Adaptado deHarvard(2012).</p><p>observador. Este método foi derivado da medição da distância e dos ângulos das</p><p>imagens dos telescópios em astronomia (Harvard,2012). A chave para usar</p><p>imagens de telescópio para medir distâncias é perceber que o tamanho angular</p><p>aparente de um obstáculo está diretamente relacionado ao seu tamanho real e à</p><p>distância do observador. Isso significa que o obstáculo parece menor à medida</p><p>que está mais distante do observador. No entanto, nossos experimentos</p><p>descobriram que ele pode ser aplicado para encontrar a distância até o obstáculo</p><p>mesmo se o tamanho angular do obstáculo for maior que 1◦ao campo de visão do</p><p>sensor da câmera do smartphone.</p><p>DeFigura 3, podemos escrever isso</p><p>_</p><p>360°</p><p>_</p><p>2 = (1)</p><p>Utilizando a distância do obstáculo para o tamanho angular e a distância</p><p>do obstáculo para o tamanho real, obtemos a seguinte equação para</p><p>calcular a distância.</p><p>1</p><p>( )_ = ( _ )× × 57 (2)</p><p>Para usar esta abordagem, é necessário estimar o tamanho do obstáculo</p><p>antes de encontrar sua distância. Para calcular o mesmo que na Eq.(2),</p><p>usamos o método ilustrado emFigura</p><p>4. Então a altura do obstáculo (H) é</p><p>calculada como</p><p>ℎ(bronzeado( ) + bronzeado( )) = (3)</p><p>bronzeado( )</p><p>6</p><p>O sensor de campo geomagnético, acelerômetro e giroscópio presentes no</p><p>smartphone fornecem o tamanho angular.1,2,3</p><p>3.3.3. Estimativa de posição</p><p>O modelo de detecção de obstáculos retorna uma matriz de quatro números</p><p>representando um retângulo delimitador que circunda sua posição para cada</p><p>obstáculo detectado: [superior, esquerdo, inferior, direito]. O espaço da imagem é</p><p>dividido em três regiões(esquerda, centro e direita), e então é encontrada a área</p><p>onde o obstáculo detectado cobre mais. O módulo de estimativa de posição</p><p>retorna a região que cobre a parte central do obstáculo como sua posição.</p><p>3.3.4. Detector de movimento</p><p>Nosso módulo de detecção de movimento é inspirado no trabalho descrito em</p><p>Moo Yi, Yun, Wan Kim, Jin Chang e Young Choi(2013) que envolve três etapas</p><p>principais. Inicialmente, o pré-processamento da imagem é realizado com</p><p>filtragem gaussiana espacial simples e filtragem mediana da imagem. Em seguida,</p><p>um SGM de modo duplo (modelo gaussiano único) é realizado para modelagem</p><p>de fundo. Finalmente, uma compensação de movimento ajustada usando Kanade</p><p>– Lucas – Tomasi (KLT) é realizada para os movimentos de fundo através da</p><p>mistura de modelos. Este método foi testado em um smartphone e comprovou</p><p>que o tempo necessário para calcular os resultados é menor do que outros</p><p>métodos semelhantes (Moo Yi, et al.,2013).</p><p>3.3.5. Reconhecimento de cena</p><p>Propusemos um modelo de reconhecimento de cena, SceneRecog, em nosso</p><p>trabalho anterior (Kuriakose et al.,2021b). Usamos o mesmo modelo aqui, mas com</p><p>classes de cena estendidas e atualizadas, relevantes para a navegação. Usamos o</p><p>EfficientNet-Lite44modelo empregando a técnica de aprendizagem por transferência com</p><p>as 20 classes de cena personalizadas que normalmente podem ocorrer</p><p>em ambientes de navegação internos e externos. As classes de cena usadas</p><p>são descritas em detalhes na Seção3.3.7.</p><p>parâmetro para minimizar falsa</p><p>posicionamento. O módulo relata</p><p>a qualidade está abaixo do valor</p><p>limite. tentativas e erros.</p><p>Também incorporamos um limiar com</p><p>cenas desconhecidas em nossa cena como</p><p>desconhecidoquando o probabi A soleira foi</p><p>ajustada para 0,7 à ré</p><p>1</p><p>2</p><p>https://developer.android.com/guide</p><p>https://github.com/SensingKit/Sensi</p><p>/topics/sensors/sensors_position</p><p>ngKit-iOS</p><p>/15949777/como podemos medir a</p><p>câmera</p><p>/maior-precisão-nos-modelos-de-visão-</p><p>3https://stackoverflow.com/questions</p><p>distância-entre-objeto-e-android-pho</p><p>4https://blog.tensorflow.org/2020/03</p><p>with-efficientnet-lite.html</p><p>https://developer.android.com/guide/topics/sensors/sensors_position</p><p>https://github.com/SensingKit/SensingKit-iOS</p><p>https://stackoverflow.com/questions/15949777/how-can-we-measure-distance-between-object-and-android-phone-camera</p><p>https://stackoverflow.com/questions/15949777/how-can-we-measure-distance-between-object-and-android-phone-camera</p><p>https://blog.tensorflow.org/2020/03/higher-accuracy-on-vision-models-with-efficientnet-lite.html</p><p>https://blog.tensorflow.org/2020/03/higher-accuracy-on-vision-models-with-efficientnet-lite.html</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Figura 4.Estimativa da altura do smartphone em relação ao solo.</p><p>3.3.6. Saída</p><p>O módulo de saída converte as informações textuais sobre os obstáculos e a</p><p>cena obtidas dos diversos módulos para o formato de áudio e transmitidas ao</p><p>usuário por meio de um fone de ouvido de condução óssea. Usamos a biblioteca</p><p>Text-to-Speech (TTS) do Python,Pyttsx5no módulo de saída para converter</p><p>informações textuais em saída de áudio.Pyttsxfunciona perfeitamente offline em</p><p>várias plataformas.</p><p>3.3.7. Conjuntos de dados personalizados</p><p>Criamos um conjunto de dados personalizado compreendendo 20 tipos diferentes de</p><p>obstáculos relevantes para ambientes de navegação internos e externos para ser usado</p><p>em nosso módulo de detecção de obstáculos. Eles sãoBanco, bicicleta, outdoor, estante,</p><p>armários, carro, cadeira, cachorro, porta, hidrante, móveis, utensílio de cozinha, pessoa,</p><p>planta, escadas, sinal de parada, mesa, semáforo, árvore eRecipiente de resíduos. O</p><p>conjunto de dados foi criado coletando imagens de quatro fontes diferentes, Google</p><p>Open Images V6 (Kuznetsova, et al., 2020), ImageNet (Deng, et ai.,2009), Conjunto de</p><p>dados de sinais de trânsito LISA (Mogelmose, Trivedi e Moeslund,2012) e nossas próprias</p><p>imagens.</p><p>O conjunto de dados Google Open Images V6 é usado principalmente para detecção</p><p>de objetos ou pesquisas relacionadas à segmentação. O projeto ImageNet é vital para o</p><p>avanço da visão computacional e da pesquisa de aprendizagem profunda. O conjunto de</p><p>dados LISA Traffic Sign é um conjunto de imagens e vídeos contendo quadros anotados</p><p>de sinais de trânsito dos EUA. Imagens para as 20 classes de obstáculos foram extraídas</p><p>dessas fontes de dados. Depois de examinar as imagens extraídas, descobrimos que</p><p>muitas das imagens requerem algum pré-processamento, como reetiquetagem. Além</p><p>disso, coletamos alguns conjuntos de imagens de localidades e as rotulamos</p><p>manualmente usando ferramentas disponíveis externamente.6</p><p>Para o módulo de reconhecimento de cena, identificamos 20 categorias de</p><p>cenas comuns que são comumente encontradas em ambientes de navegação</p><p>internos e externos:Varanda, Cave, Ponte, Rodoviária, Refeitório, Sala de Aula,</p><p>Canteiro de Obras, Faixa de pedestres, Escada de incêndio, Quarto de hospital,</p><p>Cozinha, Biblioteca interna, Estacionamento, Parque infantil, Linha ferroviária,</p><p>Recepção, Rio, Loja, Rua, Supermercado. O conjunto de dados é criado coletando</p><p>imagens de três fontes principais, Places365 do MIT (Zhou, Lapedriza, Khosla,</p><p>Oliva e Torralba,2017), Imagens abertas do Google V6 (Kuznetsova, et al.,2020) e</p><p>oscilação.7Além disso, imagens adicionais são adicionadas para ter algumas</p><p>imagens reais da localidade para aumentar o número de imagens no conjunto de</p><p>dados e, por sua vez, melhorar o desempenho do modelo.</p><p>4. Aplicativo Android</p><p>Um aplicativo Android é a parte central do nosso assistente de navegação DeepNAVI.</p><p>Os modelos treinados de detecção de obstáculos e reconhecimento de cena foram</p><p>convertidos para o formato TFLite e implantados no aplicativo Android juntamente com a</p><p>integração de outros módulos.</p><p>5</p><p>6</p><p>7</p><p>https://pypi.org/project/pyttsx3/</p><p>https://github.com/tzutalin/labelImg</p><p>https://www.flickr.com/</p><p>7</p><p>O aplicativo possui um recurso de assistente de voz incorporado. O assistente</p><p>de voz foi projetado para reconhecer duas instruções de voz diferentes e ativar o</p><p>aplicativo de acordo. Quando o usuário dizAtivar navegação, o aplicativo é ativado</p><p>no modo de navegação e verifica o ambiente. O aplicativo então fornece</p><p>informações sobre os obstáculos à frente do usuário por meio do modo de áudio</p><p>em tempo real. O aplicativo também exibe obstáculos reconhecidos e informações</p><p>relacionadas como texto na tela do smartphone. Caso o usuário queira conhecer o</p><p>cenário do ambiente de navegação, isso pode ser obtido no aplicativo dando o</p><p>Identificar cenacomando de voz. Em seguida, o módulo de identificação de cena</p><p>será ativado para reconhecer a cena e dar a saída novamente na modalidade</p><p>áudio. O funcionamento do nosso aplicativo Android é ilustrado emFigura 5. Os</p><p>resultados do aplicativo em dois módulos diferentes (detecção de obstáculos e</p><p>reconhecimento de cena) são mostrados emFigura 6.</p><p>5. Experimentos e resultados</p><p>Esta seção descreve os experimentos conduzidos para avaliar os cinco</p><p>módulos principais: detecção de obstáculos, reconhecimento de cena, estimativa</p><p>de distância, detecção de movimento e estimativa de posição, e seus resultados. A</p><p>seção então descreve os procedimentos de teste do usuário e o feedback recebido</p><p>do teste piloto com um usuário. Posteriormente, o nosso assistente de navegação</p><p>é comparado com outros sistemas de navegação semelhantes em termos de</p><p>diversas características e funcionalidades.</p><p>5.1. Avaliação de modelos de detecção de objetos e reconhecimento</p><p>de cena</p><p>Usamos um processador Intel Xeon com 64 GB de RAM e uma GPU NVIDIA</p><p>GeForce GTX 1080 Ti para treinar ambos os modelos de aprendizagem profunda</p><p>para detecção de obstáculos e reconhecimento de cena. As configurações da</p><p>plataforma experimental são TensorFlow-GPU 2.4, NVIDIA CUDA toolkit 11.0 e</p><p>CUDNN 8.1. Os modelos são treinados, validados e testados embaralhando e</p><p>dividindo aleatoriamente o conjunto de dados na proporção 80:10:10,</p><p>respectivamente. O desempenho do modelo de detecção de obstáculos e do</p><p>modelo de reconhecimento de cena é dado em termos da métrica de precisão em</p><p>Tabelas 1e2respectivamente.Figura 7mostra alguns resultados de teste do módulo</p><p>de detecção de obstáculos. Os resultados ilustram como o modelo detecta vários</p><p>obstáculos.</p><p>A precisão do modelo de detecção de obstáculos é de 87,8%. A precisão da maioria</p><p>das imagens de conjuntos de dados de obstáculos treinados é boa (acima de 80%),</p><p>embora algumas classes (como armários e escadas) precisem de melhorias (consulte</p><p>tabela 1). O teste resulta emFigura 7mostrar o desempenho do modelo em diferentes</p><p>instâncias.</p><p>Os resultados do ambiente de navegação interior (ver a primeira linha doFigura 7)</p><p>mostram que o modelo pode reconhecer a maioria dos obstáculos no ambiente. Em</p><p>Figura 7(b), pode-se observar queescadarianão são detectados, mas outros obstáculos</p><p>são detectados. Talvez o modelo não tenha conseguido detectá-lo devido à proximidade</p><p>da imagem comescadaria. Além disso, emFigura 7(c), a prateleira no topo doutensílio de</p><p>cozinhaé incorretamente detectado como umestante. Isso pode ser devido à semelhança</p><p>dos dois obstáculos em termos de cor e outras características, o que fez com que o</p><p>modelo desse um resultado incorreto.</p><p>https://pypi.org/project/pyttsx3/</p><p>https://github.com/tzutalin/labelImg</p><p>https://www.flickr.com/</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Figura 5.Funcionamento do aplicativo Android DeepNAVI.</p><p>Fig. 6.Resultados do aplicativo para smartphone da detecção de obstáculos módulos de reconhecimento de cena e on.</p><p>Os resultados da segunda fileira ao ar</p><p>livre deFigura 7) mostram alguns obstáculos</p><p>reconhecidos. DeFigura 7(d), alguns desafios</p><p>na detecção de brancos Figura 7(f), o modelo</p><p>detectou incorretamente comohidrante. Uma</p><p>das possíveis causas é a incapacidade da</p><p>modelo de diferenciar o vestido laranja do</p><p>hidrante.</p><p>A amostra resulta do sc emFigura 8. Os</p><p>resultados fornecem um modelo de</p><p>reconhecimento de cena diferente do</p><p>conjunto de dados de teste. Overderótulo eu</p><p>vi</p><p>st</p><p>ambiente de operação (veja as</p><p>sessões onde o modelo não o fez, é</p><p>visível que o modelo enfrentou</p><p>carroe brancoportacorretamente.</p><p>Na pessoa de vestido laranja, os</p><p>motivos para este caso podem ser</p><p>devidos à semelhança da cor do</p><p>c</p><p>ré</p><p>R</p><p>pt</p><p>trailer</p><p>ré</p><p>e</p><p>o modelo de reconhecimento de cena e overmelhorótulo indica o incorreto</p><p>O modelo de reconhecimento é</p><p>mostrado com uma visão do</p><p>desempenho das classes de cena</p><p>previstas a partir da previsão correta de</p><p>8</p><p>classe pr</p><p>uma conta</p><p>preciso</p><p>(verTa</p><p>editado pelo modelo. O modelo de reconhecimento de cena pode fornecer 85%</p><p>de atrevimento com nosso conjunto de dados. As classes de cena que fornecem</p><p>y baixo (menos de 80%) sãosala de aula, canteiro de obras,erecepção ble 2).</p><p>5.2. Eu avaliação do módulo de estimativa de distância</p><p>O</p><p>Onde está a</p><p>tangências (</p><p>distância</p><p>O módulo de estimativa de distância é avaliado por meio de experimentos,</p><p>alguns obstáculos de tamanhos variados foram colocados em quatro distâncias</p><p>diferentes - 1 m, 3 m, 5 m e 10 m). E as distâncias estimadas do</p><p>módulo de estimativa são comparados com a verdade do grupo.Tabela 3</p><p>mostra as distâncias reais e estimadas dos obstáculos. Os resultados</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Figura 7.Exemplo de resultados de teste do módulo de detecção de obstáculos.</p><p>tabela 1</p><p>Precisão na detecção de obstáculos.</p><p>Aula Precisão</p><p>Banco</p><p>Bicicleta</p><p>Painel publicitário</p><p>Estante</p><p>Armários</p><p>Carro</p><p>Cadeira</p><p>Cachorro</p><p>Porta</p><p>93,7</p><p>88,5</p><p>84,6</p><p>90,2</p><p>78,8</p><p>92,1</p><p>94,7</p><p>87,5</p><p>83,2</p><p>Hidrante</p><p>Mobília</p><p>Utensílio de cozinha</p><p>Pessoa</p><p>Plantar</p><p>Escadaria</p><p>Pare o sinal</p><p>Mesa</p><p>Semáforo</p><p>Árvore</p><p>Recipiente de resíduos</p><p>88,9</p><p>87,5</p><p>92,7</p><p>84,7</p><p>86,6</p><p>79,5</p><p>91,7</p><p>90,9</p><p>83,7</p><p>81,5</p><p>94,6</p><p>Média 87,7</p><p>são estimados a partir da experiência epara analisar o desempenho do</p><p>módulo de estimativa de distância</p><p>em distâncias. Durante o caso de</p><p>teste o (comocadeira,hidrante,aba</p><p>desvio da distância real O mesmo</p><p>fenômeno pode ser o e 5 m. Os</p><p>resultados nos 5 m, o resultado de</p><p>cinco consecutivos, fornecem um</p><p>resultado fixo. Poderíamos ter</p><p>colocado mais de 5 m e foram</p><p>relatados para casos de 10 m.</p><p>obstáculos de tamanhos variados e f 1 m</p><p>variados, é visível que pequenos obstáculos ele,</p><p>erecipiente de resíduos) têm um e alto em</p><p>comparação com outros obstáculos maiores.</p><p>servido quando a distância real é de 3 m, o caso</p><p>é estimado após a média dos resultados, uma</p><p>vez que o método não conseguiu encontrar</p><p>distâncias quando o obstáculo y. Essa é uma</p><p>das razões pelas quais não há resultados</p><p>c</p><p>b</p><p>e</p><p>e</p><p>a</p><p>9</p><p>mesa 2</p><p>Precisão do reconhecimento de cena.</p><p>Aula Precisão</p><p>Sacada</p><p>Porão</p><p>Ponte</p><p>Rodoviária</p><p>Cantina</p><p>Sala de aula</p><p>Local de construção</p><p>Faixa de pedestre</p><p>Saída de incêndio</p><p>86,2</p><p>81,4</p><p>88,2</p><p>83,6</p><p>88,1</p><p>79,4</p><p>78,5</p><p>85,5</p><p>84,4</p><p>83,3</p><p>87,3</p><p>84,7</p><p>89,6</p><p>84,3</p><p>88,4</p><p>77,8</p><p>86,5</p><p>88,7</p><p>84,7</p><p>91,2</p><p>Quarto de hospital</p><p>Cozinha</p><p>Biblioteca interna</p><p>Estacionamento</p><p>Parque infantil</p><p>Ferrovia</p><p>Recepção</p><p>Rio</p><p>Vitrine</p><p>Rua</p><p>Supermercado</p><p>Média 85,0</p><p>5.3. Avaliação da detecção de movimento e d módulos de estimativa de posição</p><p>A detecção de movimento é avaliada</p><p>ilustrando objetos (classepessoas) em m A</p><p>primeira figura indica que quase foram</p><p>detectados pelo módulo, mas também</p><p>houve alguns erros de interpretação. serão</p><p>detectadas, e os usuários receberão outras</p><p>informações relacionadas à obsta do</p><p>usuário, etc.</p><p>com alguns objetos em movimento.</p><p>Figura 9 opção com dois quadros em um</p><p>vídeo. todos os obstáculos em movimento</p><p>no quadro a segunda figura indica que há</p><p>O status de movimento dos obstáculos</p><p>ser indicado sobre ele junto com</p><p>elementos como seu tipo, distância de</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Figura 8.Exemplo de resultados de teste do reconhecimento de cena m ódula. Os rótulos verdes indicam detecções corretas e os rótulos vermelhos indicam detecções incorretas.</p><p>Figura 9.Resultados de exemplo sho detecção de movimento de asa a partir de dois quadros diferentes do mesmo vídeo.</p><p>10</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Tabela 3</p><p>Resultados do módulo de estimativa de distância.</p><p>Obstáculo Distância estimada quando a distância real foi</p><p>1 metro 3 metros 5 metros</p><p>Banco</p><p>Painel publicitário</p><p>Estante</p><p>Cadeira</p><p>Porta</p><p>Hidrante</p><p>Pessoa</p><p>Mesa</p><p>Árvore</p><p>Recipiente de resíduos</p><p>0,9</p><p>0,9</p><p>0,9</p><p>0,8</p><p>0,9</p><p>0,8</p><p>0,9</p><p>0,8</p><p>1.1</p><p>0,8</p><p>2.6</p><p>2,5</p><p>2,5</p><p>2.7</p><p>2.3</p><p>2.2</p><p>2.8</p><p>2.2</p><p>2.8</p><p>1,9</p><p>4,5</p><p>4.6</p><p>4.2</p><p>4.1</p><p>4,5</p><p>3.6</p><p>4.3</p><p>4.3</p><p>4.6</p><p>3.8</p><p>Os resultados do módulo de estimativa de posição indicam que ele pode</p><p>fornecer os resultados pretendidos sem problemas (consulteFigura 6). O módulo</p><p>dá a posição de vários obstáculos, comorecipiente de resíduoseporta.</p><p>5.4. Teste de usuário</p><p>O objetivo dos testes do usuário é garantir que o sistema do assistente de</p><p>navegação esteja funcionando corretamente e avaliar a praticidade e usabilidade</p><p>do nosso assistente de navegação com um usuário legalmente cego. O</p><p>experimento de teste do usuário foi realizado em dois casos de teste: (1)</p><p>Navegação com o assistente proposto baseado em smartphone (DeepNAVI) e (2)</p><p>Navegação com uma bengala inteligente com a qual o usuário estava</p><p>familiarizado. Esses dois casos de teste foram projetados para comparar a eficácia</p><p>de ambas as ferramentas do ponto de vista do usuário. Os dois casos de teste</p><p>foram conduzidos na mesma configuração experimental e os resultados são</p><p>comparados para analisar a eficácia das duas ferramentas. A configuração</p><p>experimental, o processo e os dois casos de teste são descritos</p><p>na subseção</p><p>seguinte e os resultados são finalmente apresentados.</p><p>Configuração e processo experimental:O experimento de teste foi conduzido</p><p>em um prédio interno do campus. Foi criado um percurso de navegação de cerca</p><p>de 100 m com vários obstáculos colocados em diferentes pontos. O ambiente ou</p><p>local de teste foi decidido após considerar vários fatores, como segurança do</p><p>usuário, colocação de obstáculos que o modelo treinado implantado no aplicativo</p><p>pode detectar e preocupações climáticas. Consideramos também os protocolos de</p><p>segurança existentes na atual situação de pandemia devido ao COVID-19.</p><p>Segundo o usuário, a bengala inteligente não funciona bem em condições como</p><p>chuva ou neve. Considerando todas essas razões, decidimos selecionar um local</p><p>de teste interno no campus.</p><p>A seleção de uma bengala inteligente para comparar o assistente de</p><p>navegação proposto para smartphone baseou-se em alguns motivos. A</p><p>bengala inteligente é um dos assistentes de navegação não convencionais</p><p>comumente usados. O participante do experimento já usa a bengala</p><p>inteligente para navegação diária há algum tempo e está confortável com o</p><p>uso. Consequentemente, decidimos comparar e analisar o conforto</p><p>oferecido pela bengala inteligente com o nosso proposto assistente de</p><p>navegação baseado em smartphone, do ponto de vista do usuário.</p><p>O objetivo do participante é viajar de um ponto de partida até o ponto de</p><p>destino. O ponto de destino é definido por um obstáculo (uma geladeira (classe</p><p>utensílio de cozinha)) e já é comunicado ao participante durante a fase pré-</p><p>experimento. O participante não estava familiarizado com o ambiente de</p><p>navegação antes do teste. Vários obstáculos comoportas, cadeiras, mesas,</p><p>outdoors, lixeiras, armários, eutensílios de cozinhaestiveram presentes ao longo</p><p>do caminho de navegação para adicionar mais complexidade ao ambiente de</p><p>teste. O local de teste não foi bloqueado contra interferências externas. Portanto,</p><p>as pessoas podem entrar no local do teste a qualquer momento. Este arranjo é</p><p>feito para simular muito mais próximo de um ambiente de navegação em tempo</p><p>real. Nessa situação, o aplicativo móvel também pode detectarpessoase fornecer</p><p>informações sobre esse obstáculo específico ao usuário. Um cronômetro é</p><p>definido para calcular o tempo que o participante leva para chegar ao destino em</p><p>cada um dos casos de teste. Antes do experimento, foram dadas instruções ao</p><p>usuário sobre</p><p>11</p><p>Figura 10.Configuração de teste do usuário do assistente de navegação. O aplicativo é</p><p>implantado no smartphone e colocado no colete com a câmera voltada para fora. O usuário</p><p>possui um fone de ouvido de condução óssea para receber instruções de áudio.</p><p>o plano, as tarefas e os objetivos a serem alcançados. Não houve coleta</p><p>privada de dados em nenhuma etapa do experimento. Nenhuma aprovação</p><p>do comitê de ética foi necessária para experimentar.</p><p>Após a conclusão de todo o experimento, foram feitas perguntas pós-</p><p>experimento ao usuário relacionadas à experiência de uso de nosso</p><p>assistente de navegação baseado em smartphone e da bengala inteligente.</p><p>Foram feitas perguntas sobre a experiência geral de utilização dos auxílios à</p><p>navegação, dificuldades encontradas, sugestões/recursos adicionais que o</p><p>usuário considera aparecer no aplicativo, etc.</p><p>Casos de teste:Esta seção descreve detalhadamente os dois casos de teste do nosso estudo</p><p>piloto.</p><p>(1) Navegação com o assistente proposto baseado em smartphone (DeepNAVI):</p><p>Um smartphone é colocado em um colete com um suporte para telefone com um</p><p>pequeno orifício para a câmera do smartphone, o que garante a posição fixa da</p><p>câmera, reduz o efeito de incliná-la ou girá-la na aquisição da imagem. O usuário</p><p>utiliza um fone de ouvido de condução óssea conectado ao smartphone via</p><p>Bluetooth. Esse arranjo garantiu que o usuário não precisasse carregar mais nada</p><p>e pudesse ter a mão livre. O assistente de navegação DeepNAVI proposto usado</p><p>pelo usuário é mostrado emFigura 10. A configuração do teste do usuário inclui o</p><p>smartphone com o aplicativo instalado e os fones de ouvido de condução óssea.</p><p>Figura 11(a) mostra uma foto tirada quando o usuário navega com a ajuda do</p><p>assistente de navegação DeepNAVI.</p><p>(2) Navegação com a bengala inteligente:A bengala inteligente usada no</p><p>experimento foi a WeWalk.8O usuário estava familiarizado com o uso e a</p><p>praticidade da bengala inteligente, já que o aparelho era o assistente de</p><p>navegação padrão do usuário. A bengala utiliza sensores ultrassônicos para</p><p>detectar a presença de obstáculos. Quando há obstáculos ao redor, o cabo da</p><p>bengala começa a vibrar, ajudando o usuário a perceber os obstáculos.Figura 11</p><p>(b) mostra a imagem do usuário navegando com a ajuda da bengala inteligente.</p><p>Resultados:Esta seção descreve os resultados dos dois casos de teste do</p><p>experimento.</p><p>(a) Usando o assistente de navegação DeepNAVI:O aplicativo fornecia informações</p><p>sobre obstáculos no caminho do usuário. No entanto, houve algumas saídas</p><p>incorretas do aplicativo para detecção de obstáculos ao longo do caminho.</p><p>8www.wewalk.io/en/</p><p>http://www.wewalk.io/en/</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Figura 11.Fotos do participante navegando com assistente de navegação DeepNAVI e bengala inteligente.</p><p>mo</p><p>m</p><p>u</p><p>o</p><p>-</p><p>o</p><p>o</p><p>A certa altura, o aplicativo identificou incorretamente ummáquina</p><p>fotocopiadorano caminho interno como eletrodoméstico (classe</p><p>frigorífico). Mas quando o usuário tocou no obstáculo, percebeu que</p><p>era umfotocopiadora. Por outro lado, o usuário ficou feliz ao saber da</p><p>presença de um obstáculo para que uma possível colisão fosse evitada.</p><p>Além disso, com o recurso de reconhecimento de cena do DeepNAVI, o</p><p>usuário achou útil reconhecer ocozinhaambiente. Por isso, foi útil para</p><p>o usuário localizar o objetivo final do experimento, ou seja, localizar o</p><p>frigoríficona cozinha. O tempo para completar o caso de teste foi de 3,5</p><p>min.</p><p>(b) Usando a bengala inteligente:Mesmo que o usuário estivesse repetindo o mesmo</p><p>no</p><p>co</p><p>sim</p><p>rt</p><p>h</p><p>si</p><p>t,</p><p>n.</p><p>d</p><p>ele</p><p>n</p><p>h</p><p>me</p><p>caminho para o segundo caso de teste com a bengala inteligente, o usuário</p><p>perdeu um ponto, tentando identificar os objetos/obstáculos ao redor. O usuário</p><p>recebeu umportacomo um ponto no local para determinar o destino a partir da</p><p>experiência do caso de teste anterior. No entanto, usando a bengala, o usuário</p><p>achou difícil localizarportano caminho de navegação e, portanto, na rota até o</p><p>ponto de destino. No entanto, para sorte do usuário, uma pessoa entrou na área</p><p>de teste durante o experimento, o que ajudou o usuário a identificar oportaa</p><p>localização e, portanto, o destino. Além disso, com o smartcane, era difícil para o</p><p>usuário entender o ambiente (comocozinha) onde o objetivo final (identificar t</p><p>frigorífico) foi localizado. Conseqüentemente, o usuário precisa gastar mais</p><p>tempo do que no caso de teste anterior para cumprir o objetivo da tarefa. O</p><p>tempo para chegar ao destino com a bengala inteligente foi de 5,5 minutos, mais</p><p>que o tempo gasto com nosso assistente de navegação.</p><p>O usuário mostrou-se otimista quanto aos recursos suportados e à</p><p>comodidade oferecida pelo assistente de navegação DeepNAVI. Poucos</p><p>comentários relevantes do usuário comparando as experiências com ambos os</p><p>assistentes de navegação são mencionados abaixo. Aqui, o assistente do</p><p>smartphone refere-se ao assistente de navegação DeepNAVI proposto, e o ca</p><p>refere-se ao smartcane WeWALK usado para o experimento.</p><p>n-</p><p>nã</p><p>eu</p><p>nã</p><p>nã</p><p>''Senti-me confortável usando o assistente do smartphone, pois não tenho nada</p><p>para carregar e tenho a mão livre. Mas ao usar a bengala, eu sempre precisaria</p><p>dedicar uma das minhas mãos à bengala''.</p><p>ng</p><p>sim</p><p>12</p><p>''Gosto da funcionalidade de conhecer os obstáculos, a distância até eles e outras</p><p>informações ao usar o assistente do smartphone. Ajudou-me a manter-me vigilante</p><p>relativamente aos vários obstáculos no meu caminho''.</p><p>''Gosto do recurso de me contar sobre a cena onde estou localizado. Quando o</p><p>aplicativo disse que eu estava na ‘cozinha’,</p><p>me ajudou a finalizar o objetivo final com</p><p>facilidade”.</p><p>“Senti que carregar uma bengala era difícil para mim por causa do seu peso. Posso</p><p>me cansar facilmente se usá-lo por muito tempo''.</p><p>O usuário também forneceu algumas improvisações que poderiam</p><p>ser consideradas para as versões futuras do DeepNAVI, como (1) incluir</p><p>mais obstáculos a serem detectados pelo assistente de navegação, (2) o</p><p>usuário deveria ter a possibilidade de ajustar a taxa, pitch, ou voz</p><p>usada para feedback do aplicativo, (3) além do feedback de áudio, seria</p><p>bom ter outra modalidade de feedback, como vibrações/tátil, e um</p><p>um som agradável (como música relaxante) deve ser reproduzido continuamente</p><p>em segundo plano, com um volume de som baixo enquanto o aplicativo está</p><p>funcionando para garantir que o aplicativo esteja funcionando. Não deve ser</p><p>interrompido por outro aplicativo de nível de sistema no smartphone.</p><p>5.5. Comparação de sistemas de navegação</p><p>Esta seção fornece uma análise comparativa de sistemas de navegação semelhantes</p><p>ao nosso assistente de navegação proposto. A comparação é baseada em atributos</p><p>qualitativos que deveriam estar presentes em um assistente de navegação para</p><p>deficientes visuais. Esses recursos são descritos emTabela 4. Os recursos foram</p><p>selecionados e finalizados por meio de discussões com usuários por meio de um estudo</p><p>de análise de requisitos. Estas características podem dar uma ideia das características</p><p>importantes que os utilizadores procuram num sistema de assistência à navegação.</p><p>A análise comparativa entre vários sistemas de navegação e o nosso</p><p>assistente DeepNAVI proposto de acordo com a tabela de recursos (ver</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>Tabela 4</p><p>Características/características utilizadas para análise comparativa e seus respectivos critérios.</p><p>Recurso</p><p>Portabilidade</p><p>Critérios de análise</p><p>O sistema deve ser um único dispositivo portátil, fácil de transportar pelo usuário.</p><p>Nenhuma câmera externa, sensor ou fio deve estar presente.</p><p>Modelo leve Se o sistema usar um modelo baseado em aprendizagem profunda ou qualquer modelo de visão computacional, ele deverá</p><p>ser leve e executado em um dispositivo em miniatura sem muita demora para uma operação em tempo real.</p><p>Independência da rede de dados O sistema não deve depender de uma rede de dados externa ou WiFi para processar ou fornecer resultados.</p><p>Cobertura (interior/exterior) O sistema deve funcionar em ambientes internos e externos.</p><p>Reconhecimento de obstáculos O sistema deve ser capaz de reconhecer o tipo de obstáculo ou pelo menos detectar a presença de um</p><p>obstáculo durante o percurso de navegação.</p><p>Estimativa de distância O sistema deve ser capaz de estimar uma distância aproximada até os obstáculos.</p><p>Estimativa de posição O sistema deve ser capaz de informar a posição do obstáculo.</p><p>Reconhecimento de cena O sistema deverá ser capaz de reconhecer a cena (interna e externa) durante a navegação.</p><p>Detector de movimento O sistema deve ser capaz de detectar se os obstáculos estão se movendo.</p><p>Feedback multimodal O sistema deve ser capaz de fornecer duas ou mais opções de saída.</p><p>Tabela 5</p><p>Comparação de recursos do DeepNAVI com sistemas semelhantes.</p><p>Sl.</p><p>Não</p><p>Sistema Portabilidade Leve</p><p>modelo</p><p>(Tempo real)</p><p>Rede de dados</p><p>insegurança</p><p>Cobertura</p><p>(interior/</p><p>ar livre)</p><p>Obstáculo</p><p>reconhecimento</p><p>Distância</p><p>estimativa estimativa reconhecimento</p><p>Posição Cena Movimento Multimodal</p><p>saídadetecção</p><p>1</p><p>2</p><p>3</p><p>4</p><p>5</p><p>6</p><p>7</p><p>8</p><p>9</p><p>10</p><p>11</p><p>12</p><p>13</p><p>14</p><p>15</p><p>16</p><p>17</p><p>18</p><p>19</p><p>20</p><p>21</p><p>22</p><p>23</p><p>Lin et al.(2019) Kanwal et al.(</p><p>2015) Bhowmick, et al.(2014)</p><p>Moharkar et al.(2020) Ashiq, et</p><p>al.(2022) Joshi et al.(2020)</p><p>Kahraman e Turhan(2021)</p><p>Barontini, et al.(2020)</p><p>Megalingam, et al.(2015)</p><p>Guerreiro et al.(2018) Saaid et</p><p>al.(2016) Rao, et al.(2021)</p><p>Mukhiddinov e Cho(2021)</p><p>Suresh, et al.(2017) Bai, et al.(</p><p>2019) Lin et al.(2017) Bai et al.(</p><p>2017) Fusco e Coughlan(2020)</p><p>Ganz, et al.(2014) Croce, et al.(</p><p>2014) Tapu et al.(2013) Peng et</p><p>al.(2010) DeepNAVI (sistema</p><p>proposto)</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓ ✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓ ✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓ ✓</p><p>✓ ✓</p><p>N / D</p><p>N / D</p><p>N / D</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓ ✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓ ✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>N / D</p><p>N / D</p><p>N / D</p><p>✓</p><p>N / D</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓</p><p>✓ ✓ ✓</p><p>✓ ✓ ✓ ✓ ✓ ✓</p><p>Tabela 4) é mostrado emTabela 5. Nosso assistente de navegação DeepNAVI é</p><p>enriquecido com mais recursos do que outros sistemas de navegação. Vários sistemas</p><p>foram desenvolvidos para funcionar tanto em ambientes internos quanto externos. No</p><p>entanto, apenas alguns sistemas usaram modelos leves de aprendizagem profunda para</p><p>detecção de obstáculos, o que requer trabalhar em dispositivos portáteis em tempo real</p><p>com tempos de resposta mais curtos. Existe apenas um sistema com produção</p><p>multimodal no estudo comparativo (verTabela 5).</p><p>6. Discussão</p><p>Esta seção fornece uma discussão elaborada sobre o desempenho do</p><p>sistema, experimentos realizados com o usuário e os resultados recebidos</p><p>em vários estágios.</p><p>A baixa precisão do modelo de detecção de obstáculos de algumas classes de</p><p>obstáculos pode ser devido à detecção duplicada, classificação incorreta, localização</p><p>incorreta ou classificação incorreta e localização incorreta. No entanto, a precisão da</p><p>detecção e o tempo de inferência para calcular os resultados em uma aplicação em</p><p>tempo real devem ser equilibrados e devemos fazer concessões.</p><p>13</p><p>É visível que o modelo enfrenta alguns problemas com os objetos brancos (veja</p><p>Figura 7(d)). Uma possível razão para a degradação do desempenho deste modelo</p><p>pode ser as condições de luz do dia da imagem tirada no ambiente externo. Além</p><p>disso, existem algumas detecções falsas relatadas pelo modelo em vários casos</p><p>(verFigura 7(f)). Treinar o modelo com um grande conjunto de dados envolvendo</p><p>vários obstáculos coloridos na mesma categoria poderia resolver esse problema.</p><p>Uma limitação do módulo de estimativa de distância é que seus resultados são</p><p>menos precisos do que aqueles obtidos através de câmeras de visão estéreo ou</p><p>outros dispositivos/sensores de estimativa de distância. Porém, pode fornecer ao</p><p>usuário uma sensação de distância dos obstáculos, permitindo-lhe navegar com</p><p>mais cautela. A principal vantagem deste método baseado em câmera única é que</p><p>ele pode funcionar até mesmo em um smartphone sem qualquer outro hardware</p><p>externo conectado ao sistema. Isso garante portabilidade e, portanto,</p><p>comodidade para o usuário durante a navegação. De referir ainda que o método</p><p>de estimativa de distância utilizado para este sistema não consegue fornecer</p><p>resultados quando os obstáculos estão a mais de 5 m do utilizador/smartphone.</p><p>Esta poderia ser uma limitação em comparação com</p><p>B. Kuriakose et al. Sistemas especialistas com aplicativos 212 (2023) 118720</p><p>outros métodos que usam dispositivos/câmeras/sensores externos para estimar a</p><p>distância.</p><p>Nossos resultados sugerem que o módulo de detecção de movimento precisa</p><p>melhorar o tempo de resposta ao trabalhar em ambiente de tempo real. Os</p><p>resultados indicam que o módulo pode detectar com precisão o estado do</p><p>movimento em muitos casos. Mas, como mencionado, tivemos problemas de</p><p>desempenho com velocidade de computação. Apesar disso, pelo lado positivo,</p><p>percebemos que à medida que o estado de movimento de um obstáculo é</p><p>introduzido, pode melhorar a experiência de navegação dos utilizadores com</p><p>deficiência visual. Assim, o módulo pode ajudar o usuário a tomar decisões</p><p>durante a navegação e agir de acordo.</p><p>A posição dos obstáculos é detectada corretamente em nossos experimentos.</p><p>Definimos três posições diferentes com base no espaço relativo do espaço de</p><p>navegação ao espaço de exibição do smartphone. O método utilizado aqui</p><p>também poderia ser melhorado com mais posições, como a parte superior para</p><p>obstáculos suspensos e a parte inferior (ou similar) para obstáculos ao nível do</p><p>solo. Devemos admitir que, devido à disposição do nosso assistente de navegação</p><p>no colete, é um desafio capturar o nível do solo e obstáculos suspensos quando</p><p>estão próximos do</p>