Rastreamento Ocular Integrado a Computadores Operados por Indivíduos com Mobilidade Reduzida
##plugins.themes.bootstrap3.article.main##
Resumo
De acordo com a PNS 2019 (IBGE, 2019), cerca de 3,8% dos brasileiros acima dos dois anos de idade possuem deficiência física nos membros inferiores, e, 2,7% nos membros superiores. O dia a dia destes indivíduos, principalmente portadores de tetraplegia, é desafiador, pois necessitam de ajuda para realizar a maior parte das atividades consideradas básicas. Há ainda casos de paralisia mais severos, como na esclerose lateral amiotrófica, onde, em estágios mais avançados, um dos poucos movimentos poupados são os dos olhos. Este projeto tem como objetivo reduzir os impactos psíquicos, sociais, econômicos e físicos sobre os indivíduos com mobilidade reduzida. A partir de métodos de detecção de movimentos oculares aplicados a pacientes com ELA (SILVA, 2021), está sendo desenvolvido um software capaz de estimar a posição observada em tempo real na tela, e assim, permitir controle parcial do computador de maneira simples e sem a necessidade constante de calibração. O funcionamento do projeto é possível graças à junção de quatro segmentos: interface, controlador, interpretador ocular e interpretador vocal. Além de conter elementos visuais intuitivos, a interface cria ainda uma interação com o usuário por meio de áudios. Esta combinação fornece um maior senso de orientação e imersão com o dispositivo. O controlador faz uso dos dados recebidos do microfone e da câmera para criar dois métodos de controle: vocal e ocular, respectivamente. A junção destes métodos torna o software acessível, uma vez que pessoas com ou sem preservação da fala conseguem operá-lo. Dentre as funcionalidades disponíveis estão usar o Google para pesquisa e imagens e assistir vídeos no YouTube. Para permitir este controle, a biblioteca Selenium e o webdriver do navegador Google Chrome estão sendo associados em conjunto, acessando o código fonte das páginas. A compatibilidade com outros sites ainda é limitada, mas permite a leitura de textos. O interpretador ocular é responsável pela identificação da face e posterior extração de atributos para estimar a localização do olhar na tela. A partir desta estimativa, é possível rastrear os movimentos oculares e tornar possível a interação com a tela por meio de movimentos relativos para páginas complexas, como pesquisas no Google, e absolutos para páginas simples, como por exemplo o menu do software. Primeiramente a imagem da webcam é convertida para preto e branco e passa por um filtro que a torna invariante à luz. Em seguida, a detecção facial da biblioteca Dlib, detentora de diversos métodos de machine learning, é utilizada para encontrar o rosto mais próximo visível na imagem. A partir da face são extraídos pontos de interesse, incluindo a ponta do nariz, laterais da boca, queixo e contorno dos olhos. Obtém-se então a inclinação da face nos três eixos através da correspondência entre os pontos faciais da imagem e o modelo tridimensional de uma face genérica. Em sequência, a localização da pupila do olho dominante, previamente determinado, é estimada com base em manipulações da imagem original por meio da biblioteca de processamento de imagens OpenCV. A etapa é iniciada com o recorte do contorno do olho da imagem, deixando apenas região de interesse e excluindo o restante. Dentro desta região, é aplicado um filtro de contraste para localizar apenas as partes mais escuras, ou seja, candidatas em potencial à íris do olho. Apenas a parte escura com a maior área é considerada, e dentro dela é aplicada uma combinação de dois métodos para encontrar a pupila: centro de massa e centro geométrico. O centro de massa é obtido a partir da própria imagem, considerando tonalidades mais escuras como de maior densidade. Já o centro geométrico é calculado com base no método anterior, isso é importante porque se a íris estiver parcialmente encoberta pela pálpebra, a localização da pupila será equivocada. Nesta tática são determinadas as extremidades da região da íris mais distantes do centro de massa, e o ponto mais distante para cada uma dessas extremidades, depois é calculada uma média. Depois que a pupila é localizada, seus ângulos em relação à tela são trigonometricamente calculados e combinados com a inclinação do rosto a fim de estimar a inclinação percebida pela câmera. A última etapa do processo envolve converter essa inclinação em deslocamento relativo em relação à tela, e para isso depende do fator de conversão da câmera entre pixels e milímetros, que pode ser obtido experimentalmente. O último segmento do software é o interpretador vocal. Sua implementação é feita com a biblioteca de reconhecimento de áudio offline Vosk para permitir o uso da interface e suas funções básicas, mesmo sem conexão com a internet. Quanto aos resultados, a estimativa dos ângulos da face foi testada com uma base de dados artificial de seis personagens 3D, criados no MakeHuman (The MakeHuman team, 2020) e animados na Unity (Unity Technologies, 2022) distribuídos entre 4.374 imagens com inclinações de até 30º em cada ângulo. O erro médio foi de 3,506º, com desvio padrão de 5,336º. Com relação aos ângulos do olho dominante, o erro médio em uma base de 1.000 imagens foi de 3,238°, com desvio padrão de 3,056º. Dentre os fatores que influenciaram nos erros pode-se citar a baixa resolução da câmera (640x480), imprecisão cumulativa dos métodos de extração de pontos faciais, inclinação da face e localização da pupila, além da dificuldade de precisar o centro vertical do olho para cada inclinação. Apesar das limitações técnicas, este software tem o potencial de proporcionar autonomia digital parcial a pessoas com mobilidade reduzida e poucas condições financeiras, utilizando métodos simples, práticos e viáveis acoplados a uma interface imersiva. Seus benefícios não se limitam apenas a atenuar os impactos dos impedimentos físicos, mas abrangem também o psicológico destes indivíduos. A sensação de poder utilizar um computador de maneira independente resgata parte da independência e dignidade humana.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Edição
Seção
Engenharia da Computação e Sistemas