DIAHPhish: um mecanismo inteligente para detecção de ataques homográficos em páginas phishing

##plugins.themes.bootstrap3.article.main##

Lucas Candeia Teixeira
Carlo Marcelo Revoredo da Silva
Bruno José Torres Fernandes

Resumo

A prática conhecida como phishing é um dos golpes cibernéticos mais populares em todo o mundo, e tem como alvo principal o Brasil (Rodrigues, 2019). Este tipo de golpe é responsável por mais de 50% dos ataques cibernéticos direcionados a cartões de crédito (Konduto, 2019). O phishing consiste em enganar as pessoas por meio do uso de páginas falsas que se assemelham a sites populares na internet, criando assim um ambiente confiável no qual os usuários são levados a fornecer informações confidenciais, como senhas ou dados de cartões de crédito. Para tornar os ataques mais convincentes, muitos golpes exploram a vulnerabilidade dos usuários em não identificar a presença de ataques homográficos, que consistem na utilização de termos com grafias semelhantes, mas que não se referem à página real. Um exemplo disso é o registro de domínios com pequenas variações gramaticais, criados de forma engenhosa para fazer com que o usuário acredite estar em um ambiente seguro da marca desejada (Piredda et al., 2017). Dessa forma, o golpe se aproveita da confiança gerada pelo termo homográfico para iludir o usuário. Embora esses golpes sejam aparentemente fáceis de identificar, o aumento do número de ataques homográficos e a ineficácia dos mecanismos populares de combate ao phishing levantam dúvidas sobre essa afirmação, uma vez que esses mecanismos dependem muito da análise subjetiva realizada por seres humanos (Teixeira et al., 2021). Uma das razões para isso é a exploração de momentos sazonais, nos quais há uma alta demanda por determinado produto, serviço ou segmento de mercado, despertando um interesse momentâneo (Hijji e Alam, 2021). Por exemplo, golpes que prometem acesso gratuito a contas da Netflix em troca de informações pessoais, oferta de álcool em gel durante o período de isolamento causado pela pandemia de COVID-19, ou a proliferação de golpes relacionados ao Auxílio Emergencial destinado a brasileiros de baixa renda durante a pandemia (Silva, 2020). Diante desse cenário, várias soluções têm sido propostas para combater os ataques homográficos (Chiba et al., 2018, Husain e Iqbal, 2017, Le Pochat, Van Goethem e Joosen, 2019), mas ainda há desafios a serem superados. Um exemplo é o esforço necessário para construir e controlar o conjunto de termos utilizados nos ataques, uma vez que novos termos surgem com frequência, possibilitando sua exploração por novos golpes de phishing. Outro desafio é lidar com o grande número de termos com pequenas variações gramaticais, criados por meio de técnicas que envolvem a adição, remoção ou substituição de letras, entre outras estratégias. Isso resulta em diversas variações que podem gerar falsos positivos e negativos, dificultando a definição de um padrão textual. Diante desse contexto, este estudo propõe uma abordagem autônoma baseada em uma rede neural recorrente do tipo LSTM (Long Short-Term Memory), chamada de DIAHPhish, capaz de identificar a presença de termos homográficos em partes da URL e conteúdo das páginas phishing. Inicialmente, foi feita uma busca por bases de dados compostas por páginas maliciosas que contivessem ataques homográficos, mas não foram encontradas bases com essas características. Como solução, foi desenvolvido um gerador de termos homográficos capaz de criar diversas variações de uma marca-alvo, permitindo assim prosseguir com as etapas seguintes. Com os dados disponíveis, foram realizados experimentos para avaliar a eficácia do modelo de aprendizado por representação na identificação de termos homográficos. Os resultados mostraram que o modelo proposto apresentou uma alta taxa de detecção de termos maliciosos, alcançando uma média de acerto de mais de 99,50% quando ajustado utilizando um conjunto de dados sintéticos com mais de 33.000 variações homográficas. Sendo assim, conclui-se, que o modelo possui uma taxa significativa de acerto, permitindo a identificação ágil e confiável de termos homográficos, superando diversos desafios elencados em outras propostas.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas