LYBPhishing: Uma Proposta para Detecção do Uso Fraudulento de Marcas Utilizando IA Generativa

##plugins.themes.bootstrap3.article.main##

Júlio César Gomes de Barros
Bruno José Torres Fernandes
Lucas Candeia Teixeira
Carlo Marcelo Revoredo da Silva
Paulo Christiano Tenório Sobral

Resumo

O phishing é uma técnica de engenharia social cujo objetivo principal é induzir o usuário a revelar informações sensíveis, como credenciais de acesso ou dados financeiros, através de sites falsos ou mensagens instantâneas, que geralmente são propagados na forma de e-mails (SAFI et al., 2023). Nos últimos anos, o cenário de ameaças tornou-se ainda mais sofisticado: surgiram ataques de spear phishing, direcionados a alvos específicos (empresas, executivos ou grupos), que exploram dados públicos ou internos para aumentar a credibilidade das mensagens maliciosas (BIRTHRIYA et al., 2025). Nesse contexto, o monitoramento contínuo de marcas passa a ser elemento estratégico para a segurança corporativa, pois a detecção precoce de menções indevidas pode impedir a propagação de golpes e proteger tanto a reputação quanto a base de clientes da organização. Paralelamente, o surgimento das técnicas de Inteligência Artificial Generativa e dos Modelos de Linguagem de Grande Porte (LLMs) trouxe novas possibilidades para a cibersegurança: esses modelos podem ser usados tanto para gerar conteúdo automatizado, o que inclui campanhas de phishing mais persuasivas e em larga escala (HAZELL et al. 2023), quanto para analisar grandes volumes de dados textuais em velocidade, identificando padrões de fraude e auxiliando na detecção de páginas maliciosas (BETHANY et al., 2024). Com essa capacidade analítica ampliada, os LLMs tornam-se aliados estratégicos no combate a ameaças digitais sofisticadas. Dentre essas ameaças, destacam-se os ataques homográficos, que consistem na criação de variações visuais de nomes legítimos utilizando caracteres semelhantes, como substituir a letra "m" por "rn", ou empregar alfabetos internacionais, como usar “а” cirílico em vez do “a” latino, por exemplo (TEIXEIRA et al., 2022). LLMs podem atuar tanto na geração automatizada dessas variações (para expandir a cobertura de detecção), quanto na identificação de padrões recorrentes em grandes bases de dados textuais e contextos de uso, facilitando a detecção precoce de fraudes relacionadas ao uso indevido de marcas (SCHESNY et al., 2024). Assim, a união entre ferramentas de monitoramento automatizado e a análise contextual inteligente proporcionada pelos LLMs configura uma abordagem robusta e promissora para detectar e mitigar ataques de phishing direcionados e campanhas de usurpação de identidade de marcas em múltiplos canais digitais. Nesse contexto, o objetivo deste estudo é desenvolver uma ferramenta inteligente capaz de detectar o uso indevido do nome de marcas, monitorando e analisando menções na web, tanto com o nome original quanto a suas variações homógrafas, com o apoio de modelos de linguagem e técnicas automatizadas de coleta e análise de dados. A metodologia desenvolvida segue um total de 4 passos: primeiramente é feita geração de termos homográficos com o nome da marca, seguida pela busca na web e em portais de notícias, passando pela análise semântica das menções e, por fim, a geração do relatório final. Utilizando um modelo de linguagem (LLM), foram geradas automaticamente variações homógrafas do nome da marca, baseadas em substituições visuais ou fonéticas de caracteres (como troca de “o” por “0”, “l” por “1” ou “rn” por “m”), simulando técnicas utilizadas em ataques de phishing. Com as variações geradas, juntamente com o nome original da marca, foram utilizadas em requisições à API de Notícias do Google. Um web crawler personalizado automatizou o processo, armazenando os resultados para posterior análise. Cada resultado obtido foi enriquecido com metadados como URL, data, título e trecho do conteúdo. Os textos obtidos foram submetidos novamente a uma LLM para classificação do sentimento associado à marca (positivo, neutro ou negativo), possibilitando a construção de um índice de “confiança da marca” (brand trust). Por fim, todas essas informações geradas foram condensadas e organizadas em um relatório em PDF, que contém: (1) Uso indevido do nome da marca; (2) Índice de confiança da marca (com base na análise de sentimento nas menções); (3) Lista de URLs com menções e notícias recentes. Sendo assim, o estudo comprovou a viabilidade e a eficácia de uma solução baseada em inteligência artificial generativa para o monitoramento de marcas e a detecção automatizada de usos indevidos em ambientes digitais. A ferramenta desenvolvida foi capaz de integrar com sucesso todas as etapas propostas, desde a geração de variações homográficas, até a consolidação de resultados em um relatório estruturado. Foi possível identificar ocorrências de uso indevido de marca em domínios web suspeitos, bem como mensurar a opinião pública através da análise de sentimento (obteve-se um índice de confiança da marca que varia de acordo com o volume e a tendência das menções). A automação dos processos de coleta, análise e organização dos dados garantiu rapidez na identificação de riscos e eficiência na geração de relatórios úteis para as áreas de segurança da informação, marketing e compliance. O sistema mostrou-se eficaz também na consolidação de URLs de notícias e menções, o que potencializa a capacidade de resposta das empresas diante de possíveis ameaças. Como trabalhos futuros, serão implementadas análises visuais dos resultados (detecção de logotipos, imagens e elementos gráficos). Essas melhorias podem tornar o sistema ainda mais sensível e proativo, ampliando sua capacidade de proteção e resposta à ataques phishing cada vez mais sofisticados.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas