Comparação de técnicas de deep learning para detecção de cyberbullying

##plugins.themes.bootstrap3.article.main##

Jose Aurelio Carvalho
Roberta A. de A. Fagundes

Resumo

Contexto: Com o advento das redes sociais e o aumento exponencial do número de usuários conectados, emergiu também um problema alarmante: o crescimento dos casos de violência nos ambientes digitais. O cyberbullying é caracterizado como um comportamento ou ato agressivo com a intenção de causar dano, seja físico ou psicológico, por meio de plataformas eletrônicas. Esse fenômeno tende a crescer nos cenários digitais, consistindo em comportamentos agressivos e intencionais realizados de forma repetitiva e com o objetivo de causar dano emocional ou psicológico a uma pessoa ou grupo. Ademais, a proliferação das redes sociais e a democratização do acesso à internet intensificaram essa problemática, tornando imperativo o desenvolvimento de ferramentas e técnicas avançadas para sua detecção e mitigação (SASIKUMAR et al., 2023). A aplicação de algoritmos de deep learning pode facilitar a criação de ambientes online mais seguros, promovendo uma experiência positiva na internet para todos os usuários, especialmente os mais jovens, pois estes indivíduos ficam expostos a longos períodos de uso das redes sociais, condição que os tornam mais suscetíveis a ataques de cyberbullying e acabam sofrendo com a solidão, ansiedade e depressão (LIU, 2024). Diante da crescente problemática do cyberbullying e seus efeitos nocivos no ambiente online, este estudo propõe a utilização algoritmos de deep learning e base de dados multiclasse como ferramenta crucial para a detecção de cyberbullying, almejando a construção de um espaço virtual mais inclusivo e acolhedor para todos. Objetivos: Aplicar os algoritmos de deep learning (LSTM, GRU e BERT), encontradas em um mapeamento sistemático da literatura,  para detectar e classificar cyberbullying em base de dados multiclasse estruturada e comparar o desempenho dos diferentes algoritmos de deep learning na tarefa de detecção de cyberbullying, identificando o modelo mais adequado para a base de dados em questão. Além disso, comparar os resultados encontrados neste trabalho com trabalhos da literatura. Metodologia: A Metodologia foi dividida em quatro etapas: entendimento dos dados, pré-processamento, modelagem e avaliação. Para o entendimento dos dados, foi optado por uma base de dados em inglês que contém um total de 47656 linhas e cada linha contém os textos a serem analisados e uma das classes: 'not cyberbullying', 'gender', 'religion', 'other cyberbullying', 'age', 'ethnicity'. A etapas do pré-processamento incluem a remoção de comentários, emojis, citações de usuários, pontuação, símbolos e números, além da conversão de letras maiúsculas para minúsculas. Ademais, foram implementadas técnicas de Processamento de Linguagem Natural (PLN) utilizando a biblioteca Natural Language Toolkit (NLTK). Essas técnicas englobam a tokenização das palavras, a remoção de stopwords e a lematização das palavras com o objetivo de reduzir suas inflexões (OBAID; GUIRGUIS; ELKAFFAS, 2023). E por fim, para a etapa de vetorização dos dados, foi escolhida a utilização de um modelo pré-treinado do word2vec. Até o momento, só foi modelado o algoritmo LSTM e sua estrutura é composta por: 1 camada de entrada, 1 camada embutida, 1 camada LSTM, 1 camada de Spatial Dropout, 1 camada Flatten, 1 camada Dense e 1 camada de saída; e os parâmetros utilizados foram: o otimizador o adam, a função de perda a sparse categorical crossentropy, tamanho da amostra de 128 e número de épocas igual a 10, sendo implementado um mecanismo de parada antecipada. Foi optado pela separação da base de dados em 80% para treinamento e 20% para teste. As métricas utilizadas para avaliação foram a acurácia, a precisão, a revocação (recall) e o F1-score. Resultados: Os resultados iniciais da LSTM foram avaliados; o valor da acurácia e os valores médios da precisão, recall e F1-Score são, respectivamente, 79%, 79,5%, 79% e 79%. Foram também realizadas análises individuais de cada uma das classes. Os resultados de precisão, recall e F1-Score, indicados entre parênteses, respectivamente, das classes com maior definição de tipos de cyberbullying, como 'age' (97%, 98% e 97%), 'ethnicity' (97%, 96% e 97%), 'religion' (95%, 94% e 95%) e 'gender' (85%, 82% e 84%), foram as mais bem avaliadas. Esses resultados mostram que uma base de dados bem definida possibilita resultados ainda mais satisfatórios. A classe 'other cyberbullying' (55%, 42% e 47%) apresentou um desempenho inferior devido à heterogeneidade dos tipos de cyberbullying, resultando em uma maior diversidade de características a serem analisadas. A classe 'not cyberbullying' (48%, 62% e 54%) obteve um desempenho intermediário, uma vez que a proporção das cinco classes de cyberbullying é substancialmente maior do que a classe que não envolve cyberbullying, complicando assim sua análise. Conclusão: A detecção automática de cyberbullying através de modelos de deep learning em uma base de dados multiclasse estruturada pode auxiliar moderadores de plataformas online a identificar e remover conteúdos nocivos. A aplicação de algoritmos de deep learning se configura como uma solução promissora para auxiliar na identificação de comportamentos abusivos e na mitigação dos impactos negativos do cyberbullying. Além disso, os resultados desta pesquisa podem servir como base para o desenvolvimento de ferramentas de prevenção e educação sobre cyberbullying, contribuindo  para a criação de um ambiente digital mais seguro, inclusivo e saudável para todos.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas