O uso de classificadores na identificação de discursos LGBTfóbicos no Instagram

##plugins.themes.bootstrap3.article.main##

Tiago Medeiros Guedes
Cleyton Mario de Oliveira Rodrigues

Resumo

O crescente uso das redes sociais, principalmente nos últimos anos, vem potencializando a disseminação de informações que podem tomar proporções que fogem do controle, muitas vezes carregadas de notícias falsas e discursos de ódio. A utilização dessas redes pode trazer a falsa sensação de liberdade de expressão para os usuários, o que por muitas vezes vem a acontecendo pela falta de controle e moderação de conteúdo das redes sociais. No Brasil, nota-se uma dificuldade por parte das redes sociais e das políticas públicas na remoção, e até mesmo na identificação efetiva destes conteúdos carregados de comentários preconceituosos e com discursos tóxicos. Caso não seja removido, o conteúdo será visto por cada vez mais pessoas e poderá ser propagado pela internet, atingindo um número maior de vítimas, e incentivando a ocorrência de outros crimes (CAMELO, 2017). Neste contexto, para muitas comunidades a disseminação de discursos de ódio traz consequências desastrosas, potencializando o preconceito, a violência e o estigma contra elas. Grupos frequentemente alvos de discursos tóxicos incluem minorias étnicas e raciais, comunidade LGBTQIAPN+, mulheres, religiões minoritárias, portadores de deficiência, refugiados e imigrantes, e grupos políticos ou ideológicos (CASELI&NUNES, 2023). Tema deste trabalho, a comunidade LGBTQIAPN+ (Lésbicas, Gays, Bissexuais, Transexuais, Queers, Intersexo, Assexuais, Pansexuais, Não-binários e mais) permanentemente é alvo de ataques de ódios através das publicações textuais em redes sociais. Além dos discursos de ódios, segundo (BRASIL, 2024), no Brasil, 51% das pessoas LGBTQIA+ relataram ter sofrido algum tipo de violência motivada pela sua orientação sexual ou identidade de gênero. Destas, 94% sofreram violência verbal. Em 13% das ocorrências as pessoas sofreram também violência física. Diante desta problemática apresentada, busca-se encontrar maneiras de identificar tais discursos e atenuar seus efeitos de disseminação no âmbito digital. O Processamento de Linguagem Natural (PNL) surge nessa perspectiva como um tópico crescente na detecção de discursos tóxicos tanto para minorias como para as demais áreas de interesse da sociedade. As técnicas de processamento de texto e linguagens oriundas de PLN ajudam no tratamento e classificação, buscando uma melhor interpretação desses linguajares e expressões populares utilizadas nas redes sociais e demais mídias digitais. Ao estudar esses discursos, podemos desenvolver técnicas para detecção precoce de conteúdo enganoso, ajudando a manter a qualidade da informação nas redes (CASELI&NUNES, 2023). Além de ajudar na detecção de figuras de linguagem, como sarcasmo, ironia e outras expressões que podem levar a padrões de linguagem que visam esconder nas entrelinhas textos tóxicos e preconceituosos. Realizar o processamento de textos em português é um desafio que abre possibilidades, gerando diversas oportunidades de pesquisa e trazendo resultados relevantes para a sociedade ao todo. A Análise de Sentimento (AS) estuda as opiniões, sentimentos, avaliações, apreciações, atitudes e emoções em relação a entidades como produtos, serviços, organizações, indivíduos, problemas, eventos, tópicos e seus diferentes aspectos expressos em textos (LIU, 2012). Atualmente existem várias técnicas que são utilizadas para processamento e análise e processamento de textos, uma delas é o BOW (Bag Of Words), onde essa técnica transforma a coleção de N documentos com M termos em uma matriz documento-termo. Um dos problemas desta representação é a alta dimensionalidade oriunda do conjunto de termos, dado que uma coleção de documentos pode possuir milhares de termos (). Para corrigir problemas como a dimensionalidade, podemos utilizar técnicas de pré-processamento de texto, onde se realizada uma limpeza de informações desnecessárias, como remoção de acentos e caracteres repetidos, remoção de stop words que remove palavras irrelevantes e repetidas. Remoção de emotes, que são símbolos ou figurinhas que representam algum sentimento, também Stemmer que reduz a palavra a sua forma original podem ser utilizadas no pré-processamento de textos. No processo metodológico deste trabalho, além das técnicas mencionadas anteriormente para o pré-processamento, tratamento de textos foram utilizadas técnicas de classificação de sentimentos. Foram retirados comentários de publicações na rede social Instagram, que tinham como tema o público LGBTQIAPN+, tais comentários serviram como base para este trabalho. Após o pré-processamento, foram utilizadas técnicas atuais para detecção de sentimentos negativos e positivos na base de dados, tais como BOW, e Embedding, que consiste em transformar palavras ou frases como vetores numéricos num espaço multidimensional, além de Random Forest, que consiste em um método estatístico, de aprendizagem de máquina supervisionada, que pode ser utilizado em problemas de classificação e na realização de previsões. A utilização dessas três técnicas possibilitou resultados preliminares positivos e diferentes com a base de dados. Foram analisadas métricas como matriz de confusão, que mede os erros e acertos das técnicas utilizadas, além da acurácia que mede a classificação positiva da técnica, sendo uma das principais métricas a serem consideradas, e a precisão de acertos positivos para cada uma dessas técnicas. Os resultados parciais indicam que o objetivo proposto do trabalho foi alcançado, a base foi classificada e o sentimento do texto entre positivo e negativo apresentou resultados satisfatórios. Por se tratar de uma pesquisa em desenvolvimento e não concluída, para trabalhos futuros, tem-se a necessidade de melhoramento e aperfeiçoamento das técnicas e um possível cruzamento entre elas para o melhoramento do modelo. Por fim, espera-se que este trabalho possibilite um caminho a ser seguido para futuras pesquisas na classificação dos discursos de ódio nas redes sociais.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas