A influência do detalhamento de instruções no prompt na acurácia de replicação de diagramas de classes UML pelo ChatGPT4: um Experimento Controlado

##plugins.themes.bootstrap3.article.main##

Gabriel Rodrigues Tavares de Lima
Helaine Solange Lins Barreiros
Eraylson Galdino da Silva
Ivaldir Honório de Farias Júnior

Resumo

A integração da Inteligência Artificial (IA), particularmente de Modelos de Linguagem de Grande Escala (LLMs) como o ChatGPT, representa um avanço promissor para a Engenharia de Software (ES). Entretanto, é necessário compreender dentro de um fluxo de processo de trabalho padronizado e reprodutível como o nível de detalhamento de instruções nos prompts e informações sobre o contexto afetam a acurácia utilizando como exemplo uma replicação de classes UML isolando o fator de conhecimento de domínio (CÁMARA et al., 2023). Torna-se, portanto, fundamental quantificar o impacto do detalhamento dos prompts para estabelecer diretrizes que aprimorem a aplicação da IA na ES. Este trabalho aborda a necessidade de uma avaliação metodológica rigorosa sobre a aplicabilidade do ChatGPT em atividades específicas, como a replicação de diagramas, e a influência dos prompts na efetividade de suas respostas (DJABER; HADJADJ, 2023). O objetivo principal deste estudo foi avaliar o impacto que o detalhamento dos prompts exerce sobre o desempenho do ChatGPT4 na replicação de diagramas de classes UML. A investigação focou na relação de causa e efeito entre a especificidade das instruções e a acurácia dos diagramas gerados. É importante ressaltar que o propósito não era medir a capacidade do modelo de compreender a semântica de negócios, mas sim de analisar como variáveis no prompt influenciam a precisão sintática da replicação. Para isso, foi adotado um design de experimento controlado (WOHLIN et al, 2012). Prompts com níveis de detalhamento variados: genérico, moderadamente específico e altamente estruturado, foram submetidos ao ChatGPT-4. A precisão da replicação foi avaliada pela comparação com o diagrama original, contabilizando a presença ou ausência de seus elementos. Para minimizar o aprendizado contextual e garantir a independência de cada teste, uma nova sessão de conversa foi iniciada para cada prompt. O diagrama UML de referência, selecionado aleatoriamente de um projeto de código aberto, continha 6 classes, 3 interfaces, 4 relações de associação unidirecional, 2 relações de composição e 2 cardinalidades. As variáveis dependentes foram o percentual de acertos na reprodução e a contagem de erros sintáticos no código PlantUML. A análise estatística foi realizada por meio dos testes de Shapiro-Wilk, Kruskal-Wallis e Dunn. Os resultados, com base no teste de Kruskal-Wallis, indicaram que o detalhamento dos prompts influenciou significativamente a precisão da replicação (p-valor = 2.309e-06). Contrariando as expectativas iniciais, os diagramas gerados a partir de prompts mais detalhados ("Altamente Estruturado e Específico") apresentaram menor precisão (mediana = 57,81%) e maior variabilidade (IQR = 36,71). Em contraste, a categoria de prompts "Genéricos" obteve o desempenho mais consistente (IQR = 6,25) e elevado em termos de acertos (mediana = 92,18%). Os prompts "Moderadamente Específicos" demonstraram boa consistência, porém com medianas de acertos inferiores aos "Genéricos" (mediana = 87,5%). O teste de Dunn revelou uma diferença estatisticamente significativa entre os resultados dos prompts "Altamente Estruturados" e os grupos "Genérico" (p-valor ajustado = 1.26e-6) e "Moderadamente Específico" (p-valor ajustado = 6.85e-3). Contudo, não foi encontrada diferença significativa entre os grupos "Genéricos" e "Moderadamente Específicos" (p-valor ajustado = 1.34e-1). Esses achados revelam uma implicação prática e contraintuitiva para engenheiros de software: na tarefa de replicação de diagramas, a alta especificação de instruções é prejudicial à precisão. Na prática, um engenheiro obterá resultados mais consistentes e acurados ao fornecer um objetivo claro e direto, como nos prompts "Genéricos", em vez de um roteiro detalhado passo a passo. Isso sugere que a ferramenta opera com maior eficácia quando possui autonomia para interpretar o objetivo geral. Como trabalhos futuros, sugere-se a construção de modelos preditivos para antecipar a precisão dos diagramas, a realização de estudos de caso e validações qualitativas com especialistas para avaliar a aplicabilidade prática da ferramenta em fluxos de trabalho reais, e a exploração de métodos de avaliação mais diversificados que incluam uma análise de custo-benefício aprofundada.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas