Análise de Variantes de Processos com Machine Learning e Grafos

##plugins.themes.bootstrap3.article.main##

Luiz Felipe Vieira Verçosa
Byron Leite Dantas Bezerra
Carmelo José Albanez Bastos Filho

Resumo

Mineração de Processos é uma área que preenche lacuna entre as disciplinas de Mineração de Dados e Processos de Negócios (BPM) (AALST, 2016). Ela tem como matéria- prima registros de logs de aplicações e como possíveis produtos a descoberta de processos, avaliação de conformidade, previsões de fluxo, dentre outras técnicas de análise e melhoria de processos (AALST, 2011).
Em (AALST, 2007) os autores analisam o grafo social de uma empresa, isto é, a rede de colaboração dos funcionários, utilizando métrica de centralidade em grafos para identificar papéis dentro de uma organização. De maneira similar em (JOOKEN, 2019) é extraído um grafo colaborativo a partir de um log de um sistema de versão de controle. Em (SEELIGER, 2017) os autores utilizam métricas de grafos para identificar concept drift (mudanças no decorrer do tempo) em workflow de processos. Entretanto, até o momento não foram encontrados trabalhos que analisam métricas de grafos de workflow de processos para identificação de características de processos como métricas e performance. Isso pode ser interessante especialmente no contexto de análise de variantes (TAYMOURI, 2021), ou seja, contextos de datasets que possuem grupos de processos com comportamentos selemelhantes como em casos de filiais de empresas ou órgãos judiciais. Tais processos tendem a apresentar padrões de comportamento que podem ser identificados ou aproximados através de técnicas de aprendizagem de máquina. Essas características passíveis de previsão são aspectos processuais como métricas de qualidade ou performance como precisão e fitness, no primeiro caso, e tempo médio processual no último.
Nesse contexto, este trabalho propõe-se a coletar características de processos semelhantes para a geração de dataset e predição de aspectos processuais com o auxílio de modelos de aprendizagem de máquina. Em nossa metodologia, as features foram extraídas a partir do Directed-follow Graphs (DFGs) de cada processo e utilizando métricas de grafos e ciência das redes como centralidade, entropias, grau médio e assortatividade. Em seguida, determinou-se o ground-truth e utilizou-se diferentes modelos de aprendizagem de máquina para tarefas de predição ou classificação.
A primeira fase dos experimentos objetivou identificar diferenças e similaridades entre grafos de processos reais e grafos provenientes de modelos geradores clássicos. Os processos reais foram extraídos de base de dados disponibilizadas pelo Conselho Nacional de Justiça (CNJ) e os grafos não-processuais foram extraídos através de modelos geradores amplamente conhecidos como Duplication Divergence (ISPOLATOV, 2005), Binomial (ERDŐS, 1960) e Gaussiano (BRANDES, 2003). Como resultados obtidos, constatou-se que os modelos de aprendizagem de máquina utilizados foram capazes de discernir entre grafos de processos reais e grafos gerados artificialmente com acurácia superior a 95%, o que sugere que grafos de processos reais possuem características próprias.
A segunda fase dos experimentos encontra-se em andamento e utiliza-se de semelhante metodologia do problema anterior. Entretanto, a atual abordagem conta apenas com processos reais e objetiva a predição de valores da métrica precisão e tempo médio processual. Em ambos os casos, acrescentou-se feature alvo amostral de 10% das instâncias de processo de cada log. Com essa abordagem, foi possível obter um aumento na métrica r2- score de 14% para a métrica precisão e de 2% para o tempo médio processual com relação ao valor do r2-score com uso apenas da feature amostral. Acredita-se que, no segundo caso, o ganho possa ser ampliado através de clusterização de cada processo em subprocessos uma vez que os tempos processuais variam significativamente de acordo com a classe da instância de processo julgada por cada unidade judiciária.
Como próximos passos da pesquisa, pretende-se realizar clusterização dos processos avaliados, isto é, identificar subprocessos que podem ser separados e analisados de forma individual, o que pode impactar positivamente no resultado dos modelos de aprendizagem de máquina utilizados. Também pretende-se aplicar mesma metodologia para predição de valores de fitness dos modelos processuais.
processuais como métricas de qualidade ou performance como precisão e fitness, no primeirocaso, e tempo médio processual no último.Nesse contexto, este trabalho propõe-se a coletar características de processossemelhantes para a geração de dataset e predição de aspectos processuais com o auxílio demodelos de aprendizagem de máquina. Em nossa metodologia, as features foram extraídas apartir do Directed-follow Graphs (DFGs) de cada processo e utilizando métricas de grafos eciência das redes como centralidade, entropias, grau médio e assortatividade. Em seguida,determinou-se o ground-truth e utilizou-se diferentes modelos de aprendizagem de máquinapara tarefas de predição ou classificação.A primeira fase dos experimentos objetivou identificar diferenças e similaridades entregrafos de processos reais e grafos provenientes de modelos geradores clássicos. Osprocessos reais foram extraídos de base de dados disponibilizadas pelo Conselho Nacional deJustiça (CNJ) e os grafos não-processuais foram extraídos através de modelos geradoresamplamente conhecidos como Duplication Divergence (ISPOLATOV, 2005), Binomial (ERDŐS,1960) e Gaussiano (BRANDES, 2003). Como resultados obtidos, constatou-se que os modelosde aprendizagem de máquina utilizados foram capazes de discernir entre grafos de processosreais e grafos gerados artificialmente com acurácia superior a 95%, o que sugere que grafos deprocessos reais possuem características próprias.A segunda fase dos experimentos encontra-se em andamento e utiliza-se desemelhante metodologia do problema anterior. Entretanto, a atual abordagem conta apenascom processos reais e objetiva a predição de valores da métrica precisão e tempo médioprocessual. Em ambos os casos, acrescentou-se feature alvo amostral de 10% das instânciasde processo de cada log. Com essa abordagem, foi possível obter um aumento na métrica r2-score de 14% para a métrica precisão e de 2% para o tempo médio processual com relação aovalor do r2-score com uso apenas da feature amostral. Acredita-se que, no segundo caso, oganho possa ser ampliado através de clusterização de cada processo em subprocessos umavez que os tempos processuais variam significativamente de acordo com a classe da instânciade processo julgada por cada unidade judiciária.Como próximos passos da pesquisa, pretende-se realizar clusterização dos processosavaliados, isto é, identificar subprocessos que podem ser separados e analisados de formaindividual, o que pode impactar positivamente no resultado dos modelos de aprendizagem demáquina utilizados. Também pretende-se aplicar mesma metodologia para predição de valoresde fitness dos modelos processuais.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas