Alinhamento de embeddings visuais e textuais de baixo custo computacional via destilação multimodal

##plugins.themes.bootstrap3.article.main##

Alexandre Rodolfo Pereira
Bruno José Fernandes

Resumo

Os avanços da inteligência artificial têm revolucionado o modo como a humanidade lida com a tecnologia. De acordo com o Artificial Intelligence Index Report 2025 (STANFORD, 2025), a maior quantidade de publicações da área, são sobre aprendizado de máquina, visão computacional, reconhecimento de padrões e processamento de linguagem natural. Estes atributos são essenciais em sistemas que lidam com dados e interação com o usuário, envolvendo não só modelos de linguagem como o ChatGPT, mas também modelos de embedding, capazes de converter informações de diferentes domínios, como texto, imagem e áudio, para um espaço vetorial, permitindo a busca de informações. Um destes modelos é o CLIP (RADFORD, 2021), com 408 milhões de parâmetros capaz de projetar imagens e textos para um mesmo espaço vetorial com um alto desempenho. Apesar da performance, embeddings multimodais são computacionalmente pesados, especialmente na inferência de imagens. Isso inviabiliza sua adaptação ao ambiente mobile, que corresponde a 59,99% do tráfego da internet (BOUCHRIKA, 2025), fazendo com que usuários que desejem utilizar a tecnologia recorram a serviços online, potencialmente impactando sua privacidade. Este projeto tem como objetivo investigar a capacidade de modelos de embedding unimodais, de texto e imagem, de baixo custo computacional, em imitar o comportamento de modelos multimodais através de auto alinhamento e destilação de conhecimento do CLIP. A motivação por trás desta abordagem está relacionada tanto à eficiência quanto à privacidade. Em aplicações locais, como a busca de arquivos em dispositivos pessoais, é desejável evitar o envio de dados sensíveis para a nuvem. Neste contexto, a utilização de embeddings locais permite tarefas como busca textual por imagens da galeria, localização de documentos por trechos de texto, ou mesmo a identificação de imagens semelhantes, sem comprometer a privacidade do usuário. Uma imagem poderia, por exemplo, ter seus embeddings embutidos nos metadados, simplificando o processo de recuperação sem a necessidade de indexação externa ou análise visual direta. Para validar a proposta, foram selecionadas três bases de dados heterogêneas, com diferentes níveis de complexidade semântica e visual: Pexels-110k, COCO e Tiny-Imagenet. No total, foram utilizados nove modelos de embedding, escolhidos de acordo com a performance no MIEB (XIAO, 2025), agrupados em três categorias: texto com o GIST small, base e large; imagem com o DINOv2 small, base e large; e multimodais: nomic-embed-vision-v1.5, SigLIP-base e CLIP. Os dois primeiros modelos multimodais foram utilizados para comparar a performance. A metodologia foi dividida em duas etapas. A primeira etapa, denominada auto alinhamento, visava alinhar diretamente os embeddings do DINOv2 e do GIST entre si, sem auxílio de um terceiro modelo. A segunda etapa, chamada destilação multimodal, teve como objetivo guiar esse alinhamento utilizando os embeddings do CLIP. Durante o auto alinhamento, foram construídos adaptadores baseados em MLPs para mapear os vetores gerados por um modelo para o espaço do outro: três adaptadores de texto para imagem (T2I), que convertiam as saídas do GIST para o espaço do DINOv2, e três adaptadores de imagem para texto (I2T), no sentido inverso. Já na etapa de destilação multimodal, cada combinação de modelos recebeu dois adaptadores independentes: um para alinhar ao CLIP no domínio da imagem, e outro no domínio do texto, com o objetivo de reproduzir o comportamento do modelo multimodal. Após o treinamento, os modelos foram avaliados em duas tarefas: busca de texto para imagem (qual imagem é mais bem descrita por um texto), e de imagem para texto (qual texto descreve melhor uma imagem). A métrica de avaliação foi a quantidade média de erros cometidos até encontrar a correspondência correta por similaridade de cossenos. Os resultados revelaram comportamentos distintos entre as etapas. No auto alinhamento, os adaptadores T2I mostraram melhor desempenho na tarefa de imagem para texto. Contudo, mostraram resultados abaixo do esperado em texto para imagem. Isso sugere que o espaço vetorial textual é mais flexível à adaptação para o visual do que o inverso. Por outro lado, os modelos da etapa de destilação multimodal apresentaram maior robustez e desempenho equilibrado em ambas as modalidades. A combinação entre dinov2-small e GIST-small demonstrou resultados particularmente promissores, superando o modelo nomic em texto para imagem (62,7 contra 64,5 amostras) e apresentando desempenho competitivo em imagem para texto (76,9 contra 71,3), com um tempo de inferência 2,7 vezes menor (0,41s contra 1,11s). Já a combinação dinov2-base com GIST-base foi a que apresentou melhor relação entre desempenho e custo computacional, superando tanto o nomic quanto o SigLIP-base nas duas tarefas, em média, com 2,6 amostras de erro a menos (58,1 contra 60,7) e tempo de inferência 4,3 vezes menor (1,18s contra 5,05s). Por fim, a combinação dinov2-large e GIST-large não apresentou desempenho satisfatório. Mesmo com maior capacidade, os modelos não conseguiram se aproximar do CLIP em precisão (53,2 contra 27,4 amostras em média) e não mostraram vantagem significativa no tempo de inferência. Isso sugere que a escalabilidade do processo de destilação possui limites e que modelos com mais parâmetros não necessariamente obtêm melhor desempenho na destilação. Os resultados obtidos demonstram que é possível alinhar modelos unimodais de baixo custo computacional para simular o comportamento de modelos multimodais em tarefas de busca envolvendo textos e imagens, mantendo boa precisão e reduzindo o tempo de inferência. Essa abordagem se mostrou especialmente promissora para aplicações mobile, onde os recursos computacionais são limitados e a conectividade com serviços em nuvem nem sempre é garantida ou desejada. Ao permitir a execução local de tarefas multimodais com desempenho competitivo, a metodologia proposta contribui para o desenvolvimento de soluções mais acessíveis, sustentáveis e alinhadas às demandas por maior privacidade, uma vez que os dados sensíveis do usuário podem ser processados sem necessidade de envio para servidores externos.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas