PROPOSTA DE UMA ESTRUTURA DE DEEP LEARNING PARA ANÁLISE SEMÂNTICA VISUAL VISADA À ROBÓTICA ASSISTIVA

##plugins.themes.bootstrap3.article.main##

Antonio Lundgren
Carmelo José Albanez Bastos-Filho
Byron Leite Dantas Bezerra

Resumo

Como esclarecido por Lundgren et al (2022), embora o estado da arte em inteligência computacional resolva relativamente bem os problemas de detecção e classificação em plataformas de robótica de visão computacional, ainda há uma característica vital para a autonomia real na robótica assistiva, que é a capacidade de análise periférica da tarefa abordada. A competência para saltos cognitivos para usar informações contextuais em favor de uma solução. Esse uso para informações contextuais traz o problema de definir o que consiste em semântica, já que semântica é uma definição tão ampla que pode ser difícil encapsular o que está sendo trabalhado. Neste trabalho, definimos a semântica como informação relevante para uma tarefa que não é representada como os principais dados de entrada do método de aprendizado de máquina, e não está diretamente associada à saída esperada. A principal proposta do trabalho é desenvolver um framework de ponta a ponta e altamente adaptável para projetar e desenvolver modelos de aprendizado profundo para Análise de Semântica Visual. Três componentes principais são identificados para a estrutura: Modelo Geral Deep Learning, Variáveis Semânticas e Ramificações de Saída. Considerando a alta variabilidade de VAS dependendo do caso de uso, uma ponderação e escolha automática de variáveis semânticas é planejada. O General DL Model, recebe uma imagem e deriva mapas de características de alto nível, os mapas de características resultantes são então passados ​​por uma cabeça de detecção da qual as regiões de interesse (RoI) devem ser extraídas. Tanto o backbone quanto o cabeçote de detecção devem ser facilmente substituídos para permitir que os modelos resultantes sigam o estado da arte e a experimentação mais rápida. Além disso, a facilidade de troca de cabeças de detecção pode permitir uma gama mais ampla de abordagens semânticas, uma vez que cabeças para detecção de objetos, pessoas, detecção ou outros. As detecções resultantes, as saídas do backbone e a própria imagem devem ser enviadas para o segundo componente principal, para a extração de Variáveis ​​Semânticas. Aqui, uma ampla lista de informações semânticas, cruzadas com a saída desejada, deve estar disponível. Uma entrada secundária, selecionando o cenário desejado para o modelo, selecionará as variáveis ​​relevantes a serem extraídas, para cada variável as saídas do Modelo DL Geral serão processadas através de uma cabeça específica do domínio.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas