Provas públicas de Mestrado em Engenharia Informática
Título: User Chat Clustering Using Deep Learning Representationsand Unsupervised Methods for Dialog System Applications
Autor: André Filipe Nóbrega Moura
Local: Sala de Documentação da FCEE e Sessão Zoom
Dia/Hora: 28/05/2021 16:00 Sala de Documentação FCEE e sessão Zoom ID: 930 4503 9746 Senha: 184189
Resumo:
Os sistemas automáticos de conversação, conhecidos normalmente como chat bots, estão a tornar-se cada vez mais populares e devem ser capazes de interpretar a linguagem humana para compreender e comunicar com os seres humanos. A deteção de intenções desempenha uma tarefa crucial para desenvolver conversas inteligentes nestes sistemas de conversa. As implementações existentes destes sistemas requerem muitos dados etiquetados e a sua aquisição pode ser dispendiosa e demorada. Esta tese visa avaliar representações de texto existentes, utilizando abordagens clássicas, tais como Word2Vec, GloVe e modelos de Transformer pré-treinados (BERT, RoBERTa, GPT2 e outros), para possível automatização de dados de diálogo não etiquetados através de algoritmos de agrupamento. Os algoritmos de agrupamento testados, vão desde o clássico K-Means até abordagens mais sofisticadas, tais como HDBSCAN, com a ajuda de técnicas de redução de dimensão (t-SNE, UMAP). Um conjunto de dados é utilizado para avaliação das técnicas utilizadas, que contêm diálogo de intents utilizadores em múltiplos domínios e taxonomia de intents variada que se encontram no mesmo domínio. Os resultados mostram que os Transformers demonstram um desempenho de representação de texto superior às representações clássicas. No entanto, um modelo ensemble com múltiplos algoritmos de agrupamento e de múltiplas representações de fontes diferentes apresenta uma melhoria drástica na solução final. A aplicação do UMAP e t-SNE em dimensões mais baixas pode também apresentar um desempenho tão bom ou mesmo melhor do que as representações originais.