Pesquisadores da UNEATLANTICO colaboram em um modelo de lematização baseado em redes neurais para o idioma urdu

17 jan 2024
Pesquisadores da UNEATLANTICO colaboram em um modelo de lematização baseado em redes neurais para o idioma urdu

Pesquisadores da Universidad Europea del Atlántico (Universidade Europeia do Atlântico, UNEATLANTICO), colaboram com a Universidad Internacional Iberoamericana (UNIB) em um estudo que apresenta um algoritmo de lematização para o idioma urdu.

No campo do processamento de linguagem natural (PLN), a tradução automática (TA) otimiza a comunicação entre as pessoas ao preencher a lacuna do idioma. Na tradução automática, a normalização e a análise morfológica são módulos importantes para a recuperação de informações (IR).

A derivação e a lematização são frequentemente usadas como técnicas para encontrar a raiz correta das palavras em um idioma. No entanto, estudos sobre sistemas de IR para o idioma urdu mostram que a lematização é mais eficiente do que a derivação devido aos infixos presentes nas palavras urdu. Na semântica, o objetivo da lematização é agrupar as formas flexionadas de uma palavra para decompô-las em uma forma comum e analisá-las como um termo básico. Em outras palavras, consiste em remover as terminações flexionais das palavras para que elas voltem à sua forma básica.

Há poucos estudos sobre a lematização do urdu, e esses estudos tendem a se concentrar nas regras, deixando de lado aspectos elementares como a identificação de substantivos, o tratamento de palavras vazias, empréstimos e assim por diante. Portanto, o objetivo desta pesquisa é apresentar um algoritmo de lematização aprimorado com base em modelos de rede neural padrão para o idioma urdu. Concentrando-se principalmente na detecção de nomes próprios, na lematização de palavras morfológicas, flexionais e derivacionais do urdu, entre outras.

Resultados da pesquisa

Os resultados mostraram que o modelo proposto tem a capacidade de abordar áreas ausentes da lematização do urdu, como o tratamento de empréstimos, palavras vazias, identificação de substantivos e palavras urdu com sinais diacríticos. Da mesma forma, esse modelo lida com eficiência com a lematização de palavras morfológicas flexionais e derivacionais do urdu.

A integração do modelo AFED melhorou muito o desempenho do sistema, alcançando exatidão, precisão, recall e F-score de 0,96, 0,95, 0,95 e 0,95, respectivamente.

Se você quiser saber mais sobre este fascinante estudo, clique aqui.

Para ler mais pesquisas, consulte o repositório da UNEATLANTICO.