Grupo de lingüistas nigerianos entrenan herramientas de IA con dialectos de idioma yoruba

Aremu Adeola presenta publicación en el taller AricaNLP, en el marco de la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) en Viena, 2024. Imagen utilizada con autorización.

A medida que más aspectos clave de la vida cotidiana se digitalizan, más importante se vuelve la inclusión lingüística para garantizar el acceso equitativo al mundo digital. No obstante, muchos idiomas africanos carecen de recursos necesarios para desarrollar tecnologías lingüísticas y adaptarse a la digitalidad por completo. Aunque este no sea el caso de los dialectos más hablados —por lo general se tratan como el estándar de la lengua—, sí que perjudica a los dialectos menos comunes.

La mayoría de las iniciativas que buscan crear recursos para idiomas poco documentados se centran en los dialectos estándar y dejan de lado a los dialectos más regionales, que hablan millones de personas.

El yoruba tiene 47 millones de hablantes, en su mayoría en Nigeria, Benín y Togo, y en menor medida en comunidades migrantes en Costa de Marfil, Sierra Leona y Gambia. A pesar de que muchos investigadores del procesamiento del lenguaje natural (PLN) han estudiado el dialecto estándar del yoruba, no se han elaborado recursos para los demás dialectos. Para solventar este problema, un grupo de lingüistas desarrolló YORULECT, corpus paralelo de textos orales y escritos que recopila datos contemporáneos y de alta calidad sobre cuatro dialectos regionales del yoruba.

Aremu Anuoluwapo es un lingüista computacional que está cursando una maestría sobre modelado computacional del lenguaje y cognición en la Universidad de Trento, Italia. Global Voices lo entrevistó por WhatsApp para que nos cuente qué lo motivó a desarrollar este proyecto.

Global Voices (GV): ¿Puedes contarnos cuál es tu experiencia y qué te condujo al campo de la lingüística computacional?

Aremu Anuoluwapo (AA): I am a linguist by training. I studied Linguistics and African Studies at the University of Lagos. I was introduced to computational linguistics by a mentor, Kola Tunbosun, during my undergraduate years in the university. Then, I worked on some projects that are related to data collection, cleaning and annotation projects. I started gaining experience and collaborating with professionals from multinational companies such as Google, Microsoft, etc, in my third year in the university. My interest in using computational tools to analyse, predict, or transform languages grew from there.

Aremu Anuoluwapo (AA): Soy lingüista de formación. Estudiaba Lingüística y Estudios Africanos en la Universidad de Lagos cuando mi mentor, Kola Tunbosun, me introdujo a la lingüística computacional. Por aquel entonces, yo trabajaba en algunos proyectos relacionados con la recopilación, limpieza y anotación de datos. En mi tercer año en la universidad, comencé a colaborar con profesionales de compañías multinacionales como Google y Microsoft. Luego de esa experiencia me interesé por el uso de herramientas computacionales para analizar, predecir y transformar idiomas.

GV: ¿Puedes contarnos qué fue lo que motivó la creación de YORULECT?

AA: Oreva Ahia, my colleague who is a PhD student in Computer Science at the University of Washington, United States, told me about an idea she has on dialectology. This reminded me of a course I took, on Yoruba and its dialectology, during the third year of my undergraduate studies. We learnt about some scholars who have done some works on dialects such as Ẹ̀gbá, Èkó, Ọ̀yọ́, etc, and how the standard Yoruba is primarily drawn from the Ọ̀yọ́ dialect. I found the course interesting and had always wanted to do something on dialectology.

From studying that course, I realised that the word for ‘stool’ differs between the dialect spoken in my hometown in Yorubaland and standard Yoruba. There are other communities that also have distinctive dialectological names for several items. I was curious about this.

Later, while attending a conference in Spain, I travelled to Paris to discuss the idea with Oreva. We designed the framework to execute the project. When I returned to Nigeria, I travelled to specific communities where the dialects we decided to work on are spoken. Deciding on the dialects to work on was a bit technical because there is a division in Yoruba dialectology. There is Southwestern Yoruba, Southeastearn Yoruba, Northeast Yoruba dialects, etc. We wanted to touch all these dialectological divisions.

One of the reasons we decided to do this project is because of the growing application of AI and machine learning in the tools we use today. We wanted to ensure that low-resourced dialects of low-resourced languages are also represented in technology.

AA: Mi colega Oreva Ahia estudia Ciencias de la Computación en la Universidad de Washington, Estados Unidos, y me contó que tenía una idea sobre dialectología. Me recordó a cuando, en el tercer año de mis estudios universitarios, asistí a un curso sobre el yoruba y su dialectología, en el que aprendimos sobre varios investigadores que han estudiado dialectos como el ẹ̀gbá, el èkó o el ọ̀yọ́, y sobre cómo el yoruba estándar se basa en su mayoría en el ọ̀yọ́. Me pareció muy interesante y desde entonces quise profundizar en la dialectología.

En el curso me di cuenta de que la palabra para «taburete» es diferente en el yoruba estándar y en el dialecto de mi ciudad natal en Yorubalandia. Muchas otras comunidades también tienen nombres dialectológicos distintivos para diferentes objetos. Esto despertó mi curiosidad.

Más tarde, mientras asistía a una conferencia en España, viajé a París para hablar con Oreva sobre su idea y planificar cómo llevarla a cabo. Luego de regresar a Nigeria, viajé a comunidades específicas donde se hablan los dialectos que decidimos investigar. Elegir los dialectos fue complicado, ya que la dialectología yoruba se divide en el yoruba suroeste, el yoruba sureste, el yoruba noreste, entre otros. Nuestro objetivo era incluir cada una de estas variantes.

Uno de los motivos por los que llevamos a cabo este proyecto es la creciente incorporación de inteligencia artificial y aprendizaje automático en las herramientas que utilizamos a diario. Queríamos garantizar que los dialectos menos documentados de lenguas poco documentadas también estuvieran representados en el ámbito tecnológico.

GV: ¿Podrías describir los dialectos con los que están trabajando y explicar los criterios que tuvieron en cuenta? ¿Qué rasgos lingüísticos distintivos presentan dificultades para los sistemas de PLN?

AA: The dialect we worked on are Ìjẹ̀bú, Ifè, Ilaje and Standard Yoruba. We chose these dialects because they belong to different dialectological divisions of the Yoruba language. We also wanted to have a good representation of these languages in technology. Another reason is because we wanted to do a comparative analysis of how existing NLP systems understand the dialects of the languages before finetuning them. We tested it on Automatic Speech Recognition (ASR) and Machine Translation (MT) and the performance was bad. We also did some finetuning to augment the performance before it became a bit better.

Some of the linguistic peculiarities we discovered is that there are some letters existing in the dialects that are not in Standard Yoruba alphabets. The Ilaje dialect is a good example of dialect with some different letters and sentence construction. The language structure is similar across all the dialects, although there are some different syntactic arrangements. Our findings show that Ifè dialect has the highest degree of similarity with Standard Yoruba, while Ilaje has the lowest degree of similarity with Standard Yorùbá. We are planning to do more work to expand the research.

AA: Los dialectos con los que trabajamos son el ìjẹ̀bú, el ifè, el ilaje y el yoruba estándar. Los elegimos porque pertenecen a diferentes divisiones dialectológicas del yoruba y porque queríamos que contaran con una buena representación en la tecnología. Otra razón es que buscábamos hacer un análisis comparativo de cómo los sistemas PLN actuales procesan los dialectos antes de realizarles ajustes. Al probarlos con reconocimiento automático del habla (RAH) y traducción automática (TA), los resultados iniciales fueron deficientes; los siguientes mejoraron un poco luego de hacerles ajustes para mejorar el rendimiento.

Una de las peculiaridades lingüísticas que descubrimos es que algunos dialectos contienen letras que no existen en los alfabetos del yoruba estándar. El ilaje, por ejemplo, presenta diferencias en algunas letras y en la construcción de oraciones. Aunque la estructura general se mantiene similar en todos los dialectos, las estructuras sintácticas presentan diversas variaciones: nuestros hallazgos indican que el ifè es el dialecto más cercano al yoruba estándar, mientras que el ilaje es el más diferente. Planeamos seguir expandiendo la investigación.

GV: En muchas lenguas africanas predomina la oralidad. ¿Cómo enfrentan la recopilación y selección de datos lingüísticos para dialectos sin ortografía estandarizada o sin suficientes registros escritos?

AA: This was a tough challenge for us. Some dialects do not still have a big population of people who can write those dialects. We were able to surmount the challenges because some of these dialects have scholars who have worked on them.

I always try to tell linguists who want to do this kind of NLP project to collect the speech data first and recruit the native speakers to transcribe them. Doing this will help you get the raw form of the language. It will help you see the many phonological processes that exist in the language.

AA: Esto fue muy difícil para nosotros. Algunos dialectos aún no tienen una gran población de hablantes que puedan escribirlos. Pudimos sortear estos obstáculos gracias a que otros investigadores ya los habían estudiado antes.

Siempre insisto en que los lingüistas que deseen llevar a cabo proyectos de PLN primero deben recopilar datos orales y luego invitar a hablantes nativos para transcribirlos. Esto les facilitaría obtener la forma más pura de la lengua y reconocer diversos procesos fonológicos.

GV: ¿Qué métodos emplean para garantizar la calidad y autenticidad de sus datos?

AA: We work with the native speakers to collect the data. For the sake of data quality and authenticity, we recruited human evaluators, who are also native speakers, to rate the performance of the ASR systems by giving feedback on the accuracy and quality of their transcription.

AA: Trabajamos con hablantes nativos para recopilar los datos. Para garantizar calidad y autenticidad, invitamos a evaluadores nativos para que califiquen la precisión y calidad de la transcripción de los sistemas de reconocimiento automático del habla.

GV: ¿Qué otras dificultades tuvieron al desarrollar YORULECT?

AA: Training the models was challenging. We had to fine-tune them. The linguistic distinctiveness poses a major challenge because the models have not been previously exposed to that kind of data. Some of the dialects did well, while others didn't. This could be because of syntactic arrangement and letter representation.

AA: Entrenar los modelos fue difícil. Tuvimos que hacerles varios ajustes. Las peculiaridades lingüísticas supusieron un gran reto, ya que los modelos no contaban con datos anteriores de este tipo. Algunos dialectos obtuvieron mejores resultados que otros, posiblemente por las diferencias en la sintaxis y la escritura.

GV: ¿Cuáles son sus objetivos a largo plazo con este proyecto?

AA: The long-term goal is to strike a new direction in low-resource language research. When the NLP community is discussing low-resourced languages, it is usually about the standard dialect of the languages. They do not consider other dialects. As long as these dialects are still spoken, why not also build tools for the communities that are speaking them? Once the conversation starts people start doing dialectology research on specific dialects of language

AA: Nuestro objetivo a largo plazo es abrir un nuevo camino en la investigación de lenguas poco documentadas. Por lo general, el debate en la comunidad de PLN se limita al dialecto estándar, sin considerar otras variantes. Sin embargo, mientras esas variantes sigan vivas, ¿por qué no elaborar herramientas para las comunidades que hablan esas variantes? Comenzar con esta iniciativa fomentará la investigación dialectológica en variantes lingüísticas específicas.

Inicia la conversación

Autores, por favor Conectarse »

Guías

  • Por favor, trata a los demás con respeto. No se aprobarán los comentarios que contengan ofensas, groserías y ataque personales.