- Global Voices en Español - https://es.globalvoices.org -

Idioma oriya de India se suma a servicios de traducción de Google y Microsoft

Categorías: Asia del Sur, India, Lenguaje, Medios ciudadanos, Tecnología, Rising Voices
Collage of Odia Book Covers. Image via Flickr by Erin Mclaughlin. From the Flickr set Odia Book Covers. CC BY 2.0. [1]

Portadas de libros en oriya. Imagen vía Flickr de Erin Mclaughlin [2]. Del grupo de portadas de libros en Flickr (CC-BY 2.0 [3]).

Si bien las iniciativas de código abierto siguen en marcha, tanto Google como Microsoft han añadido el idioma oriya [4] de India a sus respectivos motores de traducción automática este año: Google Translate [5] en febrero y Microsoft [6] más recientemente el 13 de agosto.

El oriya [4] es el idioma oficial del estado indio de Odisha y el segundo idioma oficial del estado de Jharkhand [7]. Unos 35 millones de personas son hablantes nativos, y unos cuatro millones lo tienen como segunda lengua. El Gobierno indio también lo ha clasificado como uno de los idiomas clásicos [8] del país, basado en un conjunto de requisitos que incluye una tradición literaria de más de 1500 años.

Sin embargo, la presencia digital del oriya es limitada [9]. Por ejemplo, la Wikipedia en oriya, uno de los mayores depósitos de contenido textual, tiene actualmente sólo 15 858 artículos [10] después de ser revivida en 2011 tras un paréntesis de nueve años [11]. En contraste, el malayalmo, con casi la misma cantidad de hablantes que el oriya, tiene alrededor de 70 000 artículos en Wikipedia. Durante mucho tiempo, el contenido de oriya estuvo disponible en línea como imagen y PDF –algunos, como la revista Utkal Prasanga [12], dirigida por el Gobierno estatal de Odisha, siguen publicando en una combinación de imagen y PDF. La tardía adopción de Unicode [13] ha hecho que el contenido no sea tan fácil de buscar.

La traducción automática es una herramienta poderosa para aumentar la presencia digital de un idioma, hace que el contenido sea más fácil de buscar y de acceder a quienes no hablan el idioma.

Los servicios en la nube de Microsoft, incluida la aplicación Microsoft Translator [14], Office, Translator para Bing [15], y a través del traductor Azure Cognitive [16], ahora admitirán todas las traducciones de oriya. Tanto Microsoft Translator como Google Translate (disponible tanto en la web y en aplicación) permiten la traducción de texto copiado directamente en el campo respectivo.

Además, estas plataformas también admiten la traducción de documentos de texto, sitios web y chats en vivo. La aplicación para móviles Google Translate tiene características adicionales, incluyendo la traducción fuera de línea, reconocimiento de escritura, escaneo, traducción y lectura de texto de imágenes [17], y uso de comandos de voz para hablar con un hablante de un idioma extranjero [18]. Una característica llamada «tocar para traducir [19]» permite al usuario traducir directamente un texto escrito dentro de cualquier aplicación. También se puede escuchar cómo se pronuncia un texto en un idioma admitido con la síntesis de voz de Google.

La adición de oriya fue bien recibida por el Gobierno estatal de Odisha. La Oficina del Ministro Principal de Odisha tuiteó:

La traducción de textos de oriya está ahora disponible en el Microsoft Translator.
Hoy, nos complace anunciar que hemos añadido la traducción de textos en oriya al Microsoft Translator. El oriya está disponible ahora, o lo estará pronto, en la aplicación Microsoft Translator, Office, Translator para Bing, y a través del servicio de traducciones Azure Cognitive para empresas y programadores
.
—————
Microsoft ha agregado traducción de oriya a su traductor, y se convierte en el duodécimo idioma indio de uso común que se añade. Esto facilitará el acceso a la información global en oriya y promoverá las interacciones entre idiomas.

El Departamento de Electrónica y Tecnología de la Información del Gobierno de Odisha también reaccionó:

Google Translate añade cinco idiomas.
—————-
Con millones de usuarios en todo el mundo, Google Translate añadió oriya a su lista de idiomas disponibles. Un gran paso para promover la alfabetización digital en nuestra lengua materna y para ayudar a millones de no hablantes a adoptarla.

Traducción automática
La traducción automática se usa para traducir el texto o el discurso del idioma de origen a un idioma de destino. La traducción que utiliza Google se basa en la Traducción Automática Neuronal [31], sistema informático que utiliza una técnica llamada red neuronal artificial [32] que usa grandes conjuntos de datos consistentes en la traducción de frases (del idioma de origen al idioma de destino [33]) para la formación.

Con la inclusión de oriya, Google Translate y Microsoft Translator ahora tienen 11 idiomas indios cada uno. En total, Google incluye 109 idiomas del mundo mientras que Microsoft incluye 73.

Mientras tanto, las iniciativas de código abierto aún deben crear proyectos exitosos de traducción automática en oriya.

Hay al menos un proyecto de código abierto comunitario en desarrollo –MTEnglish2Odia [34] está entrenando un motor de traducción automática mediante la recopilación de pares de traducción de fuentes existentes como Wikipedia en oriya [35] y las contribuciones colectivas de los usuarios en Twitter [36].

Además, hay algunas investigaciones [37] y recursos [38] que pueden ser utilizados para la construcción de motores de traducción automática por otras organizaciones.

La política de la traducción automática

La tecnología usada por Google Translate o Microsoft Translator es compleja desde el punto de vista social, legal, ético y de derechos.

Una plataforma de traducción automática puede ser de gran utilidad para muchas personas, como periodistas, para poder acceder rápidamente a noticias en muchos idiomas, o estudiantes que deseen aprender de recursos multilingües.

Del mismo modo, el apoyo a la síntesis de voz ayuda a las personas con discapacidad, especialmente con ceguera, a acceder y difundir información más fácilmente.

La educación, los medios de comunicación y la industria del entretenimiento también se benefician del potencial de Google Translate para traducir grandes cantidades de contenido rápidamente.

Por otra parte, la traducción automática puede contribuir a difundir información errónea, mientras que la síntesis de voz facilita a los estafadores que buscan aprovecharse de las personas con comunicaciones en su propio idioma.

Hay más de 6000 idiomas documentados [39] en todo el mundo, y apenas una minoría tiene sistemas de escritura establecidos. Esos son los idiomas que se incluyen en los proyectos de traducción automática como Google Translate y Microsoft Translator.

La disponibilidad de contenido en línea, y la cantidad de usuarios de Internet que hablan un determinado idioma, son factores importantes que las empresas con fines de lucro tienen en cuenta al decidir qué idiomas incluir en sus sistemas. Cuantos más idiomas admita una corporación, más contenido específico podrá ofrecer a los usuarios y más ingresos generará a partir de la publicidad [40].

Además, hay cuestiones éticas de atribución y remuneración en proyectos como Google Translate, que cuenta con una estructura de comunidad de colaboradores [41] para revisar las traducciones existentes (que ayuda a los ingenieros a mejorar con frecuencia la herramienta).

Aunque Google es una empresa con fines de lucro con muchos productos de pago –incluido un servicio de traducción en la nube [42]–, ni los voluntarios individuales ni las numerosas fuentes públicas de las que aprende la máquina reciben atribución ni remuneración.

El uso de comunicaciones privadas para mejorar el aprendizaje automático y la inteligencia artificial también es controvertido desde el punto de vista de la privacidad, aunque Google ha estado trabajando para que esos datos sean anónimos [43].

En un país como India, donde la creación de contenidos multilingües enfrenta embotellamientos por los costos, productos como Google Translate y Microsoft Translator pueden revolucionar la economía india de contenidos. Pueden marcar la diferencia en proyectos como Wikipedia, que actualmente existe en 23 idiomas de India [44], o StoryWeaver [45], plataforma multilingüe de literatura infantil en línea que depende en gran medida del trabajo voluntario.

Dado que muchas lenguas indias están desapareciendo rápidamente [46], y con el reto añadido del analfabetismo y la accesibilidad digital, la vía de las comunicaciones necesita más innovación en la tecnología de voz y visual. La traducción automática puede ser una herramienta viable para detener la extinción de los idiomas, pero en India todavía tiene un largo camino por recorrer.

Deslinde de responsabilidad: El autor ha estado involucrado con Wikipedia en oriya [35] como voluntario desde 2011 y con MTEnglish2Odia [34] desde sus primeras etapas.