- Global Voices en Español - https://es.globalvoices.org -

¿OpenAI tiene sesgos?: Revisamos para que no tengas que revisar tú

Traducción publicada el 16/03/2023 8:00 GMT 1 · Escrito por Daria Dergacheva Traducido por Josue Palacios

Categorías: Arte y cultura, Etnicidad y raza, Lenguaje, Medios ciudadanos, Mujer y género, Tecnología, The Bridge

Imagen generada con OpenAI

El lanzamiento ^[1] de ChatGPT ^[2] y DALL-E2 ^[3] de OpenAI ha generado un gran interés en los medios y en los usuarios de las redes sociales. Ya se debate en las comunidades de derechos digitales, tecnología y periodismo lo que estas tecnologías ^[4] pueden lograr, qué trabajos podrían reemplazar, cómo se manejaría las cuestiones de derechos de autor ^[5] y cómo podrían amplificar los sesgos existentes ^[6].

Global Voices hizo un experimento con DALL-E2, generador de imágenes con inteligencia artificial (IA), para examinar cómo produce imágenes en diferentes idiomas. Ingresamos la misma frase en nueve idiomas: «Pintura al óleo de la sombra de una mujer en duelo ante la ventana».

Estos son los resultados que obtuvimos.

Inglés: Oil painting of a shadow of a grieving woman at the window.

Imagen generada por Global Voices con OpenAI

Español: Pintura al óleo de la sombra de una mujer en duelo ante la ventana.

Imagen generada por Global Voices con OpenAI

Checo: Olejomalba stínu truchlící ženy u okna.

Imagen generada por Global Voices con OpenAI

Ruso: Картина маслом силуэт скорбящей женщины у окна.

Imagen generada por Global Voices con OpenAI

Indonesio: Lukisan cat minyak bayangan seorang janda perempuan yang sedang berduka di samping jendela.

Imagen generada por Global Voices con OpenAI

Chino simplificado: 窗边悲痛女人的影子油画

Imagen generada por Global Voices con OpenAI

Kazajo: Терезедегі қайғылы әйелдің көлеңкесінің майлы бояу суретi.

Imagen generada por Global Voices con OpenAI

Uzbeko: Deraza oldida qayg'u chekayotgan ayol soyasining moyli rasmi.

Imagen generada por Global Voices con OpenAI

Malabar: ജനാലയ്ക്കരികിൽ ദുഃഖിക്കുന്ന ഒരു സ്ത്രീയുടെ നിഴലിന്റെ ഓയിൽ പെയിന്റിംഗ്

Imagen generada por Global Voices con OpenAI

Algunas de las imágenes producidas difieren bastante del mensaje original, lo que puede atribuirse a la falta de datos en los idiomas originales. En una entrevista con TechCrunch ^[7], los creadores de DALL-E explicaron que el modelo utilizado es CLIP (Contrastive Language-Image Pre-training), que fue entrenado con 400 millones de imágenes con descripciones extraídas ^[8] de internet. El sitio web de OpenAI dice ^[9]:

GPT-3 showed that language can be used to instruct a large neural network to perform a variety of text generation tasks. Image GPT showed that the same type of neural network can also be used to generate images with high fidelity. We extend these findings to show that manipulating visual concepts through language is now within reach.

El modelo GPT-3 demuestra que se puede usar el lenguaje para dirigir una gran red neuronal y de esta forma realizar diferentes tareas de generación de texto, mientras que Image GPT demuestra que la misma red neuronal puede producir imágenes de alta fidelidad. Nuestra investigación destaca que ahora es posible manipular conceptos visuales a través del lenguaje.

“Vivimos en un mundo visual”, dijo Ilya Sutskever, director científico de OpenAI, en entrevista con MIT Technological Review ^[10]:

In the long run, you’re going to have models which understand both text and images. AI will be able to understand language better because it can see what words and sentences mean.

Con el tiempo, tendremos modelos que podrán entender textos e imágenes. IA podrá mejorar su comprensión del lenguaje, ya que podrán visualizar el significado de palabras y oraciones.

El hecho de que diferentes idiomas produjeran resultados tan diversos indica que el proceso de raspado web del modelo enfatizó más los idiomas más hablados, como el inglés o el español, y descuidó idiomas de uso menos común.

La falta de imágenes con descripciones en uzbeko o malabar en los datos de entrenamiento utilizados por la IA demuestra que se debería entrenar al modelo con más imágenes que tengan descripciones en idiomas distintos al inglés si quieren que funcione con idiomas adicionales. De lo contrario, los usuarios de Kazajistán seguirán recibiendo imágenes de cocinas en lugar de mujeres y los hablantes de malabar recibirán imágenes de la naturaleza. La imagen rusa está muy sexualizada, mientras que la imagen indonesia presenta a varias chicas sentadas, y la imagen checa destaca entre las demás por mostrar un frasco de aceite como elemento central. Las imágenes generadas a partir del chino simplificado son perturbadoras.

En definitiva, no podemos decir que OpenAI tenga sesgos solo por estos hallazgos. Sin embargo, es evidente que el modelo carece de datos suficientes en otros idiomas además del inglés. Queda por ver si esto cambiará, y esperamos que sea así.