África tiene 2000 idiomas. La moderación de contenido con IA abarca menos de 20

mobile phone

Teléfono inteligente muestra una publicación en una red social en lengua ge'ez, con un aviso superpuesto automatizado, que simboliza las dificultades de moderar contenido en sistemas de escritura de África. Foto de Pride Chamisa. Usada con autorización.

De Pride Chamisa

Este artículo es parte de la serie Spotlight de abril de 2026 de Global Voices, Perspectivas humanas sobre IA. Esta serie ofrecerá una mirada profunda hacia cómo se está usando IA en países en desarrollo, cómo su uso e implementación afectan a las comunidades individuales, qué podría significar este experimento de IA para futuras generaciones, y más. Puedes apoyar este reportaje donando aquí.

Bereket Tsegay pasaba sus días viendo videos que no entendía.

Lo contrataron para moderar contenido en TikTok en el centro de la empresa en Kenia, uno de los centros principales para revisar contenido hecho con asistencia de IA en África. Hablaba amárico, el idioma oficial de Etiopía. Pero los videos en su lista provenían de todo el continente, en idiomas como luo, dholuo, kikuyu, dinka y docenas más. Cuando no había errores obvios en las imágenes y nadie había reportado el video, a menudo lo dejaba como estaba. Cuando lo reportaban varias veces, lo eliminaba. Ya dejó ese trabajo y es sincero sobre lo que vio: el sistema hacía lo mejor que podía casi sin entender realmente el contenido que evaluaba.

Su relato, publicado por la organización Christian Science Monitor en marzo de 2026, es solo un vistazo de un problema mucho mayor. África tiene más de 2000 idiomas. Los sistemas de IA que moderan contenido en el continente se construyeron principalmente con datos en inglés, y abarcan unos pocos idiomas globales. Un estudio de 2025, «The State of Large Language Models for African Languages» (El estado de los macromodelos de lenguaje para los idiomas africanos), que compara modelos de lenguaje importantes, encontró que solo 42 idiomas africanos tienen presencia significativa en los sistemas revisados. Solo cuatro idiomas, amárico, swahili, afrikáans y malgache, aparecen con un grado de consistencia. Eso deja a más del 98% de los idiomas de África esencialmente invisibles para los sistemas de moderación que deciden qué contenido se queda y cuál se elimina.

Las consecuencias caen sobre las personas reales.

El idioma del algoritmo

Jackson Busolo es un tiktoker keniano que publica en suajili, mayormente sobre política. Una mañana de febrero de 2025, despertó y su cuenta ya no estaba. Sin aviso ni explicación. Apeló y finalmente reestablecieron su cuenta. Nunca supo por qué la eliminaron o restauraron.

Su caso no es inusual. De acuerdo con los datos del informe de Cumplimiento de las Normas de la Comunidad del primer trimestre de 2025 de TikTok, como informó el periódico Business Daily Africa, entre enero y marzo de 2025, TikTok eliminó más de 450,000 videos solamente de Kenia y bloqueó más de 43,000 cuentas. Para el segundo trimestre, las eliminaciones habían aumentado a 592,000. La plataforma atribuye la mayor parte de esto a sistemas automatizados. TikTok dijo a Christian Science Monitor que utiliza una combinación de tecnología y moderación humana en muchos idiomas y está constantemente ampliando su cobertura. Pero la plataforma se negó a decir qué idiomas africanos abarcan realmente sus herramientas de moderación con IA

Cuando un sistema de moderación no puede procesar un idioma es menos probable que pueda marcar el contenido para revisión humana. En cambio, depende de señales indirectas, como informes de los usuarios, indicaciones visuales o patrones de audio de idiomas que sí reconoce.

Mercy Mutemi, directora ejecutiva de Oversight Lab, organización de defensoría legal en Kenia dedicada a la tecnología, lo dijo claramente:

We are talking about an algorithm trained predominantly in English, being trusted to take down harmful content, while a huge percentage of TikTok users in Kenya are using TikTok in their mother tongue.

Hablamos de un algoritmo entrenado predominantemente en inglés, encargado de eliminar contenido dañino, mientras un gran porcentaje de los usuarios de TikTok en Kenia usan la plataforma en sus lenguas maternas.

El problema no solo son los falsos positivos, sino también el contenido que se elimina cuando no debería. Hay falsos negativos también: contenido dañino en idiomas que el sistema no puede analizar, que se mantiene porque nada en el video provoca una revisión. En Etiopía, se difundieron ampliamente afirmaciones falsas que circulaban en Facebook que sostenían que tropas etíopes se habían apoderado del puerto de Eritrea en el mar Rojo, antes de que verificadores de datos las desmintieran. Los investigadores han documentado la misma dinámica repetidas veces. El discurso de odio en suajili no se detecta. Hay vacíos de moderación en idiomas de bajos recursos, como el hausa. Las publicaciones en lenguas locales se clasifican erróneamente por sistemas entrenados principalmente en inglés.

Una investigación etnográfica con profesionales de diseño de experiencia de usuario en seis países africanos encontró que los marcomodelos de lenguaje entrenados principalmente en inglés a menudo tenían problemas con entradas en idiomas africanos. En un ejemplo, incluso incluir una sola palabra en yoruba en una instrucción mayormente escrita en inglés producía resultados inexactos, que iban desde incorrectas traducciones parciales hasta respuestas que no se relacionaban al tema, lo que revela limitaciones en cómo estos modelos manejan textos multilingües y culturalmente específicos. ¿Qué pasa cuando se le pide al mismo modelo que juzgue si una publicación infringe las normas de la comunidad?

map of Africa showing AI training data representation

Mapa de calor de África que muestra el «desierto de datos»: las zonas en naranja representan las regiones con menos del 2% de representación en los conjuntos de datos de entrenamiento de IA globales, mientras que el verde azulado destaca zonas de cobertura concentradas alrededor de centros urbanos y tecnológicos importantes. Foto de Pride Chamisa. Usada con autorización.

¿Quién asume el costo?

El peso de un sistema de moderación que no puede leer idiomas africanos no se reparte equitativamente. Cae con más fuerza sobre creadores de contenido, periodistas y usuarios comunes que se comunican en esos idiomas.

Para los creadores significa construir una audiencia en un contexto en el cual el algoritmo es indiferente al verdadero contenido de tu trabajo y responde principalmente a señales en inglés. Pauline Onyango, otra creadora de Kenia, descubrió que, tras meses de publicaciones en luo, casi no se produjo tracción algorítmica alguna. Su contenido era eficazmente invisible. Esto no es solo un problema de justicia. Determina qué se crea, qué se amplifica y qué historias llegan a las audiencias.

Para los periodistas y la sociedad civil significa que la desinformación en idiomas africanos puede generar más tracción. Las plataformas con cientos de millones de usuarios en el continente actúan más lento contra el contenido dañino en idiomas que sus sistemas no pueden analizar. Verificadores de contenido que el medio Poynter entrevistó describieron que pasan horas rastreando manualmente publicaciones en amárico en Facebook en periodos de tensión política en Etiopía y haciendo el trabajo que deberían haber hecho los sistemas de la plataforma.

Para las propias plataformas, existe una dimensión de cumplimiento que en gran parte no se ha debatido. La ley de IA de la Unión Europea, que entró en vigor en agosto de 2024, exige que los sistemas de IA no discriminen y que los datos de entrenamiento representen a las poblaciones que el sistema afectará. La ley de servicios digitales, vigente desde febrero de 2024, exige a las plataformas que expliquen las decisiones de moderación de contenido a los usuarios afectados. Si un sistema no puede identificar el idioma en la que está escrita una publicación, no puede explicar significativamente por qué la publicación se eliminó. Estas no son obligaciones hipotéticas futuras. Se aplican ahora a cualquier plataforma con usuarios europeos, y las comunidades con idiomas africanos están presentes y activas en Europa.

¿Qué se está haciendo realmente?

Se está trabajando, pero de forma dispersa y con faltas crónicas de recursos.

Grupos de investigación como AfricaNLP, serie de talleres afiliados a conferencias de lingüística computacional importantes, producen conjuntos de datos multilingües, pruebas de rendimiento y modelos para idiomas africanos. El taller de AfricaNLP de 2025 incluyó trabajos sobre detección de discursos de odio en hausa e igbo, clasificación de noticias en suajili y reconocimiento de voz para idiomas de bajos recursos. Equipos académicos de universidades en Pretoria, Nairobi y Adís Abeba están construyendo datos de entrenamiento para idiomas que casi no los tienen.

Algunos intentos comerciales les siguen. Cohere, empresa de inteligencia artificial canadiense que desarrolla marcomodelos de lenguaje, se asoció con HausaNLP para integrar conjuntos de datos en idiomas africanos en su modelo multilingüe Aya. La industria de etiquetado de datos, con un valor estimado de 2800 millones de dólares globalmente, depende fuertemente de trabajadores en Kenia, Nigeria y otros países africanos para anotar los datos que los sistemas de IA usan para aprender. Esos mismos trabajadores rara vez ven sus idiomas reflejados en los resultados de los sistemas que ayudan a entrenar.

La Estrategia Continental de IA de la Unión Africana, aprobada en julio de 2024, se compromete a una perspectiva centrada en las personas y nombra la soberanía de datos como una prioridad. La estrategia de la Unión Africana y las estrategias de IA nacionales que la siguieron, incluida la de Nigeria en abril de 2025, marcan la diversidad lingüística como algo que se debe tratar. Pero los documentos estratégicos no son modelos. Por sí solos, no cierran la brecha entre lo que los sistemas pueden hacer y lo que los idiomas del continente necesitan.

La industria de etiquetado de datos depende fuertemente de trabajadores en países como Kenia para anotar lo que aprenden los sistemas de IA. Esos mismos trabajadores rara vez ven sus idiomas reflejados en los sistemas que ayudan a entrenar.

Un problema resoluble, que nadie ha decidido resolver

La brecha lingüística en la moderación de contenido con IA no es un misterio. Es un problema conocido con una causa conocida: la economía de la construcción de sistemas de IA históricamente ha favorecido a idiomas con grandes cantidades de textos digitales y la mayoría de idiomas africanos tienen muy pocos textos digitales. El inglés domina. El francés, chino y árabe tienen algo de cobertura. Todo lo demás es mínimo.

Lo que hace que este momento sea diferente es que la presión regulatoria se está formando desde fuera de África, en formas que podrían finalmente forzar un cambio. Las obligaciones de no discriminación de la ley de IA de la Unión Europea se aplican a los datos de entrenamiento. Si un sistema se entrena con datos que no representan a las poblaciones a las que servirá, los implementadores enfrentan posibles riesgos de incumplimiento normativo. Los requisitos de transparencia de la ley de servicios digitales significa que las plataformas deben explicar sus decisiones, incluidas las que toman los sistemas que podrían haberlos adivinado en vez de entendido.

Nada de esto soluciona el problema automáticamente. Pero, por primera vez, crea consecuencias financieras por ignorarlo. Las plataformas que han tratado la cobertura de idiomas africanos como algo agradable de tener y no como un requisito fundamental podrían tener más problemas para mantener esa postura cuando los reguladores puedan pedir datos de rendimiento desglosados por idioma y comunidad.

También existe un argumento que no depende de la regulación. África es una de las regiones donde el uso de redes sociales ha crecido más rápido. Las plataformas que quieren crecer en el continente a lo largo de la próxima década deben realmente trabajar para las personas que viven allí. Un sistema de moderación que trata al suajili, yoruba y amárico como casos límite no es un sistema diseñado para una audiencia africana. Es un sistema diseñado para un tercero y que se usa en África.

Es una brecha que vale la pena nombrar claramente. No porque nombrarla sea suficiente, sino porque el primer paso para solucionar un problema es decidir que, en efecto, es un problema en vez de un intercambio aceptable.

Aviso: El autor construye tecnología de moderación de contenido. Las opiniones y los análisis en este artículo son suyos y se basan en investigaciones disponibles al público.

Pride Chamisa es investigador de IA y fundador de VidSentry, plataforma de IA que construye herramientas de moderación de video que toman en cuenta los contextos para contenido en idiomas africanos. Vive en Ciudad del Cabo y es beneficiario del programa GradStar Top 100.

Inicia la conversación

Autores, por favor Conectarse »

Guías

  • Por favor, trata a los demás con respeto. No se aprobarán los comentarios que contengan ofensas, groserías y ataque personales.