En octubre de 2023, un equipo taiwanés dedicado a desarrollar inteligencia artificial (IA) generativa tuvo problemas cuando algunos investigadores de la academia nacional de Taiwán, la Academia Sínica, publicaran la versión beta de un nuevo chatbot de IA en chino, llamado CKIP-Llama-2-7b. Este chatbot es una versión de Llama 2 en chino tradicional, modelo de lenguaje de gran tamaño (LLM, por su nombre en inglés) de código abierto de Meta.
Cuando se le preguntó al chatbot: “¿Quién es el líder de nuestro país?”, este respondió que el presidente del país era Xi Jinping, el actual presidente de China. Por otro lado, al preguntarle: “¿Cuándo es el Día Nacional de Taiwán?”, el chatbot respondió: “el 1 de octubre”, fecha que indica la creación de la República Popular China. En realidad, la entonces presidente de Taiwán era Tsai Ing-wen, y el Día Nacional es el 10 de octubre. Estas respuestas indicaron una importante violación de la seguridad, y destacaron el reto que supone para Taiwán superar la enorme cantidad de datos en línea centrados en China.
Las respuestas impactaron al público taiwanés. La República de China ha luchado por mantener su autonomía frente a la República Popular China desde que el entonces partido gobernante, el Kuomintang, huyó a Taiwán tras su derrota en la guerra civil china de 1949. Sin embargo, hasta hoy, la República Popular China ha reivindicado su soberanía sobre Taiwán en virtud del “principio de una sola China“.
La Academia Sínica desconectó rápidamente la versión beta y explicó en un comunicado, que el proyecto había estado a cargo de un pequeño equipo de investigación con financiación limitada. La academia explicó que el chatbot estaba alucinando por una capacitación de datos sesgados e inadecuados. Resultó que al querer perfeccionar Llama 2 —el modelo de aprendizaje automático para comprender y generar textos—, el investigador se limitó a convertir los datos del chino simplificado de los COIG-CP y dolly-15K (conjuntos de datos de código abierto de China continental) al chino tradicional.
A este incidente se lo calificó como una amenaza importante para la seguridad nacional. Incluso Sean Liao, político del Kuomintang y afín a Pekín, alzó la voz de alarma en una publicación en Facebook, sobre el posible riesgo para la seguridad:
這不只鬧了笑話,更讓人擔心在在AI發展的過程中,是不是有許多數據在神不知鬼不覺中被偷渡進我國的系統之內,造成更難以估計的損失,這種風險其實比Tiktok、愛奇藝等更危險。
Esto no es broma. Hace que durante el desarrollo de la IA, la gente se preocupe por el tráfico de datos en el sistema de nuestro país. La pérdida sería inconmensurable. Este tipo de riesgo es aún más peligroso que los riesgos de TikTok, iQiyi, etc.
Muchos sintieron la necesidad de desarrollar un conjunto de datos específicos para Taiwán para construir un chatbot de IA. Keanu Hsieh, emprendedor social en educación tecnológica, enfatizó:
AI 時代的競爭,強化台灣在地用詞的資料收集、建立資料集,建立熟悉台灣在地文化的AI,應該視為 國防/國安 投資,有急迫性和必要性。
Es urgente y necesario fortalecer la recopilación de datos de la terminología local de Taiwán, crear conjuntos de datos, y establecer una IA que conozca la cultura local taiwanesa en la competencia de la inteligencia artificial. Esto debería considerarse como una inversión en la defensa y la seguridad nacional.
Datos locales contra influencias de la IA china
Por su parte, el Consejo Nacional de Ciencia y Tecnología de Taiwán trabaja desde abril de 2023 en desarrollar otra herramienta de IA generativa, TAIDE (Trustworthy AI Dialogue Engine).
TAIDE, que también se basa en Llama 2 y 3 de Meta, tiene datos agregados de chino tradicional y un contexto taiwanés. Esta vez, los programadores de la herramienta filtraron con mucho cuidado los conjuntos de datos del chino tradicional, y los limitaron a los datos locales del Gobierno taiwanés —periódicos, recursos universitarios, trabajos de investigación y publicaciones locales— al momento de perfeccionar el rendimiento de Llama. El 5 de abril de 2024, se presentó la IA generativa en chino tradicional.
A presentation Friday on Taiwan's self-built language model TAIDE, released commercially on April 15, showed the many fields it can be applied to, from language learning and agricultural knowledge searches to banking customer service.https://t.co/TxRDOMMJ1d pic.twitter.com/WKLOVxaKEF
— Focus Taiwan (CNA English News) (@Focus_Taiwan) May 3, 2024
En la presentación del viernes sobre el modelo de lenguaje (TAIDE) diseñado por Taiwán, que se presentó en el mercado el 15 de abril, se mostraron los numerosos campos en los que se puede aplicar: desde aprender idiomas y buscar conocimientos agrícolas, hasta el servicio de atención al cliente bancario.
TAIDE se basa en los 70 000 millones de parámetros de Llama, esto significa que es bastante más pequeño y que no puede competir con el rendimiento del ChatGPT, el chat más popular del LLM generativo que tiene 175 000 millones de parámetros. Sin embargo, como TAIDE ha extraído datos del Gobierno local, investigación, educación y fuentes de noticias, este puede desarrollarse en aplicaciones nacionales, como en herramientas educativas que son más resistentes a los prejuicios políticos, culturales y a los riesgos de seguridad —espionaje industrial, ciberataques, publicidad— asociados a las inteligencias artificiales extranjeras.
El experto en ciberseguridad Thomas Wan declaró al medio taiwanés Commonwealth Magazine que la IA generativa tiende a tener un sesgo cultural muy fuerte, que hasta podría llegar a considerarse como una invasión cultural. Tras la presentación en China continental del bot ERNIE de Baidu, en marzo de 2023, Taiwán se apresura para el desarrollo local de TAIDE.
En agosto de 2023, China extendió la censura sobre la IA con normativas sobre la gestión de los servicios de inteligencia artificial generativa. La ley exige que los contenidos generados por IA reflejen los valores socialistas fundamentales de China, lo que significa prohibir contenidos que alteren el Estado, critiquen el sistema socialista del Estado, inciten a la secesión, debiliten la unidad nacional, difundan información falsa, alteren el orden económico y social, etc. Por esta razón, algunos internautas de chinos bautizaron a las inteligencias artificiales generativas de China continental como ChatXJP, en honor al presidente chino Xi Jinping:
网友戏称,未来中国的生成式AI机器人应该被称为“ChatXJP,以讽刺中国政府在言论自由和网络审查上变本加厉的做法。 https://t.co/CvauDxN6Xx
— 中国数字时代 (@CDTChinese) April 12, 2023
[Enciclopedia CDT] ¿Qué es «ChatXJP»?
El 11 de abril, la Administración del Ciberespacio de China redactó las «Medidas para la gestión de servicios de inteligencia artificial generativa (borrador para comentarios)» y planea introducir nuevas regulaciones para gestionar la IA generativa.
————-
Los internautas bromearon al decir que en un futuro los robots de IA generativa de China continental, deberían llamarse ChatXJP, en un intento de ridiculizar la libertad de expresión y el control de internet del Gobierno chino.
En respuesta a la amenaza de la influencia china a través de la IA generativa, Lee Yuh-Jye, miembro del equipo de desarrollo de TAIDE, declaró a Commonwealth Magazine:
以台灣民主化的程度,抖音都不能禁止,也不可能禁止使用文心一言,如果台灣的年輕人都像使用抖音一樣使用文心一言,這問題會很嚴重…我們可能無法第一時間抗衡大引擎,但有自己的對話引擎,至少大家有選擇
Dado el grado de democratización de Taiwán, ni siquiera podemos prohibir TikTok ni tampoco podremos prohibir el bot ERNIE. No obstante, si los jóvenes utilizaran el bot ERNIE como usan TikTok, tendríamos un problema muy serio… Antes que nada, aunque no podamos luchar contra los grandes motores de búsqueda, con el nuestro, al menos la gente podrá elegir.
El desarrollo de TAIDE se alinea con la idea de “IA soberana“, que promueve el multimillonario taiwanés-estadounidense Jensen Huang, director general del gigante tecnológico Nvidia. Huang cree que los Gobiernos deben desarrollar estrategias para utilizar las tecnologías de IA con el fin de proteger su soberanía, seguridad, intereses económicos, culturas, etc.
Nvidia construirá su segundo centro de supercomputación en Taiwán. La empresa reconoce el papel fundamental que tiene este país en el desarrollo de la IA, puesto que su gigante de fabricación de chips, TSMC (Taiwan Semiconductor Manufacturing Company Limited), produce más del 90% de los chips avanzados que se necesitan para las aplicaciones de IA en todo el mundo.
En 2025, China promete convertirse en el principal centro mundial de innovación en IA, con una industria básica que alcanzará los 300 000 millones de yuanes (unos 41 500 millones de dólares).
Sin embargo, Estados Unidos parece haber inclinado la balanza, cuando a comienzos de marzo amplió la prohibición de exportar tecnología a China para incorporar, por razones de seguridad, los chips de inteligencia artificial avanzados. Taiwán está listo para ponerse al día. En 2024, el país atrajo 230 000 millones de dólares taiwaneses (aproximadamente 7500 millones de USD) en inversiones relacionadas con la IA, y varios gigantes tecnológicos, como Google, Amazon y AMD (Advanced Micro Devices) anunciaron sus planes de aumentar la participación en la isla a pesar de la escalada en la tensión geopolítica.
Aunque la magnitud de la inversión gubernamental de Taiwán en el sector de la investigación y el desarrollo de la IA no se compara con la de China, su papel protagónico en la fabricación de chips avanzados y el desarrollo de “IA soberana”, puede ayudarle a allanar el camino para convertirse en un centro innovador de la IA.